作者:吕璐成;周健;赵展一;赵亚娟;刘细文
期刊:情报理论与实践,2024年第10期
摘要:[目的/意义]利用科技文献进行技术监测预警是科技情报工作的重要内容。目前,采用自然语言处理技术从科技文献中抽取的技术元素存在数量多、不易展示的问题,因此设计了一种融合“科学—技术—舆情”数据特征的技术筛选方法来实现科技文献技术挖掘结果的筛选。[方法/过程]以技术术语表示技术,基于词法结构分析和修饰符匹配方法构建技术术语层次结构体系,利用表征技术基础研究热度的论文数据、表征技术研发热度的专利数据、表征技术市场关注度的舆情数据,构建重要性、成长性、新颖性和持久性4类特征,采用机器学习方法训练和确定技术筛选模型。[结果/结论]通过与人工筛选结果对比发现,本方法能够更有效地筛选技术。在各种模型中,同时采用3类数据和4类特征构建的技术筛选模型效果最优,该方法可以为开展技术识别预测工作,研发技术挖掘工具提供依据。[局限]该方法仅在技术术语层次结构的第一层进行了效果验证,其领域适用性与数据类型方面还有待进一步研究。