周健 吕璐成 李佳政 赵亚娟:基于Rank一致性与假设检验方法的专利语义相似度测度效果评价方法及其应用

  • 发布者: IPer
  • 创建时间: 2025-05-15
  • 51

作者:周健;吕璐成;李佳政;赵亚娟

期刊:数据分析与知识发现,网络首发时间:2025年4月10日

摘要:【目的】构建专利语义相似度测度效果量化评价方法,实现多种专利语义相似度测度方法的客观评价。【方法】基于同一分类层级下专利语义相似度更高的思想,兼顾时间与技术领域因素自动构造测度效果评价数据集,设计Rank一致性指标指标和假设检验方法来构建针对不同向量化模型的专利语义相似度测度效果评价方法,并构建中文和英文专利数据集进行评价方法的实证。【结果】本文选择基于L1距离的Rank一致性指标与U检验进行了实证研究,基于不同向量化模型的Rank一致性指标的非正态性验证了采用U检验的合理性。分别对于中英文专利数据,选择三类模型实证评价出了最优中文专利语义相似度测度模型(Bert)和最优英文专利语义相似度测度模型(Llama 2)。【局限】评价方法虽然在统计学上具有较好的可解释性,但缺乏基于金标准对评价方法的验证。【结论】本方法能够客观评价多种向量化模型的语义相似度测度效果,能够为专利分析工作选取专利语义相似度计算方法提供参考依据。