基于概念信息语义相似度的智能问答系统
文本语义相似度是指两个句子或文本片段之间的语义等价程度,其研究在自然语言处理的问答系统、机器翻译、信息抽取、自动摘要等相关领域中有着广泛的应用,具有重要的理论意义和应用价值。现有的文本语义相似度方法主要基于词表面特征,但由于词语间普遍存在概念上的关联,缺乏概念层面的精确计算导致这些方法的准确性提升困难,而实现全文本在概念层面的精确计算尚无有效模型。
项目团队依据单个名词的概念信息量为基础,分别提出了多种模型和方法实现文本在概念级别快速、精确地计算语义相似度:(1)提出一种基于概念信息量的文本语义相似度无监督基本模型;(2)提出一种基于概念信息增益的文本信息量计算方法;(3)提出一种融合信息权重的全文本信息量计算方法。实验结果表明,团队提出方法在SemEval 2013-2016 STS(文本语义相似度)数据集上均超过了当年最先进系统的总成绩,并且在SemEval 2017 STS国际测评中,本系统的总成绩在所有参赛团队中排名第二,其中在Track 1数据集上排名第一(共34个参赛团队提交81个系统)。相关论文被大会评选为“Best of SemEval 2017”。
北京理工大学
2022-06-10