基于概念信息语义相似度的智能问答系统

文本语义相似度是指两个句子或文本片段之间的语义等价程度，其研究在自然语言处理的问答系统、机器翻译、信息抽取、自动摘要等相关领域中有着广泛的应用，具有重要的理论意义和应用价值。现有的文本语义相似度方法主要基于词表面特征，但由于词语间普遍存在概念上的关联，缺乏概念层面的精确计算导致这些方法的准确性提升困难，而实现全文本在概念层面的精确计算尚无有效模型。

我们依据单个名词的概念信息量为基础，分别提出了多种模型和方法实现文本在概念级别快速、精确地计算语义相似度：（1）提出一种基于概念信息量的文本语义相似度无监督基本模型（发表SCI论文1篇，授权专利1项）；（2）提出一种基于概念信息增益的文本信息量计算方法（发表SCI论文1篇）；（3）提出一种融合信息权重的全文本信息量计算方法（发表SCI论文1篇，最佳国际测评论文1篇）。实验结果表明，我们提出方法在SemEval 2013-2016 STS（文本语义相似度）数据集上均超过了当年最先进系统的总成绩，并且在SemEval 2017 STS国际测评中，我们系统的总成绩在所有参赛团队中排名第二，其中在Track 1数据集上排名第一（共34个参赛团队提交81个系统）。相关论文被大会议评选为“Best of SemEval 2017”。

随着人工智能相关技术的发展，智能问答系统应用在许多行业和领域中都有迫切的需求。比如在电话咨询场景中，传统人工坐席无法满足日益增加的客户咨询量；在政府业务公开场景中，智能机器人对用户的不准确答复会影响政府形象和公信力。目前业界的做法是人工设计问答系统或者对话系统，而不是使问答系统真正具有人类常识和世界知识，这种系统无法适应提问方法的改变或应用场景的转换。而概念信息方法以认知知识库为基础可以获得大量世界知识，比如概念之间的上下位关系。在特定领域的问答匹配多个测试数据集上的实验结果显示，相对于谷歌最新的深度计算模型BERT，概念信息语义相似度无监督模型已经比当今最优深度学习模型高出13%-15%。在问答系统上准确性的优势说明，概念信息语义相似度模型对智能问答系统具有明显的应用落地优势。