文本语义相似度是指两个句子或文本片段之间的语义等价程度,其研究在自然语言处理的问答系统、机器翻译、信息抽取、自动摘要等相关领域中有着广泛的应用,具有重要的理论意义和应用价值。现有的文本语义相似度方法主要基于词表面特征,但由于词语间普遍存在概念上的关联,缺乏概念层面的精确计算导致这些方法的准确性提升困难,而实现全文本在概念层面的精确计算尚无有效模型。
我们依据单个名词的概念信息量为基础,分别提出了多种模型和方法实现文本在概念级别快速、精确地计算语义相似度:(1)提出一种基于概念信息量的文本语义相似度无监督基本模型(发表SCI论文1篇,授权专利1项);(2)提出一种基于概念信息增益的文本信息量计算方法(发表SCI论文1篇);(3)提出一种融合信息权重的全文本信息量计算方法(发表SCI论文1篇,最佳国际测评论文1篇)。实验结果表明,我们提出方法在SemEval 2013-2016 STS(文本语义相似度)数据集上均超过了当年最先进系统的总成绩,并且在SemEval 2017 STS国际测评中,我们系统的总成绩在所有参赛团队中排名第二,其中在Track 1数据集上排名第一(共34个参赛团队提交81个系统)。相关论文被大会议评选为“Best of SemEval 2017”。
随着人工智能相关技术的发展,智能问答系统应用在许多行业和领域中都有迫切的需求。比如在电话咨询场景中,传统人工坐席无法满足日益增加的客户咨询量;在政府业务公开场景中,智能机器人对用户的不准确答复会影响政府形象和公信力。目前业界的做法是人工设计问答系统或者对话系统,而不是使问答系统真正具有人类常识和世界知识,这种系统无法适应提问方法的改变或应用场景的转换。而概念信息方法以认知知识库为基础可以获得大量世界知识,比如概念之间的上下位关系。在特定领域的问答匹配多个测试数据集上的实验结果显示,相对于谷歌最新的深度计算模型BERT,概念信息语义相似度无监督模型已经比当今最优深度学习模型高出13%-15%。在问答系统上准确性的优势说明,概念信息语义相似度模型对智能问答系统具有明显的应用落地优势。
人工智能
研发
扫码关注,查看更多科技成果