人工智能NLP引擎_西安电子科技大学

（一）项目背景

针对现实场景中，存在需要对服务行业录音文件内容进行详细分析，但是面对海量录音文件无法仅通过人力资源去逐一分析的弊端，本项目旨在通过实际应用场景结合计算机和人工智能技术开发一个人工智能 NLP 引擎，用以解决海量录音文件经过 ASR 转文本后，对录音内容进一步按需分析，最终得到较为完整的分析结果，以便于企业进一步采取商业策略。

（二）项目简介

人工智能 NLP 引擎项目是基于多语种分词、多语种情绪识别、词句关系分析、意图识别、文本聚类等自然语言处理技术实现对海量录音文本的知识挖掘，识别重要信息。为录音服务行业下游业务的分析人员提供分析思路，以便得到多维度、多形式分析结果，将发现转换为可落地的业务决策，这些数据驱动的业务决策，包括客户体验、座席行为、产品改进、风险监测等多个方面，帮助企业改善用户体验、降低成本、提升效率、提升业绩、降低风险等。

（三）关键技术

1.多语种分词。分词指的是将一个字序列切分成一个一个单独的词，是将连续的字序列按照一定的规范重新组合成词序列的过程。文本在入库时调用接口进行了分词，分词可用于模型的匹配和热词的统计。

2.词句关系分析。根据词句关系接口识别的中心词，然后用中心词进行词频的统计，对于目标样本，统计出高频中心词用来概括目标样本中主要描述的对话内容。

3.意图识别。识别出客户语句的意图，以便进行相应的功能操作、信息推荐等。

4.多语种情绪识别。情绪识别是对包含主观信息的文本进行情感倾向性判断，正向或者负向（如果能提供训练数据集，可以识别更多种类的情绪）。为客户之声下游任务的口碑分析、话题监控、舆情分析等应用提供帮助。目前支持中文、粤语的情绪识别。根据情绪标识，用情绪进行搜索和统计分析。

5.文本聚类。文本聚类将一大段文本中心词和中心词的关联词、近义词生成一个图，用于可视化文本的内容。

6.自定义分词、意图。对分词分词、意图种类进行增删、扩展、微调等。