(一)项目背景 针对现实场景中,存在需要对服务行业录音文件内容进行详细分析, 但是面对海量录音文件无法仅通过人力资源去逐一分析的弊端,本项目旨 在通过实际应用场景结合计算机和人工智能技术开发一个人工智能 NLP 引 擎,用以解决海量录音文件经过 ASR 转文本后,对录音内容进一步按需分 析,最终得到较为完整的分析结果,以便于企业进一步采取商业策略。 (二)项目简介 人工智能 NLP 引擎项目是基于多语种分词、多语种情绪识别、词句关 系分析、意图识别、文本聚类等自然语言处理技术实现对海量录音文本的 知识挖掘,识别重要信息。为录音服务行业下游业务的分析人员提供分析 思路,以便得到多维度、多形式分析结果,将发现转换为可落地的业务决策,这些数据驱动的业务决策,包括客户体验、座席行为、产品改进、风 险监测等多个方面,帮助企业改善用户体验、降低成本、提升效率、提升 业绩、降低风险等。 (三)关键技术 1.多语种分词。分词指的是将一个字序列切分成一个一个单独的词,是 将连续的字序列按照一定的规范重新组合成词序列的过程。文本在入库时 调用接口进行了分词,分词可用于模型的匹配和热词的统计。 2.词句关系分析。根据词句关系接口识别的中心词,然后用中心词进行 词频的统计,对于目标样本,统计出高频中心词用来概括目标样本中主要 描述的对话内容。 3.意图识别。识别出客户语句的意图,以便进行相应的功能操作、信息 推荐等。 4.多语种情绪识别。情绪识别是对包含主观信息的文本进行情感倾向性 判断,正向或者负向(如果能提供训练数据集,可以识别更多种类的情绪)。为客户之声下游任务的口碑分析、话题监控、舆情分析等应用提供帮助。目前支持中文、粤语的情绪识别。根据情绪标识,用情绪进行搜索和统计 分析。 5.文本聚类。文本聚类将一大段文本中心词和中心词的关联词、近义词 生成一个图,用于可视化文本的内容。 6.自定义分词、意图。对分词分词、意图种类进行增删、扩展、微调等。