基于实景语义理解的软件操作互动帮助系统

（一）项目背景

人机交互（Human-Computer Interaction，简写HCI）：是指人与计算机之间使用某种对话语言，以一定的交互方式，为完成确定任务的人与计算机之间的信息交换过程。现在，很多计算机用户抱怨计算机制造商在如何使其产品“用户友好”这方面没有投入足够的精力。

人机交互技术经历了从纸带穿孔到个人电脑的命令行输入，用户记住这些命令才能用好电脑，再到以Windows为代表的图形界面，实现了“所见即所得”的进步，减少了用户记忆的烦恼，但依然有“不见即不得”的烦恼，导致现有软件中普遍还存在以下三类问题：用户在使用现有的软件或电子设备使用中的痛点主要有以下三类问题：

问题痛点：一是不知道某一软件是否有自己需要的功能，或是不知道有没有软件开发出了自己需要的功能；二是在软件中找不到所需功能按钮在哪里；三是知道某软件有自己需要的功能，也知道在哪里，但就是不会用或用不好。也就是我们通俗所说的:有没有? 怎么用? 用不好?

但这三类问题还是极大影响了软件和电子设备的使用效率,同时制约软件的广泛普及，不仅导致日常生活软件在适用人群使用的“数字鸿沟”问题，也导致国内一些工业软件虽然质量不错，但使用方便性不佳而错失了进口替代的机会。

随着深度学习及自然语言处理技术的进步，软件操作实景互动帮助系统应运而生，它可以根据用户的语音和文字自然语言对话，理解用户使用软件中问题，给出解决用户直观的使用指导,让用户使用软件实现从“所见即所得”到“想到即所得”跨越。

不仅能解决软件如：银行APP，公交卡、word，Excel等人们在工作和生活中使用问题，有效缓解“数字鸿沟”等问题；也能有效提高航天、造船、航母及核技术等工业软件人机交互质量，有效推动相应软件的进口替代。

（二）项目简介

本产品研发依托西安电子科技大学智能交互研究所技术资源优势，以及合作技术积累，产品既适合军用也适合民用。

市场目标，基于实景语义理解的软件智能互动系统，让每一台电脑、每一部手机、每一个软件用户受益。

本文中针对的实景：用户在使用软件中的操作过程。

产品功能：针对用户在使用软件时遇到的问题，根据用户的语音和文字自然语言对话，理解用户问题，给出解决用户使用软件问题的基于实景的指导,让用户使用产品实现从“所见即所得”到“想到即所得”跨越。

如下例：

针对微软的word用户在使用中问:翻译怎么弄？

系统自动给出基于实景的提示，并根据用户的点击的正确与否给出进一步的提示，直至用户解决问题。

产品模块：自然语言理解模块，实景获取模块，实景互动帮助模块。

产品形态：本产品采用SaaS云服务平台的形式为用户提供服务，在用户的电脑端安装应用软件，或在手机端安装APP，通过互联网与云端服务器相连提供服务。电脑端应用软件和手机端APP 提供实景检测及基于实景语义理解的互动帮助，云端服务器实现自然语言理解及用户信息管理。

针对市场：替代软件说明书及网络搜索如百度搜索中的百度经验等帮助用户解决软件使用中问题的方法，大幅提升用户使用软件的体验质量。

（三）关键技术

软件操作实景互动帮助系统，将深度学习的自然语言处理技术和软件实景获取技术有机结合，率先实现了将感知与自然语言理解的高质量结合，避免了深度学习的现有图像与自然语言双模态处理质量不高的弊端，有效处理了用户在真实软件使用场景下的自然语言理解的省略与歧义理解问题，解决了用户真实意图的理解，并给出直观的软件使用指导，软件主要模块如图1。

图 1 系统各模块

图 2 基于实景语义理解的人机交互过程

使用软件操作实景互动帮助系统的用户在使用软件的过程中，遇到问题时，可用自然语言语音或文字进行提问，其操作过程的操作集与自然语言的问题集，经由系统的感知层实景获取模块统一传递给系统的理解层，经基于深度学习的实景语义理解层的自然语言理解模块理解去意图后，基于用户意图经系统动作层的互动帮助模块，生成包括自然语言、视频及类似手势指示的直观形式反馈给用户，在尽可能减轻用户认知负担的情况下指导用户解决软件操作中的问题，如图2。

核心技术创新点：实景语义理解模型

谷歌发表的论文《Attention Is All You Need》中提出了Transformer模型，此模型基于注意力机制。Transformer实际就是Encoder（编码器）-Decoder（解码器）的结构。

如图3所示是改进的实景语义理解的bert模型的内部结构图。多头注意力机制（Multi-Head Attention）由若干个自注意力（Self-Attention）并行组成；前馈神经网络（Feed Forward）层，作用是进行线性回归；残差和层归一化（Add&Norm，Add指Residual Connection：残差连接，Norm即Layer Normalization：层归一化）层，残差连接是防止网络退化，层归一化是对每一层的激活值进行归一化。图的左半部分为Encoder（编码器）模块，编码器模块有一个多头自注意力机制；图右半部分为Decoder（解码器）模块，解码器模块有两个多头注意力机制，一个是掩蔽多头自注意力机制，另一个是非自注意力机制（Q、K、V的来源不同）。每个多头注意力层和前馈层的后面是一个残差和层归一化层。

图 3 实景语义理解模型（该图需修改）

基于实景语义理解模型，采用改进的bert模型，即在用户语言信息与编码信息的基础上再加上用户的实景信息. 实景对话要在用户所处实景的基础上理解用户说话，在深度学习领域属于多模态深度学习，而视觉与自然语言处理的多模态深度学习是其中的核心，核心问题是利用视觉信息提升对话理解的水平，多模态自然语言对话：

p（y|z, x1,x2,…,xm ）

z：图像信息，x1,x2,…,xm：自然语言对话信息。

y：用户对话意图，p：基于图像与自然语言信息的对话意图理解的概率。

经实景任务型对话处理后，则用户自然语言的对话意图理解的概率为：

p（y|x0, x1,x2,…,xm ） x0：实景信息

图 4 实景语义理解输入（该图需修改）

在的注意力机制中，计算的时候需要用到矩阵Q(query，查询)、K(key，键值)、V(value，值)。在实际中，自注意力接收的是输入(词嵌入组成的文本嵌入矩阵)或者上一个编码器模块的输出，无论是嵌入矩阵还是上一个编码器模块的输出都是包含了实景信息，Q、K、V正是通过包含了实景信息的权重矩阵Wq、Wk、Wv、与自注意力的输入进行向量乘法计算得到的。最后自注意力的输出通过将矩阵Q、K、V代入Attention公式所获得，其中dk指的是矩阵Q、K的列数，包含了实景信息Attention计算公式如式（2-1）所示：

目前对多模态有不同侧面的研究，如Johnson 等人创建了用于诊断图像问答模型能否在理解图片的基础上给出提问语句相应回答的数据集CLEVR；Hu 等人提出了端到端的模块网络（end-to-end module networks， N2NMNs），并将其应用到图像中，以解决问答任务，并且这个模型在CLEVR 数据集上取得了很好的效果，表现出它在图像问答中充分考虑图像信息的能力；在图像问答任务中，Xu和Lu用递归神经网络和卷积神经网络分别学习问题语句和图像的信息，用注意力机制实现问题语句信息和图像信息的融合，但总体上说这些都未达到实用水平，因此也未有实际应用。

基于实景语义理解的软件操作实景互动帮助系统，是全球首个能感知用户软件操作动态变化信息进行对话的深度学习任务型对话系统，具有理论与技术上的先进性。