目前产业界智能服务受限于垂直领域行业数据壁垒,真实开放应用场景下多模态数据面临高噪、复杂、稀疏三大挑战,导致模型落地时存在鲁棒性低、可解释性弱、数据依赖性强等问题,具体表现为以下几点:
1. 多模数据的信息表示困难:多模态数据存在高噪声、标签不完整、分布不均、异构性强等问题,造成特征表征鲁棒性低、跨模态关联性差、模型泛化能力弱;
2. 数据低资源性和特征稀疏性:低资源场景下多模态数据特征稀疏且隐式语义依赖复杂,传统方法难以挖掘低资源条件下的跨模态知识关联;
3. 多模数据融合与语义对齐困难:多模态数据存在先验语义偏差问题,现有模型难以有效对齐和融合复杂语义,导致跨模态任务(如问答、推理等)准确率低且稳定性差;
4. 智能服务可解释性与可控性不足:深度学习驱动的智能服务系统面对多模高维稀疏数据时,缺乏结构化知识逻辑支撑,导致其服务质量、可解释性和可靠性难以满足复杂应用场景需求。
解决方案
本成果建立了数据驱动的机器学习与知识驱动的符号计算相融合的新型人工智能理论和方法,重点突破新一代信息技术科学范式及感知人工智能建模范式,形成面向认知智能的下一代智能服务核心关键方法,打造了完整的多模数据“智能感知-智能认知-知识协同服务”技术体系,支撑我国在新一轮国际科技竞争中的主导地位,主要技术实现及技术效果如下:
①高噪异构多模数据信息抽取与表示技术:针对真实高噪环境下数据分布不均问题,研究跨模数据特征空间中内在流形结构,提出无监督去噪、深度无监督哈希、时空图神经网络等理论方法,重建局部/全局语义相似度,构建多模态数据间关联语义的结构关系及高层语义关系结构一致性表示,显著提升不均衡高噪条件下多模数据表示的鲁棒性和可区分性,在仅用少量(<0.1%)带噪标记数据训练条件下平均准确性提升0.4%以上。
②低资源场景下跨模数据隐式知识挖掘技术:针对低资源场景下多模数据特征稀疏问题,研究多模数据知识层面隐式语义依赖性,提出自监督学习范式、位置感知自注意力等理论方法,实现跨模数据在语义知识层面的建模与关联,显著提升多模数据的可计算性,在低资源场景下结合知识图谱的推荐准确率实现了2-5%的提升。
③海量异构多模数据复杂语义融合技术:针对多模数据存在的先验语义偏差等问题,研究模态数据在语义特征空间上的可计算性,提出基于深度感知的语义引导关系注意力、上下文感知的双仿射注意力学习框架、提示微调新范式等理论方法,显著提升跨模态语义特征空间中模态间共享(相关)特征和模态内嵌(不相关或负相关)特征对齐和融合,实现多模问答准确率平均提升1%-5%,在零样本和小样本条件下准确率提升31%-37%。
④真实场景下数据与知识协同的智能服务技术:针对已有基于深度学习模型的智能服务技术普遍受限于垂直领域多模数据高维稀疏性问题,研究真实场景下多模数据中蕴含的结构化领域知识表征及其符号逻辑推理能力,提出全局图神经网络、可拓展树状推理结构等理论方法,显著提升多层级多视角的复杂多元因果关系推理能力,解决复杂应用场景中智能服务质量低、可解释性弱、可控性差等难题,提升智能服务的质量和可靠性,推荐服务准确率平均提升18.8%以上。
图1 MLS3RDUH技术原理框架
图2 远程监督方法与强化学习降噪方法对比
图3 多层级多视角的对比学习范式
图4 双句法感知模型框架
图5 基于声明的提示微调框架
图6 DPT在零样本和小样本条件下模型性能
图7 上下文感知的双仿射注意力学习框架
图8 基于深度感知的多模态数据关系对齐框架
图9 全局上下文增强的图神经网络模型
图10 TREA模型框架图
图11 基于意图解缠的图神经网络
技术指标
目前开发的模型与算法在各项专业测试指标上达到或超过目前已知国际先进水平,具体性能对比结果如表1所示。
本项目可广泛应用于多行业及场景:
· 金融保险领域:应用于车险、工程险等保单的智能化处理与反欺诈管理;电网数据风险识别与预测,助力金融机构降低运营成本、提升风控效率;实现智能推荐、智能客服等个性化、便捷化的服务。
· 赋能智慧教育实现智能化评估,促进教育产业智能升级:提供语法错误诊断、多模智能问答等智能教育服务,AI赋能教、练、考、评各环节,精简教学模式、提升教学质量;虚实融合多场景教学、协同育人,提升学生学习效率;人机协作/对话提供个性化AI教育,避免千篇一律的填鸭式教学模式,针对性攻关学生的难点疑点,为贯彻“双减”政策、建设高质量教育体系赋能;
· 智能汇聚不同平台信息,助力智慧政务:秉承“数据多跑腿,群众少跑腿”的理念,通过智能整合信息资源,有效提升了政务系统互联网办件效率,将群众从繁琐的窗口奔波中解脱出来,大幅降低群众办理服务的时间成本;为政府公共服务范式从全能型向智慧型转变提供技术支撑和原型示范;
· 智能化牲畜身份识别,促进乡村产业发展:自主研发的牛脸识别等智能化识别工具有效应用于畜禽养殖承保、核保及定损等环节,相关技术指标在2022年验收时较原有指标提升1倍,促使养殖险赔付率从75.8%降低到65.7%,有效提升“三农”服务水平及畜禽养殖行业整体规范性,成功助力乡村产业发展,助力中国特色现代化农业及农业供给侧改革。
· 人智协同共治网络谣言,构建良好社会伦理环境:基于智能语义理解与知识挖掘技术,高效精准地从海量网络信息中识别不实新闻/评论等,实现早期干预,助力良好社会伦理环境构建,推动构建智慧、开放、系统的治理体系,共建清朗网络生态。
· 科研应用:真实开放环境下数据与知识协同的智能服务关键技术及应用在深度学习模型部署、数据的高效处理、知识管理和分析方面能够为科研人员提供强大的支持。其中自然语言处理工具包平台(HUST-NLP)和智能人机对话系统(小希)在数据处理、模型部署、模型训练等方面发挥较大的作用;多模态大模型为文本、图像和语音分析和跨模态数据融合提供助力,帮助科研人员快速筛选相关信息、发现潜在模式、进行知识推理等。本项目为解决复杂多模态处理问题提供了更为全面的视角与更便捷的工具, 助力科研人员加速前沿研究的探索,在“深入实施创新驱动发展战略,加快建设科技强国”的目标下,推动科学前沿研究的不断创新。
试验阶段。
①针对高噪环境下数据分布不均的问题,传统模型依赖海量高质量标注数据,抗噪性和异构数据适应能力弱,特征表示易受分布不均干扰(如视频分割局部失真导致对象缺失、图像检索噪声影响哈希编码质量),本成果具备以下优势:
· 构建的无监督自动去噪模型仅用2000条带噪数据条件下仍比利用2800万条弱标记数据的细粒度实体分类最优模型(MLMET)在性能上提升了0.4%;
· 深度无监督哈希方法MLS3RDUH方法重构哈希码表示,MAP指标提升7.7%;
· STG-NET利用时空图网络优化视频分割,DAVIS2016指标平均提升5.3%;
率先实现了高噪异构多模数据信息抽取与表示技术一体化计算框架,构建多模态数据间关联语义的结构关系及高层语义关系结构一致性表示,提升不均衡高噪条件下多模数据表示的鲁棒性和可区分性,实现了低标注成本(<0.1%数据量需求)、高抗噪鲁棒性,适配高噪声场景。
②针对低资源场景下多模数据特征稀疏问题,传统模型依赖强监督信号,跨模态知识关联建模能力弱。本项目具备以下优势:
· 提出自监督知识图谱推荐方法,AUC提升2-5%;
· 用于低资源命名实体识别的域自适应方法(RDANER)显著提升了命名实体识别在资源受限条件下的鲁棒性,在多数据集上相较最优微调模型表现稳定提升1%;
· 深度跨模态哈希方法DCHUC统一跨模哈希编码,搜索精度提升5-15%;
· 位置感知的自注意力机制解决非连续关系建模难题,在ONTONOTES 5.0数据集上F1指标稳定提升0.5%;
· 跨度标注贪婪推理方案(STAGE),首次将情感三元组抽取任务重定义为跨度多分类任务,在多数据集上相较最优模型在F1指标上平均提升3.3%以上;
在多种跨模任务中突破了低资源场景依赖,获NLPCC/KDD CUP等顶级赛事认可,技术成熟度高。
③针对多模态数据存在的先验语义偏差等问题,现有技术难以解决模态间语义偏差导致的模型对齐能力不足的缺陷,复杂任务(如视觉问答、视频定位)零样本性能差。本项目具备以下优势:
· 首次提出了重定义下游任务以确保上下游任务的一致性的基于声明的提示微调新范式DPT,相比最优方法平均准确率提高1-5%,在零样本和小样本条件下平均提升31-37%;
· 融合相邻帧中局部上下文信息及视频中全局上下文信息以进行精准视频定位的上下文感知的双仿射定位框架CBLN,CHARADES-STA性能提升9%;
· 融合深度信息实现三维空间关系建模的深度感知和语义引导的关系注意力网络DSGANET,显著提升视觉问答任务中空间关系推理准确性;
显著超越了已有最优模型的性能,在全国性比赛“挑战杯”中获一等奖。
④针对已有基于深度学习模型的智能服务技术普遍受限于高维稀疏数据的问题,已有技术缺乏逻辑推理能力,可解释性差。本项目具备以下优势:
· 提出了基于全局上下文增强的图神经网络会话推荐方法,AUC指标提升1-3%,成为会话推荐领域基准模型;
· 基于树状结构推理范式的TREA框架提升了可解释性,会话推荐逻辑性增强;
· EACM方法实现多对多情感关系建模,生成回复质量提升8.3%-11.7%;
解决了复杂应用场景中智能服务质量低、可解释性弱、可控性差等难题,提升智能服务的质量和可靠性,推荐服务准确率平均提升18.8%以上,捆绑推荐、地理位置推荐等细分场景优势显著。
扫码关注,查看更多科技成果