(一)项目背景
网络信息鱼龙混杂,“标题党”、“网络暴力”、“人肉搜索”、“流量造假”等问题层出不穷。为了营造良好网络生态,保障公民、法人和其他组织的合法权益,维护国家安全和公共利益,构建天朗气清的网络空间,国家互联网信息办公室于2019年12月15日发布《网络信息内容生态治理规定》。规定明确了网络信息内容服务使用者和生产者、平台,不得开展网络暴力、人肉搜索、深度伪造、流量造假、操纵账号等违法活动。
本项目从网络信息监管部门实际需求出发,依托中文语义智能处理相关技术,打造网络信息内容生态治理综合执法平台,助力净化网络生态。
(二)项目简介
本项目以政府、企业、社会、网民等多元主体参与网络生态治理的需求为导向,以《网络信息内容生态治理规定》相关内容为指导,针对互联网海量的信息内容,以人工智能、自然语言处理、知识图谱、复杂网络为理论基础,依托多模态语义理解相关技术,打造基于语义智能的网络信息内容生态治理综合执法平台,实现网络舆情风险语义词源识别、结合分布式智能搜索和多模态信息识别技术完成互联网内容日常巡查、融合数据挖掘与追踪溯源技术实施动态电子信息取证、基于音视频识别及语义分析实现多场景智能约谈、应用深度学习和知识图谱技术为网信执法提供了智能裁量的尺度和参考等,从而为网信管理部门依法依规治理提供了全覆盖、透明、高效的工作环境。
(三)关键技术
1.分布式智能搜索技术
基于WebMagic的分布式爬虫系统,通过全面巡查和定向巡查相结合的方式,面向全网主流平台的各类文本、图片、音频和视频的多模态数据进行7*24小时的实时信息采集。范围覆盖全网,涉及主题丰富、模态全面:抖音、快手、好看视频等平台的视频信息;微博、头条、人民号、澎湃新闻等平台的文本和图片信息;喜马拉雅等平台的音频信息。基于Elasticsearch的分布式搜索引擎,通过对多模态数据的索引构建,实现对数据源的分布式存储与实时检索,包括Elasticsearch 分布式集群设计模块、垂直领域(网信)个性化词典构建模块、数据索引模块、数据搜索模块、智能推荐模块。
2.领域知识图谱构建技术
项目团队通过知识抽取、知识表示、知识融合、知识加工等过程构建了全量网信法规案例知识图谱。该图谱包含全量网信相关法规70部、法律条文1717条、执法案例9403件;其中,法律法规主要通过国家法律法规数据库获取;案例主要来自裁判文书网、北大法宝等数据库中的判决文书及执法案例。
该图谱支持类案检索和智能裁量,是网信执法的智能工具。类案检索:可基于用户输入或描述的案例简介或文书,抽取案件关系,借助知识图谱和自然语言处理技术,通过匹配案例的案由和参考法规等检索出相似案例。智能裁量:通过对引入法规和案例知识图谱的混合神经网络进行学习,不断对裁量模型进行优化、自评估和自学习,实现对案件的裁量参考。
3.自然语言处理技术
网络有害文本信息检测。通过自然语言处理技术精准高效识别各类场景下色情、邪教、低俗庸俗、违法广告、封建迷信、暴力血腥、游戏赌博等违规文本内容,提前防御内容风险。通过采用关键词组合策略和基于机器学习、深度学习的多分类检测模型,实现对有害文本的智慧筛查。
网络有害音频信息检测。构建有害音频的特征库:将音频进行采样数字化后,对该数字信号进行分帧,通过语音模型得到语音的动态特性和静态特性,构建音频特征库。实现音频特征的相似比对:包括涉及鬼叫、喊麦等违规声音;涉及歪唱、调侃、讽刺等歌曲识别。基于音频转写的有害音频内容识别:训练基于卷积神经网络的声学模型和基于循环神经网络的语言模型实现语音转写,转写的文本通过自然语言处理技术识别有害信息,包括涉及色情、淫秽、挑逗等涉黄音频;涉及侮辱、诋毁等辱骂音频等。
4.计算机视觉技术
基于图像识别模型组的有害图片筛查技术:通过图像内容特征识别,精准高效识别各类场景下色情、邪教、低俗庸俗、违法广告、封建迷信、暴力血腥、游戏赌博等违规内容。主要包括基于残差网络的色情、游戏赌博、暴力血腥等图片识别,基于高维残差网络的有害场景识别,基于物品特征的宗教、封建迷信识别等。
基于视频识别模型组的有害视频筛查技术:基于残差网络、卷积神经网络等对视频内容进行细粒度解析,精准高效识别各类场景下色情、邪教、低俗庸俗、违法广告、封建迷信、暴力血腥、游戏赌博等违规内容,提前防御内容风险,提高审核效率,净化网络环境。
基于语义智能的网络信息内容生态治理平台首页
互联网内容日常巡查系统页面
网信法规案例知识图谱
原理样机
扫码关注,查看更多科技成果