|
华中科技大学
华中科技大学 教育部
  • 74 高校采购信息
  • 3412 科技成果项目
  • 0 创新创业项目
  • 0 高校项目需求

Data Torch——暗数据存储、点亮与价值评估系统

2024-03-07 16:34:05
云上高博会 https://heec.cahe.edu.cn
所属领域:
新一代信息技术
项目成果/简介:

痛点问题

暗数据是指机构在常规业务活动中采集、处理和存储的信息资产,但通常不能用于其他目的(例如分析、业务关系和直接货币化)。对于暗数据,用户不知道其存在,或不知道其如何获取,亦或不知道如何释放其价值。

IDC的调研报告显示:暗数据占数据总量的68%以上,且占比在逐年攀升。根据行业的不同,企业的暗数据在其数据总量中的占比从40%到90%不等。充分利用暗数据将为企业带来巨大的利润,但现阶段,暗数据如同不能丢弃的垃圾,会加剧数据ROT(冗余,过时和琐碎),降低数据发挥价值的效率与能力,不仅会给企业带来巨大的维护开销,同时会对企业造成潜在的风险和损失。根据Veritas公司的数据显示,平均每家公司每年要花费4650万美元来存储从未使用过或使用频率极低的数据,但却无法按需使用这些数据。目前,国内的大部分相关部门和企业并未意识到暗数据的存在,也不了解处理暗数据的意义和价值。想要做好暗数据处理,面临三个行业痛点:

· 检索难 缺乏针对暗数据的检索技术;

· 评估难 缺乏一套针对暗数据的价值量化标准和价值评估技术;

· 挖掘难 缺乏针对暗数据的存储技术。

解决方案

针对暗数据处理,提出了如下方案:

(1) 基于内容哈希的暗数据点亮技术

本系统通过解析暗数据的内容语义生成哈希码,再通过汉明距离计算哈希码之间的距离度量,利用哈希码作为元数据,利用距离度量作为组织标准,对所有数据进行图结构化组织,实现暗数据的点亮。首先训练自学习哈希模型DDCH,其中包括对比学习和无监督哈希函数学习阶段。利用预训练好的模型对暗数据集中的文件进行重构编码,每一个文件都生成一个哈希码与之对应。哈希模型的输入在语义上越相近,生成的哈希码的汉明距离也越相近。暗数据点亮时,通过DDCH模型将所有的暗数据生成为哈希码,然后使用图结构对所有的哈希码进行倒排索引管理。

图1 基于内容的自学习哈希模型框架示意图

(2) 基于语义汉明图的暗数据价值评估技术

管理哈希码的图组织,即汉明图。语义越接近的数据在图中的距离也越接近。在汉明图中,可以看到一些分布比较集中的子图,即一组语义相似的元素。在实际应用中,数据集的数目和密度无法统一,例如,部分数据集的图像总量大,而有些数据集中与检索需求相关的图像数量多,为了精确评估各数据集的价值,提出综合考量密度和数量的暗数据价值评估技术。通过计算各个数据在数据集中的重要性分数,再将需求转换为数据对数据集中的数据进行检索,检索出的数据分数即可代表数据集对需求的重要性依赖,即价值。对于重要性分数,子图越密集,即元素越多,汉明距离越短,该子图的重要性越高,越具备挖掘价值。为了评估每个子图的重要性,首先给每个子图打一个“重要性分数”,然后根据重要性分数给子图排序,排序后得到排名表(Score list)。

图2 基于语义汉明图的按数据价值评估技术示意图

(3) 基于元数据图谱的暗数据存储技术

暗数据存储系统利用哈希技术与语义汉明图技术生成并组织元数据,在不影响传统元数据组织的基础上,提供使语义相似的文件在逻辑结构上更接近的查找目标。该设计能够以外挂索引的方式单独管理生成的内容元数据。当需要查找某一类型的数据时,暗数据存储系统能够通过聚类来召回语义相似区域的数据,辅以双IO路径的设计,让系统既保留了现有存储系统的读写路径,又能够通过内容语义来查询并召回相应的文件,使得暗数据查询和检索更加高效和方便。

图3 基于元数据图谱的暗数据存储技术示意图

性能指标

在QQ相册真实数据上的测试表明,核心技术均取得了较大的性能突破:

应用范围:

在EB级多模态数据集中,利用暗数据的点亮、价值评估和存储技术,解决当前“检索难”、“评估难”、“挖掘难”等难题,实现暗数据的高效检索、精准评估和便捷挖掘。

项目阶段:

试验阶段

· 2024年:深入对接腾讯,部署暗数据服务接口。预计为航天科工集团、达梦数据库等企业交付10余台服务器一体机设备,满足订单需求

· 2025年:拓展市场份额,将暗数据服务授权至华为、阿里等,积极推动与政府部门的合作。

· 2026年:进一步提高市场占有率,改进业务流程,优化资源管理,承担社会责任。

效益分析:

目前,市场上已经出现利用暗数据的公司及产品。部分公司利用暗数据进行数据风险预测,降低数据泄露造成的损失以及抵抗网络攻击,包括但不限于Splunk的SIEM工具、BigID的云平台、Imperva的风险检测工具。另一部分公司能够对单模态暗数据价值进行初步的内容提取和开发,包括IBM用于处理文档暗数据的Datacap和专门处理视频暗数据的Dark vision。

本项目与国外产品比较,能够从内容角度管理暗数据,并根据价值评估技术有的放矢的推荐暗数据进行价值挖掘并释放价值,具有国外同等类型产品尚不能企及的科技水平。本项目不仅能够通过暗数据的价值评估来判断并降低暗数据的数据风险,并且哈希技术和暗数据存储系统具备处理多模态数据的通用性。本项目具有独立的知识产权,有着显著的技术优势,也具有持续研发的可能性,能充分满足潜在市场需求。

会员登录可查看 合作方式、专利情况及联系方式

扫码关注,查看更多科技成果

取消