|
清华大学
  • 252 高校采购信息
  • 590 科技成果项目
  • 10 创新创业项目
  • 0 高校项目需求

多维有序数据管理技术

2021-04-13 00:00:00
云上高博会 https://heec.cahe.edu.cn
点击收藏
所属领域:
电子信息
项目成果/简介:

01. 成果简介

非结构化数据是没有显式数据结构约束的非关系型数据,包括时间序列、图像、音视频等,其管理与分析技术成为国际信息领域战略竞争焦点。许多实际应用中,非结构化数据不仅总的体量大,而且数量也极为巨大。例如,我国气象预报业务每天接收到的气象数据文件达数亿非结构化气象小文件。此外,这些文件存在大量业务语义属性,这些属性形成了描述一个数据的多种维度。

针对海量非结构化数据的管理需求,清华大学软件学院提出了多维文件空间模型,并基于此模型突破了一系列非结构化数据核心技术,包括:

l  非结构化数据到多维空间模型的映射方法;

l  多维文件空间模型的分布式物理实现方法;

l  分布式存储的副本控制方法。

该技术通过对非结构化数据的属性维度进行分类,将非结构化数据建模成多维文件空间模型,并对文件集合上的各种操作进行定义。此外,通过细粒度计算磁盘IO代价、网络代价、副本代价、CPU代价、数据分区代价,得到指定工作负载下的最优物理存储实现,进而通过排队论等方法对副本的一致性进行控制,实现满足用户SLA(服务等级保证)的柔性事务。

 

image.png

图1. 基于多维文件空间的最优非结构化数据存储方法示意图

 

相比现有对象存储等技术,该项技术可以实现更加灵活的数据访问。同时,该项技术能够建立多维文件空间到分布式物理存储的最优映射机制,保证非结构化数据总访问代价最小。相比于现有的分布式文件系统,该项技术可以确保使用少量内存管理数以亿计的海量非结构化小文件,而现有多数分布式文件系统在遇到海量文件管理时往往会出现内存爆炸问题。

02. 应用前景

本成果技术可广泛用于各种类型尤其是多维度属性的非结构化数据管理。目前已经被成功应用于中国气象局和全国31个省或直辖市气象局,以及石油、风电等多家工业企业。该项成果还入选了2016国家十二五科技创新成就展和2018首届数字中国建设峰会,并作为贡献之一获得2018年教育部技术发明一等奖和中国气象学会科技进步奖一等奖。

03. 知识产权

本项成果已获得发明专利授权13项。

04. 团队介绍

本成果团队长期研究大数据管理与分析技术,包括分布式数据存储与查询、数据质量、深度学习与迁移学习、业务过程挖掘等方向。团队课题负责人为王建民教授、博士生导师。团队在本领域发表国际学术论文100余篇,申请专利100余项,授权专利60余项。相关成果获2018年教育部技术发明一等奖、2018年气象学会科技进步一等奖、2014年国家科技进步二等奖、2013年中国电子学会科技进步一等奖。

05. 合作方式

技术许可 / 软件服务。

06. 联系方式

邮箱:liuyi2017@tsinghua.edu.cn

团队电话:010-62786972;13051000520

团队邮箱:huangxdong@tsinghua.edu.cn


项目阶段:
产业化应用
会员登录可查看 合作方式、专利情况及联系方式

扫码关注,查看更多科技成果

取消