多维有序数据管理技术
01. 成果简介 非结构化数据是没有显式数据结构约束的非关系型数据,包括时间序列、图像、音视频等,其管理与分析技术成为国际信息领域战略竞争焦点。许多实际应用中,非结构化数据不仅总的体量大,而且数量也极为巨大。例如,我国气象预报业务每天接收到的气象数据文件达数亿非结构化气象小文件。此外,这些文件存在大量业务语义属性,这些属性形成了描述一个数据的多种维度。 针对海量非结构化数据的管理需求,清华大学软件学院提出了多维文件空间模型,并基于此模型突破了一系列非结构化数据核心技术,包括:l 非结构化数据到多维空间模型的映射方法;l 多维文件空间模型的分布式物理实现方法;l 分布式存储的副本控制方法。 该技术通过对非结构化数据的属性维度进行分类,将非结构化数据建模成多维文件空间模型,并对文件集合上的各种操作进行定义。此外,通过细粒度计算磁盘IO代价、网络代价、副本代价、CPU代价、数据分区代价,得到指定工作负载下的最优物理存储实现,进而通过排队论等方法对副本的一致性进行控制,实现满足用户SLA(服务等级保证)的柔性事务。 图1. 基于多维文件空间的最优非结构化数据存储方法示意图 相比现有对象存储等技术,该项技术可以实现更加灵活的数据访问。同时,该项技术能够建立多维文件空间到分布式物理存储的最优映射机制,保证非结构化数据总访问代价最小。相比于现有的分布式文件系统,该项技术可以确保使用少量内存管理数以亿计的海量非结构化小文件,而现有多数分布式文件系统在遇到海量文件管理时往往会出现内存爆炸问题。02. 应用前景 本成果技术可广泛用于各种类型尤其是多维度属性的非结构化数据管理。目前已经被成功应用于中国气象局和全国31个省或直辖市气象局,以及石油、风电等多家工业企业。该项成果还入选了2016国家十二五科技创新成就展和2018首届数字中国建设峰会,并作为贡献之一获得2018年教育部技术发明一等奖和中国气象学会科技进步奖一等奖。03. 知识产权 本项成果已获得发明专利授权13项。04. 团队介绍 本成果团队长期研究大数据管理与分析技术,包括分布式数据存储与查询、数据质量、深度学习与迁移学习、业务过程挖掘等方向。团队课题负责人为王建民教授、博士生导师。团队在本领域发表国际学术论文100余篇,申请专利100余项,授权专利60余项。相关成果获2018年教育部技术发明一等奖、2018年气象学会科技进步一等奖、2014年国家科技进步二等奖、2013年中国电子学会科技进步一等奖。05. 合作方式 技术许可 / 软件服务。06. 联系方式 邮箱:liuyi2017@tsinghua.edu.cn 团队电话:010-62786972;13051000520 团队邮箱:huangxdong@tsinghua.edu.cn
清华大学
2021-04-13