近年来图数据受到越来越多的关注,在海量图数据中进行快速的复杂查询是所有图数据库系统面临的直接问题。本系统首创提出了将复杂条件查询转换成在大图中进行子图匹配的解决方法,该方法抛弃了传统利用关系数据库技术作为底层支持RDF数据的存储和管理,利用基于结构感知的索引和查询优化策略,极大地提高了在海量RDF知识图谱数据和复杂查询环境下的性能和系统可扩展性。 本系统支持W3C提出的RDF文件标准和SPARQL语法标准,提供C++、Java、Python、PHP等API接口,单机版本支持50亿条边秒级响应,分布式版本设计了基于查询日志的分布式图数据划分策略,具有非常好的可扩展性。
本系统可应用于金融科技、政府大数据、公共安全、社交网络、税务、海关、交通、医疗、人工智能、数字出版等领域的知识图谱应用项目中。
北京大学计算机研究所数据管理实验室从2009年以来一直从事海量图数据库管理系统的研究工作,2011年首创提出gStore系统的理论基础,到实现系统上线并开源,持续不断进行优化和迭代开发,在开源社区获得广泛的关注。 1. 完成对RDF和SPARQL标准的支持以及多种API接口; 2. 完成单机版50亿边规模数据平均查询秒级响应的优化; 3. 完成gStore系统的智能化安装与运维; 目前项目已经完成产品化开发,图数据库系统gStore成功应用于多个企事业单位的金融、出版和法律等多个领域的知识图谱应用,包括方正电子、北大软件、深圳证券信息有限公司等。 项目主页:http://gstore-pku.com/
扫码关注,查看更多科技成果