交互式大数据处理与分析技术
1.痛点问题
多年来,工业大数据领域大数据分析算法和模型都是基于大量代码实现,效率低,难以实现快速开发。同时,工业大数据处理分析模型处理过程多由多个算法通过一定的计算流程构成,计算流程复杂多变,迫切需要一款支持灵活定制和快速开发的处理分析技术来支持工业大数据处理分析。
2.解决方案
清华数为交互式大数据处理与分析技术针对工业大数据处理与分析任务的交互式探索、建模、调试和应用而设计。根据CRISP-DM设计原则,一般大数据处理与分析分为业务理解、数据理解、数据准备、建模、评估和部署等阶段,各阶段相辅相成,形成一个大数据处理分析生命周期。
图1.交互式大数据处理与分析技术设计思想
本成果技术基于上述CRISP-DM的设计思想而设计,完全支持大数据处理与分析生命周期。该技术的特点包括:
(1)内置数百种通用和专用的大数据分析算法和模型,并提供了按需扩展机制,用户可以按照自己的需要随时添加和扩充,以支持客户特定的大数据应用需求;
(2)支持拖拽方式构建处理与分析流程,完全图形化设计大数据处理分析计算流程,并能在设计过程中进行单步/多步运行调试,查看中间结果,实时调整运行结果,以获得用户期望的处理分析结果;
(3)支持机器学习模型训练及使用,内置了机器学习模型训练框架,一般机器学习模型在该技术的支持下,可以实现快速训练,训练结果可支持进一步的大数据处理与分析;
(4)支持数据处理与分析流程参数化,在其提供的内部数据处理与分析算法模板中,用户通过算法模板可以开发面向Java、Python的算法,并集成和扩展到该技术的算法集合,实现按需定制处理分析;
(5)支持数据画像和学习模型可视化,以图形化的方式定制数据画像的方法模型,并以二维和三维图表的形式展示给用户;
(6)支持批处理、流处理和流转批处理三种处理方式;
(7)按需定制运行计划与资源有效利用,用户可设置任务执行计划,任务执行计划定期运行,以实现周期性处理分析,方便获得持续的运行结果。
清华数为交互式大数据处理与分析技术面向多种用户角色,包括数据工程师、数据分析师、数据科学家、算法工程师、运维工程师、代码工程师等。采用分层设计,分为客户层、服务层、计算层。
客户层包括流程建模调试工具,用户可用工具图形化拖拽式设计处理与分析计算模型,并可进行调试和查看中间结果;管理工具,针对服务层所调用和访问的计算框架或者外部系统进行管理,包括对于数据源、计算环境、存储环境等的管理工具。
服务层主要包括流程调度服务,即负责按照用户所设定的工作计划来定时调度执行计算模型;执行服务,是负责执行处理分析计算的模型和算法的服务;计算资源管理服务负责管理执行服务中所能集成的所有的服务,如计算框架和存储设施等。
计算层是执行服务在执行处理分析算法和模型中所访问的外部服务,包括计算组件或框架,以及持久化存储组件或者系统等。
图2.交互式大数据处理与分析技术架构
本成果的交互式处理与分析技术较好地解决了工业大数据处理分析工作中所遇到的问题和痛点,并且能够广泛应用于多个行业和领域中,如能源、矿山、医疗器械、装备制造业、消费品制造业、工程机械行业等。
合作需求
期待与工业、医疗等领域企业紧密合作,获得各领域的实际需求,促使该技术不断完善和升级迭代,走向成熟。
未来将在工程机械行业、医疗机械行业、矿山行业、装备制造行业、互联网电商行业等寻求更多的成果转化、深度合作机会,在合作基础上,推动上述行业领域实现数字化转型和智能化升级,为国家实现“双碳”目标做出清华贡献。
清华大学
2022-04-25