分布式计算机系统的预测性监控技术
针对大规模分布式计算系统例如云计算系统、数据中心等的运维需求,研发了针对大规模计算系统的预测性监控技术。并开发了一个可扩展的监控系统。该系统的特点为:1)基于语义事件表达监控信息,开发了复杂事件处理器,可以支持用户定义针对复杂模式的事件探测组件,从而使系统能够对自动探测复杂的状态变化;2)基于发布订阅模式的事件传输网络,使得监控系统可以规模扩展,因而适应了大规模计算系统的监控需求;3)开发了多种性能预测算法和异常探测算法,实现了对计算机和应用性能的长期预测。 本项目的成果已经应用到多个企业的系统监控上。项目的成果也发表在INFOCOM、IFIP Networking,IEEE Transaction on Parallel and Distributed Systems, Journal of Systems and Software, Software: Practice and Experience等著名会议和期刊上。项目成果已经申请了10项专利。
上海交通大学
2021-04-13