一种安全高效的联邦学习技术
1.痛点问题
在大数据应用领域,当前普遍存在数据隐私安全、数据孤岛和终端设备计算能力受限等问题。如何在保障数据安全、隐私安全和安全合规的条件下,联合使用跨机构或跨设备中的数据,实现数据价值的深度挖掘和流通是亟待解决的行业问题。
2.解决方案
本技术在现有联邦学习框架的基础上提出一系列改进方案,综合提升了联邦学习的安全、效率和模型质量。首先,基于纵向联邦学习具有突破数据孤岛和保护数据安全的优点,采用自编码信息混淆技术实现标签隐私信息的保护,在不影响联邦建模效果的前提下,构建了一种新的数据高效、安全、合规的使用范式,该技术可应用于纵向联邦学习场景中实现多方安全联合建模。其次,通过结合联邦学习打破数据孤岛和保护数据安全,预训练大模型可实现知识持续积累,有选择的知识蒸馏技术可实现保护隐私、模型压缩和知识迁移等方面的优势,构建一种新的数据高效、安全、合规的使用范式。即在服务器端充分利用丰富的计算资源,打造出更为强大的模型,并通过有选择的知识蒸馏策略,实现知识在服务器端的持续正向积累,来提升资源受限的终端设备和拥有大模型的服务器两端模型的整体表现,从而实现一种“数据、模型不动,知识动”的效果。
合作需求
本技术与孵化产品在金融、医疗、制药和政务等数据敏感行业数据合规使用和多方协同建模应用上有合作需求,可服务于政府与企业等机构:
1)金融领域合作
本技术与孵化产品可服务于金融科技各级(部委与地市级)主管单位,以及各类银行、保险等金融机构。可应用于金融领域中高敏感数据的合规使用和跨机构间联合建模应用场景,例如银行征信、反欺诈等应用,以降低金融欺诈、骗保等事件发生,产生积极的社会效益。
2)医疗和制药领域合作
本技术与孵化产品可服务于医疗和制药领域各类政府主管单位、医院和制药企业等。可推动医疗和制药领域数据安全协作利用,为医疗领域有效监管、AI制药和辅助诊疗等智能应用提供数据安全协作基础,提高制药效率,降低制药成本和周期、促进新药研制等。
3)智慧政务领域合作
本技术与孵化产品可服务于科技、工信和大数据等各级(部委与地市级)主管单位。可为政府建立数据要素市场提供数据安全流通技术保障,促进数据要素安全有序流通,也可支撑政务服务水平提升,协同推进地方政府的数字政府建设。
清华大学
2022-05-19