一种安全高效的联邦学习技术

1.痛点问题

在大数据应用领域，当前普遍存在数据隐私安全、数据孤岛和终端设备计算能力受限等问题。如何在保障数据安全、隐私安全和安全合规的条件下，联合使用跨机构或跨设备中的数据，实现数据价值的深度挖掘和流通是亟待解决的行业问题。

2.解决方案

本技术在现有联邦学习框架的基础上提出一系列改进方案，综合提升了联邦学习的安全、效率和模型质量。首先，基于纵向联邦学习具有突破数据孤岛和保护数据安全的优点，采用自编码信息混淆技术实现标签隐私信息的保护，在不影响联邦建模效果的前提下，构建了一种新的数据高效、安全、合规的使用范式，该技术可应用于纵向联邦学习场景中实现多方安全联合建模。其次，通过结合联邦学习打破数据孤岛和保护数据安全，预训练大模型可实现知识持续积累，有选择的知识蒸馏技术可实现保护隐私、模型压缩和知识迁移等方面的优势，构建一种新的数据高效、安全、合规的使用范式。即在服务器端充分利用丰富的计算资源，打造出更为强大的模型，并通过有选择的知识蒸馏策略，实现知识在服务器端的持续正向积累，来提升资源受限的终端设备和拥有大模型的服务器两端模型的整体表现，从而实现一种“数据、模型不动，知识动”的效果。

合作需求

本技术与孵化产品在金融、医疗、制药和政务等数据敏感行业数据合规使用和多方协同建模应用上有合作需求，可服务于政府与企业等机构：

1）金融领域合作

本技术与孵化产品可服务于金融科技各级（部委与地市级）主管单位，以及各类银行、保险等金融机构。可应用于金融领域中高敏感数据的合规使用和跨机构间联合建模应用场景，例如银行征信、反欺诈等应用，以降低金融欺诈、骗保等事件发生，产生积极的社会效益。

2）医疗和制药领域合作

本技术与孵化产品可服务于医疗和制药领域各类政府主管单位、医院和制药企业等。可推动医疗和制药领域数据安全协作利用，为医疗领域有效监管、AI制药和辅助诊疗等智能应用提供数据安全协作基础，提高制药效率，降低制药成本和周期、促进新药研制等。

3）智慧政务领域合作

本技术与孵化产品可服务于科技、工信和大数据等各级（部委与地市级）主管单位。可为政府建立数据要素市场提供数据安全流通技术保障，促进数据要素安全有序流通，也可支撑政务服务水平提升，协同推进地方政府的数字政府建设。

该技术可应用于对数据安全、隐私保护和法律合规等方面有强烈要求的应用领域，例如金融、医疗、政务、交通等领域。所面向的用户群体是需要在满足数据安全、隐私安全和合规条件下，以多方协作的方式联合使用文本类、图像等数据的应用场景，主要面向跨组织、跨机构和跨设备间安全合规联合建模。因此，具有较为广泛的应用场景。

自2018年开始，联邦学习、隐私计算等技术和产品成熟度迅速提升，在我国加快培育发展数据要素市场、数据安全流通需求快速迸发的推动下，隐私计算技术的应用场景越来越多。根据Gartner发布的“2022年12大技术趋势”报告，隐私增强计算(PEC)成为重要技术趋势之一。Gartner还表示，到2025年，60%的大型组织将在分析、商业智能或云计算中使用一种或多种隐私增强计算技术。根据中研普华研究报告显示，预计至2025年中国隐私计算市场规模将达到145.1亿元。在此背景下，联邦学习技术作为实现隐私计算的重要技术路线之一，具有十分良好的应用前景和市场前景。

借助该技术在数据敏感行业实施与应用，实现安全联合建模的隐私计算产品与服务，助力大数据价值挖掘与数据价值流通。计划采取三步走方式来进行成果推广，同时以实际市场需求为出发点，将适时进行灵活调整。第一阶段进一步加强理论研究成果。第二阶段深化项目成果，加强协作研究，与可信赖的产业界合作伙伴开发和部署多方安全计算示范项目，通过示范项目分步骤有序推进成果转化进程，注重产、学、研、用结合机制加强协作研究，根据课题成果推广的实际需要在金融、政务、智能制造等领域中开展推广应用。第三阶段经验借鉴再发展，推广巩固科研成果。力争未来5年在政府部门、知名金融机构等不同领域落地多个项目，打造隐私计算项目的标杆。

该技术进一步提高了联邦学习技术的数据安全性，并基于“数据模型不动、知识动”的模式突破了现有联邦学习模型的泛化和鲁棒性，并能灵活适配异质、异构的终端设备和数据分布场景，与现有联邦学习技术相比覆盖场景更广，效率更高，更符合参与方的个性化模型需求，并为联邦学习驱动的大模型训练和中心知识积累提供了技术基础。同时在安全方面，能有效的抵御多种恶意攻击和标签推断攻击。这一系列技术优势符合多方数据协作场景中对于数据安全、抗攻击、分布异构和效率提升等迫切需要，符合数据流通产品的未来趋势。