|
北京大学
北京大学 教育部
  • 133 高校采购信息
  • 457 科技成果项目
  • 0 创新创业项目
  • 0 高校项目需求

北大对齐小组align-anything框架提供全模态大模型的训练、数据处理和测评解决方案

2025-03-20 09:31:03
云上高博会 https://heec.cahe.edu.cn

随着人工智能领域的快速发展,全模态大模型的训练、数据处理和测评已成为研究热点。人工智能研究院杨耀东团队、北大对齐小组近期开源的align-anything框架,为全模态大模型的对齐提供了全面的解决方案,包括训练、数据处理和测评框架,旨在使全模态大模型与人类意图和价值观对齐。

该框架是一个高度模块化、可扩展且易于使用的对齐训练和评估框架,支持文本、图片、视频和音频等多种模态的模型对齐微调。框架通过解耦模态与算法实现高度的模块化,例如,将多模态模型的加载实现和对齐算法如DPO\GRPO的实现进行分解组合。这种设计使得框架在模态扩展时能够复用相同的代码,便于用户为不同的任务修改和定制代码。

图1. align-anything框架的架构核心

align-anything框架不仅支持多种对齐算法,还提供了丰富的多模态评测基准,适用于多种推理后端,具有高度的灵活性和可扩展性。框架发布了一个高质量的全模态人类偏好数据集,涵盖文本、图片、视频和音频4种模态,并根据输入与输出的多样性延伸至8种任务。该数据集提供了详细的标注,包括输入和输出中的任意模态,旨在实现跨模态的全面评估和改进。数据集的构建过程包括从多个来源收集回答,使用目前最先进的闭源模型和专业标注人员进行细粒度的偏好标注,并针对各个模态任务特性提供有关回答的语言反馈,确保对响应进行全面评估和优化。

图2. align-anything开源数据、算法和评测基准

在评估方面,align-anything框架支持Transformers框架和Diffusers框架,适配不同模型结构的推理需求。同时,框架还提供了使用vLLM进行推理的接口,实现推理加速。评估框架已适配超过30个常用基准测试,涵盖多种模态类别,如Text⇒Text、Text+Image⇒Text以及Text⇒Image等。评估框架由DataLoader、Generator和Evaluator3部分组成,方便集成自定义评测集。用户只需将新的评测集适配到DataLoader中即可完成集成。

图3. 从语言反馈中学习的训练流程

图4. 从语言反馈中学习可以显著提升全模态模型的表现

为了提升模型的指令跟随能力,北大对齐小组提出了从语言反馈中学习的范式(LLF),通过语言反馈提取丰富的偏好信息。实验结果表明,LLF在多种模态上均表现出积极的改进,尤其在更强大的模型上效果更显著。基于align-anything框架,北大对齐小组对LLaMA-3.2-11B-Vision进行了指令跟随对齐,得到了Beaver-Vision-11B模型,在多个开源评测榜上超越了Meta官方发布的指令微调版本。此外,团队还基于Meta的Chameleon-7B模型,使用align-anything数据集进行了对齐,开源了AA-Chameleon-7B-Plus模型,显著提升了模型的对齐性能。

align-anything框架是全模态大模型训练、数据处理和测评的综合解决方案,具有高度的模块化、扩展性和易用性。通过提供高质量的数据集、丰富的算法支持和全面的评估框架,该框架为全模态大模型的研究和应用提供了有力支持。未来,北大对齐小组将继续完善框架,推动全模态大模型的发展,为人工智能领域的研究和应用贡献力量。

目前,该框架已于多场景应用,为智慧医疗、智慧城市和智慧教育建设提供关键技术支持。

杨耀东团队与北京大学第三医院联合推出MedGuide-M多模态医疗大模型,整合了40余个科室、30万份真实电子病历、医学影像和千万条医学文献等多种数据源,构建了覆盖6000多种疾病和2万种药品的知识图谱,医学知识覆盖率达98%,精准率达90%以上。基于DeepSeek扩展多模态基座模型,MedGuide-M解决了医疗“最后一公里”难题,助力基层医疗标准化与智能化,为健康中国建设注入新动力。这一成果让优质医疗资源更可及,缩小了东西部医疗差距,提升了农村医疗服务水平,展现了科技的社会价值。

此外,今年2月香港生成式人工智能研发中心发布了香港首个人工智能大模型——HKGAI V1,是业界首个基于DeepSeek-R1 671B全参数微调训练和充分的地域价值对齐而成的大模型。北京大学人工智能研究院博士生、香港科技大学访问学者吉嘉铭作为团队技术骨干深度参与HKGAI V1研发,align-anything框架在HKGAI V1的全参数微调和价值观对齐中展现出卓越性能。

同时,北大对齐小组也协同北京大学计算中心联合部署基于DeepSeek的大模型工具,为校园智能化建设提供技术支持。该工具不仅实现功能分区的优化,还通过本地化专业知识对齐技术,更好地满足师生需求。