自主进化的大模型训练方法

本成果是一种快速、自主增强大模型领域能力的通用方法，可以应用于教育培训、航空航天、金融、代码、工业等领域。通用大模型具有极强的泛化、推理、理解和生成能力，已经在许多垂直领域展示出突出优势。然而，在复杂场景中大模型存在不理解和不适应的问题。因此，本成果通过自主进化算法和慢思考复杂推理增强技术，在领域内获取自身反馈和环境反馈，快速提高其领域适应性，并增强复杂场景推理与生成能力。该流程提供了一整套从无领域能力进化成领域专家模型的自我进化训练方案，包含三个关键阶段：

· 第一阶段：导师监督学习，旨在赋予模型基本的领域知识，让模型能够完成领域任务；

· 第二阶段：自我评估能力习得，通过借助通用大模型的指导，进一步迭代训练学习，赋予模型自我评判的能力；

· 第三阶段：自我提升训练，通过自我批判完成自我进化。

图1.自主进化大模型流程

本成果已经在高校、职教以及企业培训等多种场景形成了智能教育解决方案。通过大模型进化的思想不断提升领域大模型的核心能力，继续增强教育大模型的底层能力，支持教育领域中多种复杂场景需求。依托领域大模型、自主进化和慢思考推理增强等核心算法，提供了智能教案生成、PPT自动生成、自动考题生成、作业指导与评估、AI伴学、AI助教、视频课程辅导、编程指导等一站式功能。与开源模型以及闭源通用模型相比，本成果转化的教育领域大模型可以生成更专业、更详细、更符合场景应用的内容。

本成果已经在教育、培训领域产生核心技术和整体解决方案，可以快速复用，相较于同类产品，具有可以生成更专业、更详细、更符合场景内容的优势。此外，核心技术的持续进化能力，可以在细小场景不断优化其效果。在其他领域，可以依托本成果的技术，包括航空航天、军事、金融、工业等领域持续开发应用。

对比了应用进化方法（METEOR）后大模型前后各维度的性能变化。在准确性、完整性、相关性、连贯性和可靠性方面，可以使得任意开源基座模型的性能提高50%，甚至更高（如下图所示，LLaMA3-8B-Instruct和Qwen2-7B-Instruct性能取得了显著提升）。

图2.在教育领域应用使用自主进化方法的性能提升

在2B、7B、14B等不同量级的基座模型下，该方法同样适用，下面是在代码生成领域的性能指标及其优势。

图3. 在代码生成领域使用自主进化方法的性能提升

基于本成果研发的DirectionAI智能教育服务平台，为教育者和学习者打造智能化、个性化的教学环境。在线访问链接：http://www.directionai.cn/。

图4. 教育场景解决方案