欢迎光临北京软件和信息服务业协会官方网站
Skywork AI论文入选机器学习顶会 NeurIPS 2025 Spotlight
发布日期:2025-10-20    来源:昆仑万维集团    分享到:

近期,Skywork AI与复旦大学联合发布的《Improving Multi-Step Reasoning Abilities of Large Language Models with Direct Advantage Policy Optimization》论文,被机器学习顶会NeurIPS 2025选为spotlight(中稿率仅为3.2%)论文。

6b878312-a848-482e-9fdc-74383e918330.png

论文下载地址:https://arxiv.org/abs/2412.18279


在大语言模型(LLM)向复杂任务延伸的过程中,数学推理、代码生成等多步推理任务因需精准的步骤逻辑,成为性能提升的关键瓶颈。

强化学习(RL)尤其是基于人类反馈的强化学习(RLHF),虽已成为LLM对齐与优化的重要工具,但在推理任务中仍面临两大核心难题。

是稀疏奖励问题——仅在终止步骤(如数学题最终答案、代码运行结果)给予奖励,中间推理步骤无直接反馈,导致优化方向模糊,需大量采样数据支撑,样本效率极低;二是训练不稳定性问题——传统Actor-Critic(AC)方法(如PPO)中,Actor(策略网络)与Critic(价值网络)同步训练,二者回归目标随彼此更新而动态变化,易出现训练崩溃,尤其在计算资源有限时更为明显。

针对这两大痛点,Skywork AI与复旦大学联合提出Direct Advantage Policy Optimization(DAPO)方法,一种步骤级离线强化学习算法,为大模型推理能力的优化开辟了新路径。


01 DAPO的核心设计:

两步分离架构,破解推理优化痛点

DAPO的核心创新在于将 “价值估计” 与 “策略优化” 拆分为两个独立阶段,通过步骤级的密集信号与离线训练模式,同时解决稀疏奖励与训练不稳定问题,其完整流程可分为Critic训练与Policy优化两大模块。

部分是Critic训练:构建步骤级密集价值信号,解决稀疏奖励。稀疏奖励的本质是 “中间步骤价值不可见”,DAPO通过训练一个Critic网络,为每个推理步骤赋予精准的价值估计,将稀疏的“结果奖励”转化为密集的“分步奖励”信号。

第二部分是Policy优化:离线优势学习,避免AC共训不稳定性。传统AC方法的不稳定性源于Actor与Critic的 “相互依赖更新”,DAPO则在Critic训练完成后,基于离线数据集独立优化Actor,彻底切断二者的动态依赖,其核心逻辑是优势函数引导的策略调整。


02 实验验证:数学与代码任务双突破,

泛化性与迭代性凸显

为验证DAPO的有效性,研究团队在数学推理与代码生成两大核心任务上开展了多组实验,覆盖SFT模型与已训RL模型,结果均证明了DAPO的优势。

1. 数学推理任务:覆盖多基准,SFT与RL模型均提升。

实验使用MATH数据集(7500道训练题、5000道测试题)作为核心训练数据,同时在GSM8K、Minerva Math、Olympiad Bench、College Math等跨领域基准上验证泛化性,基模型包括Llama3.1-8B-Instruct、Qwen2.5-72B-Instruct 等通用模型,以及Skywork-Math-Llama、Qwen2.5-Math-7B-Instruct 等数学专用RL模型。

- SFT模型提升显著:Skywork-Math-Llama经DAPO训练后,MATH测试集准确率从41.90%提升至46.88%(+4.98%),GSM8K从61.49%提升至 67.55%(+6.06%);OpenO1-Llama-8B-Instruct的MATH准确率更是从 52.73%提升至60.33%(+7.60%),跨领域的College Math准确率提升 4.59%,证明DAPO不仅优化在域任务,还能提升推理泛化性。

- RL模型持续优化:即使是已通过RL训练的Qwen2.5-Math-7B-Instruct(基线准确率 83.42%),DAPO仍能将其MATH准确率继续提升至84.86%(+1.44%),Olympiad Bench准确率提升1.50%;迭代DAPO(以轮 DAPO 输出为新参考策略)效果更明显——Skywork-Math-Llama经两轮DAPO后,MATH准确率达50.54%(累计+8.64%),验证了理论中的 “单调改进性”。

2. 代码生成任务:多基准同步提升,实用性突出。

代码任务使用TACO数据集(4000道竞赛级编程题)训练,在HumanEval、HumanEval+、MBPP、MBPP+、LiveCodeBench等基准上测试。

- Llama3.1-8B-Instruct经DAPO训练后,HumanEval准确率从72.0%提升至 75.0%(+3.0%),MBPP+准确率从56.9%提升至66.1%(+9.2%),LiveCodeBench提升2.1%;

- OpenO1-LLama-8B-Instruct的HumanEval+准确率提升3.6%,MBPP准确率提升6.1%,仅LiveCodeBench略有下降(-2.4%),整体证明DAPO对代码生成的步骤逻辑优化同样有效。


03 创新价值与未来方向

相较于主流RLHF方法,DAPO的创新点体现在两方面:

,与DPO相比:DPO是 “轨迹级” 优化,仅基于完整响应的pairwise偏好更新策略,无法捕捉中间步骤的价值;DAPO则是 “步骤级” 优化,通过Critic网络实现中间步骤的价值估计,更适配多步推理任务。

第二,与PPO相比:PPO是 “在线AC方法”,需实时采样轨迹,样本成本高且训练不稳定;DAPO是 “离线两步法”,Critic先训保证价值估计精准,Actor独立优化避免共训干扰,样本效率与稳定性显著提升。

未来,DAPO仍存在可改进空间:一是训练数据量有限,仍需验证 “训练数据量与性能提升是否存在缩放律”;二是迭代实验不充分,需探索多轮迭代的性能上限;三是计算成本较高,Critic训练与Policy优化均需大量计算,需设计更轻量的价值估计与策略更新方式。

整体来说,DAPO通过 “Critic先训提供密集信号、Actor离线独立优化” 的两步架构,精准破解了LLM推理优化中的稀疏奖励与训练不稳定痛点,其理论上的单调改进性与实验中的跨任务有效性,证明了步骤级RL在复杂推理任务中的潜力。

未来随着训练数据规模的扩大与计算效率的提升,DAPO有望成为LLM推理能力优化的核心技术之一,推动LLM在数学、代码、科学计算等高精度推理领域的应用落地。

你知道你的Internet Explorer是过时了吗?

为了得到我们网站最好的体验效果,我们建议您升级到最新版本的Internet Explorer或选择另一个web浏览器.一个列表最流行的web浏览器在下面可以找到.