Skywork AI论文入选机器学习顶会 NeurIPS 2025 Spotlight
近期,Skywork AI与复旦大学联合发布的《Improving Multi-Step Reasoning Abilities of Large Language Models with Direct Advantage Policy Optimization》论文,被机器学习顶会NeurIPS 2025选为spotlight(中稿率仅为3.2%)论文。

论文下载地址:https://arxiv.org/abs/2412.18279
在大语言模型(LLM)向复杂任务延伸的过程中,数学推理、代码生成等多步推理任务因需精准的步骤逻辑,成为性能提升的关键瓶颈。
强化学习(RL)尤其是基于人类反馈的强化学习(RLHF),虽已成为LLM对齐与优化的重要工具,但在推理任务中仍面临两大核心难题。
是稀疏奖励问题——仅在终止步骤(如数学题最终答案、代码运行结果)给予奖励,中间推理步骤无直接反馈,导致优化方向模糊,需大量采样数据支撑,样本效率极低;二是训练不稳定性问题——传统Actor-Critic(AC)方法(如PPO)中,Actor(策略网络)与Critic(价值网络)同步训练,二者回归目标随彼此更新而动态变化,易出现训练崩溃,尤其在计算资源有限时更为明显。
针对这两大痛点,Skywork AI与复旦大学联合提出Direct Advantage Policy Optimization(DAPO)方法,一种步骤级离线强化学习算法,为大模型推理能力的优化开辟了新路径。
01 DAPO的核心设计: 两步分离架构,破解推理优化痛点
DAPO的核心创新在于将 “价值估计” 与 “策略优化” 拆分为两个独立阶段,通过步骤级的密集信号与离线训练模式,同时解决稀疏奖励与训练不稳定问题,其完整流程可分为Critic训练与Policy优化两大模块。 部分是Critic训练:构建步骤级密集价值信号,解决稀疏奖励。稀疏奖励的本质是 “中间步骤价值不可见”,DAPO通过训练一个Critic网络,为每个推理步骤赋予精准的价值估计,将稀疏的“结果奖励”转化为密集的“分步奖励”信号。 第二部分是Policy优化:离线优势学习,避免AC共训不稳定性。传统AC方法的不稳定性源于Actor与Critic的 “相互依赖更新”,DAPO则在Critic训练完成后,基于离线数据集独立优化Actor,彻底切断二者的动态依赖,其核心逻辑是优势函数引导的策略调整。 02 实验验证:数学与代码任务双突破, 泛化性与迭代性凸显
为验证DAPO的有效性,研究团队在数学推理与代码生成两大核心任务上开展了多组实验,覆盖SFT模型与已训RL模型,结果均证明了DAPO的优势。 1. 数学推理任务:覆盖多基准,SFT与RL模型均提升。 实验使用MATH数据集(7500道训练题、5000道测试题)作为核心训练数据,同时在GSM8K、Minerva Math、Olympiad Bench、College Math等跨领域基准上验证泛化性,基模型包括Llama3.1-8B-Instruct、Qwen2.5-72B-Instruct 等通用模型,以及Skywork-Math-Llama、Qwen2.5-Math-7B-Instruct 等数学专用RL模型。 - SFT模型提升显著:Skywork-Math-Llama经DAPO训练后,MATH测试集准确率从41.90%提升至46.88%(+4.98%),GSM8K从61.49%提升至 67.55%(+6.06%);OpenO1-Llama-8B-Instruct的MATH准确率更是从 52.73%提升至60.33%(+7.60%),跨领域的College Math准确率提升 4.59%,证明DAPO不仅优化在域任务,还能提升推理泛化性。 - RL模型持续优化:即使是已通过RL训练的Qwen2.5-Math-7B-Instruct(基线准确率 83.42%),DAPO仍能将其MATH准确率继续提升至84.86%(+1.44%),Olympiad Bench准确率提升1.50%;迭代DAPO(以轮 DAPO 输出为新参考策略)效果更明显——Skywork-Math-Llama经两轮DAPO后,MATH准确率达50.54%(累计+8.64%),验证了理论中的 “单调改进性”。 2. 代码生成任务:多基准同步提升,实用性突出。 代码任务使用TACO数据集(4000道竞赛级编程题)训练,在HumanEval、HumanEval+、MBPP、MBPP+、LiveCodeBench等基准上测试。 - Llama3.1-8B-Instruct经DAPO训练后,HumanEval准确率从72.0%提升至 75.0%(+3.0%),MBPP+准确率从56.9%提升至66.1%(+9.2%),LiveCodeBench提升2.1%; - OpenO1-LLama-8B-Instruct的HumanEval+准确率提升3.6%,MBPP准确率提升6.1%,仅LiveCodeBench略有下降(-2.4%),整体证明DAPO对代码生成的步骤逻辑优化同样有效。 03 创新价值与未来方向
相较于主流RLHF方法,DAPO的创新点体现在两方面: ,与DPO相比:DPO是 “轨迹级” 优化,仅基于完整响应的pairwise偏好更新策略,无法捕捉中间步骤的价值;DAPO则是 “步骤级” 优化,通过Critic网络实现中间步骤的价值估计,更适配多步推理任务。 第二,与PPO相比:PPO是 “在线AC方法”,需实时采样轨迹,样本成本高且训练不稳定;DAPO是 “离线两步法”,Critic先训保证价值估计精准,Actor独立优化避免共训干扰,样本效率与稳定性显著提升。 未来,DAPO仍存在可改进空间:一是训练数据量有限,仍需验证 “训练数据量与性能提升是否存在缩放律”;二是迭代实验不充分,需探索多轮迭代的性能上限;三是计算成本较高,Critic训练与Policy优化均需大量计算,需设计更轻量的价值估计与策略更新方式。 整体来说,DAPO通过 “Critic先训提供密集信号、Actor离线独立优化” 的两步架构,精准破解了LLM推理优化中的稀疏奖励与训练不稳定痛点,其理论上的单调改进性与实验中的跨任务有效性,证明了步骤级RL在复杂推理任务中的潜力。 未来随着训练数据规模的扩大与计算效率的提升,DAPO有望成为LLM推理能力优化的核心技术之一,推动LLM在数学、代码、科学计算等高精度推理领域的应用落地。


