Skywork AI论文入选机器学习顶会 NeurIPS 2025 Spotlight

发布日期：2025-10-20 来源：昆仑万维集团分享到：

近期，Skywork AI与复旦大学联合发布的《Improving Multi-Step Reasoning Abilities of Large Language Models with Direct Advantage Policy Optimization》论文，被机器学习顶会NeurIPS 2025选为spotlight（中稿率仅为3.2%）论文。

论文下载地址：https://arxiv.org/abs/2412.18279

在大语言模型（LLM）向复杂任务延伸的过程中，数学推理、代码生成等多步推理任务因需精准的步骤逻辑，成为性能提升的关键瓶颈。

强化学习（RL）尤其是基于人类反馈的强化学习（RLHF），虽已成为LLM对齐与优化的重要工具，但在推理任务中仍面临两大核心难题。

是稀疏奖励问题——仅在终止步骤（如数学题最终答案、代码运行结果）给予奖励，中间推理步骤无直接反馈，导致优化方向模糊，需大量采样数据支撑，样本效率极低；二是训练不稳定性问题——传统Actor-Critic（AC）方法（如PPO）中，Actor（策略网络）与Critic（价值网络）同步训练，二者回归目标随彼此更新而动态变化，易出现训练崩溃，尤其在计算资源有限时更为明显。

针对这两大痛点，Skywork AI与复旦大学联合提出Direct Advantage Policy Optimization（DAPO）方法，一种步骤级离线强化学习算法，为大模型推理能力的优化开辟了新路径。

01 DAPO的核心设计：

两步分离架构，破解推理优化痛点

DAPO的核心创新在于将 “价值估计” 与 “策略优化” 拆分为两个独立阶段，通过步骤级的密集信号与离线训练模式，同时解决稀疏奖励与训练不稳定问题，其完整流程可分为Critic训练与Policy优化两大模块。

部分是Critic训练：构建步骤级密集价值信号，解决稀疏奖励。稀疏奖励的本质是 “中间步骤价值不可见”，DAPO通过训练一个Critic网络，为每个推理步骤赋予精准的价值估计，将稀疏的“结果奖励”转化为密集的“分步奖励”信号。

第二部分是Policy优化：离线优势学习，避免AC共训不稳定性。传统AC方法的不稳定性源于Actor与Critic的 “相互依赖更新”，DAPO则在Critic训练完成后，基于离线数据集独立优化Actor，彻底切断二者的动态依赖，其核心逻辑是优势函数引导的策略调整。

02 实验验证：数学与代码任务双突破，

泛化性与迭代性凸显

为验证DAPO的有效性，研究团队在数学推理与代码生成两大核心任务上开展了多组实验，覆盖SFT模型与已训RL模型，结果均证明了DAPO的优势。

1. 数学推理任务：覆盖多基准，SFT与RL模型均提升。

实验使用MATH数据集（7500道训练题、5000道测试题）作为核心训练数据，同时在GSM8K、Minerva Math、Olympiad Bench、College Math等跨领域基准上验证泛化性，基模型包括Llama3.1-8B-Instruct、Qwen2.5-72B-Instruct 等通用模型，以及Skywork-Math-Llama、Qwen2.5-Math-7B-Instruct 等数学专用RL模型。

- SFT模型提升显著：Skywork-Math-Llama经DAPO训练后，MATH测试集准确率从41.90%提升至46.88%（+4.98%），GSM8K从61.49%提升至 67.55%（+6.06%）；OpenO1-Llama-8B-Instruct的MATH准确率更是从 52.73%提升至60.33%（+7.60%），跨领域的College Math准确率提升 4.59%，证明DAPO不仅优化在域任务，还能提升推理泛化性。

- RL模型持续优化：即使是已通过RL训练的Qwen2.5-Math-7B-Instruct（基线准确率 83.42%），DAPO仍能将其MATH准确率继续提升至84.86%（+1.44%），Olympiad Bench准确率提升1.50%；迭代DAPO（以轮 DAPO 输出为新参考策略）效果更明显——Skywork-Math-Llama经两轮DAPO后，MATH准确率达50.54%（累计+8.64%），验证了理论中的 “单调改进性”。

2. 代码生成任务：多基准同步提升，实用性突出。

代码任务使用TACO数据集（4000道竞赛级编程题）训练，在HumanEval、HumanEval+、MBPP、MBPP+、LiveCodeBench等基准上测试。

- Llama3.1-8B-Instruct经DAPO训练后，HumanEval准确率从72.0%提升至 75.0%（+3.0%），MBPP+准确率从56.9%提升至66.1%（+9.2%），LiveCodeBench提升2.1%；

- OpenO1-LLama-8B-Instruct的HumanEval+准确率提升3.6%，MBPP准确率提升6.1%，仅LiveCodeBench略有下降（-2.4%），整体证明DAPO对代码生成的步骤逻辑优化同样有效。

03 创新价值与未来方向

相较于主流RLHF方法，DAPO的创新点体现在两方面：

，与DPO相比：DPO是 “轨迹级” 优化，仅基于完整响应的pairwise偏好更新策略，无法捕捉中间步骤的价值；DAPO则是 “步骤级” 优化，通过Critic网络实现中间步骤的价值估计，更适配多步推理任务。

第二，与PPO相比：PPO是 “在线AC方法”，需实时采样轨迹，样本成本高且训练不稳定；DAPO是 “离线两步法”，Critic先训保证价值估计精准，Actor独立优化避免共训干扰，样本效率与稳定性显著提升。

未来，DAPO仍存在可改进空间：一是训练数据量有限，仍需验证 “训练数据量与性能提升是否存在缩放律”；二是迭代实验不充分，需探索多轮迭代的性能上限；三是计算成本较高，Critic训练与Policy优化均需大量计算，需设计更轻量的价值估计与策略更新方式。

整体来说，DAPO通过 “Critic先训提供密集信号、Actor离线独立优化” 的两步架构，精准破解了LLM推理优化中的稀疏奖励与训练不稳定痛点，其理论上的单调改进性与实验中的跨任务有效性，证明了步骤级RL在复杂推理任务中的潜力。

未来随着训练数据规模的扩大与计算效率的提升，DAPO有望成为LLM推理能力优化的核心技术之一，推动LLM在数学、代码、科学计算等高精度推理领域的应用落地。

Skywork AI论文入选机器学习顶会 NeurIPS 2025 Spotlight

你知道你的Internet Explorer是过时了吗?