June 23, 2026 中 #Reinforcement Learning #RLHF #Reasoning

Critique-GRPO：用自然语言批评反馈突破强化学习训练瓶颈

笔记日期： 2026-06-23 笔记作者： Zhongzhu Zhou 论文标题： Advancing LLM Reasoning with Natural Language and Numerical Feedback（用自然语言与数值反馈提升大语言模型推理能力） 作者： Xiaoying Zhang, Yipeng Zhang, Hao Sun, Kaituo Feng, Chaochao Lu, Chao Yang, Helen Meng arXiv： 2506.03106 状态/Venue： ICML 2026 Spotlight（第43届国际机器学习大会，首尔）

一句话总结

Critique-GRPO 是一个在线 RL 框架，它把**自然语言批评反馈（critique）**融入 GRPO 训练循环，让模型同时从初始生成和批评引导的自我改进中学习，有效突破了纯数值奖励 RL 的三大瓶颈，在八个推理任务上超越了所有现有的监督和强化学习微调方法。

前置知识：读懂这篇论文你需要了解什么

这篇论文涉及策略梯度强化学习、GRPO 算法以及自然语言反馈。让我先把这些背景知识解释清楚。

1. 为什么对语言模型用 RL？

**监督微调（SFT）**的直觉是：给模型展示正确答案，让它模仿。这个方法有两个根本限制：

你需要大量高质量标注数据——而对于复杂推理题，标注本身就很难
模型只学会”照着葫芦画瓢”，不学会”为什么这样推理”

强化学习（RL）的思路不同：给一个问题 $q$ ，让模型（称为策略 $\pi_\theta$ ）自己生成回答 $y$ ，然后根据答案是否正确给一个奖励 $R(q, y)$ ，通过反复试错来优化策略。目标是最大化期望奖励：

\mathcal{J}(\theta) = \mathbb{E}_{q \sim Q,\ y \sim \pi_\theta(\cdot | q)} \left[ R(q, y) \right]

这种方法不需要大量标注示范数据，只需要一个能判断对错的奖励函数（比如”答案和标准答案一样就得 1 分，否则 0 分”）。

2. 策略梯度定理：如何对 RL 做梯度下降？

问题在于： $R(q,y)$ 是不可微的（“正确”和”错误”之间没有连续的梯度）。但期望是可微的！策略梯度定理给出：

\nabla_\theta \mathcal{J}(\theta) = \mathbb{E}_{q \sim Q,\ y \sim \pi_\theta} \left[ R(q, y) \cdot \nabla_\theta \log \pi_\theta(y | q) \right]

直觉：如果某个回答 $y$ 得了高奖励，就提高 $\pi_\theta(y|q)$ （策略给 $y$ 更高的概率）；如果奖励低，就降低它。对于一个由 $T$ 个 token 组成的序列，对数似然分解为：

\log \pi_\theta(y|q) = \sum_{t=1}^{T} \log \pi_\theta(y_t | q, y_{<t})

实践中，用优势函数 $A(q,y) = R(q,y) - \text{baseline}$ 替代原始奖励，以减小方差。

3. GRPO：无需价值网络的高效 RL

PPO（近端策略优化）是最常用的策略梯度算法，引入了裁剪来防止策略更新过大。但 PPO 的核心问题：它需要训练一个额外的价值网络 $V_\phi(q, y_{<t})$ 来估计每个状态的期望回报。对于 LLM，这意味着几乎翻倍的显存占用。

GRPO（组相对策略优化）解决了这个问题：对每个问题 $q$ ，从旧策略 $\pi_{old}$ 采样 $n$ 个回答 $\{y^{(1)}, \ldots, y^{(n)}\}$ ，用组内奖励均值作为基准，直接计算优势：

\hat{A}_t^{(i)} = \frac{R^{(i)} - \text{mean}(\{R^{(1)}, \ldots, R^{(n)}\})}{\text{std}(\{R^{(1)}, \ldots, R^{(n)}\})}

直觉：比组平均表现好的回答获得正优势（被强化），比平均差的获得负优势（被抑制）。无需价值网络，GRPO 大幅降低了训练成本，成为 DeepSeek-R1、Qwen3 等模型的核心训练方法。

GRPO 目标函数：

\mathcal{J}_{GRPO}(\theta) = \mathbb{E}_{q \sim Q, \{y^{(i)}\}_{i=1}^n \sim \pi_{old}(\cdot|q)} \left[ \frac{1}{n} \sum_{i=1}^n \frac{1}{|y^{(i)}|} \sum_{t=1}^{|y^{(i)}|} \min\!\left( r_t^{(i)}(\theta)\hat{A}_t^{(i)},\ \text{clip}(r_t^{(i)}(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t^{(i)} \right) \right] \tag{1}

其中 $r_t^{(i)}(\theta) = \frac{\pi_\theta(y^{(i)}_t | q, y^{(i)}_{<t})}{\pi_{old}(y^{(i)}_t | q, y^{(i)}_{<t})}$ 是概率比， $\frac{1}{|y^{(i)}|}$ 对 token 位置做平均以避免长度偏差。

4. 纯数值奖励为什么不够？

这是本文解决的核心问题。当奖励只有 0 或 1 时，梯度信号 $R^{(i)} \cdot \nabla_\theta \log \pi_\theta(y^{(i)}|q)$ 完全无法告诉模型它哪里错了，更无法指导如何改正。

想象一下：一个学生做了一道题，老师只告诉他”错了”——没有红色批注，没有解题提示。他只能靠随机试错来改进，而且大多数随机尝试仍然是错的。这就是纯数值 RL 面临的困境。

而**自然语言批评（critique）**能说：“第三步你计算几何平均数时错误地假设了独立性，正确做法应该是……”。这种反馈信息量指数级地高于二元信号。

纯数值反馈的三大根本局限

论文首先从实证角度系统记录了纯数值 RL 的三个失效模式。

局限一：性能平台期（Performance Plateaus）

作者在三个模型（Qwen2.5-7B-Base、Qwen3-8B、Qwen3-8B-Base）上进行测试：即使把训练数据量从 4k 扩大到 32k（8 倍增加），或者延长训练步数，性能在约 120 步后就基本停滞。

为什么会这样？二元奖励对所有错误回答给出同样为零的梯度信号，无论这个回答是”完全跑偏”还是”差一点点就对了”。一旦模型学会了所有”容易”的题（那些通过随机采样偶尔能答对的），难题上的梯度信号就几乎消失，训练停滞。

局限二：无效的自发自我反思（Ineffective Spontaneous Self-Reflection）

RL 训练过程中，模型会逐渐产生各种认知行为。作者分析了六类行为：

规划行为：子目标设置（subgoal setting）、总结（summarization）
自我反思行为：验证（verification）、回溯（backtracking）、逆向推理（backward chaining）、预期（anticipation）

结论：对于那些只有 RL 微调模型才能解对的题目（即相对基模的新增能力），自我反思行为对成功贡献极小。模型没有发展出系统性的纠错能力——它只是在”反复猜测”，而不是”有针对性地反思”。

局限三：持续性失败（Persistent Failures）

即使是最好的 RL 微调 Qwen2.5-7B-Base，仍然对约 29.07% 的训练题持续失败（Pass@4=0，即采样 4 次均错误）。这些是数值 RL 无法突破的根本性困难题。

然而，当向这个已失败的模型提供自然语言批评（CoT Critique）时，它能够成功改进回答的比例高达 36.47%（有效改进率），55.37% 的问题能够被成功修正（见表 1）。这说明模型本身有能力纠错，只是数值 RL 信号无法激活这种能力。

三种批评类型：信息量逐级递增

论文研究了三种自然语言批评，信息量依次递增：

flowchart TD
    A["原始问题 q + 错误回答 y^(i)"] --> B["指示性批评\nIndicative Critique"]
    A --> C["指示性批评 + 标准答案\nIndicative Critique w/ GT"]
    A --> D["链式思考批评\nCoT Critique"]
    
    B --> B1["'该生成解答是错的'\n→ 仅告知失败，无指导"]
    C --> C1["'该生成解答是错的，\n标准答案是 7/25'\n→ 给出目标，无步骤指导"]
    D --> D1["'逐步分析学生的解法：\n第1步：几何理解...正确\n第7步：精确计算...错误\n结论：错误[END]'\n→ 步骤级错误定位 + 解释"]

图1：三种批评类型的信息量层次。CoT 批评提供步骤级纠错信息，有效改进率比指示性批评高约 17 倍。

改进成功率对比（表1，基于 29.07% 的持续失败问题）：

批评类型	有效改进率	问题改进率
指示性批评	2.09%	7.05%
指示性 + 标准答案	1.98%	6.88%
CoT 批评	36.47%	55.37%

CoT 批评的有效改进率是指示性批评的 17 倍。步骤级错误定位让模型能够精准找到推理链中的具体错误点并加以修正。

Critique-GRPO 方法详解

flowchart LR
    Q["问题 q"] --> PM["策略模型 π_θ"]
    PM --> Gen["初始回答采样\ny^(1)...y^(n)"]
    Gen --> RS["奖励系统\n规则式/模型式"]
    RS --> Crit["批评生成\nc^(1)...c^(n)"]
    RS --> Rew["标量奖励\nR^(1)...R^(n)"]
    Gen --> |"全部错误时触发"| SelfRef["批评引导自我改进\ny'_refined"]
    Crit --> SelfRef
    SelfRef --> RS2["改进奖励评估\nR^(i')_refined"]
    Rew --> GC["组计算\n统一基准"]
    RS2 --> GC
    GC --> Adv["带权优势\nÂ_t^(i)"]
    Adv --> PU["策略更新\nJ_init + J_refi"]
    PU --> PM

图2：Critique-GRPO 在线强化学习架构。模型先采样初始回答，当全部失败时触发批评引导的自我改进，最终用混合训练组更新策略。

第一步：初始回答采样

对每个问题 $q \in Q$ ：

从旧策略采样 $n$ 个回答： $\{y^{(1)}, \ldots, y^{(n)}\} \sim \pi_{old}(\cdot | q)$
对每个回答计算奖励： $R^{(i)} \in \{0, 1\}$ （正确为1，错误为0）
生成批评 $c^{(i)}$ $c^{(i)}$ ，支持两种奖励系统：
- 规则式：启发式构建指示性批评（ $c^{(i)}_I \leftarrow R^{(i)}$ ）或带标准答案的指示性批评（ $c^{(i)}_{GT}$ ）
- 模型式：奖励模型 $\pi_{RM}$ 生成 CoT 批评： $c^{(i)}_{CoT} \sim \pi_{RM}(\cdot | I_c, q, y^{(i)})$

CoT 批评的正确性判断决定标量奖励： $R^{(i)} \leftarrow c^{(i)}_{CoT}.\text{is\_correct}$ 。

第二步：批评引导的自我改进

触发条件：仅当初始回答集 $\{y^{(i)}\}_{i=1}^n$ 中没有一个正确（所有 $R^{(i)} = 0$ ）时才激活。

理由：如果至少有一个回答正确，GRPO 已经可以从对比中学习；只有全部失败时，才需要批评来提供逃离零梯度陷阱的信号。

改进回答生成：对每个回答 $y^{(i)}$ ，以问题-回答-批评三元组为上下文，通过上下文学习生成改进版：

y^{(i')}_{refined} \sim \pi_{old}\!\left(\cdot \;|\; I_{refine},\ q,\ y^{(i')},\ c^{(i')}\right)

其中 $I_{refine}$ 是改进指令提示。

质量感知采样：从全部改进回答中选取 $k$ 个用于训练，优先保留正确的改进回答；若无正确改进则随机采样。这防止模型只学会一种固定的改进模式。

最终训练组合并初始回答和改进回答：

\text{训练组} = \{y^{(i)}\}_{i=1}^n \cup \{y^{(i')}_{refined}\}_{i'=1}^k

第三步：在线策略优化

总训练目标：

\mathcal{J}_{Critique\text{-}GRPO}(\theta) = \mathcal{J}_{init}(\theta) + \mathcal{J}_{refi}(\theta) \tag{2}

初始回答目标（标准 GRPO 形式）：

\mathcal{J}_{init}(\theta) = \mathbb{E}_{q,\ \{y^{(i)}\}_{i=1}^n \sim \pi_{old}} \!\left[ \frac{1}{n} \sum_{i=1}^n \frac{1}{|y^{(i)}|} \sum_{t=1}^{|y^{(i)}|} \min\!\left( r_t^{(i)}(\theta)\hat{A}_t^{(i)},\ \text{clip}(r_t^{(i)}(\theta), 1\!-\!\epsilon, 1\!+\!\epsilon)\hat{A}_t^{(i)} \right) \right] \tag{3}

改进回答目标：

\mathcal{J}_{refi}(\theta) = \mathbb{E}_{q,\ \{y^{(i')}_{refined}\}_{i'=1}^k \sim \pi_{old}} \!\left[ \frac{1}{k} \sum_{i'=1}^k \frac{1}{|y^{(i')}_{refined}|} \sum_{t=1}^{|y^{(i')}_{refined}|} \min\!\left( \rho_t^{(i')}(\theta)\hat{A}_t^{(i')},\ \text{clip}(\rho_t^{(i')}(\theta), 1\!-\!\epsilon, 1\!+\!\epsilon)\hat{A}_t^{(i')} \right) \right] \tag{4}

关键区别——策略塑形（Policy Shaping）：改进回答使用一种特殊的概率比 $\rho$ ，而不是标准重要性采样比 $r$ ：

\rho_t^{(i')}(\theta) = \frac{\pi_\theta(y^{(i')}_{refined,t} \;|\; q, y^{(i')}_{refined,<t})}{\pi_\theta(y^{(i')}_{refined,t} \;|\; q, y^{(i')}_{refined,<t}) + \gamma}, \quad 0 < \gamma < 1 \tag{5}

为什么需要策略塑形？ 改进回答 $y^{(i')}_{refined}$ 是在批评 $c^{(i')}$ 条件下生成的，但推理时模型没有批评可用——它必须把纠错能力内化。

标准重要性采样的问题：如果当前策略 $\pi_\theta$ 认为某个改进 token 的概率很低（即 $\pi_\theta(y^{(i')}_{refined,t}) \approx 0$ ），那么标准比率 $r_t = \pi_\theta / \pi_{old}$ 也会接近零，这个 token 的梯度贡献几乎被完全忽略。即使这个 token 对应一个非常有价值的纠错模式，训练也无法从中学习。

分母中的 $\gamma$ 起到”地板”的作用：它防止概率比降到零，确保高优势的改进 token 无论当前策略多么不倾向于产生它，都能获得合理的梯度权重。

统一基准的优势计算：初始回答和改进回答的优势共用一个基准，来自两类回答奖励的合并均值：

\hat{A}_t^{(i/i')} = R^{(i/i')} - \text{mean}\!\left(\{R^{(i)}\}_{i=1}^n \cup \{R^{(i')}_{refined}\}_{i'=1}^k\right)

注：论文中移除了 KL 散度惩罚（跟随 Liu et al., 2025）和长度归一化，避免了有偏梯度问题。

算法流程（伪代码）

算法：Critique-GRPO 训练
输入：问题集 Q, 旧策略 π_old, 奖励系统 RS, 
     组大小 n, 改进数 k, 塑形系数 γ, 
     裁剪参数 ε, 批评类型 C ∈ {指示, 标准答案, CoT}
输出：更新后的策略 π_θ

每次训练迭代：
  对每批问题 q：
    
    // 第一步：初始回答采样
    采样 {y^(1),...,y^(n)} ~ π_old(·|q)
    
    对每个 i = 1,...,n：
      计算奖励: R^(i) ← RS.score(q, y^(i))
      生成批评: c^(i) ← RS.critique(q, y^(i), C)
    
    // 判断是否需要自我改进
    如果 所有 R^(i) = 0（全部失败）：
      
      // 第二步：批评引导的自我改进
      对每个 i' = 1,...,n：
        生成: y^(i')_refined ~ π_old(·|I_refine, q, y^(i'), c^(i'))
        评估: R^(i')_refined ← RS.score(q, y^(i')_refined)
      
      // 质量优先采样（优先选正确改进）
      从完整改进集中选 k 个 {y^(i')_refined}，
        优先 R^(i')_refined=1 的；无则随机采样
      
      // 合并训练组
      训练组 ← {y^(i)}_{i=1}^n ∪ {y^(i')_refined}_{i'=1}^k
    否则：
      训练组 ← {y^(i)}_{i=1}^n
    
    // 第三步：在线策略优化
    计算统一基准: B ← mean({R^(i)} ∪ {R^(i')_refined})
    
    对训练组中每个 y^(i)：
      计算优势: Â^(i)_t ← R^(i) - B
      
      如果是初始回答：
        比率: r^(i)_t(θ) ← π_θ(...) / π_old(...)  // 标准重要性采样
      如果是改进回答：
        比率: ρ^(i')_t(θ) ← π_θ(...) / [π_θ(...) + γ]  // 策略塑形
      
      计算裁剪目标: ℒ^(i) ← min(比率 × Â, clip(比率, 1-ε, 1+ε) × Â)
    
    // 梯度更新
    θ ← θ + α × ∇_θ [J_init(θ) + J_refi(θ)]

理论分析：批评如何指数级压缩搜索空间

论文最值得深思的部分是命题 4.1，它形式化地解释了为什么批评能大幅加速学习。作者使用转移 Eluder 维度框架（Xu et al., 2025）。

flowchart TD
    Hyp["假设空间 ℱ\n所有可能的解法策略"] --> A
    Hyp --> B
    Hyp --> C
    
    A["纯数值反馈\n(binary reward)"] --> A1["搜索空间: O(|S|^L)\n对 L 步序列完全枚举\n每步有 |S| 种选择"]
    B["指示性反馈\n(c_I 或 c_GT)"] --> B1["限制空间: A_c ⊂ A\n起到剪枝作用\n但最差情况仍 O(|S|^L)"]
    C["构造性反馈\n(c_CoT)"] --> C1["L 个独立子问题，每个大小 |S|\n总复杂度 O(|S| × L)\n相比原来指数级压缩！"]

图3：三种反馈类型对假设空间的压缩效果。CoT 批评通过步骤级错误定位，将指数搜索问题分解为线性搜索问题。

形式化设定：考虑一个推理问题，目标是构造一个隐藏的最优解 $a^* = (s_1^*, \ldots, s_L^*)$ ，每步 $s_i \in S$ ，动作空间 $\mathcal{A} = \bigcup_{k=1}^L S^k$ 。

纯数值反馈：二元奖励只说明最终答案对否，智能体必须实质上枚举整个动作空间。Eluder 维度约为 $\dim_E(\mathcal{F}) \approx O(|S|^L)$ 。

指示性反馈（ $c_I$ , $c_{GT}$ ）：批评起到剪枝信号作用，将搜索限制在子空间 $\mathcal{A}_c \subset \mathcal{A}$ ，但由于不知道错误位置，最差情况仍然是 $O(|S|^L)$ 。

构造性反馈（ $c_{CoT}$ ）：如果 CoT 批评定位了第一个错误步骤 $t$ ，问题就分解为 $L$ 个独立的子问题，每个子问题大小为 $|S|$ 。每一步的复杂度变为 $O(|S|)$ ，整体复杂度降至 $O(|S| \cdot L)$ 。

推论（样本效率）：对于固定计算预算 $M$ （ $|S| \ll M \ll |S|^L$ ）：

P\!\left(a^* \in \{y^{(j)}_{refined}\}_{j=1}^M\right) \gg P\!\left(a^* \in \{y^{(i)}\}_{i=1}^M\right)

批评引导的探索找到正确解的概率指数级高于纯随机采样。这就是表 3 中 4k 数据量就能超越 46k 数据量的纯数值 RL 方法的理论根源。

实验设置

训练数据：从重组后的 46k OpenR1-Math-220k 子集中随机抽取 4k 样本（Bakouch et al., 2025）。

测试模型：Qwen2.5-7B-Base（非推理模型）、Qwen3-8B（带 thinking 的推理模型）、Qwen2.5-Math-7B-Base（数学专用）、Llama-3.2-3B-Instruct

评测基准：

分布内（ID）数学：MATH-500、Minerva-MATH、OlympiadBench、AMC 2023、AIME 2024/2025
分布外（OOD）科学和通用：TheoremQA、GPQA-Diamond、MMLU-Pro

对比方法：

监督学习类：SFT、RAFT、Refinement FT、Critique FT、CITL-FT
RL 类：R1-GRPO（标准 GRPO）、R1-DrGRPO（无优化偏置项的 GRPO）

实现：通过 VERL 框架（Sheng et al., 2024）实现异步 rollout，提升计算效率。

实验结果

主要结果：Critique-GRPO 全面超越基线

xychart-beta
    title "8个推理任务平均 Pass@1 (Qwen2.5-7B-Base)"
    x-axis ["基模型", "SFT", "RAFT", "Ref-FT", "CritFT", "CITL-FT", "R1-GRPO", "Dr-GRPO", "C-GRPO (指示)", "C-GRPO (GT)", "C-GRPO (CoT)"]
    y-axis 28 --> 52
    bar [32.04, 33.04, 34.27, 35.21, 34.76, 35.66, 41.18, 42.66, 44.62, 45.30, 47.08]

图4：Critique-GRPO 各变体均大幅领先所有监督和 RL 基线。CoT 批评版本在 Qwen2.5-7B-Base 上达到 47.08%，比 R1-GRPO（41.18%）高出 5.9 个百分点。

表2 中关键数据汇总：

方法	Qwen2.5-7B-Base 均值	Qwen3-8B 均值
基模型	32.04	53.23
R1-GRPO	41.18	63.75
R1-DrGRPO	42.66	64.46
C-GRPO（CoT）	47.08	68.26

重要观察：Critique-GRPO 不需要专家示范数据！与需要专家示范的 CITL-FT（在线批评微调）相比，Critique-GRPO（47.08% vs 35.66%）高出 11.4 个百分点。在线 RL 训练是关键——单纯用批评数据做 SFT 远不如在线 RL 循环。

数据效率：仅用 4k 样本就超越 46k 样本方法

表 3（Qwen2.5-Math-7B-Base）是令人印象最深刻的结果之一：

方法	训练数据量	MATH-500	总均值
SimpleRL-Zero*	46k	76.00	~34.5
PRIME-Zero*	46k	81.40	~34.0
Oat-Zero*	46k	81.40	~41.0
Critique-GRPO (CoT)	4k	84.20	51.06

仅用 1/10 的训练数据，Critique-GRPO 在 MATH-500 上的成绩（84.20%）就超越了需要 46k 数据的 PRIME-Zero（81.40%）。这直接来自命题 4.1 的复杂度压缩效果：批评把指数搜索变成线性搜索，样本效率指数级提升。

通过自我批评实现自我提升

最令人兴奋的实验：Critique-GRPO 能否让模型通过批评自己的回答来持续改进？

表4 和图3 显示，在 Qwen3-8B 上，Critique-GRPO 自我批评版本：

AIME 2024 Pass@1：66.7%（vs R1-GRPO 40.0%，+26.7 个百分点！）
Pass@32：93.3%（vs R1-GRPO 80.0%）

xychart-beta
    title "AIME 2024 Pass@k 曲线 (Qwen3-8B)"
    x-axis ["k=1", "k=2", "k=4", "k=8", "k=16", "k=32", "k=64", "k=128", "k=256"]
    y-axis 35 --> 100
    line [66.7, 70.0, 76.7, 80.0, 83.3, 86.7, 90.0, 93.3, 93.3]
    line [40.0, 46.7, 53.3, 60.0, 63.3, 70.0, 73.3, 80.0, 80.0]
    line [50.0, 53.3, 56.7, 63.3, 66.7, 70.0, 73.3, 80.0, 80.0]

图5：AIME 2024 Pass@k 曲线对比。上线为 Critique-GRPO（自我批评），中线为 SFT，下线为 R1-GRPO。Critique-GRPO 在所有 k 值上均大幅领先。

为什么自我批评有效？Critique-GRPO 训练过程让模型内化了批评引导的纠错能力——推理时，模型可以先生成批评（指出自己的错误），再据此改进答案。这是真实的自我提升能力，而不仅仅是更好地调用随机性。

策略熵动态分析

论文分析了训练过程中各方法的策略熵（不确定性）变化（图4）：

关键发现：

Critique-GRPO 保持了更高的策略熵：比 R1-GRPO 和 R1-DrGRPO 更持续地探索
早期熵峰（步骤 50-200）出现在改进回答与初始回答偏差最大时——正是模型探索新纠错模式的阶段
随后的熵下降反映模型迅速内化了批评引导的推理模式

这与 Cui et al. (2025b) 的理论吻合：罕见但正确的推理路径（高优势动作）会增加策略熵，推动更广泛的探索；常见的高分路径（已掌握的模式）会降低熵，形成稳固技能。

细粒度消融实验（表6）

对 Qwen2.5-7B-Base 进行组件贡献分析：

修改	均值 Pass@1	相对提升
R1-GRPO 基线	41.18	—
+ 移除 KL 损失	42.66	+1.48
+ 语言反馈（CoT 批评）	43.26	+0.60
+ 质量感知采样	43.95	+0.69
+ 策略塑形	47.08	+3.13

策略塑形是最大的单一贡献项（+3.1 分）。这验证了之前的分析：没有策略塑形，改进回答的梯度信号会被重要性采样比稀释到几乎为零，训练无法从批评中有效学习。

弱模型能否改进强模型？

表7 探索了”弱到强泛化”：用弱模型 Qwen3-8B-Base 生成批评和改进回答，来训练更强的 Qwen3-8B。

结果：Critique-GRPO（弱模型改进）仍然达到 65.55% vs R1-GRPO 63.75%（+1.8%）。这说明不需要顶级大模型来提供批评——更小、更便宜的模型也能发挥引导作用。这对实际部署有重要意义：不必每步训练都调用 GPT-4o 级别的模型。

在线联合优化 vs 顺序基线（表8）

一个经常被忽视的实验：Critique-GRPO 的优势来自在线联合训练，还是仅仅是”多了批评数据”？

顺序基线：先跑 R1-GRPO 至收敛，再用批评改进数据做 SFT 微调。结果：

方法	MATH-500	AMC23	GPQA	均值
R1-GRPO	74.00	42.50	33.33	41.18
R1-GRPO + Ref-SFT（顺序）	75.40	47.50	41.20	43.15
Critique-GRPO（在线联合）	77.80	62.50	37.88	47.08

在线联合训练（47.08%）远优于顺序方法（43.15%），尤其在难题上（AMC23：+15 分）。这说明初始回答学习与批评引导改进的协同作用才是关键，两个阶段必须并行进行，而不是串行堆叠。

批判性分析：不足与可改进之处

这篇论文有很多值得称道之处，但也有一些重要的局限和值得改进的地方，让我来逐一分析。

不足与缺陷

1. 策略模型规模有限

主要结果集中在 3B 和 7-8B 参数量的模型上。2026 年的前沿模型已经达到 70B-700B，训练动态差异显著。更大规模下，批评生成的计算开销可能会成为严重瓶颈——每步训练都需要调用批评模型进行多次推理，对 70B 参数的策略模型来说这个开销极其可观。论文虽然在附录中测试了 Qwen3-32B，但没有系统研究增益如何随规模变化。

2. CoT 批评模型的强依赖性

最强的结果依赖于 GPT-4o 作为批评模型（表5）。使用开源模型时（Llama-3.1-405B：46.79%，DeepCritic-7B：47.98%），增益有所降低。这创造了一个实践困境：想用弱模型，但弱模型的批评质量不稳定；用强模型，开销大。论文没有系统研究批评质量（而非批评类型）对最终性能的影响——即同一类型批评、不同质量时的增益曲线。

3. 评估范围过窄

八个基准全部是数学和理工推理任务。论文声称 Critique-GRPO 提升的是”复杂推理能力”，但完全没有在以下领域测试：

代码生成（批评信号可以是编译错误或测试失败）
多跳问答（GPQA 是个开始，但远不够）
工具调用和智能体任务
创意写作或开放式问题（无法用二元奖励判断对错）

方法可能高度依赖于”存在可验证二元奖励”这一前提，而现实世界中很多有价值的任务不满足这个条件。

4. 计算开销未充分披露

生成 CoT 批评和运行自我改进每步都需要额外的模型推理，这可能使训练时间增加 2-3 倍。主论文没有提供墙上时间（wall-clock time）的对比。如果 Critique-GRPO 需要 3× 训练时间，那与”R1-GRPO 跑 3× 步数”的公平对比结果如何？没有这个分析，效率主张存在盲区。

5. 29% 持续失败问题仍然存在

表1 显示 CoT 批评能改进 55.37% 的持续失败问题，也意味着 44.63% 仍然无法被批评激活。论文没有分析这些”真正顽固”的失败案例的特征：是因为模型完全缺乏相关概念知识？因为批评模型自身也不会做这类题？因为题目本身对当前规模的模型超出能力范围？这个分析缺失让从业者无法预判方法的适用边界。

作者轻描淡写或回避的局限

奖励模型可靠性：对于模型式批评，奖励由批评模型的正确性判断决定（ $R^{(i)} \leftarrow c^{(i)}_{CoT}.\text{is\_correct}$ ）。如果批评模型把正确答案标记为错误（误判），这个错误信号会直接污染策略梯度。论文没有报告这种标注噪声的发生频率，也没有分析它对训练稳定性的影响。

改进数据的推理正确性：奖励信号基于最终答案的正确性，但被训练的改进轨迹可能包含错误的中间推理步骤（“错误推理得到正确答案”）。模型学会的是”最终能凑出正确答案的路径”，不一定是”逻辑上严格正确的推理链”。这种隐性的对齐问题在论文中完全未被讨论。

自批评的训练-推理差距：自我批评场景的训练阶段是在外部批评条件下生成改进，但推理阶段是模型自己生成批评再改进。两阶段的批评质量分布不同。论文对这一分布偏移没有形式化处理，只是实验性地展示了它”有效”。

具体改进建议

研究批评质量梯度：系统测试同一类型批评、不同质量层次（3B/7B/70B/405B 批评模型）对最终性能的影响，绘制质量-性能曲线，帮助从业者在预算约束下做选择。
扩展到代码生成：将方法迁移到 HumanEval/MBPP/SWE-bench，用编译器输出或测试失败信息作为批评。这能验证方法是否真正通用，还是只适合数学推理。
公布端到端训练效率数据：报告每个 checkpoint 的 GPU 小时数，使公平比较成为可能（例如：相同 FLOPs 预算下 Critique-GRPO vs R1-GRPO 跑更多步数）。
分析批评噪声的鲁棒性：故意以不同比例注入错误批评（0%、5%、10%、20% 噪声），测量性能降级曲线。这有助于理解方法在不完美批评模型下的实际可用性。
验证推理正确性：除了最终答案准确率，还应评估推理链的逻辑质量（如用专门的推理评估模型或人工抽样检查）。这验证模型学会的是真实推理能力，而不仅仅是”答案投机”。

深入理解：为什么在线联合训练如此重要？

实验中一个值得深究的结论是：在线联合训练远优于先 GRPO 训练后 SFT 微调的顺序方法（表8：47.08% vs 43.15%，AMC23 差距高达 15 分）。这背后的机制是什么？

顺序方法的限制

顺序方法流程：

GRPO 训练至收敛 → 模型在当前能力范围内优化
用收敛后的模型生成改进数据 → SFT 微调

问题：第二步的 SFT 在一个”冻结”的策略分布上操作——改进数据是针对收敛后模型的失败定制的。SFT 只能教模型模仿这些改进，但不能改变模型内在的探索机制。一旦 SFT 带来新能力，这些新能力就无法通过 RL 的试错循环进一步强化，因为 RL 阶段已经结束。

在线联合训练的协同效应

Critique-GRPO 的在线动态：

RL 训练时，改进回答直接注入策略梯度计算
改进回答为”全错”案例提供正向奖励信号，让这些问题的梯度不再为零
策略随改进回答的质量动态提升，又反过来生成更好的初始回答，改变下一轮需要什么样的改进
两个学习流——初始回答学习和改进回答学习——形成正反馈循环

简单说：RL 给了改进数据持续强化的动力，而改进数据给了 RL 突破难题的初始动力。两者缺一不可。

策略塑形机制：推导与直觉

策略塑形是消融实验中增益最大的组件（+3.1 分），值得深入分析。

标准重要性采样的失效

在改进回答 $y^{(i')}_{refined}$ 上使用标准重要性采样比率：

r_t^{(i')}(\theta) = \frac{\pi_\theta(y^{(i')}_{refined,t} \;|\; q, y^{(i')}_{refined,<t})}{\pi_{old}(y^{(i')}_{refined,t} \;|\; q, y^{(i')}_{refined,<t})}

当当前策略 $\pi_\theta$ 对某改进 token 赋予极低概率（ $\pi_\theta \approx 0$ ）时， $r_t \approx 0$ ，整个梯度贡献：

r_t^{(i')}(\theta) \cdot \hat{A}_t^{(i')} \cdot \nabla_\theta \log \pi_\theta \approx 0

即使这个 token 对应一个极高价值的纠错模式（ $\hat{A}$ 很大），梯度仍然接近零。模型通过压低概率来”逃避”学习它不熟悉的改进模式。

策略塑形如何解决这个问题

塑形函数：

\rho_t^{(i')}(\theta) = \frac{\pi_\theta}{\pi_\theta + \gamma}, \quad 0 < \gamma < 1

数学分析：

当 $\pi_\theta \rightarrow 0$ 时： $\rho \rightarrow \frac{0}{0 + \gamma} = 0$ ，但比 $r$ 下降更慢（因为 $r \propto \pi_\theta$ 而 $\rho \propto \frac{\pi_\theta}{\gamma}$ ，后者在小 $\pi_\theta$ 下更大）

当 $\pi_\theta \rightarrow 1$ 时： $\rho \rightarrow \frac{1}{1+\gamma} < 1$

对 $\rho$ 求对 $\pi_\theta$ 的导数： $\frac{d\rho}{d\pi_\theta} = \frac{\gamma}{(\pi_\theta + \gamma)^2}$ ，在 $\pi_\theta \approx 0$ 时为 $1/\gamma$ （大），在 $\pi_\theta \approx 1$ 时为 $\frac{\gamma}{(1+\gamma)^2}$ （小）。

这意味着对低概率 token，塑形函数的敏感度最高——正是我们希望的：最需要从中学习的 token（当前策略不擅长生成的纠错 token）获得最大梯度权重。

直觉类比：这就像老师批改作业时，对学生完全不会的题多花时间讲解，对已经会的题只需确认一下。 $\gamma$ 是”讲解力度的下限”，防止老师因为学生一次没听懂就完全放弃这类型题目的讲解。

与 KL 惩罚的对比

另一种常见方法是加 KL 惩罚： $\mathcal{J}(\theta) - \beta \cdot \text{KL}(\pi_\theta || \pi_{ref})$ 。KL 惩罚所有偏离参考策略的更新，无论是否有益。消融实验证实去掉 KL 反而提升 1.48 分——这说明当训练目标就是要让策略大幅偏向纠错模式时，KL 是有害的约束。

策略塑形更精细：它只对改进回答起作用，只上调低概率 token 的梯度权重，不约束其他方向的探索。这种定向机制才是它优于 KL 的根本原因。

与相关工作的系统比较

flowchart TD
    Root["LLM 推理强化学习方法"] --> A["纯数值 RL\n(GRPO/PPO/REINFORCE++)"]
    Root --> B["监督批评\n(Critique FT/CITL-FT)"]
    Root --> C["在线 RL + 自然语言反馈\n(Critique-GRPO)"]
    Root --> D["专家示范引导\n(RAFT/DrGRPO)"]

    A --> A1["✓ 无需专家示范\n✗ 性能平台期\n✗ 无错误定位"]
    B --> B1["✓ 从批评中学习\n✗ 离线 SFT 无探索\n✗ 需要专家示范\n✗ 无 RL 动态"]
    C --> C1["✓ 无需专家示范\n✓ 在线 RL 动态\n✓ 自然语言错误引导\n✓ 支持自我改进\n✗ 计算开销高"]
    D --> D1["✓ 性能强\n✗ 需要专家示范\n✗ 探索受限"]

图6：Critique-GRPO 在推理 RL 方法图谱中的位置。它占据了「在线 RL + 自然语言反馈 + 无专家示范」这个独特的交叉点。

vs. GRPO 变体（DAPO/VAPO/GSPO/REINFORCE++）：这些方法都只用数值奖励，关注点是优势归一化方式或裁剪策略的改进，解决的是训练稳定性问题而非反馈表达能力问题。

vs. CITL-FT（循环中批评微调）：同样使用初始回答 + 批评引导改进数据，但在离线 SFT 框架下——没有策略梯度动态，模型是从静态数据集中学习而不是在线探索。这解释了为什么 Critique-GRPO 领先 CITL-FT 高达 11.4 分。

vs. 过程奖励模型（PRM）：PRM 在每个推理步骤提供密集奖励，信息量类似 CoT 批评。但 PRM 需要步骤级别的标注数据，人工成本极高。Critique-GRPO 的模型式批评完全自动化，无需人工标注。

vs. Self-Refine / Reflexion：这些是推理时间方法——在测试时用批评迭代改进输出，但不更新模型权重。Critique-GRPO 把批评信号用于权重更新，形成持久能力提升而非一次性的输出改进。

关于超参数与工程细节

关键超参数

$n$ （初始采样数）：通常为 8-16，平衡探索宽度与计算开销
$k$ （改进回答数）：通常为 2-4，不宜过多以避免训练组被改进数据主导
$\gamma$ （策略塑形系数）：论文未报告具体值，但其为 $(0,1)$ 中的小正数，需通过验证集调节
触发条件：当前采用”全部初始回答失败（Pass@n=0）“作为触发，为硬阈值；软触发（“超过 x% 失败时触发”）可能更平滑

异步 Rollout 框架（VERL）

Critique-GRPO 的两阶段生成（初始回答 + 批评引导改进）如果用同步 rollout 会极大增加 GPU 闲置时间。VERL 框架通过异步 rollout 解决这一问题：生成和训练并行进行，GPU 利用率大幅提升。这是方法从理论到实践可行的重要工程保障。

批评指令模板（Appendix M/E）

批评指令 $I_c$ 和改进指令 $I_{refine}$ 的设计对方法效果至关重要：

$I_c$ 必须指示批评模型逐步分析，找出第一个出错的步骤
批评必须以明确的 incorrect [END] 或 correct [END] 结尾，以供奖励系统提取标签
$I_{refine}$ 必须指示策略模型在原始回答和批评的基础上重新推理，而不是只做表面修改

批评输出格式的规范性是奖励信号可靠性的基础——格式不规范的批评输出可能导致错误的奖励标签，直接污染梯度计算。

结语

Critique-GRPO 是强化学习驱动推理训练的一个有意义的进展。它从理论和实验两个维度证明了：自然语言批评不仅仅是事后解释，而是可以成为 RL 训练的核心信号，解决纯数值 RL 的三大结构性瓶颈。

命题 4.1 的复杂度分析是这篇论文最有价值的理论贡献——它解释了为什么 4k 样本能超越 46k 样本的效果，也为后续设计自然语言引导的 RL 算法提供了理论框架。

从实际影响的角度，最令人兴奋的结果是自我批评驱动的自我提升：一个在 Critique-GRPO 下训练的模型，在推理阶段无需外部批评，能够通过生成自我批评来持续改进，在 AIME 2024 Pass@1 上达到 66.7%（vs R1-GRPO 的 40.0%）。如果这种能力能够扩展到更大规模和更广泛的任务，它将为后训练阶段的持续自主学习提供一条有实践意义的路径。

局限同样需要正视：评估范围偏窄、计算开销未透明、批评质量依赖性强。但作为一篇 ICML 2026 Spotlight 论文，它在理论完整性和实验覆盖度之间取得了良好的平衡，值得后续工作在更大规模、更多任务类型上继续探索。

六种认知行为：RL 实际在学什么？

论文第3.1节的行为分析是容易被忽视但非常有洞察价值的部分。作者将 RL 训练过程中涌现的认知行为分为六类：

规划行为（有助于产出正确答案）：

子目标设置：在解题前将问题分解为更小的子任务
总结：定期回顾已解决的关键事实和进展

自我反思行为（预期有用但实际贡献极小）： 3. 验证：检查计算答案是否满足问题约束条件 4. 回溯：放弃失败的推理路径，重新开始 5. 逆向推理：从目标状态出发向前推导 6. 预期：在错误发生前预判可能的错误

关键发现：对于只有 RL 微调模型才能解对的题目（即 RL 训练新获得的能力），自我反思行为对成功几乎没有贡献。

这个结果揭示了一个深刻问题：纯数值 RL 无法区分”真正的”验证（模型实际检查了步骤）和”表演性的”验证（模型只是插入了验证相关的 token 但没有真正重新计算）。模型可以学会写”让我再检查一下……”，然后直接复制原来的错误答案——这在形式上看起来像验证，但对解题毫无帮助。

Critique-GRPO 的批评机制正好解决了这个问题：批评说”第3步的计算有误，正确应该是……”，给模型提供了具体的回溯目标。“回到第3步重新计算”从一个随机行为变成了最大化奖励的策略性行为，自我反思从形式变成了实质。

逐基准深度分析

为了全面理解 Critique-GRPO 的增益分布，我们逐任务分析表2（Qwen2.5-7B-Base，CoT 批评 vs R1-GRPO）：

基准	R1-GRPO	C-GRPO	Δ	解读
MATH-500	74.00	77.80	+3.8	较容易题目，GRPO 已可探索，提升有限
Minerva-MATH	32.00	36.80	+4.8	科学数学，批评有助于公式推导错误定位
OlympiadBench	38.50	42.40	+3.9	竞赛数学，难度适中，提升稳定
AMC 2023	42.50	62.50	+20.0	最大单项提升！多选题结构便于批评生成
AIME 2024	16.70	20.00	+3.3	最难竞赛，绝对分数低但相对提升明显
TheoremQA	40.60	44.00	+3.4	跨领域科学，批评促进领域迁移
GPQA-Diamond	33.33	37.88	+4.6	研究生级科学，OOD 提升显著
MMLU-Pro	51.81	55.28	+3.5	通用推理，全面稳定提升

最值得关注的数字：AMC 2023 从 42.5% 跳跃到 62.5%（+20 分）。这是整个表格中最大的单项增益，远超其他基准。原因可能是：AMC 是结构化多选题，答案选项本身提供了额外的批评信号（“你选了 B，但标准答案是 D，检查步骤 3 的计算”）。有结构化评估上下文的任务可能是 Critique-GRPO 收益最大的领域。

两个极端值得关注：

增益最小的是 MATH-500（+3.8）：这是最”容易”的子集，纯 GRPO 探索已经能解决大部分题目，批评的边际价值有限
增益最小的还有 AIME（+3.3）：这是最”难”的题目，连批评都不足以引导模型逃离持续失败——说明方法有其能力上限

这个 U 形分布（中等难度提升最大，极端难/易提升较小）符合直觉：批评在”模型接近但未达到正确答案”时最有价值。

数据效率的理论解释

Critique-GRPO 用 4k 样本超越 46k 样本的纯数值方法，这个数据效率的提升有多深刻？

从命题 4.1 的角度定量理解：假设推理步骤 $L=10$ ，每步有 $|S|=100$ 种可能的推理策略。

纯数值方法（标准 GRPO）需要探索的搜索空间大小： $|S|^L = 100^{10} = 10^{20}$

CoT 批评将问题分解为 $L=10$ 个独立子问题，每个大小 $|S|=100$ ：总复杂度 $|S| \times L = 100 \times 10 = 1000$

压缩比： $10^{20} / 10^3 = 10^{17}$

这是一个17个数量级的理论搜索空间压缩！当然实际问题远比这个简化模型复杂，但这解释了为什么即使数量级差异的样本量也无法弥补反馈信息量的本质差距。

与过程奖励模型（PRM）的关系

Critique-GRPO 在自然语言反馈的信息量和标注代价之间找到了一个有趣的平衡点：

flowchart LR
    A["结果奖励模型\n(ORM)\n标准 GRPO 使用"] --> A1["只看最终答案对否\n标注代价：低\n信息量：极低\n→ 搜索空间 O(|S|^L)"]
    B["过程奖励模型\n(PRM)\nLet's Verify Step by Step"] --> B1["每步打分\n标注代价：极高（需步骤标注）\n信息量：极高\n→ 搜索空间 O(|S|·L)"]
    C["模型生成的 CoT 批评\n(Critique-GRPO)"] --> C1["自动生成步骤错误定位\n标注代价：低（自动化）\n信息量：接近 PRM\n→ 搜索空间 O(|S|·L)"]

图7：Critique-GRPO 在信息量-标注代价权衡中的位置。它通过语言模型自动生成批评，以低标注代价获得接近过程奖励模型的信息量。

这一视角揭示了论文的另一个贡献：无需步骤级人工标注，就能获得过程监督级别的训练信号。能够生成 CoT 批评的语言模型自动扮演了”软 PRM”的角色，而且可以对任意领域的任意问题即时生成，不受标注预算限制。

当然，这个”软 PRM”的质量依赖于批评模型的能力，且其步骤定位的准确性没有经过验证——这是与真正的 PRM 相比的一个重要差距。

训练稳定性与收敛行为

论文的熵分析（图4）揭示了 Critique-GRPO 与 R1-GRPO 在训练动态上的本质差异。让我们理解这背后的机制：

R1-GRPO 的熵轨迹：

初期：高熵（策略在全部问题上探索）
中期：熵快速下降（模型收敛到易题的固定解路径）
后期：低熵平台（模型对难题几乎不探索，陷入平台期）

Critique-GRPO 的熵轨迹：

初期：高熵（类似 R1-GRPO）
步骤 50-200：熵峰值出现（改进回答引入原策略不熟悉的推理路径）
中期：熵维持在较高水平（批评不断提供新的纠错路径，防止过早收敛）
后期：熵下降但明显高于 R1-GRPO（内化了批评模式，但仍保持探索性）

熵峰值是关键信号：当模型尝试学习批评引导的改进时，它暂时”出圈”（远离当前策略分布），这体现为熵增加。如果这些出圈尝试最终成功（即改进回答得到高奖励），策略就会在更宽广的空间中重新稳定，而不是只在原有的局部最优附近振荡。

这个机制解释了为什么去掉批评（仅保留改进数据做 SFT）无法复现相同效果：SFT 不能利用熵峰值期间的探索——它只是简单地把改进数据当成监督信号，没有RL探索动态的参与。

我的看法

这篇论文最打动我的地方不是那些百分点上的提升数字，而是它揭示的一个更深层问题：为什么我们一直用这么粗糙的信号来训练推理能力？

当人类老师教学时，他们不只是说”对”或”错”——他们给出逻辑上的批评，解释思维链条在哪里断裂。CoT 批评正是把这种人类教学智慧引入到 RL 训练循环中。

当然，挑战也是真实的：高质量批评的生成本身需要能力，而我们试图训练的正是这种能力——这里有一个自举问题（bootstrapping problem）。Critique-GRPO 通过外部批评模型解决了这个问题，但自我批评的结果显示，一旦能力达到一定门槛，模型就能开始自举。这种从外部辅助到内部驱动的转变，是让人期待的研究方向。

可复现性说明

论文代码和模型已开源于 https://github.com/zhangxy-2019/critique-GRPO。希望复现主要结果的读者参考以下关键信息：

训练框架：VERL（Versatile Efficient RL for LLMs）——异步 rollout 实现
基础模型：Qwen2.5-7B-Base、Qwen3-8B（通过 HuggingFace 获取）
训练数据：OpenR1-Math-220k 的 46k 子集中随机抽取 4k 样本
批评模型：模型式 CoT 批评使用 GPT-4o；指示性批评和带标准答案批评为规则式构建
关键超参数：组大小 $n=8$ ，裁剪参数 $\epsilon=0.2$ （标准 GRPO 设置），采样温度 0.7，策略塑形系数 $\gamma$ 未在主论文中明确给出

异步 rollout 实现是保证计算效率的关键。由于 Critique-GRPO 有两阶段生成（初始回答 + 批评引导改进），同步实现的计算开销会显著更高。VERL 框架通过将生成和梯度更新解耦并行化，解决了这一效率瓶颈。

附录：核心符号速查表

符号	含义
$q$	输入问题
$\pi_\theta$	当前策略模型（参数为 $\theta$ ）
$\pi_{old}$	旧策略（重要性采样的参考分布）
$y^{(i)}$	第 $i$ 个初始采样回答
$y^{(i')}_{refined}$	第 $i'$ 个批评引导的改进回答
$c^{(i)}$	对 $y^{(i)}$ 的自然语言批评
$R^{(i)}$	标量奖励：1=正确，0=错误
$\hat{A}_t^{(i)}$	回答 $i$ 中 token 位置 $t$ 的归一化优势
$r_t^{(i)}(\theta)$	初始回答的标准重要性采样比
$\rho_t^{(i')}(\theta)$	改进回答的策略塑形比
$\gamma$	策略塑形系数 $(0 < \gamma < 1)$
$\epsilon$	PPO 裁剪参数
$n$	组大小（每个问题的初始采样数）
$k$	改进回答数（每个问题最多取 $k$ 个改进）
$I_c$	批评指令提示
$I_{refine}$	改进指令提示
$\mathcal{J}_{init}$	初始回答上的 GRPO 目标
$\mathcal{J}_{refi}$	改进回答上的 GRPO 目标
$\mathcal{J}_{Critique\text{-}GRPO}$	总目标 $= \mathcal{J}_{init} + \mathcal{J}_{refi}$
$	S
$L$	最优推理序列的步骤数（理论分析）

延伸阅读推荐

如果你对这篇论文感兴趣，以下相关工作可以帮助建立更完整的知识图谱：

GRPO 原始论文：Shao et al., 2024 — DeepSeekMath，GRPO 算法的提出
R1-Zero 范式：DeepSeek-AI, 2025 — 纯数值 RL 训练推理能力的典范
过程奖励模型：Lightman et al., 2023（Let’s Verify Step by Step）— 密集过程监督的代表工作
DAPO：Yu et al., 2025 — GRPO 的改进变体，处理零奖励样本问题
VAPO：VAPO, 2025 — 可变优势策略优化
Transfer Eluder Dimension：Xu et al., 2025 — 本文理论分析的框架来源
VERL 框架：Sheng et al., 2024 — 异步 rollout 实现基础