滚球app官方网站 > 让球盘 >

滚球app GRPO际遇瓶颈? G²RPO-A让自稳当率领为小模子推理身手「开外挂」

2026-05-07 14:54:23 142

大模子期间的「真金不怕火金术师」们，大致王人曾靠近一个共同的困扰：当咱们试图将 DeepSeek-R1、OpenAI-o1 那种惊艳的推理身手移动到小规模谈话模子（SLMs）时，效用却老是差强东谈宗旨。现存的强化学习关节如 GRPO 在 7B+ 的大模子上效用显赫，但一朝诳骗到 1.7B 甚而更小参数的模子上，性能擢升就蝇头小利。

针对小模子在强化学习中的推理逆境，香港中语大学（深圳）T-Lab 唐晓莹训诫携课题组博士毕业生郭永新、邓文博提议了全新算法 G²RPO-A（Guided Group Relative Policy Optimization with Adaptive Guidance）。已被 ACL 2026 主会议（Main Conference）接收。

该关节通过在 roll-out 经由中注入高质地想维轨迹，并字据磨真金不怕火景色动态调节率领强度，有用缓解小模子靠近的奖励疏淡问题。在 Llama、Qwen、DeepSeek 等多个主流模子家眷上的推行标明，G²RPO-A 在数学推理和代码生成任务上显赫优于 vanilla GRPO，其中 Qwen3-1.7B 在 MATH500 上从 50.96 擢升到 67.21，HumanEval 上从 46.08 擢升到 75.93。

论文地址：G²RPO-A: Guided Group Relative Policy Optimization with Adaptive Guidance

论文贯穿：https://arxiv.org/abs/2508.13023

代码仓库：https://github.com/T-Lab-CUHKSZ/G2RPO-A

单元：♠ 香港中语大学（深圳） ♡ 淘天集团（郭永新为香港中语大学（深圳）T-Lab毕业博士生） ♣ 西湖大学

「咱们用 GRPO 磨真金不怕火了 Qwen3-1.7B，铁心高奖励候选恒久太少，模子很难沉稳学到有用的推理计策……」

一个灵魂拷问随之而来：难谈小模子注定与高等推理身手无缘吗？

图 1：Naive Guidance 的逆境。使用 Qwen2.5-Math-7B 在 s1K-1.1 数据集上磨真金不怕火，简便的固定长度率领在早期磨真金不怕火阶段有顷刻间擢升，但很快与 vanilla GRPO 无异。

一、小模子的「推理瓶颈」到底卡在哪？

现时，尽管 GRPO 等强化学习算法在大模子上取得了弘大顺利，但在小规模谈话模子（SLMs）上却靠近严峻挑战。揣测团队通过长远分析发现，问题的中枢在于「疏淡奖励」逆境：

由于 SLMs 自身身手有限，面对复杂推理任务时，它们很难生成高质地的想考链，导致大部分 roll-out 王人无法取得正向奖励。如下图所示，Qwen3-1.7B 在代码任务上的奖励散播极其疏淡：

图 2：Qwen3-1.7B 在代码任务上的奖励热力求对比。引入 guidance 后，模子更容易采样到高奖励候选，奖励信号显赫变得更密集。

揣测团队形象地将其比作「外行司机开手动挡」：不管引擎（模子）奈何勤苦，短缺正确的教授（率领）依然难以完成复杂的驾驶（推理）操作。

二、G²RPO-A 核默算法架构

为了缓解小模子在 RLVR 中的先天弱势，G²RPO-A 并不是简便地把门径谜底喂给模子，而是在 roll-out 的部分轨迹中注入高质地 thinking trajectory，并字据磨真金不怕火景色动态调节 guidance 强度。

图 3：G²RPO-A 的全体框架。每一步磨真金不怕火王人会将 roll-out 分红 guided 和 unguided 两组，再字据现时奖励与历史奖励的比值动态调节后续 guidance length。

G²RPO-A 的中枢更始包含两个重要组件：

率领机制（Guidance Mechanism）：在模子生成 roll-out 的经由中，注入部分高质地的想维轨迹行为教授，使 SLM 朝向生成更高质地候选谜底的地方发展。

三、重要发现：

为什么简便率领行欠亨？

揣测团队最初考证了 naive guidance 的效用，发现简便的固定长度率领效用有限。更重要的是，在基于 Math-220K 子集的磨真金不怕火动态分析里，这种「看起来更容易拿到奖励」的作念法并莫得着实带来更健康的优化信号：

图 4：Naive Guided GRPO 的罗网。论文在基于 Math-220K 子集的磨真金不怕火动态中发现，naive guidance 天然能顷刻间举高 reward，但其 advantage 门径差极低，严重拦阻了 SLM 的磨真金不怕火效用。

换句话说，naive guidance 的问题不在于「完全没匡助」，而在于它仅仅让模子更容易采到一些高奖励候选，却莫得同步保住饱和有分辨度的 advantage 信号；铁心即是奖励看似变好，磨真金不怕火效用却莫得着实擢升。

四、主推行铁心：

数学和代码上到底涨了若干？

论文作念了大王人建设推行，最初，滚球app下载最值得展示的其实是主推行铁心：在长入磨真金不怕火迷惑下，径直和 Base、vanilla GRPO、SFT 对比，望望 G²RPO-A 是否确实能把小模子带起来。

建设分析自身给出的中枢论断不错先记一句：代码任务每每需要更高 guidance ratio，小模子也每每比大模子更依赖 guidance。这亦然作家临了转向「自稳当」而不是「固定超参」的径直动机。

先看数学推理主推行。下表来自论文主表，展示了不同 Qwen3 基座在多个数学 benchmark 上的铁心：

表 1：论文主推行中的数学 benchmark 铁心，单元为准确率（%）。

淌若只看最有代表性的几组铁心，擢升是很直不雅的：Qwen3-1.7B-Base 在 MATH500 上从 50.96 擢升到 67.21，在 GPQA 上从 27.45 擢升到 32.35；Qwen3-8B-Base 在 MATH500 上也从 71.32 擢升到 82.08。论文还补充了更强数学迷惑下的 AIME 铁心，其中 Qwen3-1.7B 在 AIME24/AIME25 上分别达到 63.33 和 53.33，高于对应的 GRPO 铁心 56.67 和 50.00。

再看代码主推行。这里的趋势也很极端义：G²RPO-A 并不是「每一个单项王人齐备碾压」，但全体上在多数 benchmark 上拿到了最优，尤其对小模子的拉升卓越彰着。

表 2：论文主推行中的代码 benchmark 铁心，单元为准确率（%）。

具体来说，Qwen3-0.6B 在 HumanEval 上从 32.32 擢升到 44.96，LiveCodeBench 上从 17.07 擢升到 23.14；Qwen3-1.7B 在 HumanEval 上从 46.08 擢升到 75.93。需要确乎证据的是，Qwen3-1.7B 在 LiveCodeBench 上是 SFT 略高，但论文罕见给出的 Code-Avg 对比中，G²RPO-A 仍以 63.95 高于 GRPO 的 60.40 和 Clip-Higher 的 60.19。

五、自稳当计策的中枢想想

G²RPO-A 的重要不在于「长期加更多 guidance」，而在于字据最近几个磨真金不怕火 step 的奖励变化自动调 guidance length。论文里的更新规定更接近底下这个体式：

率领长度自稳当更新规定：