188金宝搏(中国)官方网站-IOS/安卓通用版/手机APP

新闻动态 公司动态 行业新闻 技术知识 解决方案 锂电行业 汽车与零部件行业 平板显示行业 3C电子行业 烟草行业 电商物流行业 家电行业 食品饮料行业 家居行业 医药行业 鞋服行业 石油化工行业 其他行业 产品中心 移动机器人 新能源专用移动机器人 潜伏牵引式移动机器人 潜伏举升式移动机器人 背负移载式移动机器人 搬运式智能叉车机器人 CCM-定制系列 CCS-充电站系列 软件产品 智能控制系统 智能仓储管理系统 AI算法 服务支持 品质服务 服务内容 关于金宝搏 公司简介 资质荣誉 联系我们 加入我们 合作夥伴 188金宝搏 188金宝搏(中国)官方网站
首页 新闻动态 解决方案 产品中心 服务支持 关于金宝搏 188金宝搏 188金宝搏(中国)官方网站
公司动态 行业新闻 技术知识

188bet金宝搏|向日葵视频app污污网站|揭秘DeepSeek R1-Zer

发布时间:2025/04/10
来源:188金宝搏

  188金宝搏官方网站ღღღ,金宝搏188APPღღღ!金宝搏188入口188金宝搏官方入口DeepSeek-V3-Base 在强化学习(RL)调优之前就已经展现出「顿悟时刻」?RL 调整中不断增加的输出长度可能是由于 GRPO 中的 BIAS 造成的?

  分析表明ღღღ,DeepSeek-V3-Base 已经展现出「顿悟时刻」ღღღ,而 Qwen2.5 基础模型即使没有提示模板也表现出强大的推理能力ღღღ,这表明存在潜在的预训练偏差ღღღ。此外ღღღ,作者还在群体相对策略优化(GRPO)中发现了优化偏差ღღღ,它在训练期间人为地增加了响应长度(尤其是对于错误输出)ღღღ。

  为解决这个问题ღღღ,研究人员引入了 Dr. GRPOღღღ,这是一种无偏优化方法ღღღ,可在保持推理性能的同时提高 token 效率ღღღ。利用这些见解188bet金宝搏ღღღ,作者提出了一种简化的 R1-Zero 方案ღღღ,使用 7B 基础模型在 AIME 2024 上实现了 43.3% 的准确率ღღღ,建立了新的 SOTA 水准ღღღ。

  最近一段时间ღღღ,人工智能领域正在迎来变革ღღღ。DeepSeek-R1-Zero 通过引入类似 R1-Zero 的训练范式彻底改变了大语言模型(LLM) 后训练的流程ღღღ:直接将 RL 应用于基础 LLMღღღ,而不依赖任何监督微调(SFT) 作为初步步骤ღღღ。

  这种新范式因其简单性和已证明的 RL 扩展现象而具有吸引力ღღღ:模型推理能力随着模型响应长度的不断增加而提高ღღღ。这种现象还伴随着「顿悟时刻」(Aha Moment)ღღღ,此时模型展现出了人类一样的自我反思等新兴技能ღღღ,让人们见证了强化学习的力量和美感ღღღ。

  在本文中ღღღ,研究人员旨在通过研究两个基本组成部分来理解类似 R1-Zero 的训练ღღღ:基础模型和 RLღღღ。

  在第一部分中ღღღ,他们研究了基础模型的各种属性ღღღ,重点关注 Qwen2.5 模型系列 ღღღ,该模型最近被用于重现 R1-Zero 188bet金宝搏ღღღ,以及 DeepSeek-V3-Baseღღღ,线-Zero 模型是从该模型中经过 RL 调整的ღღღ。

  在第二部分中ღღღ,人们确定了 GRPO 优化中的偏差ღღღ,这可能会导致错误响应逐渐变长ღღღ。为此ღღღ,研究人员提出了一个简单的解决方案ღღღ,可以在保持推理性能的同时提高 token 效率ღღღ,称为 Dr. GRPO(GRPO Done Right)(图 1 中显示)ღღღ。

  为了理解 R1-Zero 上的训练方式ღღღ,研究人员仔细观察了两个核心部分ღღღ:基础模型和强化学习ღღღ,随后重点介绍了其发现ღღღ。

  他们对基础模型和强化学习的分析表明ღღღ,实现类似 R1-Zero 训练可采用极简方案ღღღ:利用无偏的 Dr. GRPO 算法ღღღ,以 Qwen-Math 模板对 Qwen2.5-Math-7B 模型进行强化学习调优ღღღ,使用 MATH 3-5 级问题作为训练数据ღღღ,仅用 8 块 A100 GPU 训练 27 小时ღღღ,就实现了最先进的性能(图 2 展示)ღღღ。

  模板对于让基础模型回答问题(而非完成句子)至关重要ღღღ。此外ღღღ,所有基础模型在强化学习之前都已具备数学解题能力ღღღ;

  有趣的是ღღღ,Qwen-2.5 基础模型在不使用模板时立即获得约 60% 的提升ღღღ,这让研究人员假设它们可能在训练模型时对拼接的问答文本进行了预训练ღღღ;

  研究人员对广泛的基础模型进行了审查ღღღ,包括 Qwen-2.5 系列ღღღ、Llama-3.1 和DeepSeek系列ღღღ,向它们提出从 MATH 训练集中抽取的 500 个问题ღღღ,并分析它们的回答ღღღ。

  由于从基础模型进行训练是 R1-Zero 类范式的基本设置ღღღ,研究人员首先研究广泛使用的开源基础模型ღღღ,这些模型通常是为了句子补全而训练的ღღღ。研究人员探索了是否可以通过适当的模板有效地激发其问答能力ღღღ,从而作为问答基础策略 ღღღ。

  对于每个模型ღღღ,他们首先应用无模板来获取模型回答ღღღ,然后让 GPT-4o-mini 判断模型回答是处于问答格式(无论质量如何)还是处于句子补全模式ღღღ。他们记录倾向于回答问题的回答百分比作为指标ღღღ。然后ღღღ,他们分别应用 R1 模板和 Qwen-Math 模板来获取模型回答ღღღ,并根据该指标确定每个模型最合适的模板ღღღ。最后ღღღ,使用相应模板评估每个模型的 pass@8 准确度ღღღ,以判断基础策略是否能够探索出有益于强化学习(RL)改进的轨迹ღღღ。

  研究人员观察到ღღღ,Llama 和 DeepSeek 模型通过使用适当的模板(R1 模板)都提高了回答能力ღღღ。然而ღღღ,Qwen2.5 模型在不使用模板时表现最佳(回答率为 100%)ღღღ。这一有趣的特性激发了他们进一步研究的动力188bet金宝搏ღღღ。同时ღღღ,无模板时最低的回答率表明 DeepSeek-V3-Base 是一个几乎纯粹的基础模型ღღღ。这一观察结果促使他们探讨像 DeepSeekV3-Base 这样的纯粹基础模型是否表现出 「顿悟时刻」的现象ღღღ。

  图 3 的中图显示了不同基础模型(使用模板)在不同采样温度下的 pass@8 准确度ღღღ。该指标可以作为基础策略探索能力的指标ღღღ。例如ღღღ,如果基础策略甚至无法采样出一条通向正确最终答案的轨迹ღღღ,那么由于没有奖励信号ღღღ,强化学习就不可能改进该策略ღღღ。他们的结果表明ღღღ,所有测试的模型都具有探索性(因此已准备好进行强化学习)ღღღ,其中 Qwen2.5 模型表现最佳(甚至超越了 DeekSeek-V3-Base)ღღღ。这可能部分解释了为什么大多数 R1-Zero 项目都基于 Qwen2.5 模型ღღღ。

  DeepSeek-R1-Zero 最令人振奋的成果之一ღღღ,是通过纯粹的强化学习训练ღღღ,模型涌现出了自我反思行为ღღღ,也就是所谓的 「顿悟时刻」(Aha moment)ღღღ。

  一些早期研究指出ღღღ,在开源的 R1 复现项目中可能不存在「顿悟时刻」ღღღ,因为这些项目所使用的基础模型已经表现出自我反思相关的关键词ღღღ。然而ღღღ,这些研究并未测试过作为线-Zero 模型强化学习微调基础的 DeepSeek-V3-Base 模型ღღღ。研究人员通过自己部署 DeepSeek-V3-Base-685B 模型ღღღ,并使用 R1 模板对其回答的 500 道 MATH 题目进行分析ღღღ,填补了这一空白ღღღ。

  从图 3 的右图可以看出ღღღ,DeepSeek-V3-Base 模型也产生了相当数量的自我反思ღღღ,进一步验证了早期研究的主张ღღღ。此外ღღღ,该研究人员在图 4 中展示了 DeepSeek-V3-Base 模型生成诸如 「Aha」「等等」「重新检查问题」等关键词的例子ღღღ。

  另一个重要的问题是ღღღ,自我反思行为是否在强化学习训练后提升了模型性能ღღღ。为了探究这一点ღღღ,研究人员部署了 DeepSeek-R1-Zeroღღღ,并分析了它对 MATH 数据集中相同问题的回答ღღღ。他们发现ღღღ,与基础模型相比ღღღ,R1-Zero 中自我反思行为的出现频率更高ღღღ。然而ღღღ,没有明确的证据表明这些自我反思行为与更高的准确率相关ღღღ。

  看起来ღღღ,在基础模型预训练中存在的偏差ღღღ,自我反思行为ღღღ、数学解决能力在 RL 通过奖励信号强化之前就已经被注入了ღღღ。那么越来越长的响应是这种 RL 过程的结果吗?

  在 Deepseek-R1-Zero 的训练和研究过程中ღღღ,一个显著的趋势是模型在整个训练中响应长度增加向日葵视频app污污网站ღღღ,这一趋势被广泛解释为模型正在发展「自我反思」等高级推理能力的标志ღღღ,后续也有很多研究者通过不同的算法和实现方式复现了这一趋势ღღღ。

  然而ღღღ,有学者提出ღღღ,观察到的响应长度增加可能并非完全由高级推理能力的发展所驱动ღღღ,而是归因于 GRPO 目标函数固有的偏差ღღღ:

  响应层面的长度偏差ღღღ:这种偏差源于对响应长度进行归一化处理ღღღ。当模型生成正确响应时(即优势值为正)向日葵视频app污污网站ღღღ,较短的响应会获得更大的梯度更新188bet金宝搏ღღღ,从而促使策略倾向于生成简洁的正确答案ღღღ。然而ღღღ,当模型生成错误响应时(即优势值为负)ღღღ,较长的响应由于长度较大而受到的惩罚较轻ღღღ,导致策略更倾向于生成冗长的错误答案向日葵视频app污污网站ღღღ。这种长度规范化机制使得模型在正确时偏好简短ღღღ,而在错误时偏好冗长向日葵视频app污污网站ღღღ,形成了一种不对称的优化倾向ღღღ。

  问题层面的难度偏差ღღღ:这种偏差源于对问题的奖励进行标准差归一化处理ღღღ。对于标准差较低的问题(即问题过于简单或过于困难)ღღღ,策略更新时会赋予更高的权重ღღღ。尽管优势值归一化是强化学习中的常见技巧ღღღ,但 GRPO 将其应用于单个问题层面ღღღ,而非整个批次ღღღ,这导致不同问题在目标函数中的权重分布不均ღღღ。这种机制使得模型更偏好极端简单或极端困难的问题ღღღ,而忽视了中等难度的问题ღღღ,进一步影响了策略的优化方向ღღღ。

  随后作者对多个流行的开源 PPO 实现进行了分析ღღღ,发现这些实现无一例外地在损失函数中表现出了基于响应长度的偏差(详见附录 1 和表 2)ღღღ。

  研究者推测ღღღ,这种逐词归一化的设计可能源于大语言模型(LLM)的逐词预训练机制ღღღ,其初衷是让每个词对目标函数的影响均衡ღღღ。然而ღღღ,在强化学习的语境下ღღღ,通过除以响应长度 oi 进行归一化ღღღ,却意外引入了这种偏差ღღღ。因此这一发现为优化提供了新的思路ღღღ。

  为了优化 GRPO 算法并解决其存在的偏差问题ღღღ,研究针对 GRPO 两处修改ღღღ:一是删除了长度归一化项 ∣oi∣ღღღ,二是移除了标准差(std)标准化项ღღღ。

  同时ღღღ,为确保优化目标的无偏性ღღღ,研究在 Listing 1 的掩码均值函数中将 mask.sum (axis=dim) 替换为一个固定值 MAX_TOKENSღღღ,具体如绿色高亮部分所示ღღღ。

  基于上述改进ღღღ,研究者将这一优化算法命名为 Dr. GRPOღღღ,并通过实验验证了其在实际应用中的有效性ღღღ。

  如图 5 所展示的多项实验对比结果ღღღ,证明 Dr. GRPO 能够有效缓解优化偏差并显著减少了错误回答的长度ღღღ。

  此外ღღღ,由于 Qwen2.5-Math 基础模型可以在没有任何提示模板的情况下轻松回答问题并达到高精度ღღღ,作者探讨了不同模板对 RL 训练的影响ღღღ。针对「更大问题覆盖率提升性能」的普遍观点ღღღ,作者还研究了不同模板与问题覆盖率之间的交互作用ღღღ。(实验设置详见表 3)

  模板决定了初始策略的性能ღღღ,但 RL 可以将所有策略提升至约 40% 的相似水平(给定合适的问题集)ღღღ;

  使用 R1 模板时ღღღ,问题集覆盖率显著影响 RL 动态ღღღ,覆盖率不足会导致性能上限降低ღღღ。而使用 Qwen-Math 模板时ღღღ,RL 在 GSM-8K 上取得最佳表现ღღღ,表明在更简单(且分布外)问题上训练可大幅提升(近乎翻倍)在更难题上的测试准确率188bet金宝搏ღღღ。

  Qwen2.5-Math-1.5B 基础模型已具备较强的数学解题能力(见图 6 右图的起点)ღღღ,模板的使用反而会破坏这一能力ღღღ,直到 RL 重建ღღღ。因此这说明在强调纯 RL 带来的巨大收益时应更加谨慎ღღღ。

  当基础模型与模板存在较大不匹配时(如 R1 模板与 Qwen2.5-Math-1.5B)ღღღ,策略改进主要依赖 RL 调优ღღღ,需问题集具有良好的覆盖率(见图 6 左图)ღღღ。反之ღღღ,即使是一个小型且完全分布外的问题集ღღღ,也能通过强化正确推理行为而非注入新知识ღღღ,有效提升推理能力向日葵视频app污污网站ღღღ。

  最近成功的 R1-Zero 类数学推理器复制大多以 Qwen2.5 基础模型作为初始策略ღღღ,这些模型本身已是强大的数学解题器ღღღ,并展现出自我反思的模式ღღღ。不过ღღღ,该研究人员希望探讨另一方面ღღღ:R1-Zero 类训练能否在最初数学推理能力较弱的基础模型上取得成功?他们的回答是肯定的ღღღ,并且观察到数学预训练能够提升强化学习的上限ღღღ。

  在实验设置中ღღღ,他们以 Llama-3.2-3B 基础模型为起点ღღღ,采用无偏的 Dr. GRPO 算法进行强化学习微调ღღღ,并使用 R1 模板ღღღ。他们假设领域特定的预训练有助于强化学习ღღღ,因此选用了在 FineMath 数据集上持续预训练的 Llama-3.2-3B-FineMath4 模型ღღღ。此外ღღღ,正如之前假设的那样ღღღ,Qwen2.5 模型很可能是在拼接的问答文本上进行预训练的ღღღ,因此他们同样从 NuminaMath1.5 中准备了一个拼接的数据集ღღღ,并用 1e-5 的学习率对 Llama-3.2-3B-FineMath 进行了 2 轮持续预训练ღღღ。他们将这种拼接持续预训练的模型称为 Llama-3.2-3BNuminaQAღღღ。

  以下是结果呈现ღღღ。图 7 的左图中展示了不同基础模型的强化学习曲线ღღღ。他们观察到ღღღ,即使是对基础的 Llama 模型ღღღ,强化学习也能提升其性能ღღღ,但提升幅度很小ღღღ。在经过持续预训练(以及拼接持续预训练)以融入数学领域知识后ღღღ,Llama 模型展现出了更强大的强化学习性能ღღღ,验证了他们的假设ღღღ。

  作者还使用 Llama 基础模型重新审视了 GRPO 的优化偏差ღღღ。图 7 的右图比较了使用 GRPO 和 Dr. GRPO 训练的模型性能和回答长度ღღღ,可以清楚地看到ღღღ,GRPO 可以产生「双重增加」现象ღღღ,可能导致误解ღღღ,即在数学预训练后ღღღ,长思维链(long-CoT)也能在 Llama 模型上出现ღღღ。然而ღღღ,长度的增加可能是由于优化偏差188bet金宝搏ღღღ,而这种偏差可以通过他们提出的 Dr. GRPO 有效缓解(图 7 的右图)ღღღ。

  研究人员对用于 R1-Zero 类似训练的基础模型以及强化学习中所用算法进行了批判性审视ღღღ。通过分析ღღღ,作者揭示了预训练偏差如何影响强化学习的结果ღღღ,以及诸如 GRPO 这样的优化选择如何无意中改变模型的行为ღღღ。他们提出的 Dr. GRPO 算法提供了一个简单的修正方案ღღღ,在保持推理性能的同时提高 token 效率ღღღ。

  最终的研究结果表明ღღღ,扩大强化学习的规模既能提升效果ღღღ,又能提高效率 —— 有时ღღღ,简单化反而能实现更优的性能ღღღ。