小讯AIGC

AIGC热门工具
AIGC写作平台
- AI写作工具
- AI论文写作
- AI论文查重
- AI聊天
- AI提示词
- AI内容检测
- AI公文
- AI问答
- AI阅读
- AI搜索
- AI小说
AIGC绘画平台
- AI绘画工具
- AI绘画提示
- AI绘画社区
- AI绘画模型
- AI-3D生成
- AI图形工作站
- AI图片审核
- AI搜索图片
- AI素材
- AI绘本
- PS·AI插件
AI 智能体平台
- 中文版GPTS
- ChatGLMS
- AI提示语
AIGC设计平台
- AI设计工具
- AI图像处理
- AI图像扩展
- AI商品图
- AI一键抠图
- AI标志设计
- AI空间设计
- AI服装设计
- AI字体设计
- AI头像/艺术照
- AI艺术二维码
AIGC视频平台
- AI视频生成
- AI数字人
- AI视频后期
- AI口播视频
- AI动作捕捉
- AI换脸
- AI博主
- AI视频模型
- AI字幕翻译
- 图片转视频
AIGC音频平台
- AI语音生成-文转音
- AI语音识别-音转文
- AI语音合成
- AI语音降噪
- AI音乐创作
- AI音乐鉴赏
AIGC办公平台
- AI办公工具
- AI制作PPT
- AI翻译
- AI思维导图
- AI会议助理
- AI文档处理
- AI总结摘要
- AI简历制作
- AI公益应用
AIGC学习平台
- AIGC免费课程
- AIGC专题课程
- AIGC精选专栏
- AI运营启发
- 京东AI好书推荐
- prompt学习
AIGC企业平台
- AI企业服务
- AI数字员工
- AI人力资源
- AI电子合同
- AI法律服务
- AI金融事务
- AI算力平台
- AI行业协会
- AI官方活动
AIGC运营平台
- AI营销工具
- AI电商增长
- AI行业门户
- AI流量优化
- AI舆情分析
- AI数据分析
- AI国际导航
- 全球大学AI
- 大陆大学AI
AIGC开发平台
- AI编程工具
- AI开发课堂
- AI开发框架
- AI开放平台
- AI开发者社区
- AI低(无)代码编程
- AI-SQL数据库
- AI训练模型
AI 大模型平台
- AI大语言模型
- AI视觉大模型
- AI视频大模型
- AI语音大模型
- AI多模态大模型
- AI教育大模型
- AI医学大模型
- AI法律大模型
- AI行业大模型
- AI海外大模型
AIGC服务平台
- AI基础设施
- AI应用接口API
- AI中文研究机构
- AI海外研究机构
- AI生命科学
- AI游戏应用
- AI安全技术
- AIGC元宇宙
AI图像工具
- AI常用图像工具
- AI图片插画生成
- AI图片背景移除
- AI图片无损调整
- AI图片优化修复
- AI图片物体抹除
AI写作工具
AI音频工具
AI视频工具
AI设计工具
AI编程工具
AI对话聊天
AI办公工具
- AI幻灯片和演示
- AI表格数据处理
- AI文档工具
- AI思维导图
- AI会议工具
- AI效率提升
AI语言翻译
AI内容检测
AI提示指令
AI训练模型
AI学习网站
AI开发框架
AIGC热门推荐
AIGC绘画工具
- AI绘画工具
- AI绘画提示
- AI绘画社区
- AI绘画模型
- AI-3D生成
- AI图形工作站
- AI图片审核
- AI搜索图片
- AI素材
- AI绘本
- PS·AI插件
- AI漫画翻译
AIGC智能对话
- AI智能助手
- AI聊天对话
- AI知识问答
- AI角色扮演
AIGC搜索引擎
AIGC设计工具
- AI设计工具
- AI图像处理
- AI图像扩展
- AI商品图
- AI一键抠图
- AI标志设计
- AI空间设计
- AI服装设计
- AI字体设计
- AI头像/艺术照
- AI艺术二维码
AIGC音频工具
- AI语音生成-文转音
- AI语音识别-音转文
- AI语音合成
- AI语音降噪
- AI音乐创作
- AI音乐鉴赏
AIGC办公效率
- AI制作PPT
- AI文档处理
- AI电子表格
- AI思维导图
- AI总结摘要
- AI翻译
- AI会议助理
- AI简历制作
- AI协作办公
- AI浏览器插件
AIGC学习资源
- AIGC免费课程
- AIGC专题课程
- AIGC精选专栏
- AI运营启发
- 京东AI好书推荐
- prompt学习
- 全球大学AI
- 大陆大学AI
- AI行业协会
- AI行业门户
- AI官方活动
- AI中文研究机构
- AI海外研究机构
- AI大赛
AIGC基础设施
- AI应用接口API
- AI基础设施
- AI算力平台
- AI云服务
AIGC应用场景
- AI营销工具
- AI数字员工
- AI法律服务
- AI电子合同
- AI人力资源
- AI数据分析
- AI企业服务
- AI流量优化
- AI舆情分析
- AI安全技术
AIGC行业应用
- AI金融事务
- AI跨境电商
- AI生命科学
- AI教育助理
- AI公益应用
- AI游戏应用
- AIGC元宇宙
AIGC导航推荐
AIGC行业证书
AIGC副业项目
AIGC绘画生成
- AI绘画工具
- AI绘本
- AI素材
- PS·AI插件
- AI-3D生成
- AI绘画提示
- AI绘画社区
- AI绘画模型
- AI图形工作站
- AI图片审核
- AI搜索图片
- AI漫画翻译
- AI博主
AIGC视频创作
- AI视频生成
- AI数字人
- AI换脸
- AI短剧
- AI视频后期
- AI动作捕捉
- AI视频模型
- AI字幕翻译
- 图片转视频
- AI动漫视频
- AI数字生命
AIGC创意设计
- AI设计工具
- AI商品图
- AI一键抠图
- AI写真
- AI图像扩展
- AI图像处理
- AI标志设计
- AI空间设计
- AI服装设计
- AI字体设计
- AI珠宝设计
- AI海报设计
- AI艺术二维码
- AI头像
- AI智能标注
AIGC音频处理
- AI语音生成（配音）
- AI语音识别
- AI语音合成
- AI语音降噪
- AI音乐创作
- AI同声传译
AIGC生命科学
- AI生物医学
- AI心理咨询
AIGC企业场景
- AI营销工具
- AI流量优化
- AI数字员工
- AI法律服务
- AI电子合同
- AI人力资源
- AI数据分析
- AI企业服务
- AI舆情分析
- AI安全技术
关于本站 ♥︎

「Next-Token」范式改变！刚刚，强化学习预训练来了

机器之心Pro，2025-06-11 12:39:32

机器之心报道

编辑：张倩、陈陈

谁说强化学习只能是蛋糕上的樱桃，说不定，它也可以是整个蛋糕呢？

在 2016 年的一次演讲中，Yann LeCun 曾将强化学习比喻成蛋糕上的樱桃。他提到，「如果把智能比作一块蛋糕，那么无监督学习就是蛋糕的主体，监督学习就是蛋糕上的糖霜，而强化学习则是糖霜上的樱桃。我们已经知道如何制作糖霜和樱桃，但却不知道如何制作蛋糕本身。」

从 2016 年至今，LeCun 对强化学习一直不看好。然而，不可否认的是，强化学习在提升 AI 模型能力方面正变得越来越重要。而且，来自微软的一项新研究显示，它不仅在后训练阶段发挥着关键作用，甚至在预训练阶段也展现出巨大的潜力。

在这篇题为「Reinforcement Pre-Training」的论文中，作者提出了一种名为「强化预训练（RPT）」的新范式。在这种范式中，下一个 token 预测任务可以被重新定义为一个通过强化学习训练的推理任务。在这一任务中，模型会因正确预测给定上下文中的下一个 token 而获得可验证的奖励。

这就好比在制作蛋糕的过程中，直接将樱桃融入到蛋糕的主体结构中。

作者指出，RPT 范式的好处在于，它提供了一种可扩展的方法，能够利用海量文本数据进行通用强化学习，而无需依赖特定领域的标注答案。

通过激励模型进行下一个 token 的推理，RPT 显著提升了预测下一个 token 的语言建模准确性。此外，RPT 为后续的强化微调提供了一个强大的预训练基础。

scaling 曲线表明，随着训练计算量的增加，下一个 token 预测的准确性持续提升。这些结果表明，RPT 是一种有效且有前景的 scaling 范式，能够推动语言模型预训练的发展。

不过，由于论文提出的方法比较新，社区对该方法的有效性、效率、前景等还有所疑问。

接下来，我们看文章内容。

论文概览

论文标题：Reinforcement Pre-Training
论文链接：https://www.arxiv.org/pdf/2506.08007

大语言模型（LLMs）通过在海量文本语料库上采用可扩展的对下一个 token 的预测，展现出跨多种任务的卓越能力。这种自监督范式已被证明是一种高效的通用预训练方法。

与此同时，RL 已成为微调大语言模型的关键技术，既能让 LLM 符合人类偏好，又能提升诸如复杂推理等特定技能。

然而，目前 RL 在 LLM 训练中的应用面临着可扩展性和通用性方面的挑战。

一方面，基于人类反馈的强化学习虽然在对齐方面有效，但依赖于昂贵的人类偏好数据，而且其学习到的奖励模型容易受到 reward hacking 攻击，从而限制了其可扩展性。

另一方面，可验证奖励的强化学习 (RLVR) 利用客观的、基于规则的奖励，这些奖励通常来自问答对。虽然这可以缓解 reward hacking 攻击，但 RLVR 通常受限于数据的稀缺性，不能用于通用预训练。

本文提出了强化预训练（Reinforcement Pre-Training, RPT）这一新范式，旨在弥合可扩展的自监督预训练与强化学习能力之间的鸿沟。

RPT 将传统的对 next-token 的预测任务重构为对 next-token 的推理过程：对于预训练语料中的任意上下文，模型需在预测前对后续 Token 进行推理，并通过与语料真实的 next-token 比对获得可验证的内在奖励。

该方法无需外部标注或领域特定奖励函数，即可将传统用于 next-token 预测的海量无标注文本数据，转化为适用于通用强化学习的大规模训练资源。

这种方法提供了几个关键的优点。

首先，RPT 具有固有的可扩展性和通用性：该方法充分利用了传统 next-token 预测所使用的海量无标注文本数据，无需任何外部标注，即可将其转化为适用于通用强化学习的大规模训练数据集。

其次，使用直接的、基于规则的奖励信号本质上可以最大限度地降低 reward hacking 风险。

第三，通过明确奖励 next-token 推理范式，让模型能够进行更深入的理解和泛化，而不仅仅是记住下一个 Token。

最后，预训练期间的内部推理过程允许模型为每个预测步骤分配更多的思考（计算资源），这类似于将推理时间扩展能力提前应用到训练过程中，从而直接提升下一 Token 预测的准确性。

强化预训练（RPT）详解

Next-Token 预测与 Next-Token 推理对比如下。

在 Next-Token 推理范式下，长思维链可以包含各种推理模式，例如自我批评和自我修正。

Next-Token 推理将预训练语料库重构为一系列庞大的推理问题，使预训练不再局限于学习表面的 Token 级关联，而是理解其背后的隐藏知识。

RPT 通过 on-policy 强化学习的方式训练大语言模型执行 next-token 推理任务，如图 3 所示。

对于给定的上下文，提示语言模型生成 G 个响应（思维轨迹）。每个响应由一系列思维推理序列和最终预测序列组成。

实验设置。本文使用 OmniMATH 数据集进行强化预训练，其包含 4,428 道竞赛级数学题目及答案。实验基础模型为 Deepseek-R1-Distill-Qwen-14B。

实验结果

语言建模能力

表 1 显示了 RPT 方法和基线方法在不同难度级别测试集上的下一个 token 预测准确性。结果显示，RPT 在与标准下一个 token 预测基线和基于推理的预测基线对比时均表现更优。

具体来说，与 R1-Distill-Qwen-14B 相比，RPT-14B 在所有难度级别上都具有更高的下一个 token 预测准确率。

值得注意的是，它的性能与一个更大的模型的性能相媲美，即 R1-Distill-Qwen-32B（图 4）。这些结果表明，强化预训练在捕获 token 生成背后的复杂推理信号方面是有效的，并且在提高 LLM 的语言建模能力方面具有强大的潜力。

强化预训练的 scaling 特性

如图 5 所示，RPT 的下一个 token 预测准确率随着训练计算的扩大而可靠地提高。所有难度级别的高 R2 值表明拟合曲线准确地捕捉了性能趋势。

在 RPT 基础上进行强化微调

如表 2 所示，经过强化预训练的模型在进一步使用 RLVR 进行训练时能够达到更高的性能上限。当模型持续使用下一个 token 预测目标在相同数据上进行训练时，其推理能力显著下降。随后的 RLVR 训练仅能带来缓慢的性能提升。这些结果表明，在数据有限的情况下，强化预训练能够快速将从下一个 token 推理中学到的强化推理模式迁移到下游任务中。

零样本性能

如表 3 所示，RPT-14B 在所有基准测试中始终优于 R1-Distill-Qwen-14B。值得注意的是，RPT-14B 在 next-token 预测方面也超越了规模更大得多的 R1-Distill-Qwen-32B。

Next-Token 推理模式分析

如图 6 所示，RPT-14B 的 next-token 推理过程与 R1-Distill-Qwen-14B 的问题解决过程明显不同。表明 next-token 推理引发的推理过程与结构化问题解决存在质的差异。

最后，本文还在表 4 中提供了一个推理模式的示例。他们表明，RPT-14B 参与的是深思熟虑的过程，而非简单的模式匹配。