
一个 7B 奖励模子治理全学科,大模子强化学习不啻数学和代码。
o1/r1 的强化学习很强,但主要探索了数学和代码领域,因为这两个领域的数据结构化进程高,奖励函数 / 奖励模子比较好缱绻。
那么,想提高大模子在其他学科领域的智力该奈何办?
腾讯 & 苏州大学团队忽视新框架 RLVR,执意化学习考试彭胀到医学、化学、法律、表情学、经济学等多学科。
RLVR 使用基于生成模子的软奖励,与传统基于二元礼貌的奖励比拟,在泛化、肃肃性和可彭胀性方面有权贵的提高。

除论文外,还开源了奖励模子和多学科数据集。

7B 奖励模子治理全学科
相干基于一个原理原理的发现:当任务有客不雅参考谜底时,不同大型话语模子在作念二元判断 ( 正确 / 错误 ) 时进展出高度一致性。
这大略意味着,并不需要在每个领域都考试一个大鸿沟的奖励模子。违犯,平直用现成的诳言语模子来充任考证器就能有用。
像这么的二元奖励诚然浅易平直,但在参考谜底枯竭结构化的领域又反抗直适用。
于是相干团队进一步引入基于模子的软奖励(model-basedsoft scroing),比拟平直给出 0 或 1 的二元硬标签,软奖励字据生成式考证器判断的置信度打分,有了更高的活泼性。
受启发于"大模子判断高度一致"的发现,团队用 72B 参数的 Qwen2.5-Instruct 蒸馏出一个 7B 的奖励模子。蒸馏经过不需要领域特定的标注,完好意思依靠在线探索阶段集聚的数据进行考试。
悉数经过分为 3 步活水线:

履行数据从 ExamQA 中随即采样了 6000 个问题,平方漫衍于理工东谈主文各学科。

履行对比基础模子(Base)、微调基础模子(SFT)、基于礼貌的 RL、使用 SFT 模子作为考证器,以及本文蒸馏的 RM-7B 模子作为考证器的多种方法,有以下论断:
RM-7B 在解放款式谜底任务中进展出色
基于模子的奖励在处理非结构化参考谜底场景中优于基于礼貌的奖励
软奖励在处理多学科任务中,面临复杂判断时比二元奖励进展更好

此外履行还考证了基于模子的奖励在数据量加多时可彭胀性更好。

在征询部分,作家指出本相干中未使用想维链推理(CoT),诚然 CoT 在有参考和无参考的场景中都有用,但关于评估同话语的参考谜底和模子反映之间的语义等价性,真切的推理依据是否必要仍有待相干。此外,在 RLVR 的经过奖励建模中,当中间款式枯竭平直监督时,若何分拨奖励亦然一个盛开问题。
本相干也不合参考谜底或模子反映诞生款式拘谨,这么作念刚正是减少了数据措施化和模式缱绻的东谈主力插足,但款式关连拘谨和奖励在这种情况下的作用仍需再行注目。
One More Thing
论文作家腾讯涂兆鹏发帖先容了这篇著作,谈判强化学习是否不错彭胀到数学和编码任务除外。

驳斥区有网友指出很有可能诞生,因为不同的考试方法不错作为有不同规模要求的学习空间。
涂兆鹏也合计这个视角与 RLVR 方法的不雅点一致。

论文地址:
https://arxiv.org/abs/2503.23829
HuggingFace:
https://huggingface.co/collections/virtuoussy/rlvr-67ea349b086e3511f86d1c1f
参考不时:
[ 1 ] https://x.com/tuzhaopeng/status/1906975869538914570
一键三连「点赞」「转发」「箝制心」
迎接在驳斥区留住你的主见!
— 完 —
速抢席位!中国 AIGC 产业峰会不雅众报名通谈已开启 � � ♀️
首批嘉宾曝光啦 � � 百度、无问芯穹、数势科技、生数科技、像素怒放等十数位 AI 领域创变者将皆聚峰会,让更多东谈主用上 AI、用好 AI,与 AI 一同加快成长~
4 月 16 日,就在北京,一皆来深度求索 AI 奈何用 � �
� � 一键星标 � �
科技前沿进展逐日见开云kaiyun
