下载客户端

OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1

2024-12-08 08:39

来源：澎湃新闻·澎湃号·湃客

新智元报道

编辑：Aeneas 好困

【新智元导读】OpenAI第二天的直播，揭示了强化微调的强大威力：强化微调后的o1-mini，竟然全面超越了地表最强基础模型o1。而被奥特曼称为「2024年我最大的惊喜」的技术，技术路线竟和来自字节跳动之前公开发表的强化微调研究思路相同。

OpenAI 12天连播的第二弹，用短短三个单词体现了什么叫「字少事大」——强化微调（Reinforcement Fine-Tuning）。

首先，这是OpenAI第一次将之前仅限自家模型（如GPT-4o和o1系列）使用的强化学习技术，开放给外部开发者。

其次，开发者只需提供最低「几十个」高质量任务，就能通过强化微调实现领域专家模型的定制！并且，还能根据提供的参考答案对模型的回应进行评分。

最后，强化微调加强了模型在处理领域问题时的推理能力，并提升了在特定任务上的准确性。对于那些要求高精确性和专业知识的领域，强化微调将会发挥至关重要的作用。

从OpenAI的官方演示中不难看出，强化微调的效果可谓是相当显著——经过强化微调的o1 mini，竟然全面超越了当今最强的基础模型o1。

其中，强化微调版的o1 mini，在Top-1准确率上直接跃升180%达到了31%，远超o1的25%。

对此，奥特曼激动地表示：「这项工作效果出奇得好，是我2024年最大的惊喜之一！非常期待大家会用它去构建什么。」

目前，强化微调研究计划已进入Alpha阶段，并将于2025年第一季度公开发布。

为了搞清楚「强化微调」到底是个啥，我们便去问了问OpenAI自家的AI搜索。

没想到，结果却出人意料——这个技术思路，在一篇被ACL 2024录用为Oral的论文中，就已经提出了。

而更喜人的是，团队的成员全部来自字节跳动！

在这项工作中，研究人员提出了一种简单而有效的方法，来自增强LLM推理时的泛化能力——强化微调（Reinforced Fine-Tuning，ReFT）。

论文地址：https://arxiv.org/abs/2401.08967

简单来说，ReFT首先会使用SFT对模型进行预热，然后采用在线强化学习（PPO算法）进行优化。

也就是，对给定的问题自动采样大量的推理路径，并根据真实答案来获取奖励，从而进一步对模型进行微调。

在GSM8K、MathQA和SVAMP数据集上的大量实验表明，ReFT显著优于SFT，并且通过结合多数投票和重新排序等策略，可以进一步提升模型性能。

不仅如此，ReFT还有着卓越的泛化能力——在训练中仅需使用与SFT相同的问题集，而无需依赖额外或增强的训练数据。

强化微调，不是传统微调

这次上阵直播的四人，是OpenAI的研究员Mark Chen、John Allard、Julie Wang，以及伯克利实验室计算生物学家Justin Reese。

他们介绍说，这项功能已允许用户在自己的数据集上微调o1。

不过要强调的是，并不是传统的微调，而是强化微调。它真正利用了强化学习算法，把模型从高级中学水平提升到专家博士级别。

这个功能，能够帮助把自己的优质数据集转化为独一无二的用品，带来「魔力」。

强化微调（RFT），能让开发者、研究人员和机器学习工程师首次有机会使用强化学习来创建专家级模型，在特定领域的任务中有卓越表现。

对于法律、金融、工程、保险等领域，这项技术简直是量身打造的。

举例来说，OpenAI最近和汤森路透合作，利用强化微调对o1 Mini进行了微调，使其成为了一名法律助手，帮法律专业人士完成了一些复杂、需要深入分析的工作流程。

史上首次，OpenAI微调支持强化学习

去年年初，OpenAI就推出了监督微调API。这项技术非常强大，核心目标是让模型复制在输入文本或图像中发现的特征。

在强化微调中，它不仅是教模型模仿输入，而是去学习在自定义域上以全新的方式进行推理。

当模型看到一个问题，研究者会给它空间来思考问题，然后给它的最终答案进行评分。

然后，利用强化学习的强大能力，他们会强化那些导致正确答案的思维路径，同时抑制那些导致错误答案的思维路径。

只需要数十到数千个高质量示例，模型就能学会以新的、有效的方式在定制领域中进行推理了！

用OpenAI研究者的话说，这实在太疯狂了，令人难以置信——仅用12个例子就能做到，这是传统微调难以实现的。

这也是史上首次，OpenAI的模型定制平台可以支持强化学习。

研究者强调说，OpenAI内部用来训练GPT-4o和o1系列等顶尖模型，就是用的同样技术。

强化微调的o1，诊断罕见病

伯克利实验室的Justin，就介绍了强化微调给他的研究带来的巨大帮助。

他研究的是，使用计算方法来理解罕见疾病背后的遗传原因。

然而，现在评估罕见疾病并不容易，首先要对医学有专业领域知识，还要对生物医学数据进行系统化推理。

而这，o1模型可以凭借其高级推理能力提供帮助。

在这个项目中，Justin和同事们从数百篇关于罕见疾病的科学病例报告中提取了疾病信息，包括患者的体征和症状。

他们希望能根据患者的症状，找出可能发生突变、导致这些症状的基因。

为此，他们和OpenAI团队一起训练了o1模型，让它更高效地推理疾病的成因。

而在「根据一系列症状预测可能引发遗传疾病的基因」这一任务上，o1-mini的表现超越了o1!

这非常重要，因为o1-mini比o1更小、更快、成本更低。

在OpenAI的开发平台上，他们已经对一个模型进行监督微调一年多了。

他们上传了一个训练数据集，包含1100个示例。

以下是一个单独的数据点，包括病例报告、指令、正确答案三个部分。

病例报告显示，这是一名51岁的女性，有眼距增宽、甲状旁腺功能亢进等症状。在指令部分，研究者会提示模型，希望它做什么。最后就是正确答案。

注意，训练过程中，并不会向模型展示这个答案，否则就是作弊了。

但是，研究者以这训练过程中用这个答案来评估模型。

可以看出，这个任务的难度，已经远远超越了「Strawberry中有几个r」的级别。

接下来，他们上传了一些验证数据，它的格式与训练数据完全相同，但验证数据集和训练数据集之间的正确基因没有重叠。

这就意味着，模型不能作弊，不能只是简单地记住症状列表并将其与基因匹配。

它必须真正从训练数据集泛化到验证数据集。

强化学习的部分，是这样体现的——

他们引入评分器的概念，将模型输出与正确答案比较，返回0到1之间的一个分数。0表示模型完全错误，1表示模型完全正确。

在这个例子中，模型得到了0.7的分数，因为FOXE 3是正确答案，在基因列表中排第二位。

它在列表中越往后，分数会越接近0。

最终，研究者提供了一套评分器合集，能有效覆盖在强化微调时可能会有的各种意图空间。

接下来，可以快速地复制一下评分器，然后就启动了一个训练任务。

厉害的地方在于，只需要提供数据集和评分器（体现领域专业知识），就可以利用OpenAI强化学习算法的全部能力，以及完整的分布式模型训练技术栈，来为自己的使用场景定制一个前沿模型了。

一句话就是：拿上你的数据集和评分器，OpenAI就会给你一个微调模型。

强化学习微调任务可能需要几个小时到几天的时间来运行

可以看到，验证集的奖励分数呈上升趋势。

由于训练数据集和验证数据集之间的基因没有重叠，这意味着：模型确实学会了这项任务中进行泛化！

模型学会通用推理能力

为了更深入地了解模型中微调过程中发生了什么变化，可以查看评估仪表板。

其中，研究者设置了三个不同运行，分别是运行在o1、o1 mini和强化微调后的o1 mini上的任务。

可以看到，奖励分数呈现右上角上升的趋势，但这对任务来说意味着什么呢？

为此，他们设置了三个不同的评估指标，分别是Top-1（第一项正确率）、Top-5（前五项正确率）和Top-max（是否包含正确答案）。

在Top-1指标中，o1 mini在约200条数据上的得分是17%。o1得到了25%，而微调后的o1 mini，得到了31%。

ChatGPT就此生成了一张更直观的图表。

这显示出，模型确实学会了如何在这类数据上进行推理的通用能力！

在Justin看来，强化学习将极大地振奋生物学研究社区，近期内的最佳方案，可能就是结合现有生物信息学工具和类o1模型的混合解决方案。

而以上，仅仅是强化微调在科学研究中的一个应用而已。

除了已经验证的生物化学、AI安全、法律以及医疗保健数据集，模型还会在数百种其他应用场景上发挥作用。

OpenAI的Alpha计划，会让更多人在最重要的任务上，推动o1模型能力的边界。

参考资料：

https://openai.com/form/rft-research-program/

https://x.com/OpenAI/status/1865091561912164499

https://arxiv.org/pdf/2401.08967

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

我要举报

扫码下载澎湃新闻客户端

澎湃矩阵

新闻报料

报料热线: 021-962866
报料邮箱: news@thepaper.cn

沪ICP备14003370号

沪公网安备31010602000299号

互联网新闻信息服务许可证：31120170006

增值电信业务经营许可证：沪B2-2017116

反馈