跳转到主要内容

category

谷歌DeepMind发布的新论文表明,强化学习(RL)在跨领域中具有泛化能力,而监督微调(SFT)主要是记忆。👀

实验设置 

 

1️⃣ 模型与任务:Llama-3.2-Vision-11B;GeneralPoints(文本/视觉算术游戏);V-IRL(现实世界的机器人导航) 

2️⃣ 设置:仅SFT vs 仅RL vs 混合(SFT→RL)管道 + RL变体:1/3/5/10次验证迭代(“拒绝采样”) 

3️⃣ 指标:分布内(ID)与分布外(OOD)表现 

4️⃣ 消融实验:直接将RL应用于基础的Llama-3.2模型,而不进行SFT初始化;测试极端的SFT过拟合场景;比较计算成本与性能提升

洞察 

💡 基于结果的奖励是有效RL训练的关键
🎯 当基础模型不遵循指令时,SFT对于RL训练是必要的
🔢 多次验证/拒绝采样有助于将泛化提升约6%
🧮 使用基于结果/规则的奖励,注重正确性
🧠 RL在基于规则的任务中(文本与视觉)能够泛化,学习可转移的原则
📈 SFT导致记忆化,并在分布外场景中表现不佳

Paper: https://huggingface.co/papers/2501.17161
Github: https://github.com/LeslieTrue/SFTvsRL
Model & Data: https://huggingface.co/collections/tianzhechu/sftvsrl-models-and-data-6797ba6de522c7de7fcb80ba