developer.chat
2 February 2025
SEO Title
category
谷歌DeepMind发布的新论文表明,强化学习(RL)在跨领域中具有泛化能力,而监督微调(SFT)主要是记忆。👀
实验设置
1️⃣ 模型与任务:Llama-3.2-Vision-11B;GeneralPoints(文本/视觉算术游戏);V-IRL(现实世界的机器人导航)
2️⃣ 设置:仅SFT vs 仅RL vs 混合(SFT→RL)管道 + RL变体:1/3/5/10次验证迭代(“拒绝采样”)
3️⃣ 指标:分布内(ID)与分布外(OOD)表现
4️⃣ 消融实验:直接将RL应用于基础的Llama-3.2模型,而不进行SFT初始化;测试极端的SFT过拟合场景;比较计算成本与性能提升
洞察
💡 基于结果的奖励是有效RL训练的关键
🎯 当基础模型不遵循指令时,SFT对于RL训练是必要的
🔢 多次验证/拒绝采样有助于将泛化提升约6%
🧮 使用基于结果/规则的奖励,注重正确性
🧠 RL在基于规则的任务中(文本与视觉)能够泛化,学习可转移的原则
📈 SFT导致记忆化,并在分布外场景中表现不佳
Paper:
Github:
Model & Data: https://huggingface.co/collections/tianzhechu/sftvsrl-models-and-data-6797ba6de522c7de7fcb80ba
- 登录 发表评论