SkillOS 深度分析:RL 训练 8B 模型做技能策展,超越 Gemini-2.5-Pro——Google 最新论文解读

May 10, 2026

SkillOS 深度分析:RL 训练 8B 模型做技能策展,超越 Gemini-2.5-Pro——G

想象一下:你部署了一个 AI Agent,它今天能解决 100 个任务。一周后,它还是只能解决 100 个任务——因为每次新任务到来,它都从零开始,完全记不住上次是怎么成功的。

这正是当前 LLM Agent 的困境。2026 年 5 月 7 日,Google Cloud AI 联合 UIUC 和 MIT 的 16 位研究者发布了 SkillOS,首次系统性地证明:一个 8B 参数的小模型,经过 RL 训练学会"技能策展"后,可以超越 Gemini-2.5-Pro 直接做策展的效果

论文链接:arXiv:2605.06614

问题:Agent 为什么不能"记住"经验?

在流式部署场景(streaming setting)中,任务按时间顺序不断到来。一个理想的 Agent 应该:

  1. 从每个任务中提炼可复用的经验
  2. 将经验组织成可检索、可更新的技能库
  3. 在后续相关任务中利用这些技能提升表现

但现实是,大多数 Agent 是 "one-off problem solver"——每次新任务从零开始。为什么?因为技能策展(Skill Curation)极其困难

  • 人工策展:Anthropic 维护了高质量的 skills 仓库,但依赖大量专家时间,无法规模化
  • 启发式规则:固定规则(如"成功则 insert,失败不操作")缺乏下游性能反馈,无法适应 executor 的实际需求
  • 短期 RL:现有研究训练 agent 使用技能或优化短期操作,但 updatedelete 这类复杂操作的回报是延迟的、间接的

核心难点:策展操作(insert/update/delete)本身不产生直接结果——你需要等到未来相关任务的表现出来,才能判断上次的策展决策是好是坏。

SkillOS 架构:双组件 + RL 训练

SkillOS 的核心思想简洁而优雅:


┌─────────────────┐          ┌──────────────────┐
│ Frozen Executor  │  ←──────→│ Trainable Curator │
│ (执行任务,不变)   │  Skills  │ (8B, RL训练)      │
└────────┬─────────┘          └────────┬─────────┘
│ 检索技能                    │ insert/update/delete
│                             │
▼                             ▼
┌─────────────────────────────────────┐
│  SkillRepo (Markdown 文件,类 OS I/O)  │
│  skill_1.md  skill_2.md  ...          │
└─────────────────────────────────────┘

组件一:Frozen Agent Executor

Executor 是冻结的——完全不参与训练。给定当前任务,它用 BM25 从 SkillRepo 检索相关技能,然后用 ReAct/CoT 执行。执行完成后,产生轨迹(trajectory)传回给 Curator。

组件二:Trainable Skill Curator

Curator 是唯一可训练的部分。它观察 executor 的执行轨迹 + 自评结果,然后通过结构化 function call 操作 SkillRepo:

  • insert_skill:从成功/失败轨迹中提炼新技能
  • update_skill:精炼已有技能,合并冲突知识
  • delete_skill:移除过时、冗余、有害技能

每个技能遵循 Anthropic 的 SKILL.md 格式——YAML frontmatter(名称 + 使用条件描述)+ Markdown 可执行指令。

训练方式:GRPO + 复合奖励

基于 Qwen3-8B,使用 GRPO(Grouped Reward Policy Optimization)在 16×H100 GPU 上训练,框架为字节跳动的 verl。关键奖励函数:

r = r_task + r_fc + 0.1·r_cnt + 0.05·r_comp
  • r_task:后续任务的平均成功率(从 group 中第 2 个任务开始计,第 1 个用空 SkillRepo 无策展影响)——核心信号,锚定策展对下游的实际价值
  • r_fc:有效函数调用比例——防止生成无效 JSON 或空技能
  • r_cnt:Qwen3-32B 外部评委内容质量评分——训练早期的密集信号
  • r_comp:压缩奖励 = 1 − |SkillRepo|/|input context|——惩罚复制粘贴整条轨迹

创新 1:分组任务流训练(Grouped Task Streams)

这是 SkillOS 最精妙的设计,也是消融实验中影响最大的组件(去掉后 SR 从 61.2% 暴跌到 57.3%)。

不按随机顺序训练,而是:

  1. 用 Gemini-2.5-Pro 为每个任务标注技能相关属性标签
  2. 基于属性相似度将任务聚合成组
  3. 每组训练从空的 SkillRepo 开始
  4. 早期任务的策展决策由后续相关任务验证

这解决了核心难题:如何把延迟且间接的监督信号转化为有效的学习信号。在随机任务流中,策展操作的效果被无关后续任务稀释;而在分组流中,策展质量直接体现在后续相关任务的表现上。

创新 2:Executor-Grounded 策展

SkillOS 对比了一个关键实验:

  • SkillOS-gemini:Gemini-2.5-Pro 直接做 curator(零样本策展)
  • SkillOS:Qwen3-8B RL 训练做 curator

结果:8B 训练的 curator 80.2% SR vs 79.3%,超过了 Gemini-2.5-Pro。当 executor 是较小的 Qwen3-8B 时差距更大:61.2% vs 50.7%

关键洞察:Gemini 策展出的"高质量技能"可能与较小 executor 的使用模式不匹配——过于复杂、跳过 executor 能力范围外的步骤、或包含 executor 无法利用的抽象策略。而 RL 训练的 curator 通过 executor-grounded 反馈,学习生成的技能精确匹配下游 agent 的实际需求。

这颠覆了"用更强模型策展更好"的直觉——与 executor 对齐的策展比模型规模更重要

完整实验结果

ALFWorld(多轮 agent 任务)

ExecutorNo MemorySkillOS提升
Qwen3-8B47.9%61.2%+13.3pp
Qwen3-32B54.5%68.6%+14.1pp
Gemini-2.5-Pro66.4%80.2%+13.8pp

同时执行步骤减少:21.1 → 18.9(−10.4%)。效率不是靠更多试错换来的——技能让 executor 直接走捷径,绕过冗余探索。

WebShop + 推理任务(AIME24/25, GPQA)

基准No MemorySkillOS提升
WebShop SR9.8%16.5%+6.7pp
AIME24 Acc76.0%80.0%+4.0pp
AIME25 Acc71.1%76.7%+5.6pp
GPQA Acc61.8%64.6%+2.8pp

agent 任务(ALFWorld/WebShop)的增益普遍大于推理任务——前者暴露更多程序化规律(行动顺序、探索策略、环境约束),后者可复用知识更抽象(分解启发式、验证模式),但 SkillOS 在所有基准上均有提升。

技能的"自我进化"

训练过程中策展行为发生了清晰的阶段性转变:

  • 早期:insert 占绝对主导——疯狂扩张技能库
  • 中期:update 逐渐增多,insert 下降——从扩张转向精炼
  • 后期:delete 缓慢增长——开始清理低效技能

技能内容也经历了从"虚胖"到"结实"的演化:

  • 训练早期:技能充满空洞的 guidance/tips/recommendations,增加篇幅但不增操作价值
  • 训练后期:涌现出 failure-handling logic、conditional branches、meta-strategy skills(验证策略、fallback 规划、系统搜索、策略调整)

技能仓库从任务特定操作集合 → 跨任务控制知识体系。这不是简单的"存了更多东西",而是技能的组织方式发生了质变

跨任务泛化:训练的策展能力可迁移

从推理任务训练的 curator 迁移到 ALFWorld/WebShop 仍有效——因为推理技能提炼了分解、验证、自适应规划等抽象策略。反向迁移较弱——WebShop/ALFWorld 的技能更绑定于环境特定知识。

与 Hermes 的关联

这篇论文与 Hermes Agent 的技能系统高度相关:

  • 同源格式:SkillOS 和 Hermes 都遵循 Anthropic SKILL.md(YAML frontmatter + Markdown 指令)
  • 当前差距:Hermes 的 skill 是人工维护的静态资产;SkillOS 证明了可以用 RL 自动学习技能策展
  • 可操作的启示
    • 复合奖励设计(内容质量 + 压缩 + 下游验证)可直接启发 Hermes skill 质量的自动化评估
    • Grouped Task Streams 思路 → 在关联任务组中评估技能质量,而非单独评测
    • 8B 模型超越 Gemini-2.5-Pro → 本地小模型做技能管理的可行性
    • 技能演化趋势 → 预期技能从任务特定向 meta-strategic 演化

局限与展望

  • 检索简单:BM25 未学习检索策略——未来应联合学习检索+策展
  • 技能表征简化:单文件 Markdown vs Anthropic 完整文件夹结构
  • Executor 冻结:未联合优化 executor + curator
  • 训练成本:3-5 天 × 16×H100

论文提出的未来方向包括:Agentic Search over Experiential Memory(学习检索什么而不仅是策展什么)、层次化/组合式技能、多 Agent 共享记忆。

总结

SkillOS 回答了一个根本问题:如何让 Agent 自己学会写 SKILL.md?

通过分组任务流 + 复合奖励 + executor-grounded 训练,一个 8B 小模型学会了从经验中持续提炼高质量技能——效果超过 Gemini-2.5-Pro 零样本策展,跨 executor 和跨任务均有泛化性。这篇论文为"自进化 Agent"提供了一条可操作的、工程化的实现路径,也是 Hermes 技能系统向自动化演进的理论基础。

Stronger reasoning ≠ better curation. The curator that understands its executor beats the curator that only understands itself.