SkillOS 深度分析：RL 训练 8B 模型做技能策展，超越 Gemini-2.5-Pro——Google 最新论文解读

May 10, 2026

SkillOS 深度分析：RL 训练 8B 模型做技能策展，超越 Gemini-2.5-Pro——G

想象一下：你部署了一个 AI Agent，它今天能解决 100 个任务。一周后，它还是只能解决 100 个任务——因为每次新任务到来，它都从零开始，完全记不住上次是怎么成功的。

这正是当前 LLM Agent 的困境。2026 年 5 月 7 日，Google Cloud AI 联合 UIUC 和 MIT 的 16 位研究者发布了 SkillOS，首次系统性地证明：一个 8B 参数的小模型，经过 RL 训练学会"技能策展"后，可以超越 Gemini-2.5-Pro 直接做策展的效果。

论文链接：arXiv:2605.06614

问题：Agent 为什么不能"记住"经验？

在流式部署场景（streaming setting）中，任务按时间顺序不断到来。一个理想的 Agent 应该：

从每个任务中提炼可复用的经验
将经验组织成可检索、可更新的技能库
在后续相关任务中利用这些技能提升表现

但现实是，大多数 Agent 是 "one-off problem solver"——每次新任务从零开始。为什么？因为技能策展（Skill Curation）极其困难：

人工策展：Anthropic 维护了高质量的 skills 仓库，但依赖大量专家时间，无法规模化
启发式规则：固定规则（如"成功则 insert，失败不操作"）缺乏下游性能反馈，无法适应 executor 的实际需求
短期 RL：现有研究训练 agent 使用技能或优化短期操作，但 update 和 delete 这类复杂操作的回报是延迟的、间接的

核心难点：策展操作（insert/update/delete）本身不产生直接结果——你需要等到未来相关任务的表现出来，才能判断上次的策展决策是好是坏。

SkillOS 架构：双组件 + RL 训练

SkillOS 的核心思想简洁而优雅：


┌─────────────────┐          ┌──────────────────┐
│ Frozen Executor  │  ←──────→│ Trainable Curator │
│ (执行任务，不变)   │  Skills  │ (8B, RL训练)      │
└────────┬─────────┘          └────────┬─────────┘
│ 检索技能                    │ insert/update/delete
│                             │
▼                             ▼
┌─────────────────────────────────────┐
│  SkillRepo (Markdown 文件，类 OS I/O)  │
│  skill_1.md  skill_2.md  ...          │
└─────────────────────────────────────┘

组件一：Frozen Agent Executor

Executor 是冻结的——完全不参与训练。给定当前任务，它用 BM25 从 SkillRepo 检索相关技能，然后用 ReAct/CoT 执行。执行完成后，产生轨迹（trajectory）传回给 Curator。

组件二：Trainable Skill Curator

Curator 是唯一可训练的部分。它观察 executor 的执行轨迹 + 自评结果，然后通过结构化 function call 操作 SkillRepo：

insert_skill：从成功/失败轨迹中提炼新技能
update_skill：精炼已有技能，合并冲突知识
delete_skill：移除过时、冗余、有害技能

每个技能遵循 Anthropic 的 SKILL.md 格式——YAML frontmatter（名称 + 使用条件描述）+ Markdown 可执行指令。

训练方式：GRPO + 复合奖励

基于 Qwen3-8B，使用 GRPO（Grouped Reward Policy Optimization）在 16×H100 GPU 上训练，框架为字节跳动的 verl。关键奖励函数：

r = r_task + r_fc + 0.1·r_cnt + 0.05·r_comp

r_task：后续任务的平均成功率（从 group 中第 2 个任务开始计，第 1 个用空 SkillRepo 无策展影响）——核心信号，锚定策展对下游的实际价值
r_fc：有效函数调用比例——防止生成无效 JSON 或空技能
r_cnt：Qwen3-32B 外部评委内容质量评分——训练早期的密集信号
r_comp：压缩奖励 = 1 − |SkillRepo|/|input context|——惩罚复制粘贴整条轨迹

创新 1：分组任务流训练（Grouped Task Streams）

这是 SkillOS 最精妙的设计，也是消融实验中影响最大的组件（去掉后 SR 从 61.2% 暴跌到 57.3%）。

不按随机顺序训练，而是：

用 Gemini-2.5-Pro 为每个任务标注技能相关属性标签
基于属性相似度将任务聚合成组
每组训练从空的 SkillRepo 开始
早期任务的策展决策由后续相关任务验证

这解决了核心难题：如何把延迟且间接的监督信号转化为有效的学习信号。在随机任务流中，策展操作的效果被无关后续任务稀释；而在分组流中，策展质量直接体现在后续相关任务的表现上。

创新 2：Executor-Grounded 策展

SkillOS 对比了一个关键实验：

SkillOS-gemini：Gemini-2.5-Pro 直接做 curator（零样本策展）
SkillOS：Qwen3-8B RL 训练做 curator

结果：8B 训练的 curator 80.2% SR vs 79.3%，超过了 Gemini-2.5-Pro。当 executor 是较小的 Qwen3-8B 时差距更大：61.2% vs 50.7%。

关键洞察：Gemini 策展出的"高质量技能"可能与较小 executor 的使用模式不匹配——过于复杂、跳过 executor 能力范围外的步骤、或包含 executor 无法利用的抽象策略。而 RL 训练的 curator 通过 executor-grounded 反馈，学习生成的技能精确匹配下游 agent 的实际需求。

这颠覆了"用更强模型策展更好"的直觉——与 executor 对齐的策展比模型规模更重要。

完整实验结果

ALFWorld（多轮 agent 任务）

Executor	No Memory	SkillOS	提升
Qwen3-8B	47.9%	61.2%	+13.3pp
Qwen3-32B	54.5%	68.6%	+14.1pp
Gemini-2.5-Pro	66.4%	80.2%	+13.8pp

同时执行步骤减少：21.1 → 18.9（−10.4%）。效率不是靠更多试错换来的——技能让 executor 直接走捷径，绕过冗余探索。

WebShop + 推理任务（AIME24/25, GPQA）

基准	No Memory	SkillOS	提升
WebShop SR	9.8%	16.5%	+6.7pp
AIME24 Acc	76.0%	80.0%	+4.0pp
AIME25 Acc	71.1%	76.7%	+5.6pp
GPQA Acc	61.8%	64.6%	+2.8pp

agent 任务（ALFWorld/WebShop）的增益普遍大于推理任务——前者暴露更多程序化规律（行动顺序、探索策略、环境约束），后者可复用知识更抽象（分解启发式、验证模式），但 SkillOS 在所有基准上均有提升。

技能的"自我进化"

训练过程中策展行为发生了清晰的阶段性转变：

早期：insert 占绝对主导——疯狂扩张技能库
中期：update 逐渐增多，insert 下降——从扩张转向精炼
后期：delete 缓慢增长——开始清理低效技能

技能内容也经历了从"虚胖"到"结实"的演化：

训练早期：技能充满空洞的 guidance/tips/recommendations，增加篇幅但不增操作价值
训练后期：涌现出 failure-handling logic、conditional branches、meta-strategy skills（验证策略、fallback 规划、系统搜索、策略调整）

技能仓库从任务特定操作集合 → 跨任务控制知识体系。这不是简单的"存了更多东西"，而是技能的组织方式发生了质变。

跨任务泛化：训练的策展能力可迁移

从推理任务训练的 curator 迁移到 ALFWorld/WebShop 仍有效——因为推理技能提炼了分解、验证、自适应规划等抽象策略。反向迁移较弱——WebShop/ALFWorld 的技能更绑定于环境特定知识。

与 Hermes 的关联

这篇论文与 Hermes Agent 的技能系统高度相关：

同源格式：SkillOS 和 Hermes 都遵循 Anthropic SKILL.md（YAML frontmatter + Markdown 指令）
当前差距：Hermes 的 skill 是人工维护的静态资产；SkillOS 证明了可以用 RL 自动学习技能策展
可操作的启示：

复合奖励设计（内容质量 + 压缩 + 下游验证）可直接启发 Hermes skill 质量的自动化评估
Grouped Task Streams 思路 → 在关联任务组中评估技能质量，而非单独评测
8B 模型超越 Gemini-2.5-Pro → 本地小模型做技能管理的可行性
技能演化趋势 → 预期技能从任务特定向 meta-strategic 演化

局限与展望

检索简单：BM25 未学习检索策略——未来应联合学习检索+策展
技能表征简化：单文件 Markdown vs Anthropic 完整文件夹结构
Executor 冻结：未联合优化 executor + curator
训练成本：3-5 天 × 16×H100

论文提出的未来方向包括：Agentic Search over Experiential Memory（学习检索什么而不仅是策展什么）、层次化/组合式技能、多 Agent 共享记忆。

总结

SkillOS 回答了一个根本问题：如何让 Agent 自己学会写 SKILL.md？

通过分组任务流 + 复合奖励 + executor-grounded 训练，一个 8B 小模型学会了从经验中持续提炼高质量技能——效果超过 Gemini-2.5-Pro 零样本策展，跨 executor 和跨任务均有泛化性。这篇论文为"自进化 Agent"提供了一条可操作的、工程化的实现路径，也是 Hermes 技能系统向自动化演进的理论基础。

Stronger reasoning ≠ better curation. The curator that understands its executor beats the curator that only understands itself.