Meta-Harness:当约束层学会自我进化

June 2, 2026

Meta-Harness:当约束层学会自我进化

从静态约束到可优化对象

以往我们说「Harness 是 Agent 的约束层」——规则不可绕过,安全不可妥协。但 2026 年最前沿的问题是:如果 Harness 本身也能通过验证反馈自我进化呢?

这不是哲学思辨。三篇 2026 年 3-4 月的新论文,加上 Datadog 的生产实践,正在把 Harness 从「静态基础设施」变成「可优化的 ML 对象」。

本文是《RLVR for Code Agents》和《自闭环验证》的续篇——当验证闭环已经建立,下一步自然就是:让 Harness 自身进入进化循环。

背景:Harness 里有什么可优化的?

先明确定义。一个 Agent Harness 包含:

  • Context Compaction:何时压缩上下文、压缩到什么程度
  • Tool Caching:哪些工具调用结果可以缓存、缓存多久
  • Semantic Memory:记忆的存储粒度、检索策略
  • Trajectory Reuse:何时复用历史轨迹
  • Speculative Execution:预测性工具调用策略
  • Safety Constraints:运行时安全规则(如 \tool 的 DSL)
  • Verification Gates:编译检查、测试执行、性能回归的触发条件
  • Fallback Chains:模型降级、重试策略、超时处理

每一个维度都是一个配置空间。手动调优在超过 5-10 个开关时就会失效——这正是 ML 优化的经典适用场景。

三条自优化路径

路径方法优化对象代表工作
L1: 参数搜索Bayesian OptimizationHarness 配置参数HARBOR (JPMC)
L2: 代码进化Agent 读写 Harness 源码Harness 源代码Meta-Harness
L3: 生产闭环遥测数据反馈驱动验证规则 + 安全策略Datadog 实践

三条路径正交且互补:L1 调参、L2 改代码、L3 从生产环境学。

路径一:HARBOR — 把 Harness 调优变成 ML 问题

HARBOR: Automated Harness Optimization(arXiv: 2604.20938),JPMorgan Chase,2026 年 4 月。

首次将 harness 设计形式化为一阶 ML 问题

约束噪声贝叶斯优化
  ↓
混合变量配置空间(连续参数 + 离散开关 + 类别选项)
  ↓  
成本异构(不同配置的 token 消耗不同)
  ↓
后验概率约束安全检查(不允许违反安全边界的配置)
  ↓
HARBOR 求解器:Block-additive SAAS surrogate + 多保真成本感知采集 + TuRBO trust regions

核心贡献

  • 手工调参经过 4 轮手动迭代,效果趋于饱和
  • HARBOR 在同样的配置空间中持续发现更优解
  • 生产环境编码 Agent 的案例研究验证

HARBOR 的本质是:将 harness 配置搜索视为安全约束下的混合变量黑盒优化。这与 RLVR 共享一个哲学前提——可验证的反馈信号可以驱动系统性搜索

路径二:Meta-Harness — Agent 自己写自己的 Harness

Meta-Harness: End-to-End Optimization of Model Harnesses(arXiv: 2603.28052),2026 年 3 月。

HARBOR 优化的是参数;Meta-Harness 优化的是源代码

搜索循环(Meta-Harness Loop):

1. Proposer Agent(Claude Code)读取文件系统
   → 包含所有历史候选 harness 的完整源码 + 执行轨迹 + 评估分数

2. Proposer 分析失败原因
   → 可以追溯到具体哪行 harness 代码导致了哪个失败
   → 而非从分数猜测

3. Proposer 提出新 harness 变体
   → 直接修改源码,提交为新的候选

4. 在 held-out 任务集上评估
   → 确保泛化性

5. 日志写回文件系统
   → 下一轮循环的上下文

为什么这比超参搜索强?

方法输入给优化器的信息规模上限
传统超参搜索压缩后的分数向量几十个标量
GEPA / DSPy自然语言反思几千 token
Meta-Harness完整源码 + 执行轨迹每步 10M token

当优化器能读到「第 47 行的缓存策略导致第 3 轮工具调用返回了过期结果」,它就能提出针对性的源码级修改——这比任何标量反馈都精确。

实验结果

  • 文本分类:+7.7 准确率点
  • 检索增强数学推理:+4.7 平均增益
  • Agentic coding(TerminalBench-2):超越手工 harness

将 Meta-Harness 与 GEPA 类比:

GEPA 优化提示文本 → Meta-Harness 优化 harness 源码。
两者都是反思驱动的代码/文本空间进化。
区别:GEPA 操作几十行 prompt,Meta-Harness 操作几百行 harness 基础设施代码。

路径三:Datadog — 让生产环境成为最终的验证器

2026 年,Datadog 公开了其「harness-first engineering」实践(Closing the verification loop):

Agent 生成代码 → Harness 自动验证(沙箱) → 部署 → 生产遥测
    ↑                                                          |
    └──────── 如果发现问题,反馈更新 harness ──────────────────┘

与纯沙箱验证的关键区别

  • 沙箱告诉你「测试通过了」
  • 生产遥测告诉你「用户没报 bug」
  • 后者是比单元测试更强的地面真值信号

Datadog 的实践要点:

  • Shadow mode:新 harness 规则先以只记录不拦截的方式运行
  • 渐进式部署:验证无误后再启用拦截
  • 生产信号回写:异常模式自动反馈到 harness 规则库

这本质上是把 RLVR 的验证器从「沙箱单元测试」升级为「生产环境遥测」——信号更真实,但也更稀疏、更嘈杂。

核心约束:谁验证验证器?

三条路径都回避不了同一个问题:

Harness 可以自优化规则 → 但谁保证优化后的规则不会比优化前更差?

三方共识:harness 自优化必须有一个不可自优化的外层。

方法不可自优化的外层
Meta-HarnessHeld-out 任务集:优化在搜索集上进行,验证在 held-out 集上——标准 ML 泛化保障
HARBOR后验概率安全约束:优化算法不允许访问违反安全边界的配置区域
DatadogShadow mode + 渐进部署:新规则必须经过「只观察→软拦截→硬拦截」三级验证

这与自闭环验证的双层架构设计完全一致:

内层(闭环):可进化、可学习的 harness 规则
外层(硬约束):不可绕过的安全边界、held-out 验证集、部署策略

外层约束精简但不可变,内层验证灵活但可被欺骗——两者互补。

与系列前文的连接

本系列三篇文章形成一个完整的链条:

第一篇(RLVR):  Agent 如何学会「自己批改作业」
    ↓ 训练信号驱动
第二篇(自闭环验证): Agent 如何形成无人类参与的验证闭环
    ↓ 验证闭环成熟后
第三篇(本文): Harness 如何通过验证反馈自我进化

三者统一 = 代码 Agent 完全自主进化的终极形态

  • RLVR 提供「做对了没」的训练信号
  • 自闭环验证提供「怎么验证」的自动化基础设施
  • Harness 自优化提供「用什么规则约束」的持续进化机制

2026 年的范式转变可以概括为一句话:

Harness 本身从「静态基础设施」变成「可优化的 ML 对象」。
Prompt Engineering → Context Engineering → Harness Engineering → Meta-Harness Engineering

成熟度阶梯

层级能力代表状态
L1手工 Harness 调优所有 Agent 产品✅ 主流
L2自动化超参搜索HARBOR (JPMC)✅ 生产中
L3Agent 驱动源码级搜索Meta-Harness🔬 研究
L4生产遥测驱动闭环Datadog⚠️ 早期实践
L5完全自优化 Harness❌ 未实现

Top 论文清单

Harness 自优化(核心)

论文出处核心贡献
Meta-Harness: End-to-End Optimization of Model HarnessesarXiv: 2603.28052 (2026.03)Agent 驱动源码级 harness 搜索。Proposer 读完整历史源码+轨迹,每步 10M token 上下文。+7.7 分类 / +4.7 推理
HARBOR: Automated Harness OptimizationarXiv: 2604.20938 (2026.04), JPMC首次形式化 harness 调优为约束噪声 BO 问题。混合变量 + 安全约束 + 多保真采集。生产编码 Agent 案例

Agent Harness 基础理论与综述

论文出处核心贡献
Agent Harness for Large Language Model Agents: A SurveyPreprints 2026.04首个 Agent Harness 系统性综述。任务分解、结构化记忆、技能表示、上下文检索、奖励设计全覆盖
Agent Systems with Harness EngineeringRUCAIBox, 2026将 Harness Engineering 形式化为学科。可控消融实验、六大发现、结构化自然语言控制逻辑

相关范式(上下游连接)

论文出处核心贡献
Agent-RLVRarXiv: 2506.11425, Scale AIGuidance + Environment Reward。Qwen-72B SWE-bench 9.4%→22.4%
ReVealarXiv: 2506.11442生成-验证协同进化。多轮自验证 + 密集奖励
Tree-GRPOICLR 2026, Alibaba树搜索 rollout,1/4 预算超越链式 GRPO
R³LarXiv: 2601.03715反思-重试 RL:诊断失败→从失败点重启。5-52% 相对提升
GiGPONeurIPS 2025双层优势:Episode 级 + 步骤级锚点分组

Harness 组件专项

论文出处核心贡献
\toolarXiv: 2503.18666DSL 运行时约束。阻止 >90% 代码 Agent 不安全执行
SAGA + TCGBenchNeurIPS 2025人-LLM 协作测试生成。Verifier Accuracy +10.78%
SWE-MiniSandboxarXiv: 2602.11210无容器 RL 训练沙箱。磁盘 5%、时间 25%

Top 开源项目清单

Harness 优化 / 搜索框架

项目链接机构核心能力
Meta-Harnessyoonholee.com/meta-harness学术Agent 驱动 harness 源码级搜索。Claude Code Proposer + 文件系统历史
HARBORarXiv: 2604.20938JPMC约束噪声 BO harness 优化器。SAAS surrogate + TuRBO

RL 训练基础设施

项目链接Stars核心能力
verlverl-project/verl~8k+字节跳动:最主流 LLM RL 训练库。2026 新增多轮 Agentic RL
OpenRLHFOpenRLHF/OpenRLHF~5k+Ray + vLLM。简洁易用。支持 GRPO/DPO/PPO
ROLLalibaba/ROLL~2k+阿里:高效易用 RLVR 扩展库
Trinity-RFTagentscope-ai/Trinity-RFT通用 RFT 框架。GRPO + 异步 + off-policy + 离线

SWE Agent 专项

项目链接Stars核心能力
SWE-RLfacebookresearch/swe-rl~1.5k+Meta NeurIPS'25:首个规模化 SWE RL。从软件演化数据学习
SWE-MiniSandboxlblankl/SWE-MiniSandbox无容器 SWE RL 沙箱。磁盘 5%、时间 25%
Live-SWE-agentOpenAutoCoder/live-swe-agent首个运行时自进化 SWE Agent。79.2% Verified / 45.8% Pro
MARTITsinghuaC3I/MARTI503清华:多 Agent RL。v2 树搜索 MARS²
SWE-ReXSWE-agent/SWE-ReX502大规模并行沙箱代码执行
Tree-GRPOAMAP-ML/Tree-GRPO阿里 ICLR'26:树搜索替代链式 rollout

Harness 工程资源索引

项目链接内容
awesome-agent-harnessRUCAIBox/awesome-agent-harnessAgent Harness 论文/项目系统性索引
awesome-RLVRopendilab/awesome-RLVRRLVR 论文/项目/博客全索引
Awesome-LLM-RLVRsmiles724/Awesome-LLM-RLVR持续更新的 LLM RLVR 论文列表

技术声明

Meta-Harness 和 HARBOR 的技术细节基于其 arXiv 论文摘要及公开分析。Meta-Harness 的实验数据(+7.7 / +4.7 / 10M token 等)来自 alphaXiv 和 Hugging Face 的分析文章。HARBOR 的 JPMC 生产案例基于论文公开信息,具体实现细节未公开。Datadog 的 harness-first engineering 实践基于其 2026 年工程博客。Agent Harness Survey 的内容来自 Preprints 公开摘要。所有开源项目的 star 数为 2026 年 6 月近似值。

「Harness 自优化的三层不可绕过外层」框架为本文提出的分析框架(⚠️),基于 Meta-Harness/HARBOR/Datadog 三方设计模式的归纳。四阶段演进(Prompt → Context → Harness → Meta-Harness)为基于 2026 年研究趋势的推断。