Proactive Intent Inference:当 Agent 学会在用户开口前行动 —— π-BENCH 深度技术洞察

当你说"帮我分析这篇论文"时,你真正需要的可能是一份深度的架构解读、对照你上周的审稿标准的评估、以及自动生成的中文 blog 草稿。但你不会把这些都说出来——你期待 Agent 能猜到。
这就是 Proactive Intent Inference(主动意图推断)要解决的核心问题:用户还没说,Agent 能不能从上下文中推断出意图并提前行动?
2026年5月,上海 AI Lab 联合 SJTU、CUHK 等机构发布的 π-BENCH(arXiv 2605.14678)是第一个系统性地评估这一能力的 benchmark。本文深入分析其设计哲学、核心机制和实验结果,并探讨其对 Agent 基础设施建设的启示。
关键发现预览:
- Completeness(任务完成度)≠ Proactivity(主动推断能力)— 两者最大差距达 46 个百分点
- 移除跨 session 历史后,Proactivity 平均下降 9.5 分,但 Completeness 仅下降 2.5 分
- 法律文书场景:Agent 能把文档写好(COMP 84%),但几乎不知道还需要什么配套材料(PROC 38%)
- 当前最强模型(GPT-5.4)的 Proactivity 也仅 67%
一、问题设定:从"听指令"到"猜意图"
传统 Agent 评估关注的是 Reactive 能力——用户说了什么,Agent 做得怎么样。但真实世界的人机协作中,用户极少给出完整规格说明书:
- "帮我准备客户汇报 PPT" → 没说格式、没说指标偏好、没说命名规范
- "分析这篇论文" → 没说深度、没说输出格式、没说对比基准
- "订张去北京的机票" → 没说预算范围、没说时间段偏好、没说航空公司
这些没说出来的需求就是 Hidden Intents(隐藏意图)。在长时间跨度的协作中(数天到数周),这些 Hidden Intents 可能随时间逐渐浮现,也可能从一个 session 携带到下一个。
π-BENCH 的形式化定义很简洁但精确:
Underspecified] --> A[Agent 处理] A -->|自动推断并完成| C[COMPLETED 完成
最高评价] A -->|精准提问后用户补充| I[INFERRED 推断
次高评价] A -->|既没推断也没问| P[PROVIDED 提供
被动,扣分] style C fill:#1a472a,stroke:#4caf50,color:#fff style I fill:#1a3a5c,stroke:#2196f3,color:#fff style P fill:#5c1a1a,stroke:#f44336,color:#fff
Proactivity 分数 = (Completed + Inferred) / 总 Hidden Intents。这个设计的关键洞察是:精准提问也是主动性的体现——识别出"我不知道什么"本身就是一种元认知能力。
二、Benchmark 设计:100 个任务的"意图迷宫"
2.1 五个用户角色
π-BENCH 围绕五个领域专家角色构建,每个角色有 20 个 session(多轮任务),构成一个 episode:
- Researcher(研究者):AI 前沿追踪、论文 rebuttal、学术生涯规划
- Financier(金融分析师):模型验证、量化数据工程、曲线分析
- Law Trainee(法律实习生):文书起草、合规策略、案件运营
- Pharmacist(药剂师):文献综述、实验分析、药物设计
- Marketer(营销人员):市场情报、内容系统、品牌策略、危机公关
共 100 个 task,分为 21 个细粒度类别(A-R)。这个设计确保了领域多样性和真实工作流覆盖。
2.2 隐藏意图的生命周期
π-BENCH 的核心数据结构不是简单的 "label → prediction" 对,而是一个有状态的意图追踪系统:
但通过文件/记忆/推理
正确满足了i的约束 note right of INFERRED: Agent提出直接针对i的问题
用户回答后执行
仍然是主动性行为 note right of PROVIDED: Agent完全被动
用户不得不自己提出来
2.3 跨 Session 依赖结构
这是 π-BENCH 最具独创性的设计:不是孤立的单 session 评估,而是模拟真实工作流中的长程依赖。
命名/格式/目录] --> S7[S7: 使用S3规范] S7 --> S17[S17: 累积约定交付] S5[S5: 建立偏好] --> S13[S13: 使用S5偏好] end subgraph 依赖类型 D1[强依赖组×6
每组2-3个task
必须carry over] D2[轻依赖/独立×5
通用偏好约束] end style S3 fill:#1a3a5c,stroke:#2196f3 style S7 fill:#1a3a5c,stroke:#2196f3 style S17 fill:#1a3a5c,stroke:#2196f3
关键设计:Session 3 建立的文件命名规范和输出格式,Session 7 必须使用,Session 17 更要基于前两者的累积约定做最终交付。Agent 不能重新询问——必须从 memory 或 workspace 中检索。
三、实验结果:Completeness ≠ Proactivity
3.1 总体性能
9 个前沿模型在两个维度上的表现(100 个 task × 3 次重复实验):
| 模型 | PROC | COMP | 差距 | 特征 |
|---|---|---|---|---|
| GPT-5.4 | 67.0 | 65.6 | +1.4 | 均衡型 |
| Claude Opus 4.6 | 65.5 | 67.6 | -2.1 | 执行强于推断 |
| Qwen3.6 Plus | 64.0 | 64.1 | -0.1 | 最均衡 |
| DeepSeek V3.2 | 53.3 | 57.8 | -4.5 | 中等 |
| Kimi K2.5 | 43.1 | 61.6 | -18.5 | 最被动 |
Kimi K2.5 的数据最耐人寻味:COMP 61.6 说明它执行能力不差,但 PROC 仅 43.1——它会等用户一步步喂清楚后才干,活做得还行,但认知负担全转嫁给了用户。这就是"勤奋的被动者"模式。
3.2 领域分离:最大的 Proactivity 鸿沟
但不知道还需要什么配套材料
隐藏意图: 缺失文件、blockers、follow-up] end subgraph K类: 药物设计 K_PROC[PROC: 84.9%] -->|差距17pp| K_COMP[COMP: 68.0%] K_WHY[科学约束容易从文件推断
但综合成完整技术文档难] end style H_PROC fill:#5c1a1a,stroke:#f44336,color:#fff style K_PROC fill:#1a472a,stroke:#4caf50,color:#fff
法律类任务是 PROC ≪ COMP 的典型:Agent 能把起诉状写得像模像样,但完全不知道还需要附上证据清单、传票模板、归档提醒。而药物设计类是 PROC > COMP 的反例:分子性质、实验约束这些可以从文件里"读"出来,推断不难,但写成完整的技术报告更难。
3.3 移除前置 Session 的冲击
Ablation 实验揭示:跨 session 历史对 Proactivity 的贡献是 Completeness 的 3.8 倍。
| 模型 | PROC 原始 | PROC 移除历史 | 降幅 | COMP 降幅 |
|---|---|---|---|---|
| GPT-5.4 | 78.5 | 64.9 | -13.6 | -2.5 |
| MiniMax M2.7 | 64.8 | 59.7 | -5.1 | -2.8 |
| DeepSeek V3.2 | 61.9 | 52.1 | -9.8 | -2.1 |
| 平均值 | - | - | -9.5 | -2.5 |
这意味着:当前模型即使去掉上下文,也能通过"等用户补充"来完成交付(COMP 基本不受影响)。但它们完全失去了提前推断的能力。前置交互的本质不是提供"更多信息",而是提供"推断的依据"。
3.4 交互成本量化
对话轮数与 Proactivity 呈负相关:
- GPT-5.4 / Claude 4.6 / Qwen3.6 Plus → 高 PROC + 低 turns(理想区)
- Kimi K2.5 → 低 PROC + 最高 turns(等待投喂模式)
主动推断的本质是减少用户的认知和操作负担——少问、少等、多做。
四、对整个 Proactive Intent Inference 生态的定位
π-BENCH 不是孤立的。将它与同期工作并列观察,可以看出这个领域的清晰分层:
NeurIPS 2025
可穿戴传感器→实时意图预测] PA[ProAgent
arXiv 2512.06721
AR眼镜端到端主动服务] end subgraph 偏好推断层 KU[KnowU-Bench
arXiv 2604.08455
移动端偏好获取+介入校准] end subgraph 长程工作流层 PI[π-BENCH
arXiv 2605.14678
跨session隐藏意图
+任务完整性] end CA -->|实时推断| KU KU -->|跨session记忆| PI PA -->|工程实现| CA style PI fill:#1a3a5c,stroke:#4caf50,color:#fff,stroke-width:3px
| 维度 | ContextAgent | KnowU-Bench | π-BENCH |
|---|---|---|---|
| 上下文来源 | 可穿戴传感器 | 手机行为日志 | 工作区文件+记忆 |
| 时间尺度 | 实时 moment | 分钟~小时 | 数天~数周 |
| 行动空间 | 外部 tool calling | GUI 操作 + 对话 | 文件编辑 + skill 调用 |
| 核心度量 | Acc-P + F1 | Success Rate + Act/Silent/Stop | PROC + COMP |
五、对 Agent 基础设施的启示
π-BENCH 的框架不仅仅是一个评估工具,它揭示了当前 Agent 系统的一个结构性缺陷:
所有 Agent 系统都有 memory 和 context,但没有一个系统性地利用它们做主动推断。
5.1 缺失的架构层:Intent Inference Engine
当前主流 Agent 架构(包括 Hermes)的管线是:
Memory 是存在的,但只在 Planner 主动查询时才被使用。没有机制让系统"主动扫描 memory、识别与当前任务的关联、预测隐藏需求"。
π-BENCH 隐含地要求了一个新的架构层:
跨session历史] --> HIR W[Workspace
文件+产物] --> IIE P --> E[Executor] C -->|用户反馈| HIR E --> IT[Intent Tracker] IT -->|学习新意图| HIR style IIE fill:#1a472a,stroke:#4caf50,color:#fff style HIR fill:#1a3a5c,stroke:#2196f3,color:#fff
这个 Intent Inference Engine 包含三个核心组件:
- Hidden Intent Registry:存储跨 session 发现的用户偏好和隐式需求(如"输出中文"、"使用 Mermaid 图表"、"代码 Dark 主题"),带置信度和衰减机制
- Intent Matcher:每次新请求到达时,检索匹配的 hidden intents,根据置信度决定自动应用还是提问确认
- Intent Tracker:每次任务完成后,检测用户是否补充了"本应提前知道"的信息,更新 Registry
5.2 两个最小可行实验
实验 1:Blog 写作管线的隐藏意图
场景:用户连续多次 blog 写作中都被纠正"要中文、要 Mermaid 图、代码用 Dark 主题"。
- 当前行为:每次都需要重新纠正
- 改进后:Intent Matcher 匹配到 3 个高置信度(>0.85)intents → 自动注入 system prompt → 直接生成正确格式
- 度量:用户纠正次数 / task 数的前后变化
实验 2:论文分析的深度推断
场景:用户之前的论文分析都要求"深度分析(架构+实验+局限),按特定模板"。下一次只说"分析这篇论文"。
- 当前行为:给一个 3 段摘要,等用户补充要求
- 改进后:匹配到 paper_analysis_depth=0.72 → 生成简短确认:"深度分析(架构+实验+局限)还是快速摘要?"
- 关键:这不是不问,而是问得精准——π-BENCH 框架中 INFERRED 和 COMPLETED 同权
5.3 风险:过度推断
最大的实现风险不是"推断不出来",而是"推断错了还自以为对"——这正是 KnowU-Bench 中 80% Proactive 失败的根因。应对策略:
- 高置信度(>0.85):自动应用但 告知用户("根据之前对话,我假设你希望...")
- 中置信度(0.6-0.85):精准提问确认
- 低置信度(<0.6):忽略,防止过度推断
- 提供 `/undo-intent
` 命令来回滚错误推断 - 每次被纠正时降低 confidence,每次未被纠正时提升
六、评估启示:如何度量你自己的 Agent
π-BENCH 的评估协议可以直接适配到任何 Agent 系统:
- 标注 Hidden Intents:回顾过去 N 个 session,手工标注每次交互中用户"本应提前说明但没说"的需求
- 计算基线 PROC:PROC_baseline = (自动满足数 + 精准提问数) / 总 hidden intents
- 实现推断层后:对比 PROC 变化趋势、turn count / task 趋势
- 长期追踪:哪类 hidden intent 始终无法自动推断 → 需要更好的上下文提取机制
当前大多数 Agent 系统(包括生产环境中的)的 PROC 基线很可能在 10-30% 区间。这意味着用户 70-90% 的认知负担是 Agent 本可以承担但没有承担的。
七、总结
π-BENCH 贡献了三个核心洞察:
- Completeness ≠ Proactivity:能把活干好 ≠ 能猜到你需要什么。这两者是独立的能力维度,最大差距可达 46 个百分点
- 跨 session 历史是推断的基础:移除前置交互后 Proactivity 下降 3.8 倍于 Completeness——memory 的价值不在"存储信息",而在"提供推断依据"
- 主动意图推断需要独立的架构层:不能依赖 Planner 被动查询 memory,需要有专用的 Intent Inference Engine 做持续的上下文扫描和意图匹配
Proactive Intent Inference 不是锦上添花的 feature,它是 Agent 从"工具"进化为"助手"的关键能力缺口。而 π-BENCH 提供了一个可操作的定义、一个可复现的 benchmark、以及一个可迁移的架构蓝图。
参考文献:
- π-BENCH: arXiv 2605.14678 — Haoran Zhang et al., Shanghai AI Lab, May 2026
- ContextAgent: arXiv 2505.14668 — NeurIPS 2025
- KnowU-Bench: arXiv 2604.08455 — Zhejiang Univ. + Apple + Tencent, Apr 2026
- ProAgent: arXiv 2512.06721 — Dec 2025