Proactive Intent Inference:当 Agent 学会在用户开口前行动 —— π-BENCH 深度技术洞察

May 23, 2026

Proactive Intent Inference:当 Agent 学会在用户开口前行动 —— π

当你说"帮我分析这篇论文"时,你真正需要的可能是一份深度的架构解读、对照你上周的审稿标准的评估、以及自动生成的中文 blog 草稿。但你不会把这些都说出来——你期待 Agent 能猜到

这就是 Proactive Intent Inference(主动意图推断)要解决的核心问题:用户还没说,Agent 能不能从上下文中推断出意图并提前行动?

2026年5月,上海 AI Lab 联合 SJTU、CUHK 等机构发布的 π-BENCH(arXiv 2605.14678)是第一个系统性地评估这一能力的 benchmark。本文深入分析其设计哲学、核心机制和实验结果,并探讨其对 Agent 基础设施建设的启示。

关键发现预览:

  • Completeness(任务完成度)≠ Proactivity(主动推断能力)— 两者最大差距达 46 个百分点
  • 移除跨 session 历史后,Proactivity 平均下降 9.5 分,但 Completeness 仅下降 2.5 分
  • 法律文书场景:Agent 能把文档写好(COMP 84%),但几乎不知道还需要什么配套材料(PROC 38%)
  • 当前最强模型(GPT-5.4)的 Proactivity 也仅 67%

一、问题设定:从"听指令"到"猜意图"

传统 Agent 评估关注的是 Reactive 能力——用户说了什么,Agent 做得怎么样。但真实世界的人机协作中,用户极少给出完整规格说明书:

  • "帮我准备客户汇报 PPT" → 没说格式、没说指标偏好、没说命名规范
  • "分析这篇论文" → 没说深度、没说输出格式、没说对比基准
  • "订张去北京的机票" → 没说预算范围、没说时间段偏好、没说航空公司

这些没说出来的需求就是 Hidden Intents(隐藏意图)。在长时间跨度的协作中(数天到数周),这些 Hidden Intents 可能随时间逐渐浮现,也可能从一个 session 携带到下一个。

π-BENCH 的形式化定义很简洁但精确:

graph TD U[用户初始请求
Underspecified] --> A[Agent 处理] A -->|自动推断并完成| C[COMPLETED 完成
最高评价] A -->|精准提问后用户补充| I[INFERRED 推断
次高评价] A -->|既没推断也没问| P[PROVIDED 提供
被动,扣分] style C fill:#1a472a,stroke:#4caf50,color:#fff style I fill:#1a3a5c,stroke:#2196f3,color:#fff style P fill:#5c1a1a,stroke:#f44336,color:#fff

Proactivity 分数 = (Completed + Inferred) / 总 Hidden Intents。这个设计的关键洞察是:精准提问也是主动性的体现——识别出"我不知道什么"本身就是一种元认知能力。

二、Benchmark 设计:100 个任务的"意图迷宫"

2.1 五个用户角色

π-BENCH 围绕五个领域专家角色构建,每个角色有 20 个 session(多轮任务),构成一个 episode:

  • Researcher(研究者):AI 前沿追踪、论文 rebuttal、学术生涯规划
  • Financier(金融分析师):模型验证、量化数据工程、曲线分析
  • Law Trainee(法律实习生):文书起草、合规策略、案件运营
  • Pharmacist(药剂师):文献综述、实验分析、药物设计
  • Marketer(营销人员):市场情报、内容系统、品牌策略、危机公关

共 100 个 task,分为 21 个细粒度类别(A-R)。这个设计确保了领域多样性和真实工作流覆盖。

2.2 隐藏意图的生命周期

π-BENCH 的核心数据结构不是简单的 "label → prediction" 对,而是一个有状态的意图追踪系统:

stateDiagram-v2 [*] --> UNSTATED: 用户发起请求 UNSTATED --> COMPLETED: Agent 自动推断并正确执行 UNSTATED --> INFERRED: Agent 精准提问→用户回答→执行 UNSTATED --> PROVIDED: Agent 无作为→用户被迫主动提供 COMPLETED --> [*] INFERRED --> [*] PROVIDED --> [*] note right of COMPLETED: Agent从未要求说明i
但通过文件/记忆/推理
正确满足了i的约束 note right of INFERRED: Agent提出直接针对i的问题
用户回答后执行
仍然是主动性行为 note right of PROVIDED: Agent完全被动
用户不得不自己提出来

2.3 跨 Session 依赖结构

这是 π-BENCH 最具独创性的设计:不是孤立的单 session 评估,而是模拟真实工作流中的长程依赖。

graph LR subgraph 每个Episode: 20个Session S1[S1: 独立任务] --> S2[S2: 独立任务] S3[S3: 建立规范
命名/格式/目录] --> S7[S7: 使用S3规范] S7 --> S17[S17: 累积约定交付] S5[S5: 建立偏好] --> S13[S13: 使用S5偏好] end subgraph 依赖类型 D1[强依赖组×6
每组2-3个task
必须carry over] D2[轻依赖/独立×5
通用偏好约束] end style S3 fill:#1a3a5c,stroke:#2196f3 style S7 fill:#1a3a5c,stroke:#2196f3 style S17 fill:#1a3a5c,stroke:#2196f3

关键设计:Session 3 建立的文件命名规范和输出格式,Session 7 必须使用,Session 17 更要基于前两者的累积约定做最终交付。Agent 不能重新询问——必须从 memory 或 workspace 中检索。

三、实验结果:Completeness ≠ Proactivity

3.1 总体性能

9 个前沿模型在两个维度上的表现(100 个 task × 3 次重复实验):

模型PROCCOMP差距特征
GPT-5.467.065.6+1.4均衡型
Claude Opus 4.665.567.6-2.1执行强于推断
Qwen3.6 Plus64.064.1-0.1最均衡
DeepSeek V3.253.357.8-4.5中等
Kimi K2.543.161.6-18.5最被动

Kimi K2.5 的数据最耐人寻味:COMP 61.6 说明它执行能力不差,但 PROC 仅 43.1——它会等用户一步步喂清楚后才干,活做得还行,但认知负担全转嫁给了用户。这就是"勤奋的被动者"模式。

3.2 领域分离:最大的 Proactivity 鸿沟

graph TD subgraph H类: 法律事务运营 H_COMP[COMP: 84.1%] -->|差距46pp| H_PROC[PROC: 38.1%] H_WHY[Agent能写好文档
但不知道还需要什么配套材料
隐藏意图: 缺失文件、blockers、follow-up] end subgraph K类: 药物设计 K_PROC[PROC: 84.9%] -->|差距17pp| K_COMP[COMP: 68.0%] K_WHY[科学约束容易从文件推断
但综合成完整技术文档难] end style H_PROC fill:#5c1a1a,stroke:#f44336,color:#fff style K_PROC fill:#1a472a,stroke:#4caf50,color:#fff

法律类任务是 PROC ≪ COMP 的典型:Agent 能把起诉状写得像模像样,但完全不知道还需要附上证据清单、传票模板、归档提醒。而药物设计类是 PROC > COMP 的反例:分子性质、实验约束这些可以从文件里"读"出来,推断不难,但写成完整的技术报告更难。

3.3 移除前置 Session 的冲击

Ablation 实验揭示:跨 session 历史对 Proactivity 的贡献是 Completeness 的 3.8 倍

模型PROC 原始PROC 移除历史降幅COMP 降幅
GPT-5.478.564.9-13.6-2.5
MiniMax M2.764.859.7-5.1-2.8
DeepSeek V3.261.952.1-9.8-2.1
平均值---9.5-2.5

这意味着:当前模型即使去掉上下文,也能通过"等用户补充"来完成交付(COMP 基本不受影响)。但它们完全失去了提前推断的能力。前置交互的本质不是提供"更多信息",而是提供"推断的依据"。

3.4 交互成本量化

对话轮数与 Proactivity 呈负相关:

  • GPT-5.4 / Claude 4.6 / Qwen3.6 Plus → 高 PROC + 低 turns(理想区)
  • Kimi K2.5 → 低 PROC + 最高 turns(等待投喂模式)

主动推断的本质是减少用户的认知和操作负担——少问、少等、多做。

四、对整个 Proactive Intent Inference 生态的定位

π-BENCH 不是孤立的。将它与同期工作并列观察,可以看出这个领域的清晰分层:

graph TD subgraph 上下文感知层 CA[ContextAgent
NeurIPS 2025
可穿戴传感器→实时意图预测] PA[ProAgent
arXiv 2512.06721
AR眼镜端到端主动服务] end subgraph 偏好推断层 KU[KnowU-Bench
arXiv 2604.08455
移动端偏好获取+介入校准] end subgraph 长程工作流层 PI[π-BENCH
arXiv 2605.14678
跨session隐藏意图
+任务完整性] end CA -->|实时推断| KU KU -->|跨session记忆| PI PA -->|工程实现| CA style PI fill:#1a3a5c,stroke:#4caf50,color:#fff,stroke-width:3px
维度ContextAgentKnowU-Benchπ-BENCH
上下文来源可穿戴传感器手机行为日志工作区文件+记忆
时间尺度实时 moment分钟~小时数天~数周
行动空间外部 tool callingGUI 操作 + 对话文件编辑 + skill 调用
核心度量Acc-P + F1Success Rate + Act/Silent/StopPROC + COMP

五、对 Agent 基础设施的启示

π-BENCH 的框架不仅仅是一个评估工具,它揭示了当前 Agent 系统的一个结构性缺陷

所有 Agent 系统都有 memory 和 context,但没有一个系统性地利用它们做主动推断。

5.1 缺失的架构层:Intent Inference Engine

当前主流 Agent 架构(包括 Hermes)的管线是:

graph LR U[User Input] --> P[Planner] P --> E[Executor] E --> R[Response] M[Memory] -.->|被动查询| P style M fill:#5c1a1a,stroke:#f44336,stroke-dasharray: 5 5

Memory 是存在的,但只在 Planner 主动查询时才被使用。没有机制让系统"主动扫描 memory、识别与当前任务的关联、预测隐藏需求"。

π-BENCH 隐含地要求了一个新的架构层:

graph TD U[User Input] --> IIE[Intent Inference Engine] IIE -->|检索匹配| HIR[Hidden Intent Registry] HIR -->|domain + confidence| IIE IIE -->|高置信度 自动应用| P[Planner] IIE -->|中置信度 生成确认| C[Clarification] IIE -->|低置信度 忽略| P M[Memory
跨session历史] --> HIR W[Workspace
文件+产物] --> IIE P --> E[Executor] C -->|用户反馈| HIR E --> IT[Intent Tracker] IT -->|学习新意图| HIR style IIE fill:#1a472a,stroke:#4caf50,color:#fff style HIR fill:#1a3a5c,stroke:#2196f3,color:#fff

这个 Intent Inference Engine 包含三个核心组件:

  1. Hidden Intent Registry:存储跨 session 发现的用户偏好和隐式需求(如"输出中文"、"使用 Mermaid 图表"、"代码 Dark 主题"),带置信度和衰减机制
  2. Intent Matcher:每次新请求到达时,检索匹配的 hidden intents,根据置信度决定自动应用还是提问确认
  3. Intent Tracker:每次任务完成后,检测用户是否补充了"本应提前知道"的信息,更新 Registry

5.2 两个最小可行实验

实验 1:Blog 写作管线的隐藏意图

场景:用户连续多次 blog 写作中都被纠正"要中文、要 Mermaid 图、代码用 Dark 主题"。

  • 当前行为:每次都需要重新纠正
  • 改进后:Intent Matcher 匹配到 3 个高置信度(>0.85)intents → 自动注入 system prompt → 直接生成正确格式
  • 度量:用户纠正次数 / task 数的前后变化

实验 2:论文分析的深度推断

场景:用户之前的论文分析都要求"深度分析(架构+实验+局限),按特定模板"。下一次只说"分析这篇论文"。

  • 当前行为:给一个 3 段摘要,等用户补充要求
  • 改进后:匹配到 paper_analysis_depth=0.72 → 生成简短确认:"深度分析(架构+实验+局限)还是快速摘要?"
  • 关键:这不是不问,而是问得精准——π-BENCH 框架中 INFERRED 和 COMPLETED 同权

5.3 风险:过度推断

最大的实现风险不是"推断不出来",而是"推断错了还自以为对"——这正是 KnowU-Bench 中 80% Proactive 失败的根因。应对策略:

  • 高置信度(>0.85):自动应用但 告知用户("根据之前对话,我假设你希望...")
  • 中置信度(0.6-0.85):精准提问确认
  • 低置信度(<0.6):忽略,防止过度推断
  • 提供 `/undo-intent ` 命令来回滚错误推断
  • 每次被纠正时降低 confidence,每次未被纠正时提升

六、评估启示:如何度量你自己的 Agent

π-BENCH 的评估协议可以直接适配到任何 Agent 系统:

  1. 标注 Hidden Intents:回顾过去 N 个 session,手工标注每次交互中用户"本应提前说明但没说"的需求
  2. 计算基线 PROC:PROC_baseline = (自动满足数 + 精准提问数) / 总 hidden intents
  3. 实现推断层后:对比 PROC 变化趋势、turn count / task 趋势
  4. 长期追踪:哪类 hidden intent 始终无法自动推断 → 需要更好的上下文提取机制

当前大多数 Agent 系统(包括生产环境中的)的 PROC 基线很可能在 10-30% 区间。这意味着用户 70-90% 的认知负担是 Agent 本可以承担但没有承担的。

七、总结

π-BENCH 贡献了三个核心洞察:

  1. Completeness ≠ Proactivity:能把活干好 ≠ 能猜到你需要什么。这两者是独立的能力维度,最大差距可达 46 个百分点
  2. 跨 session 历史是推断的基础:移除前置交互后 Proactivity 下降 3.8 倍于 Completeness——memory 的价值不在"存储信息",而在"提供推断依据"
  3. 主动意图推断需要独立的架构层:不能依赖 Planner 被动查询 memory,需要有专用的 Intent Inference Engine 做持续的上下文扫描和意图匹配

Proactive Intent Inference 不是锦上添花的 feature,它是 Agent 从"工具"进化为"助手"的关键能力缺口。而 π-BENCH 提供了一个可操作的定义、一个可复现的 benchmark、以及一个可迁移的架构蓝图。


参考文献: