形式化验证的野心:Logical Intelligence 的 EBRM 能否成为 AI 代码的数学防线?

2026年1月,Yann LeCun 出任一家此前几乎无人知晓的 AI 初创公司 Logical Intelligence 的技术委员会主席。这家公司的 CEO 是前 Optiver 量化研究员 Eve Bodnia,首席数学家是 Fields 奖得主 Michael Freedman。同一天,他们公开演示了 Kona 1.0——一款被称为 "Energy-Based Reasoning Model"(EBRM,基于能量的推理模型)的系统,在解数独上声称优于 GPT 和 Claude。
沉寂五个月后,Logical Intelligence 发布了一篇题为《Automatic Formal Verification for Code Generation》的立场文章。这不是技术论文——没有基准、没有消融实验、没有开源代码。但它的论证结构和底层信号值得认真审视,尤其是对关注 agent 基础设施和验证机制的人。
论证骨架:从"ship & fix"到"prove & deploy"
文章的叙事链条清晰且有力:
前提1:AI 正在以空前的速度生成代码。这些代码被部署到银行、航空、医院等关键基础设施中。
前提2:传统的"测试—发现 bug—修复—发布"模式(ship & fix)在面对 AI 生成代码的体量和速度时是不可持续的。
前提3:形式化验证(Formal Verification, FV)——通过数学证明代码行为完全符合规范——过去因成本太高而仅限于 AWS、Azure 等核心云基础设施。
结论:AI 生成的代码需要 AI 驱动的 FV。而 LLM 因为自回归生成和幻觉问题不适合做 FV,EBRM 才是答案。
逻辑链本身没有结构漏洞。但每一环的跳跃背后都有隐含假设需要拆解。
FV 的认知骨架:Spec-Code-Proof 三元组
文章对 FV 的抽象是这篇内容最有价值的部分。所有形式化验证系统——从 SMT solver 到 Lean 4 交互式定理证明器——都包含三个组件:
| 组件 | 定义 | 人类负担(传统) |
|---|---|---|
| Spec | 数学化的形式规范——程序允许/禁止做什么 | 高 |
| Code | 可执行指令集 | 中 |
| Proof | Code 满足 Spec 的数学论证 | 极高 |
基于这个框架,文章区分了三种 AI 参与 FV 的路径,按人类控制递减排列:
| 路径 | 人类输入 | AI 生成 | 可靠性 |
|---|---|---|---|
| Provers | Spec + Code | Proof | 最高 |
| Vericoding | Spec | Code + Proof | 高 |
| End-to-End | 自然语言描述 | Spec + Code + Proof 全部 | 取决于 Spec 质量 |
这里有一个反直觉但至关重要的警示:形式化验证只证明 Code 满足 Spec,不证明 Spec 满足原始人类意图。在 End-to-End 路径中,Spec 隐含在自然语言描述里,如果 AI 对需求的建模偏离了真实意图,后续的证明无论多么完美都毫无意义。这不是技术局限,是语义鸿沟。
LLM vs EBRM:真正的战场在哪
文章对 LLM 做 FV 的批评有三点:
- 自回归生成:逐 token 扩展无法对完整候选状态(Spec + Code + Proof 整体)打分
- 幻觉倾向:复杂约束推理中的概率性输出不可靠
- 成本高:推理本身消耗大量 compute
而 EBRM 的声称优势是镜像的:
| 维度 | LLM | EBRM |
|---|---|---|
| 推理方式 | 自回归(逐 token) | 全局优化(潜空间) |
| 评分粒度 | 逐 token 概率 | 整个候选状态 |
| 约束处理 | 概率性(soft) | 能量惩罚(hard-ish) |
EBRM 的核心架构:Encoder(输入→潜空间)+ Decoder(潜空间→输出)+ Energy(潜空间→标量)。"好输出"被定义为潜空间中的低能量点。能量函数可学习,训练范式声称与 LLM 相同(GPU + 梯度下降)。
这个架构在理论上确实更适合全局约束满足问题——如果你需要同时检查 Spec、Code、Proof 之间的双向一致性,一次对整个三元组打分比逐 token 扩展自然得多。但理论优势到工程现实的鸿沟是巨大的。
批判性审视:哪些可信,哪些需要验证
有结构支撑的主张
Spec ≠ Intent 的警示是真正的洞见。任何自动化 FV 系统都必须面对这个元问题:谁确保 Spec 本身是正确的?这不是形式化验证工具能解决的,它属于需求工程的范畴。End-to-End 路径把这个问题委托给了 LLM 对自然语言的理解能力,这是整个方案中最薄弱的环节。
"LLM 做界面 + EBRM 做验证"的二层架构是务实的。文章承认 LLM 仍有价值——翻译需求、分解任务、导航工具链、解释失败——但认为"最难的约束搜索部分"应交给 EBRM。这与我们在 agent 基础设施中观察到的模式一致:LLM 生成 + 可执行验证的双层设计(如 SWE-bench 的测试驱动验证),只是 FV 的验证保证级别远高于测试。
FV 从奢侈品到必需品的转变叙事有结构基础。当代码的生成速度超过人工审查的容量,保证机制必须升级。这不是科幻场景,而是正在发生的结构性转变。
需要警惕的主张
EBRM 优于 LLM 缺乏公开第三方基准。Kona 的唯一公开演示是解数独——一个 well-defined 约束满足问题,状态空间有限且完全已知。真实代码 FV 的 Spec-Code-Proof 对齐是不同数量级的复杂性问题。从数独到代码验证的跳跃没有任何公开证据。
能量函数的可学习性在真实 FV 场景中未经检验。训练一个能对"Spec + Code + Proof 三元组是否一致"打分的能量函数需要海量正负样本。这些数据从哪来?文章未提。EBRM 的训练(对比散度、噪声对比估计等)在稳定性上历来不如 next-token prediction 的交叉熵损失。
对 LLM 已有进展的忽视。DeepSeek-Prover、LeanAgent、AlphaProof 等工作已经展示了 LLM + 搜索在定理证明子任务上的竞争力。文章将它们一概归为"成本高且幻觉多",不做具体讨论,这在论证上是不完整的。
公司立场文章,非中立分析。Patrick Hillmann 是 Logical Intelligence 的 communications executive,Boris Hanin 是公司科学家。文章的结论恰好是"我们的产品是答案"。这不代表内容是错的,但读者应对每一个技术主张保持验证心态。
与 Agent 基础设施的关联
这篇文章对于关注 agent 基础设施的人有三个层次的启示:
第一层:可验证性谱系。在 agent 系统中,验证机制分布在一条谱线上:单元测试(采样验证)→ 集成测试 → executable verification(如 SWE-bench 的测试驱动)→ formal verification(数学穷举)。当前 agent 基础设施的主流实践在第三层,文章主张的是第四层。两者的关键区别:测试告诉你"这个输入没问题",FV 告诉你"所有可能输入都没问题"。
第二层:Spec 质量的元问题。无论用 LLM 还是 EBRM,自动化 FV 的终极瓶颈不是证明生成,而是 Spec 编写。谁写 Spec?谁验证 Spec?如果 Spec 本身有 bug,FV 只是精确地执行了一个错误的规范。这在 agent 系统中对应的是"任务规范的歧义消除"——我们最近的 Socratic-SWE 分析中讨论的梯度对齐验证,本质上也是这个问题的另一种解法。
第三层:非自回归推理的潜力。EBRM 的核心洞见——放弃逐 token 生成,改用全局打分——对于需要全局一致性约束的 agent 任务(如多 agent plan 的死锁检测、资源冲突分析、安全属性验证)在概念上有吸引力。但目前 EBRM 远未成熟到可以替代 LLM 做通用 agent reasoning。
技术声明
- 事实来源:本文基于 Logical Intelligence 官方博客文章(2026-06-03)及公开信息(2026-01-21 Kona 1.0 发布会报道),未访问内部基准数据。
- 推断边界:EBRM 在真实代码 FV 中的可行性、Kona 1.0 的实际性能均为公司声称,缺乏独立验证。本文的分析和评估基于公开信息的合理推断。
- 立场声明:作者无 Logical Intelligence 关联。本文旨在提供技术分析,不构成投资建议或产品推荐。
- 置信度分级:Spec-Code-Proof 框架(✅ 确认)、EBRM 架构描述(✅ 确认)、EBRM 优于 LLM 的声称(⚠️ 合理推断但缺乏独立验证)、能量函数在代码 FV 的可学习性(⚠️ 推断)。
参考来源
- Hillmann, P., Hanin, B. "Automatic Formal Verification for Code Generation." Logical Intelligence Blog, June 3, 2026. Link
- Logical Intelligence. "Kona 1.0: Energy-Based Models for AI Reasoning." Link
- Grokipedia. "Logical Intelligence." Link
- Xin, H. et al. "DeepSeek-Prover: Advancing Theorem Proving in LLMs." 2025.
- DeepMind. "AI achieves silver-medal standard solving International Mathematical Olympiad problems." 2024.