形式化验证的野心：Logical Intelligence 的 EBRM 能否成为 AI 代码的数学防线？

June 9, 2026

形式化验证的野心 — Logical Intelligence EBRM 封面

2026年1月，Yann LeCun 出任一家此前几乎无人知晓的 AI 初创公司 Logical Intelligence 的技术委员会主席。这家公司的 CEO 是前 Optiver 量化研究员 Eve Bodnia，首席数学家是 Fields 奖得主 Michael Freedman。同一天，他们公开演示了 Kona 1.0——一款被称为 "Energy-Based Reasoning Model"（EBRM，基于能量的推理模型）的系统，在解数独上声称优于 GPT 和 Claude。

沉寂五个月后，Logical Intelligence 发布了一篇题为《Automatic Formal Verification for Code Generation》的立场文章。这不是技术论文——没有基准、没有消融实验、没有开源代码。但它的论证结构和底层信号值得认真审视，尤其是对关注 agent 基础设施和验证机制的人。

论证骨架：从"ship & fix"到"prove & deploy"

文章的叙事链条清晰且有力：

前提1：AI 正在以空前的速度生成代码。这些代码被部署到银行、航空、医院等关键基础设施中。

前提2：传统的"测试—发现 bug—修复—发布"模式（ship & fix）在面对 AI 生成代码的体量和速度时是不可持续的。

前提3：形式化验证（Formal Verification, FV）——通过数学证明代码行为完全符合规范——过去因成本太高而仅限于 AWS、Azure 等核心云基础设施。

结论：AI 生成的代码需要 AI 驱动的 FV。而 LLM 因为自回归生成和幻觉问题不适合做 FV，EBRM 才是答案。

逻辑链本身没有结构漏洞。但每一环的跳跃背后都有隐含假设需要拆解。

FV 的认知骨架：Spec-Code-Proof 三元组

文章对 FV 的抽象是这篇内容最有价值的部分。所有形式化验证系统——从 SMT solver 到 Lean 4 交互式定理证明器——都包含三个组件：

组件	定义	人类负担（传统）
Spec	数学化的形式规范——程序允许/禁止做什么	高
Code	可执行指令集	中
Proof	Code 满足 Spec 的数学论证	极高

基于这个框架，文章区分了三种 AI 参与 FV 的路径，按人类控制递减排列：

路径	人类输入	AI 生成	可靠性
Provers	Spec + Code	Proof	最高
Vericoding	Spec	Code + Proof	高
End-to-End	自然语言描述	Spec + Code + Proof 全部	取决于 Spec 质量

这里有一个反直觉但至关重要的警示：形式化验证只证明 Code 满足 Spec，不证明 Spec 满足原始人类意图。在 End-to-End 路径中，Spec 隐含在自然语言描述里，如果 AI 对需求的建模偏离了真实意图，后续的证明无论多么完美都毫无意义。这不是技术局限，是语义鸿沟。

LLM vs EBRM：真正的战场在哪

文章对 LLM 做 FV 的批评有三点：

自回归生成：逐 token 扩展无法对完整候选状态（Spec + Code + Proof 整体）打分
幻觉倾向：复杂约束推理中的概率性输出不可靠
成本高：推理本身消耗大量 compute

而 EBRM 的声称优势是镜像的：

维度	LLM	EBRM
推理方式	自回归（逐 token）	全局优化（潜空间）
评分粒度	逐 token 概率	整个候选状态
约束处理	概率性（soft）	能量惩罚（hard-ish）

EBRM 的核心架构：Encoder（输入→潜空间）+ Decoder（潜空间→输出）+ Energy（潜空间→标量）。"好输出"被定义为潜空间中的低能量点。能量函数可学习，训练范式声称与 LLM 相同（GPU + 梯度下降）。

这个架构在理论上确实更适合全局约束满足问题——如果你需要同时检查 Spec、Code、Proof 之间的双向一致性，一次对整个三元组打分比逐 token 扩展自然得多。但理论优势到工程现实的鸿沟是巨大的。

批判性审视：哪些可信，哪些需要验证

有结构支撑的主张

Spec ≠ Intent 的警示是真正的洞见。任何自动化 FV 系统都必须面对这个元问题：谁确保 Spec 本身是正确的？这不是形式化验证工具能解决的，它属于需求工程的范畴。End-to-End 路径把这个问题委托给了 LLM 对自然语言的理解能力，这是整个方案中最薄弱的环节。

"LLM 做界面 + EBRM 做验证"的二层架构是务实的。文章承认 LLM 仍有价值——翻译需求、分解任务、导航工具链、解释失败——但认为"最难的约束搜索部分"应交给 EBRM。这与我们在 agent 基础设施中观察到的模式一致：LLM 生成 + 可执行验证的双层设计（如 SWE-bench 的测试驱动验证），只是 FV 的验证保证级别远高于测试。

FV 从奢侈品到必需品的转变叙事有结构基础。当代码的生成速度超过人工审查的容量，保证机制必须升级。这不是科幻场景，而是正在发生的结构性转变。

需要警惕的主张

EBRM 优于 LLM 缺乏公开第三方基准。Kona 的唯一公开演示是解数独——一个 well-defined 约束满足问题，状态空间有限且完全已知。真实代码 FV 的 Spec-Code-Proof 对齐是不同数量级的复杂性问题。从数独到代码验证的跳跃没有任何公开证据。

能量函数的可学习性在真实 FV 场景中未经检验。训练一个能对"Spec + Code + Proof 三元组是否一致"打分的能量函数需要海量正负样本。这些数据从哪来？文章未提。EBRM 的训练（对比散度、噪声对比估计等）在稳定性上历来不如 next-token prediction 的交叉熵损失。

对 LLM 已有进展的忽视。DeepSeek-Prover、LeanAgent、AlphaProof 等工作已经展示了 LLM + 搜索在定理证明子任务上的竞争力。文章将它们一概归为"成本高且幻觉多"，不做具体讨论，这在论证上是不完整的。

公司立场文章，非中立分析。Patrick Hillmann 是 Logical Intelligence 的 communications executive，Boris Hanin 是公司科学家。文章的结论恰好是"我们的产品是答案"。这不代表内容是错的，但读者应对每一个技术主张保持验证心态。

与 Agent 基础设施的关联

这篇文章对于关注 agent 基础设施的人有三个层次的启示：

第一层：可验证性谱系。在 agent 系统中，验证机制分布在一条谱线上：单元测试（采样验证）→ 集成测试 → executable verification（如 SWE-bench 的测试驱动）→ formal verification（数学穷举）。当前 agent 基础设施的主流实践在第三层，文章主张的是第四层。两者的关键区别：测试告诉你"这个输入没问题"，FV 告诉你"所有可能输入都没问题"。

第二层：Spec 质量的元问题。无论用 LLM 还是 EBRM，自动化 FV 的终极瓶颈不是证明生成，而是 Spec 编写。谁写 Spec？谁验证 Spec？如果 Spec 本身有 bug，FV 只是精确地执行了一个错误的规范。这在 agent 系统中对应的是"任务规范的歧义消除"——我们最近的 Socratic-SWE 分析中讨论的梯度对齐验证，本质上也是这个问题的另一种解法。

第三层：非自回归推理的潜力。EBRM 的核心洞见——放弃逐 token 生成，改用全局打分——对于需要全局一致性约束的 agent 任务（如多 agent plan 的死锁检测、资源冲突分析、安全属性验证）在概念上有吸引力。但目前 EBRM 远未成熟到可以替代 LLM 做通用 agent reasoning。

技术声明

事实来源：本文基于 Logical Intelligence 官方博客文章（2026-06-03）及公开信息（2026-01-21 Kona 1.0 发布会报道），未访问内部基准数据。
推断边界：EBRM 在真实代码 FV 中的可行性、Kona 1.0 的实际性能均为公司声称，缺乏独立验证。本文的分析和评估基于公开信息的合理推断。
立场声明：作者无 Logical Intelligence 关联。本文旨在提供技术分析，不构成投资建议或产品推荐。
置信度分级：Spec-Code-Proof 框架（✅ 确认）、EBRM 架构描述（✅ 确认）、EBRM 优于 LLM 的声称（⚠️ 合理推断但缺乏独立验证）、能量函数在代码 FV 的可学习性（⚠️ 推断）。

参考来源

Hillmann, P., Hanin, B. "Automatic Formal Verification for Code Generation." Logical Intelligence Blog, June 3, 2026. Link
Logical Intelligence. "Kona 1.0: Energy-Based Models for AI Reasoning." Link
Grokipedia. "Logical Intelligence." Link
Xin, H. et al. "DeepSeek-Prover: Advancing Theorem Proving in LLMs." 2025.
DeepMind. "AI achieves silver-medal standard solving International Mathematical Olympiad problems." 2024.