能量函数的复仇:Energy-Based Model 为什么在 2026 年回潮

2026 年,两个看似无关的事件共享同一个理论内核:Purdue 大学用 149M 参数的 Energy-Based Model 修正 LLM 的奖励信号,Oxford Dynamics 用同一个数学框架让 149M 的 verifier 匹配 Claude Sonnet 4.6 的推理准确率。Yann LeCun 则担任了一家 EBM 初创公司的技术委员会主席。
Energy-Based Model(EBM)这个诞生于 2006 年的古老框架,正在以全新的面貌回归 AI 的核心舞台。这不是替代 LLM 的叙事——至少目前不是——而是关于 LLM 需要什么样的验证层 这一问题的结构性回答。
只有一个公式
EBM 的数学根基出奇简单:
p(x) = e^f(x) / Z,其中 Z = ∫ e^f(x) dx
三个组件:
- f(x):能量函数。低能量 = 高概率。可以是任何神经网络。
- Z:配分函数。对所有可能状态的指数化能量求和。
- p(x):归一化概率分布。
你每天在用的 softmax 分类器就是一个微型 EBM——能量是负 logit,Z 是所有类别的指数和。区别在于:分类器的状态空间只有几个类别,而通用 EBM 的状态空间可能是一个 1024×1024 图像的所有像素组合,或者一段文本的所有 token 排列。
这正是 EBM 的核心困境,也是最值得理解的地方。
Z 问题:为什么 EBM 被 LLM 压制了五年
自回归模型(GPT、Claude 等)有一个 EBM 梦寐以求的工程优势:不需要计算 Z。
自回归将联合概率分解为条件概率的乘积——p(x) = ∏ p(x_t | x_{ EBM 没有这种分解。要得到 p(x) 的绝对值,你必须对整个状态空间积分。对于图像,这是百万维连续空间。对于文本,这是 |V|^L 的组合爆炸。这被称为 配分函数问题(partition function problem),是 EBM 的阿喀琉斯之踵。 四十年来,研究者发明了至少六种绕过 Z 的方法。理解这些方法的分工,就理解了 EBM 生态的全貌: 其中 Bradley-Terry 配对损失 是当前 AI 对齐和验证中最关键的技巧。它的形式异常简洁: 只关心好的输出和坏的输出之间的能量差,不关心绝对能量值。Z 自然相消。这就是 RLHF 奖励模型、DPO、以及最新 Distributional EBM 背后的核心训练方法。你不需要知道整个宇宙有多大概率——你只需要知道 A 比 B 好多少。 第一,自回归的根本局限变得清晰。 逐 token 生成意味着三件事:你无法对完整输出打分(只能对下一个 token 打分),你无法后向修正已生成的 token(说出去的话泼出去的水),你无法保证跨步骤的全局约束一致性。Oxford Dynamics 的 Distributional EBM 论文精准命名了这个瓶颈:"聚合错误"——旅行规划的每一天看起来都合理,但五天加起来预算超了。逐步骤检查永远找不到这种错误。 第二,可验证性需求上升。 当 AI 生成的代码部署到银行和航空系统,测试覆盖率的局限变得致命。"这个输入没问题"不等于"所有输入都没问题"。形式化验证需要全局一致性保证——而这恰好是 EBM 的设计目标:一个函数,输入完整候选,输出一个标量告诉你它有多"正确"。 第三,LeCun 十年如一日的推动。 Yann LeCun 从 2016 年起就坚持 EBM/JEPA 是通往自主智能的正确路径。2022 年他发布了完整的架构蓝图("A Path Towards Autonomous Machine Intelligence"),2023 年 I-JEPA 展示了感知层的可行性,2026 年他担任 Logical Intelligence 技术委员会主席,推动 EBM 从感知走向推理。他是否正确尚未被证明,但他的坚持本身就是信号。 当前最务实的 EBM 应用没有一个试图替代 LLM。它们都在做同一件事: 模式非常一致:LLM 生成,EBM 评分。LLM 擅长快速生成大量候选(pass@32 >> pass@1),EBM 擅长从候选中挑出真正好的那个。 这不是因为 EBM 不够好,而是因为离散符号空间上的 EBM 生成(从零产生文本)目前不可行。在连续空间(图像像素),Diffusion 模型——本质上是 score matching EBM——已经统治了 AI 图像生成。但在 token 空间,如何做 energy-guided 的离散采样仍是一个开放问题。 LeCun 的架构(2022 年白皮书)是一个全 EBM 栈: 当前实现状态: LeCun 本人公开承认:如何在 EBM 框架中处理离散符号推理,这是当前最大的开放问题。Logical Intelligence 声称要做这一层——但零公开论文、零第三方基准。 这是本文最核心的问题,也是这个领域最诚实的答案: 最诚实的现状总结:EBM 是一个极其强大的验证范式,正在成为 LLM 系统的标准化验证层。但它是否能够独立完成符号推理——成为 LeCun 蓝图中的"推理引擎"——答案仍在风中。
方法 原理 代表 Contrastive Divergence MCMC 采样近似梯度,不显式计算 Z Hinton 2002,图像生成 Noise Contrastive Estimation 归一化转化为二分类:真实 vs 噪声 Gutmann 2010,通用 Score Matching 匹配 ∇log p 而非 p 本身,梯度消去 Z Hyvärinen 2005,Diffusion 的数学基础 JEPA 不在原始数据空间建模,在表示空间预测 LeCun 2022+,世界模型 Bradley-Terry 配对损失 只比较两个候选的能量差,Z 相消 EBRM, Distributional EBM, RLHF 确定性约束惩罚 完全放弃学习 Z,用分析函数替代 Distributional EBM 的 E_constraint loss = log(1 + e^(E(good) - E(bad)))EBM 回潮的三个驱动力
EBM 的真正位置:不是替代,是补充
系统 EBM 角色 LLM 角色 Purdue EBRM 修正 RM 输出的标量奖励 RLHF 训练管道(不变) Distributional EBM 从候选池中选择最佳输出 + 约束验证 生成候选(Qwen/Gemma/Llama) Logical Intelligence Kona 声称做约束推理引擎 声称做界面层 LeCun 的完整蓝图:从感知到推理
世界模型 (World Model) — EBM/JEPA,学习世界的表示
↓
代价模块 (Cost Module) — EBM 能量 = 行为代价
↓
行动器 (Actor) — 优化行为使能量最小
↓
配置器 (Configurator) — 根据任务切换代价函数
EBM 能做推理吗?
技术声明
参考来源