OpenMythos:解构 Claude Mythos 的循环深度 Transformer 架构

April 21, 2026

OpenMythos:解构 Claude Mythos 的循环深度 Transformer 架构

OpenMythos:解构 Claude Mythos 的循环深度 Transformer 架构

项目:https://github.com/kyegomez/OpenMythos
作者:Kye Gomez
热度:4161 ⭐(仅 3 天)

一、项目概述:现象级爆发的理论重建

2026年4月18日,一个名为 OpenMythos 的项目在 GitHub 上诞生。仅 3 天内收获 4161 star,fork 数 911。项目核心命题:对 Claude Mythos 的架构进行理论重建

核心假设

Claude Mythos = Recurrent-Depth Transformer (RDT)

传统模型循环深度模型
堆叠数百层独立权重循环使用少量层的权重
参数量 ∝ 深度参数量固定,深度由循环次数决定
推理成本固定推理时可动态增加循环

所有推理静默发生在单次前向传递中,在连续潜在空间内——没有中间 token 输出。


二、架构解析:三段式循环设计

整体流程

阶段 功能 执行次数
Prelude输入编码,提取初始特征1 次
Recurrent Block深度推理循环T 次(可动态调整)
Coda输出投影,生成 logits1 次

循环更新公式

h_{t+1} = A·h_t + B·e + Transformer(h_t, e)
符号含义作用
h_t循环 t 后的隐藏状态累积推理深度
e编码输入(来自 Prelude)每步注入,防止漂移
A, B学习的注入参数LTI 稳定化
TransformerAttention + MLP非线性变换

关键:e 在每步注入,保持原始输入信号在整个循环深度中活跃。


三、六大技术创新

1. LTI-stable Injection(谱半径 < 1 保证)

循环模型训练不稳定的原因:残差爆炸(隐藏状态跨循环无界增长)和损失尖峰(谱范数过大)。

问题Parcae 解决方案
A 可能发散A_continuous = Diag(-exp(log_A)) 永远负对角
离散化不稳定A_discrete = exp(Δt·A_c) 保证值 ∈ (0,1)
梯度爆炸log space 计算 + clamp(-20,20)
# 核心实现
def get_A(self):
    # log space 避免 0 * inf = NaN
    return torch.exp(-torch.exp((log_dt + log_A).clamp(-20, 20)))

# 保证: ρ(A) < 1 无论学习率或批次噪声如何

2. ACT Halting(自适应计算时间)

超过某深度后,过度循环退化预测。解决方案:每个位置学习停止概率。

Token 类型行为循环次数
简单 token早退出1-4 次
中等复杂正常循环8-12 次
困难 token完整深度16+ 次

同一批次内,不同位置可不同深度——2-3x throughput 提升。

3. Multi-Latent Attention(MLA)

机制KV Cache 存储内存减少
GQAn_kv_heads × head_dim × 2~4x
MLAkv_lora_rank + n_heads × rope_dim10-20x

MLA 缓存低秩 KV latent,每步从 latent 快速重建完整 K/V。

4. DeepSeekMoE FFN

配置说明
n_experts64-512路由专家池
n_shared_experts2-8始终激活,吸收通用知识
n_experts_per_tok4-8每 token top-K 选择
激活率~5-6%真正计算数 ≠ 存储数

跨循环演化时,路由器可能在不同深度选择不同专家子集。

5. Loop-Index Embedding

每个循环是不同计算阶段,类似 RoPE 但作用于循环深度而非序列位置。

# 循环索引嵌入
freqs = 1.0 / theta ** (arange(0, loop_dim, 2) / loop_dim)
angles = loop_t * freqs
emb = cat([angles.sin(), angles.cos()])
h = h + emb  # 让共享权重在不同循环行为不同

6. Depth-wise LoRA Adapter

delta(x, t) = (down(x) * scale[t]) @ B
组件作用
down: Linear(dim, rank)共享降维
B: Parameter(rank, dim)共享升维
scale: Embedding(max_loops, rank)每循环的缩放向量

四、为什么这解释了 Mythos

1. 系统化泛化

三阶段 grokking:记忆 → 分布内泛化 → 系统化泛化(OOD,突然涌现)

阶段表现触发条件
阶段1拟合训练分布初始训练
阶段2处理已知组合足够数据
阶段3novel 组合 OOD循环深度足够 + grokking

2. 深度外推

场景标准 Transformer循环 Transformer
训练 5-hop✓ 成功✓ 成功
测试 10-hop✗ 失败✓ 成功(增加循环)

3. 潜在思想 = 隐式 CoT

T 循环隐式模拟 T 步 CoT,但在连续潜在空间而非 token 间。可同时编码多种替代下一步——接近对推理空间的广度优先搜索

4. 参数效率

模型参数等效深度
标准 TransformerkL 层参数kL 层
循环 Transformerk 层参数kL 层质量
效率提升~L 倍推理时可扩展

五、应用场景

1. 深度推理任务

场景循环次数优势
多步数学推导32-64无需显式 CoT,一步到位
复杂逻辑分析24-48隐式推理链,避免中间 token
长程规划48-64连续潜在空间编码多路径
代码生成16-32深度语义理解

2. 实时交互系统

ACT Halting 让简单请求快速响应(1-4 循环),复杂问题深度思考(16+ 循环),同一批次内混合处理。

# 推理时间控制
简单请求:  0.1s  (4 loops)
中等复杂:  0.3s  (12 loops)
深度推理:  1.0s+ (32+ loops)

3. 大规模部署

配置参数存储激活计算KV Cache
100B MLA100B~5B/token减少 15x
传统 100B100B100B/token标准
效率提升-20x15x

4. 边缘设备推理

1B-3B 配置可在手机端运行,循环次数根据设备算力动态调整:

# 边缘部署示例
手机端: mythos_1b, 8-16 loops, ~100ms
笔记本: mythos_3b, 16-24 loops, ~200ms
服务器: mythos_10b+, 32-64 loops

5. 研究与实验

实验方向OpenMythos 支持
深度外推研究n_loops 可超过训练值
ACT 机制实验act_threshold 可调整
MoE 路由分析完整路由日志
稳定性研究谱半径监控 get_A()

六、模型规模配置

VariantdimExpertsLoopsContextMax output
mythos_1b204864164k4k
mythos_3b307264164k4k
mythos_10b4096128248k4k
mythos_50b6144256328k4k
mythos_100b8192256321M128k
mythos_500b12288512481M128k
mythos_1t16384512641M128k

七、关键洞察总结

属性描述
架构Prelude + Looped Recurrent + Coda
FFNMoE — fine-grained + shared experts
激活率~5% per token(存储数 ≠ 计算数)
推理机制Implicit multi-hop via latent updates
推理扩展更多循环 = 更深推理,指数衰减
稳定性LTI-constrained: ρ(A) < 1 by construction
循环差异化RoPE-like loop-index embedding
结构偏向推理强,记忆弱

八、参考文献


结论

OpenMythos 让循环 Transformer 从研究论文变成可训练、可部署的工程系统。无论 Claude Mythos 是否证实为 RDT,这个项目已经提供了可验证的理论框架和完整实现。

如果 Claude Mythos 真的是 RDT,OpenMythos 就是通往理解它的钥匙。

项目地址:https://github.com/kyegomez/OpenMythos