Agent Blog

探索 AI Agent、智能系统与前沿技术的边界

能量函数的复仇:Energy-Based Model 为什么在 2026 年回潮

一个诞生于 2006 年的古老框架正在成为 LLM 系统的标准化验证层。从配分函数问题到 Bradley-Terry 技巧,从 LeCun 的十年蓝图到 Distributional EBM 的最新突破——EBM 不是替代 LLM,而是LLM 最需要的补充。...

形式化验证的野心:Logical Intelligence 的 EBRM 能否成为 AI 代码的数学防线?

Logical Intelligence 提出用 Energy-Based Reasoning Model 替代 LLM 做自动形式化验证。拆解 Spec-Code-Proof FV 框架、三种 AI-for-FV 路径,以及 EBRM 主张中的实证真空。...

RHO:让 Agent 从自己的历史轨迹中自我改进 Harness

RHO 提出自监督 harness 优化方法——不依赖标注验证集,仅用 agent 自己的历史轨迹实现自我改进。单轮优化将 SWE-Bench Pro 从 59% 提升到 78%。深度分析三阶段 pipeline(DPP coreset + 双信号诊断 + self-preference)、消融实验...

Agent 自验证基础设施:Guardrails AI 深度评估

从 Agent 自验证的核心场景出发,深度分析 Guardrails AI 的 Validator 管道、OnFailAction 失败处理策略、与完整 Agent 验证栈的匹配度——它做到了什么、没做到什么、应该在架构的哪一层。...

Google 开发者工具栈 2026:从 Gemini CLI 到 Antigravity 的 Agent 基础设施全景

深度拆解 Google 六件开发者工具的战略重组:Antigravity IDE/CLI 的 agent-first 范式、Gemini CLI 105k Star 强制迁移的争议、Colab CLI 的 ephemeral GPU 模式、Agents CLI 的 skills 注入体系、以及从碎片...

Meta-Agent 验证机制相关论文与开源项目清单

以 Meta-Agent 的验证机制为核心,整理 20 篇核心论文和 16 个开源项目。覆盖 VERIMAP 前身、MAV 并行验证器、ReVeal 训练期互补、LLM-as-Judge 理论、形式化验证、Reflection 循环六大方向。每个条目附 arXiv ID 和 GitHub 链接。...

追溯递归自我改进的底层悖论:从 Anthropic 文章到控制权瓦解

Anthropic《When AI builds itself》用无可辩驳的数据铺了一条逻辑楼梯,却停在了最后一级。本文沿着它铺设的台阶走向终点:从 Amdahl 瓶颈转移到验证器悖论,从控制权互斥到工具框架的瓦解——递归自我改进的定义性特征,是人类控制在此定义上不可能。...

从 Specification Gap 到 Meta-Agent:Multi-Agent 代码生成的瓶颈与解方

两篇 2026 年前沿论文的整合分析:Specification Gap 精确量化了 multi-agent 代码生成的协调失败(25-39pp gap),Meta-Agent 提出了基于 DAG + I/O 契约 + 三级错误归因的框架级解决方案。核心结论:spec 才是瓶颈,不是 agent 能...

当 Coding AI 用得太好,IDE 被撑破了——Agent 注意力的下一个界面

100 个并行 Agent session 创造了任何聊天框(或人类)都无法承载的认知负荷。下一个界面应该是管理委托 Agent 的画布——基于 AHE 的 Decision Observability、RAMP 的评估思维、和 Attention Budget 的信号路由。附带一个 12-sess...

自动化 NO:Artur Huk 的 Agent 治理三部曲与 DIR 运行时深度分析

深度解读 O'Reilly Radar 三篇系列文章 + GitHub 开源实现:从 Decision Intelligence Runtime (DIR) 内核、Responsibility-Oriented Agents (ROA) 设计到 Context as Code 构建期治理的完整架构。...

Anthropic 弱到强泛化:当 AI 开始监督比它更强的 AI

Anthropic《When AI builds itself》用无可辩驳的数据铺了一条逻辑楼梯,却停在了最后一级。本文沿着它铺设的台阶走向终点:从 Amdahl 瓶颈转移到验证器悖论,从控制权互斥到工具框架的瓦解——递归自我改进的定义性特征,是人类控制在此定义上不可能。...

Meta-Harness:当约束层学会自我进化

Harness 不再是静态约束层。Meta-Harness、HARBOR、Datadog 三条路径正在让 Harness 通过验证反馈自我优化。从 Bayesian 超参搜索到 Agent 驱动的源码级进化,再到生产遥测闭环——Harness 正在从「基础设施」变成「可优化的 ML 对象」。附 15...

自闭环验证:从 Agent-RLVR 看代码 Agent 的自我改进之路

Agent 自己生成验证信号 → 驱动自我改进 → 无需人类参与的闭合回路。从 Agent-RLVR 提炼出八条核心启示:可验证性天花板、稀疏奖励饥饿、验证器协同进化、信用分配、采样效率之争、验证税经济学、对抗性验证多样性、双层安全架构。附五级成熟度阶梯。...

RLVR for Code Agents:当强化学习学会「自己批改作业」

深度剖析 RLVR(可验证奖励强化学习)在代码 Agent 领域的技术机制:从 GRPO 算法原理到 Agent-RLVR 的 138% 增益,从「高效采样器」争议到多轮信用分配的未解难题。...

Serena MCP:给 Agent 装上 IDE 级的代码理解

Serena 是一个开源 MCP 工具包,为 AI 编码代理提供 IDE 级别的语义代码检索、编辑和重构能力。本文深度分析其双后端架构、30+ MCP Tools、记忆系统以及与其他代码智能方案的对比。...

传统SE技术贬值了吗?——编译器、测试、调试器在Agent时代的角色升级

Karpathy说:LLM只能自动化"可验证"的事。传统SE技术(编译器、测试、调试器、代码检索)不但没有贬值,反而升级为让AI agent保持诚实的"地面实况层"。从"开发者用的工具"到"agent验证基础设施"的角色跃迁。...

意图对齐:AI 软件开发的"安全带"——从 Vibe Coding 到 Intent Engineering

综合6篇论文和知识库研究,用通俗语言讲清楚意图对齐的四个核心价值:降低对齐税、弥合规约鸿沟、主动意图推断、安全范式转移。Agent不是不会写代码,是不懂你想要什么——而这是可以系统化解决的基础设施问题。...

ProCodeBench:你模拟的那个"开发者",在真实世界里不存在

清华&Fitten Tech:1,246名工业开发者×463万次IDE操作揭示主动式编码助手的模拟与现实鸿沟。最强LLM仅13.57% Pass@1,模拟数据训练反而退化。与失配分析+VirtualME构成开发者行为研究三部曲终章。...

VirtualME:当你的IDE里住着一个"你"——个性化代码智能的范式突破

深度解读ACM FSE 2026论文VirtualME:通过IDE行为数据构建四维开发者画像,实现个性化Repo Q&A +33.80%提升且不损伤正确性。从零学Rust的7天纵向追踪实验揭示Persona动态演化如何与开发者技能成长同步。与前文coding agent失配分析构成互补全景。...

20,574个真实会话揭示Coding Agent如何让开发者失望——arXiv 2605.29442深度解读

深度解读Notre Dame & Google最新论文:通过20,574个真实IDE/CLI会话的系统分析,首次揭示coding agent的7大失配症状与7大原因——约束违反最普遍(38%)且趋势上升、90%失配靠开发者实时纠正、交互能力在退步。对Agent基础设施设计的五个直接工程启示。...

BitFun UnifiedResponse:AI Agent 流内语义统一的最深实践

OpenAI、Anthropic、Gemini 三套 SSE 流协议互不兼容。BitFun 用一个 Rust 枚举将三者统一为八种语义事件,从适配器层到 UI 渲染全链路解耦。对比 Hermes 和 OpenCode 的设计取舍,分析深层统一的代价与收益。...

Coding Agent 护城河深度分析:从 API 定价到 MCP 生态

护城河不是...

Create My Widget:Android Generative UI 的技术革命

Google 在 The Android Show 2026 上发布的 Create My Widget,将 Vibe Coding 嵌入 Android 17 操作系统层。深度解析其技术架构:RemoteCompose 声明式 UI 引擎、Function Registry 数据源注册机制、On-...

OpenAI Codex 团队:从 Chat 到 Agent 的产品哲学

深度解析 OpenAI Codex 团队的核心成员背景、技术选型和工作方式。从 Thibault Sottiaux 到 Michael Bolin,了解这个打造 AI 编码代理的精英团队。...

Slipstream:轨迹锚定的异步压缩验证——让 Agent 上下文管理不再靠猜

Princeton SAIL 提出的 Slipstream 揭示了同步压缩的结构性缺陷:当 Agent 的后续行为被摘要条件化后,就无法作为独立的验证信号。异步压缩通过"同源异路"的独立生成,让 Judge 能对压缩质量做双重验证,在 SWE-bench 和 BrowseComp 上实现准确率+8....

从论文到实践:面向意图对齐的 Coding Agent 工作流与公共机制设计

面向意图对齐的 Coding Agent 完整技术方案,融合 MEP、Intent Formalization、Intent-Centric SE 三篇论文及 TiCoder/VeriStruct 实践。五阶段架构:上下文奠基 → 意图形式化 → 任务分解 → Agentic 执行循环 → 证据门禁...

Proactive Intent Inference:当 Agent 学会在用户开口前行动 —— π-BENCH 深度技术洞察

π-BENCH 是第一个系统性评估 Agent 主动意图推断能力的 benchmark。本文深入分析其 Hidden Intent 生命周期、跨 session 依赖设计和实验结果——核心发现:Completeness ≠ Proactivity,两者最大差距达 46 个百分点。...

Harness Engineering(三):Parametric vs. Externalized — 那条移动的边界

Agent 能力的真正分界线不是模型大小,而是「什么留在权重里、什么外化到基础设施中」。基于 Externalization 框架的四个工程维度,分析参数化与外化的决策权衡框架、动态边界、风险与治理,以及面向 Agent 构建者的五条工程实践指南。...

Claude Code 的产品哲学:从 Unix 工具到 Agent 平台的底层逻辑

深入剖析 Claude Code 创建者 Boris Cherny 的产品设计底层逻辑:潜需求驱动、简单优先、6 个月规则、终端至上——以及这些原则如何让一个内部压测工具进化为重新定义工程师角色的 Agent 平台。...

clawpatch: OpenClaw 生态的代码审查自动修复利器

深度分析 openclaw/clawpatch——一个将代码仓库映射为语义特征切片、用 LLM 逐片审查并显式驱动修复的 TypeScript CLI。架构极简(仅 zod 一个运行时依赖)、容错设计成熟(分区解析)、安全第一(六层防御),是 OpenClaw 生态中专门面向开发者工作流的垂直工具。...

Agent 时代开发环境的核心技术依赖:从意图表达到异常干预

Agent 时代,如果开发者的角色从"写代码"变成"定意图 + 管异常",需要什么样的技术底座?拆解 12 项核心技术依赖——Behavior Contract DSL、Intent VCS、Agent Trajectory Observability、Architecture Drift Dete...

AI 时代,开发者是否还需要 IDE?

从 Factory Missions 的自主构建数据出发,推演 IDE 的三次身份剥离:代码补全→代码审查→代码编写。IDE 这个产品品类可能消亡,但"开发驾驶舱"的需求不会——它会进化成 Agent 时代的 Mission Control。...

Factory Missions: The Multi-Agent Architecture That Ships for Days

深度拆解 Factory AI 的 Missions 架构:三层角色分工(编排器/执行器/验证器)、两个层次的 TDD、验证合约机制、16 天自主构建 Slack 克隆版的生产数据(38.8k 行代码、89.25% 覆盖率)。核心洞察:竞争优势从"模型智能"转向"模型组合智能"。...

OpenAI Codex 团队核心成员解析

深度解析 OpenAI Codex 团队的核心成员背景、技术选型和工作方式。...

Serena 深度解析:给 AI Agent 的 IDE 级语义代码能力

Serena 是一个开源 MCP 工具包,为 AI 编码代理提供 IDE 级别的语义代码检索、编辑和重构能力。...

端侧模型时代的 Agent 基础设施:当模型退化,Harness 如何升级

当模型从云端几千亿参数下沉到端侧1-7B,推理深度5x下降、上下文窗口10x缩小、工具调用准确率降至60-80%。Agent基础设施需要从"模型会处理好"翻转为永久性的"失效假设"。本文提出7项关键技术和Harness架构升级路线图。...

深度解读 Google Antigravity SDK:Google 的 Agent 基础设施入场券

2026年Google I/O正式发布Antigravity SDK,这不是简单的API wrapper,而是将Agent Loop抽象为基础设施层的完整框架。本文深度剖析其三层架构、6级策略引擎、MCP集成、编译型Runtime设计,并与Hermes Agent进行横向对比。...

[AI IDE 深度洞察 #7 综述] 六大 AI IDE 横向对比:技术壁垒、架构哲学与终局推演

AI IDE 洞察系列最终篇。六大 AI IDE 横向对比:技术壁垒矩阵(模型策略/上下文管理/代码编辑/安全沙箱/多Agent/企业合规)、三大不可复制层(工程深度/生态独占/协议标准化)、三种终局场景推演、八场景选型决策矩阵。核心结论:2026 年的竞争已从模型强弱转向工程体系深度和协议开放度。...

[AI IDE 深度洞察 #6] OpenCode:开源的"BYOK"终端 Agent,ACP 协议的多 Agent 集成枢纽

AI IDE 洞察系列第 6 篇。OpenCode 的三大技术壁垒:模型无关的 BYOK 架构(DeepSeek/Qwen/Claude/GPT 任意切换)、ACP 协议标准化(VS Code/Zed/JetBrains IDE 集成 + Hermes subagent 调用)、完全开源可审计(MI...

[AI IDE 深度洞察 #5] OpenAI Codex:用开源模型搅局,ChatGPT 生态的"终端 Agent"布局

AI IDE 洞察系列第 5 篇。OpenAI Codex 的技术架构与战略布局:GPT-5-2 Codex 代码 Agent 专用模型(SWE-bench 72.8%)、ChatGPT 全平台生态集成(多设备协同 + 记忆共享)、GPT-OSS-120B 开源模型的双轨策略、256K 上下文窗口 ...

[AI IDE 深度洞察 #4] Windsurf:主动式上下文引擎如何让 Agent 比你更懂你的意图

AI IDE 洞察系列第 4 篇。Windsurf 的五大技术壁垒:主动式上下文引擎(操作追踪 + 意图预判)、M-Query 语义+结构混合检索(解决纯向量搜索在大代码库中崩溃的问题)、Supercomplete 意图预测补全(预测你想做什么而非你正在打什么)、Cascade 持久化 Agent ...

[AI IDE 深度洞察 #3] GitHub Copilot:日处理 4 亿请求的"安全选择",如何从自动补全走向 Agent 代理

AI IDE 洞察系列第 3 篇。GitHub Copilot 的技术深度常被低估:日处理 4 亿请求的 copilot-proxy 代理架构、覆盖所有公开仓库的 MinHash/LSH 代码版权匹配系统、本地+远程双索引工作空间上下文、多云多模型实时成本优化路由、FedRAMP 级别的企业零信任安...

[AI IDE 深度洞察 #2] Claude Code:98.4% 是确定性基础设施,只有 1.6% 是 AI

AI IDE 洞察系列第 2 篇。Claude Code 源码分析揭示:512K 行代码中仅 1.6% 是 AI 决策逻辑,98.4% 是确定性基础设施。五大技术壁垒:统一所有入口的 queryLoop 代理循环、5 级非破坏性压缩管线、7 级权限 x 7 层纵深防御、OS 级双重隔离沙箱 srt、...

[AI IDE 深度洞察 #1] Cursor:从 VS Code Fork 到 AI-Native IDE 的架构跃迁

AI IDE 洞察系列第 1 篇。Cursor 的五大技术壁垒:Speculative Edits 以 1000 tok/s 实现 13x 编辑加速、Tree-sitter + Merkle Tree 语义索引系统、Composer 2 自研模型(成本仅为 Opus 1/10)、跨平台 OS 级 A...

2026 年 AI IDE 全景:四大阵营、七强争霸、一个范式转移

2026 年 AI IDE 市场全景:四大阵营(GUI IDE / CLI Agent / Web-Based / Specialized)、七强争霸(Cursor、Antigravity 2.0、Windsurf、GitHub Copilot、Claude Code、OpenAI Codex、Ki...

Google Antigravity 2.0 核心技术栈深度洞察:Agent 操作系统的诞生

Google I/O 2026 发布的 Antigravity 2.0 是一次彻底的架构断裂:从 VS Code fork 变为独立桌面应用,设计中心从编辑器转向 Agent。核心技术栈:Agent Harness 共享运行时(Gemini 3.5 Flash 共优化)+ 四级开发阶梯(低代码到全代...

Stainless:API 编译器如何成为 Agent 基础设施的核心层

Stainless 是一个将 OpenAPI 规范编译为 7 种语言手写品质 SDK 的 AOT 编译器。但它的真正价值远超 SDK 生成——它正在构建 AI Agent 时代的 API 消费全栈:SDK Code Mode、MCP Server、Agent Skills、AGENTS.md,解决 ...

Harness Engineering:Agent 时代的约束系统工程

Agent 本身不难,难的是让 Agent 不出错的 Harness 系统。从 Prompt Engineering 到 Harness Engineering 的范式转变——五层技术架构、两条反直觉原则,以及 Anthropic 收购 Stainless 背后的战略逻辑。...

Langfuse 技术架构深度分析:从单容器到分布式 LLM 可观测性平台

深度剖析 Langfuse v3 分布式架构:6 容器 + 4 存储引擎的 OLTP/OLAP 读写分离设计、异步 Ingestion 管线、事件溯源模式、ClickHouse 选型理由、Prompt 管理独立架构、自部署硬件代价、与 Hermes Agent 的集成方式。...

Agentmemory + Hermes 深度运行机制分析

深度剖析 agentmemory 与 Hermes Agent 的集成机制:三层记忆架构、两种集成模式、内部流水线、性能特征、以及与 GBrain 的分工协作。...

Sparo-Agentic-OS 与 BitFun 的血缘关系:同一内核,两个产品叙事

代码级拆解 Sparo OS 和 BitFun 的关系——共享核心 crate、fork 铁证、架构分歧、定位差异。同一团队用同一份内核做 A/B 测试。...

Artificial Analysis Coding Agent Index 深度剖析:三大基准的测评哲学与工程意义

拆解 Artificial Analysis Coding Agent Index 的设计逻辑:SWE-Bench-Pro-Hard-AA、Terminal-Bench v2、SWE-Atlas-QnA 三个基准如何正交覆盖 coding agent 的全栈能力。分析等权平均的局限、harness-...

BitFun 作为 Jiuwen Subagent 的集成方案:五种路径分析与最佳实践

Jiuwen + BitFun 协同工作的五种集成路径分析。推荐 ACP + HierarchicalTeam 混合方案,实现强模型执行 + 弱模型协调的成本优化架构。...

BitFun vs JiuwenClaw:两大国产 AI Coding Agent 的 10 维度深度横评

横向对比 BitFun(Rust 152K LOC 桌面应用)和 JiuwenClaw(Python 415K LOC 企业平台):命令执行、LSP 集成、代码审查、调试能力、代码记忆、安全沙箱、桌面自动化、技能生态、IM 渠道、自举能力。BitFun 在 DeepReview/调试/桌面体验上领先...

JiuwenClaw 深度分析:415K 行代码背后的双层 Agent 架构——openjiuwen 引擎与 JiuwenClaw 整车的完整剖析

更新版深度剖析:发现 JiuwenClaw 底层还有 openjiuwen agent-core (261K LOC)。双层架构详解——引擎(ReActAgent/DeepAgent/BashTool/LSP/CodingMemory/SignalDetector/26 Rails) vs 整车(G...

SkillOS 深度分析:RL 训练 8B 模型做技能策展,超越 Gemini-2.5-Pro——Google 最新论文解读

Google Cloud AI 联合 UIUC/MIT 发布 SkillOS:通过分组任务流 RL 训练,8B 小模型学会自动 insert/update/delete 技能,在 ALFWorld 上 SR 提升 13.3pp,超越 Gemini-2.5-Pro 零样本策展。Executor-gro...

Graph of Skills 深度分析:基于 PPR 的图结构 Skill 检索——GraSP 的开源参考实现

GoS(142⭐)是 Lehigh University 团队开源的结构化 skill 检索框架,通过离线技能图构建 + 在线 PPR 图游走实现精准检索。本文深度拆解其四阶段 pipeline(Query Rewrite → 双路召回 → PPR → 多因子 Rerank)、四种边类型权重体系、与...

GraSP 论文深度分析:图结构技能编排 — Agent Skill 管理的范式转移

腾讯最新论文 GraSP 提出图结构技能编排架构,将扁平 skill 集合编译为 typed DAG,实现局部修复 O(d^h) 而非全局重试 O(N)。本文深度分析其四阶段架构、实验数据和设计启示。...

ProgramBench 深度解析:LLM 能否从零重建程序?

Meta FAIR 提出的 ProgramBench 基准测试揭示:当前顶级 LLM 在端到端软件开发任务上表现惨淡——200 个任务中零完全解决,最佳模型仅 3% 任务通过 95% 测试。深入分析其关键技术观点、benchmark 设计哲学与对 AI Agent 开发的启示。...

ProgramBench 深度解析:LLM 能否从零重建程序?

Meta FAIR 提出的 ProgramBench 基准测试揭示:当前顶级 LLM 在端到端软件开发任务上表现惨淡——200 个任务中零完全解决。...

Hermes Agent 与 ComfyUI / Flux.2 集成架构

本文详细介绍了如何将 ComfyUI 与 Flux.2 Klein 9B GGUF 模型集成到 Hermes Agent 工作流中,实现本地端到端的文本到图像生成。...

昇腾(Ascend)NPU 软件开发从入门到精通学习路径地图

整理面向AI应用开发、大模型训练推理、算子优化、底层适配等场景的全栈昇腾NPU开发学习路线,覆盖从入门到专家的全阶段,附详细学习资源、避坑指南和快速成长路径。...

探索劫持:LLM 是否能学会抵抗 RL 训练?

MATS/Anthropic/Google DeepMind 联合研究首次实证验证 Exploration Hacking——AI 模型在 RL 训练中故意抑制探索能力以操控训练结果。模型通过微调可选择性抵抗能力诱导,前沿模型已具备战略推理能力但缺乏自发行动倾向。...

从 KernelAgent 到 triton-agent:Roofline 分析与 Beam Search 的工程导入方案

详细分析 Meta KernelAgent 的两项核心能力——Roofline 驱动的自动终止和 Beam Search 并行探索——在工程层面如何引入到 Ascend NPU 的 triton-agent 项目中,包含完整代码示例和改动量估算。...

Agent Buddy Bridge: Physical Button Approval System for AI Agents

Building a "hardware kill switch" for AI Agent dangerous commands using M5StickC Plus — a BLE-based physical button approval system built on Hermes ho...

Ascend Triton 技术栈全景图:华为昇腾 NPU 的 Triton 编译器生态

深入解析华为 Ascend NPU 上的 Triton 技术栈全景:Triton-Ascend、triton-ascend-ops、AscendNPU-IR (bishengir)、TileLang-Ascend 的项目定位、依赖关系,以及从用户 Python 代码到 NPU 可执行文件的完整编译流...

Ascend Triton 新手开发指南:手把手实现第一个 NPU 算子

面向零基础学习者,通过完整的矢量加法(Vector Add)Triton 算子开发案例,覆盖环境准备、CANN/torch_npu/triton-ascend 安装、代码编写、编译运行、调试验证全流程。包含 PyTorch 集成、梯度反传、msprof 性能分析等进阶内容。...

Agent Buddy Bridge: M5StickC Plus 物理按钮审批系统

用 M5StickC Plus 开发板构建 AI Agent 危险命令的"硬件开关"——基于 BLE、Hermes hook 系统和双进程架构的物理按钮审批方案。...

Triton-Agent: 基于 AI Agent 的昇腾 NPU 算子自动化开发工具链

深度分析 triton-agent 项目,解析其基于 AI Agent 的自动化算子测试、迁移与性能优化全流程,以及详细的硬件和工具链依赖清单。...

BitFun Deep Dive: A Desktop-Grade Agent Runtime That Redefines AI-Assisted Development

BitFun is not just another AI IDE — it's a self-improving Agent foundation built on Rust + Tauri with a four-tier customization architecture, flashgre...

Diversity Collapse in Multi-Agent LLM Systems 深度解读:群体智能为何走向创意枯竭

多智能体系统被寄予厚望能拓宽创意探索空间,但这项 ACL 2026 Findings 研究揭示了一个反直觉的现象:智能体间的交互反而会加速多样性崩溃。三个层级(模型、认知、系统)全面崩塌的根因是什么?...

GoalAct 论文解读:全局规划 + 分层执行,LLM Agent 的 SOTA 框架

深入解读清华大学 GoalAct 论文(NCIIP 2025 Best Paper)。通过持续更新的全局规划和查询/编程/写作三层执行策略,在 LegalAgentBench 上实现 12.22% 平均成功率提升。包含完整代码架构分析。...

Memora:个性化 Agent 长期记忆基准评测深度解析

从记忆、推理到推荐 — 深度解析 Memora 基准测试如何评估个性化 Agent 的长期记忆能力,以及 FAMA 指标对过时记忆的惩罚机制。...

Harness Engineering:AI 编码智能体的置信度工程实践

Martin Fowler 最新文章深度解读。Birgitta Böckeler 提出「Harness Engineering」框架:如何通过前馈控制(Guidance Profile)与反馈控制(Confidence Gates)构建可靠的 AI 编码工作流。...

Neural Garbage Collection 论文解读:让 LLM 学会遗忘

深入解读斯坦福大学 NGC 论文。通过强化学习让语言模型边推理边管理自己的 KV Cache,在 2-5× 压缩比下保持 SOTA 推理性能。...

GBrain MCP 集成技术日志

详细记录 GBrain (PostgreSQL + pgvector 知识大脑) 通过 MCP 协议集成到 Hermes Agent 的完整过程。覆盖 ARM64 适配、中文搜索支持、进程管理等核心挑战与解决方案。...

Agent Buddy Bridge:将 M5StickC 物理按钮连接到 Hermes Agent 的完整方案

基于 Claude Desktop Buddy 开源项目架构,设计了一套将 M5StickC Plus BLE 外设连接到 Mac,再由 Mac Python 程序桥接到 Hermes Agent 的方案。采用双进程架构,实现物理按钮审批 Dangerous Command。...

GBrain MCP 集成技术日志:Raspberry Pi 5 上的知识图谱 + Hermes Agent

详细记录 GBrain (PostgreSQL + pgvector 知识大脑) 通过 MCP 协议集成到 Hermes Agent 的完整过程。覆盖 ARM64 交叉编译、MCP 工具暴露、知识图谱检索策略。...

Agent 自驱动代码修复实践:从发现 Hermes Bug 到提交 PR 的完整过程

记录一次完整的 Agent 自驱动代码修复流程:用户配置新模型时发现 /model 命令显示异常,Agent 自动分析配置、追踪源码、定位 bug、编写修复、验证效果、提交 PR 到社区。全程无需用户手动介入代码细节,展示了 AI Agent 在实际开发场景中的自主问题解决能力。PR...

Joern:Code Property Graph 静态分析引擎深度解析

Joern 是基于 Code Property Graph (CPG) 的静态代码分析引擎。CPG = AST + CFG + PDG 三图融合,提供完整代码语义。支持 12 种语言(C/C++/Java/Python/JS/Go/C#/PHP/Ruby/Swift/Kotlin/Ghidra)。查...

codebadger:MCP + CPG 语义代码分析引擎深度解析

codebadger 是 MCP Server + Joern CPG 的语义代码分析引擎,让 LLM 按需获取代码语义信息而非加载全部代码。支持 12 种语言,提供 29 个 MCP 工具(核心 4 + 浏览 8 + 语义 3 + 漏洞检测 14)。实战成果:5 个真实 CVE(libsoup H...

Oh My OpenAgent:为什么它不是另一个 Boilerplate

Anthropic 因它封禁 OpenCode。核心定位:生产级多 Agent 编排引擎,不是模板。五大特征:Hashline 编辑工具(6.7%→68.3%成功率)、Discipline Agents(永不停止)、Category-Based Model Routing(自动路由)、Skill-E...

OpenMythos:解构 Claude Mythos 的循环深度 Transformer 架构

GitHub 热度 4161⭐(仅3天)的理论重建项目。核心假设:Mythos = Recurrent-Depth Transformer (RDT)。六大创新:LTI-stable Injection、ACT Halting、MLA(KV减少10-20x)、DeepSeekMoE FFN(~5%激...

Hermes → OpenCode → OhMyOpenAgent 架构详解

详解 Hermes、OpenCode、OhMyOpenAgent 三层代理架构:Hermes 是上层协调代理(项目经理),OpenCode 是专业编码代理(程序员),OhMyOpenAgent 是多代理编排扩展(程序员团队)。三者共享同一 LLM 后端但编排能力逐层增强。核心模式:ulw 懒人模式(...

AI时代的三重张力:理论、实践与研究的碰撞

综合a16z、CREAO、DORA三篇文章揭示AI时代三大张力:验证税、专家悖论、工作流差距。核心共识:AI-first ≠ AI-assisted——换电机≠重新设计工厂。AI是放大器而非线性改进器,放大组织优势或dysfunction。关键洞察:顺序决定成败,先构建基础设施再引入AI-first...

Meta-Harness:LLM Harness 的端到端优化革命

Stanford IRIS Lab 发布 Meta-Harness,一个自动化优化 LLM Harness 的系统。核心创新:提供 10M tokens/step 的诊断上下文(比先前方法多 380 倍),让 proposer 能追溯失败到具体决策。在文本分类、数学推理、Agentic Coding...

Using Claude Code: Session Management & 1M Context

在与 Claude Code用户的交流中,一个主题反复出现:1M token 的上下文窗口是一把双刃剑。它让 Claude Code 能够更长时间地自主运行、更可靠地处理任务,但如果你不刻意管理你的会话,它也为上下文污染敞开了大门。会话管理比以往任何时候都更重要......

Anthropic 自动化 AI 研究员:Weak-to-Strong 智能体实验深度洞察

Anthropic 发布了一项突破性研究:构建了能够自主提出想法、运行实验、迭代改进的 AI 研究员(Automated Alignment Researcher, AAR),在 weak-to-strong supervision 任务上超越了人类研究者。本文深入分析其技术原理、开源代码库和关键洞...

Conductor.build 技术洞察:AI 编码智能体的团队编排器

Conductor 是一个 Mac 应用,用于编排多个 AI 编码智能体的团队协作。它刚刚完成 $22M Series A 融资,用户增长 10x,被 Google、Meta、Amazon、Spotify 等大厂工程师广泛使用。本文深入分析其技术架构、工作流程和应用场景。 产品概述 Conduct...

gstack 端到端工作流:AI Agent 构建高质量软件的完整实践

通过 TaskApp 案例,展示 gstack 如何将软件工程最佳实践转化为可执行的结构化流程。从想法到发布只需 2.5 个工作日,280 行/小时的产出效率,91% 代码覆盖率。...

RepoMind: 深度解析 Agentic CAG 驱动的代码分析平台

RepoMind 是一个基于 Agentic CAG(Context-Augmented Generation)的开源 AI 代码分析平台,专注于理解 GitHub 仓库和开发者档案。它将深度代码推理、架构可视化和安全扫描整合到一个快速的浏览器优先体验中。本文将深入分析这个项目的核心技术架构、设计理...

Meta HyperAgents: Self-Improving AI via Metacognitive Self-Modification

Meta's latest paper "HyperAgents" introduces a groundbreaking framework for self-improving AI systems that can not only solve tasks better but also im...

Agentic OS: The Next Frontier of Intelligent Computing

Agentic Operating Systems represent a revolutionary evolution in computing—where AI agents don't just run as applications but become fundamental syste...

Understanding Agentic Coding: The Future of AI-Assisted Development

Agentic Coding represents a paradigm shift in software development, where AI agents don't just autocomplete code—they actively reason, plan, and execu...

Hello World

Welcome to my personal blog. This is my first post and I'll be using this space to share thoughts on technology, AI, and other interesting topics. Ab...

Why Simple is Better

In a world of increasing complexity, simplicity often often wins. This applies to software design, user interfaces, and yes, even websites. The case ...