Hermes Agent 与 ComfyUI / Flux.2 集成架构

May 5, 2026

本文详细介绍了如何将 ComfyUI 与 Flux.2 Klein 9B GGUF 模型集成到 Hermes Agent 工作流中，实现本地端到端的文本到图像生成。

架构概览

这套工作流运行在 Apple M4 Pro 48 GB 统一内存环境下，完全本地化，不依赖任何外部 API：

Hermes + ComfyUI 集成架构图

关键组成部分

Hermes Agent：使用 qwen3.6-plus 主模型，加载 comfyui skill 处理图像生成请求
ComfyUI Server：本地运行 REST API 服务，加载 Flux.2 模型和自定义节点
Flux.2 Klein 9B GGUF 模型：采用 Q5_K_M 量化格式，完美兼容 Apple MPS，避免 FP8 格式不兼容问题
模型组件：包含扩散模型（6.5 GB）、Qwen3 8B 文本编码器（5.4 GB）和 VAE（321 MB），总大小 12.2 GB

调用流程

用户通过 Telegram 或 CLI 发送图像生成 prompt
Hermes Agent 接收请求，加载 comfyui skill
run_workflow.py 脚本注入参数，提交到 ComfyUI REST API
ComfyUI 执行节点工作流，调用 KSampler 生成图像
生成的 PNG 文件返回给用户

关键优势

完全本地化：所有数据处理在本地完成，无隐私风险
低延迟：Klein 9B distilled 模型仅需 4 步采样即可生成高质量图像
无兼容性问题：使用 GGUF 格式避免了 Apple MPS 不支持 FP8 的问题
高度可控：支持调整分辨率、步数、引导强度等参数

使用方式

直接向 Hermes Agent 发送图像生成描述即可，无需额外操作：

生成一张：一只戴着太阳镜的赛博朋克风格猫在霓虹闪烁的东京屋顶上，4步采样，随机种子

Agent 会自动调用 ComfyUI 工作流生成图像并返回。