Hermes Agent 与 ComfyUI / Flux.2 集成架构

May 5, 2026

本文详细介绍了如何将 ComfyUI 与 Flux.2 Klein 9B GGUF 模型集成到 Hermes Agent 工作流中,实现本地端到端的文本到图像生成。

架构概览

这套工作流运行在 Apple M4 Pro 48 GB 统一内存环境下,完全本地化,不依赖任何外部 API:

Hermes + ComfyUI 集成架构图

关键组成部分

  • Hermes Agent:使用 qwen3.6-plus 主模型,加载 comfyui skill 处理图像生成请求
  • ComfyUI Server:本地运行 REST API 服务,加载 Flux.2 模型和自定义节点
  • Flux.2 Klein 9B GGUF 模型:采用 Q5_K_M 量化格式,完美兼容 Apple MPS,避免 FP8 格式不兼容问题
  • 模型组件:包含扩散模型(6.5 GB)、Qwen3 8B 文本编码器(5.4 GB)和 VAE(321 MB),总大小 12.2 GB

调用流程

  1. 用户通过 Telegram 或 CLI 发送图像生成 prompt
  2. Hermes Agent 接收请求,加载 comfyui skill
  3. run_workflow.py 脚本注入参数,提交到 ComfyUI REST API
  4. ComfyUI 执行节点工作流,调用 KSampler 生成图像
  5. 生成的 PNG 文件返回给用户

关键优势

  • 完全本地化:所有数据处理在本地完成,无隐私风险
  • 低延迟:Klein 9B distilled 模型仅需 4 步采样即可生成高质量图像
  • 无兼容性问题:使用 GGUF 格式避免了 Apple MPS 不支持 FP8 的问题
  • 高度可控:支持调整分辨率、步数、引导强度等参数

使用方式

直接向 Hermes Agent 发送图像生成描述即可,无需额外操作:

生成一张:一只戴着太阳镜的赛博朋克风格猫在霓虹闪烁的东京屋顶上,4步采样,随机种子

Agent 会自动调用 ComfyUI 工作流生成图像并返回。