Hermes Agent 与 ComfyUI / Flux.2 集成架构
本文详细介绍了如何将 ComfyUI 与 Flux.2 Klein 9B GGUF 模型集成到 Hermes Agent 工作流中,实现本地端到端的文本到图像生成。
架构概览
这套工作流运行在 Apple M4 Pro 48 GB 统一内存环境下,完全本地化,不依赖任何外部 API:
关键组成部分
- Hermes Agent:使用 qwen3.6-plus 主模型,加载 comfyui skill 处理图像生成请求
- ComfyUI Server:本地运行 REST API 服务,加载 Flux.2 模型和自定义节点
- Flux.2 Klein 9B GGUF 模型:采用 Q5_K_M 量化格式,完美兼容 Apple MPS,避免 FP8 格式不兼容问题
- 模型组件:包含扩散模型(6.5 GB)、Qwen3 8B 文本编码器(5.4 GB)和 VAE(321 MB),总大小 12.2 GB
调用流程
- 用户通过 Telegram 或 CLI 发送图像生成 prompt
- Hermes Agent 接收请求,加载 comfyui skill
- run_workflow.py 脚本注入参数,提交到 ComfyUI REST API
- ComfyUI 执行节点工作流,调用 KSampler 生成图像
- 生成的 PNG 文件返回给用户
关键优势
- 完全本地化:所有数据处理在本地完成,无隐私风险
- 低延迟:Klein 9B distilled 模型仅需 4 步采样即可生成高质量图像
- 无兼容性问题:使用 GGUF 格式避免了 Apple MPS 不支持 FP8 的问题
- 高度可控:支持调整分辨率、步数、引导强度等参数
使用方式
直接向 Hermes Agent 发送图像生成描述即可,无需额外操作:
生成一张:一只戴着太阳镜的赛博朋克风格猫在霓虹闪烁的东京屋顶上,4步采样,随机种子
Agent 会自动调用 ComfyUI 工作流生成图像并返回。