Hermes Agent

一个支持 Chrome CDP 操作、文件系统挂载、子 Agent 派遣的 Agent 系统,可实现远程自动化任务执行。

简介

Hermes Agent 是一个具备多种能力的 AI Agent 系统。其核心特点是支持通过 Chrome DevTools Protocol (CDP) 操作浏览器、挂载本地和 NAS 目录进行文件操作、以及派遣子 Agent 进行并行任务处理。在实战案例中,作者通过 Hermes 在完全不带电脑的情况下,远程完成了一份完整的 PPT 制作。

核心能力

Chrome CDP 操作

Hermes 通过 Chrome DevTools Protocol 实现对浏览器的程序化操作:

  • 打开 Chrome 浏览器
  • 自动登录网站(如 Gmail 登录 ChatGPT)
  • 选择工作空间
  • 发送 prompt 并等待结果
  • 下载生成的图片

这种能力使得 Hermes 可以操作那些没有开放 API 的网站服务。

文件系统挂载

Hermes 支持挂载多种目录:

  • 本地 PC 共享目录(通过 IP 访问)
  • NAS 网络存储
  • 挂载后可以读取、写入文件,便于素材管理和结果存档

子 Agent 派遣

面对大量文章需要处理的场景,Hermes 可以:

  • 派遣多个子 Agent 并行读取文章
  • 子 Agent 返回核心意图和梗概
  • 主 Agent 统筹整合信息
  • 有效避免上下文撑爆问题

Skill 封装

Hermes 支持将通用流程封装为 skill:

  • 包含描述和步骤文件
  • 配套 Python 操作代码
  • 可在后续任务中复用

案例中将”操作 ChatGPT Image V2 生成图片”封装为 skill。

不同素材中的观点

2026-05-07-agent-ppt-generation

实战验证作为生产力工具:作者通过 Hermes 完成了一个完整的 PPT 制作流程,全程不需要碰电脑。唯一的交互是通过手机语音告诉 Agent 哪一页需要修改什么。这证明了 Agent 可以成为真正的生产力工具,而不仅仅是演示玩具。

Chrome CDP 操作可行性:作者之前尝试过 AI 视觉方案(通过 API 获取屏幕截图,AI 识别后给出操作建议),发现”慢且不准”。但 Hermes 的 Chrome CDP 实现在复杂操作场景下表现良好,能够完成:打开 Chrome → 登录 → 选择工作空间 → 选择模型 → 发送 prompt → 下载图片 → 循环执行的完整流程。

远程交互能力:Hermes 支持远程语音交互,作者在外出期间通过手机语音告诉 Hermes 修改需求,Hermes 能够理解并执行调整,然后重新跑后续流程输出最新版内容。

实用信息

适用场景

  • 远程自动化任务:需要在外出时让电脑自动完成工作
  • 网站操作自动化:需要操作没有 API 的网站服务
  • 批量内容处理:需要并行处理大量文档或素材
  • 工作流自动化:有可复用的操作流程需要封装

技术要点

  • Chrome CDP 是操作浏览器的关键协议,比视觉方案更准确
  • 子 Agent 分工可以有效控制上下文长度
  • skill 封装可以提高操作复用性

局限性

  • 需要目标电脑在局域网内可访问(或通过其他网络方案)
  • Chrome CDP 操作需要一定的开发和调试工作
  • 对于需要登录的网站,需要处理登录态管理

相关页面