出门前让Agent操作image v2帮我做PPT,全程没碰电脑
作者用 Hermes Agent 通过 Chrome CDP 操作 ChatGPT Image V2,在完全不带电脑的情况下,远程完成了一份完整的 PPT 制作。
基本信息
- 来源:人人都是产品经理
- 作者:jovi_AI电报
- 发布时间:2026-05-07
- 场景:分享嘉宾邀请,出门前需要准备 PPT,但不想带电脑
核心观点
-
Agent 可以成为真正的生产力工具:作者通过 Hermes Agent 挂载本地文章目录、调用 ChatGPT Image V2、操作 Chrome,实现了”全程不碰电脑”的 PPT 制作。唯一的交互是通过手机语音告诉 Agent 哪一页需要修改什么。
-
风格统一的关键是”同一对话”:ChatGPT Image V2 会自主参考同一对话中之前生成图片的风格和元素。解决方案非常简单:整个 PPT 的图片都在一个对话中生成,就能保持风格一致。
-
二维码替换要用像素扫描而非视觉模型:ChatGPT Image V2 生成的二维码是假的,需要替换。视觉模型定位不准,作者用 Python 扫描像素里的白色框(暗色系 PPT),精确识别后用真实二维码覆盖。
-
当编辑成本足够低,“可编辑”可能不再必要:如果修改只需要语音告诉 Agent 调整内容并重新生成,传统 PPT 的”可编辑”属性可能变得不再重要。
-
子 Agent 分担上下文压力:文章较多时,作者让 Hermes 派出多个子 Agent 并行读取文章,返回核心意图和梗概,由主 Agent 统筹编写。这避免了上下文撑爆的问题。
实操内容保留
整体流程步骤
- 告诉 Hermes 历史文章所在目录
- 让 Hermes 分析思考 PPT 写作提纲和主线,然后去读相关文章
- 让 Hermes 生成 PPT 每一页的内容
- 使用前面 ChatGPT 写的生成图片的 prompt 模板,让 Hermes 把每页 PPT 写成完整 prompt
- Hermes 操作 Chrome CDP 使用 ChatGPT Image V2 生成所有 PPT 图片
- 通过所有 PPT 图片生成 PPT 文稿并添加演讲者注释
- 使用 Python 扫描页面里的假二维码,替换成实际的二维码
Chrome CDP 操作步骤(Hermes 封装为 skill)
- 打开 Chrome
- 如果 ChatGPT 没有登录,使用 Gmail 登录
- 登录后选择公司工作空间
- 选择 ChatGPT 的 Pro(进阶)模型,获得更好的图片生成效果
- 发送 PPT 总控 prompt → 再发送单页 PPT prompt
- 等图片生成完成后,下载图片
- 重复单页 PPT 生成,直到全部 PPT 图片完成
二维码替换技术要点
- 不要使用视觉模型定位(偏差较大)
- 方法:Python 扫描像素里的白色框(暗色系 PPT 背景)
- 识别到像素框大小后,用真实二维码调整到对应尺寸精确覆盖
Prompt 模板思路
作者让 ChatGPT 自己生成一个用于生成 PPT 图片的 prompt 模板,然后由 Hermes 使用该模板为每一页 PPT 编写完整的 prompt。
关键概念
- Hermes Agent:本案例使用的 Agent 系统,支持 Chrome CDP 操作、文件挂载、子 Agent 派遣等能力
- ChatGPT Image V2:OpenAI 的图片生成模型,具备复杂图片生成能力
- Chrome CDP(Chrome DevTools Protocol):用于程序化操作 Chrome 的协议
原文精彩摘录
接到分享邀请,第二天要出门,电脑不带。唯一的接口是 Hermes。让它挂载我的文章目录、读内容、写提纲,然后通过 Chrome CDP 操控 ChatGPT Image V2 一页一页生成幻灯片图片,最后打包成 PPTX、替换假二维码——全链路跑通。整个过程我唯一做的事,就是对着手机语音说哪一页要改什么。
可编辑的 ppt 主要原因是要调整,但如果编辑成本低到一定程度时,我可能不需要编辑(本次实验证明完全可用)
由于上下文的特性,和看 image v2 连续生成时的思考过程中发现他会自主参考原来生成的系列图的风格和元素,“风格统一”的解法非常简单:整个ppt 的图片都在一个对话中生成就可以了。
这一步骤如果替换二维码的话,不要使用视觉模型,视觉模型的定位没有那么准… 因为这里我的 PPT 是暗色系的,二维码生成的时候都会有一个白边。直接用 Python 扫描像素里的白色框,Python 就可以准确识别到具体的像素点。
与其他素材的关联
- 本案例展示了 Agent 在实际生产场景中的应用,与 2026-05-07-woshipm-pm-strategic-thinking 中提到的”用好 AI”理念呼应
- 涉及的 Chrome CDP 技术是 Agent 操作浏览器的一种方式