ChatGPT Image V2
OpenAI 的图片生成模型,具备复杂图片生成能力,支持在同一对话中保持风格一致性。
简介
ChatGPT Image V2 是 OpenAI 推出的图片生成模型,集成在 ChatGPT 中。相比之前的图片生成工具,Image V2 具备更强的复杂图片生成能力,能够生成包含文字、图表、设计元素等复杂内容的图片。关键特性是它会在连续生成时自主参考同一对话中之前图片的风格和元素,使得”风格统一”变得简单。
核心特性
复杂图片生成能力
Image V2 能够生成包含多种元素的复杂图片:
- 带有文字内容的幻灯片
- 包含图表和设计元素
- 特定风格的视觉设计
- 二维码等符号元素(但生成的是假二维码,需替换)
风格一致性
Image V2 最重要的特性之一:
- 在同一对话中连续生成图片时,会自主参考之前图片的风格和元素
- 不需要复杂的 prompt 来描述风格
- 解决方案简单:整个系列图片都在一个对话中生成
Pro 模型增强
ChatGPT 的 Pro(进阶)模型提供更好的图片生成效果,适合对质量要求较高的场景。
不同素材中的观点
2026-05-07-agent-ppt-generation
风格统一的关键发现:作者通过实践发现,Image V2 在连续生成时会”自主参考原来生成的系列图的风格和元素”。这意味着风格统一不需要复杂的 prompt 工程,只需要确保整个 PPT 的图片都在一个对话中生成即可。这是一个简单但有效的解法。
假二维码问题:Image V2 生成的图片中如果有二维码,那个二维码是假的、不能用的。需要通过其他方式生成真实二维码并替换。作者采用的方法是:让 Hermes 生成真实二维码,然后用 Python 扫描像素定位假二维码区域并精确替换。
可替代传统 PPT 编辑的可能性:作者提出一个观点:如果图片编辑成本低到一定程度(语音告诉 Agent 调整 → Agent 重新生成),传统 PPT 的”可编辑”属性可能不再必要。Image V2 的生成质量已经足够用于实际分享场景。
实用信息
使用方式
- 通过 ChatGPT 网页界面使用
- 选择 Pro 模型获得更好效果
- 在同一对话中生成系列图片以保持风格一致
Prompt 模板技巧
作者的做法:
- 先让 ChatGPT 自己生成一个”用于生成 PPT 图片的 prompt 模板”
- 然后使用该模板为每一页 PPT 编写完整 prompt
- 这样可以确保每页 prompt 结构一致
注意事项
- 生成的二维码需要替换(是假的)
- 复杂内容生成建议使用 Pro 模型
- 风格统一依赖”同一对话”机制,注意不要中途换对话
与 Agent 配合
Image V2 可以与 Agent 系统(如 Hermes)配合:
- Agent 通过 Chrome CDP 操作 ChatGPT 网页
- Agent 发送 prompt、等待生成、下载图片
- 实现全自动化的图片生成流程