Browser Use
AI 操控浏览器的能力——自动打开网页、搜索信息、点击元素、提取数据,是 Agent 与互联网交互的核心通道
简介
Browser Use 是指 AI 系统直接操控浏览器的能力,让 AI 能像人一样打开网页、搜索信息、点击链接、填写表单、提取页面数据。与传统的 API 调用或爬虫不同,Browser Use 让 AI 能够以人类的方式与任何网站交互——不需要网站提供 API,也不需要编写爬虫脚本。
在 Codex APP 中,Browser Use 是四层工具扩展架构的第二层(in-app browser → Chrome Extension → Computer Use → MCP servers)。它的核心价值在于让 Agent 能够直接访问和操作互联网上的任何网站,将浏览器变成 AI 的”眼睛和手”。
关键信息
- 类型:概念 / AI 能力
- 领域:AI Agent / 浏览器自动化
- 核心能力:自动打开网页 + 搜索信息 + 点击元素 + 提取数据 + 下载文件
- 相关概念:Computer Use、Codex、Playwright
- 与 Computer Use 的区别:Browser Use 操控浏览器(web 世界),Computer Use 操控桌面 APP(本地世界)
核心特性
能力范围
- 自动打开网页:AI 可以导航到任意 URL,无需人工打开浏览器
- 搜索与浏览:在搜索引擎或社交媒体中搜索关键词,浏览搜索结果
- 信息提取:从网页中提取文本、图片、链接等结构化数据
- 文件下载:自动下载网页中的图片、文档等文件
- 表单操作:填写表单、点击按钮、提交数据
- 登录态复用:利用已登录的浏览器会话访问需要认证的内容
与 API 调用的区别
| 维度 | Browser Use | API 调用 |
|---|---|---|
| 适用范围 | 任何网站,无需 API | 需要网站提供 API |
| 登录态 | 复用浏览器已登录状态 | 需要 API Key / OAuth |
| 数据类型 | 页面上的任何可见内容 | 仅 API 返回的结构化数据 |
| 反爬限制 | 模拟真人操作,不易被封 | 可能有速率限制和 IP 封锁 |
| 操作复杂度 | 可执行复杂交互流程 | 仅限 API 支持的操作 |
典型应用场景
- 数据采集:自动打开社交媒体搜索并提取特定内容(如苍何用它从 X/Twitter 采集 GPT-image2 提示词)
- 竞品监控:定期打开竞品网站检查更新
- 内容审核:自动打开网页检查内容是否合规
- 自动化测试:模拟用户操作流程进行端到端测试
不同素材中的观点
- 2026-06-13-canghe-gpt-image2-codex-agentic-workflow:苍何将 Browser Use 作为 Codex 远程指挥工作流的核心能力之一。具体应用:Codex 通过 Browser Use 自动打开 X/Twitter,搜索最近 24 小时 GPT-image 2 相关帖子,找到含 Prompt 的帖子后下载图片并提取提示词,然后按项目分类规则自动归类。作者的核心发现是”配合 Codex 的 Browser Use 能力,不需要配 API”——Browser Use 让 Agent 能直接操作浏览器完成数据采集,绕过了 API 接入的复杂性。与 Computer Use 组合后形成”浏览器+桌面”双通道自动化能力
实用信息
快速上手
- 在 Codex APP 中安装 Browser Use 插件
- 确保浏览器已登录需要访问的网站
- 向 Codex 描述需要采集或操作的内容
- Codex 会自动打开浏览器执行任务
注意事项
- 涉及登录态的操作需确保浏览器已登录目标网站
- 频繁的自动化操作可能触发网站的反爬机制
- 建议在专用设备(如 Mac Mini)上运行,避免影响日常浏览器使用