Browser Use

AI 操控浏览器的能力——自动打开网页、搜索信息、点击元素、提取数据,是 Agent 与互联网交互的核心通道

简介

Browser Use 是指 AI 系统直接操控浏览器的能力,让 AI 能像人一样打开网页、搜索信息、点击链接、填写表单、提取页面数据。与传统的 API 调用或爬虫不同,Browser Use 让 AI 能够以人类的方式与任何网站交互——不需要网站提供 API,也不需要编写爬虫脚本。

在 Codex APP 中,Browser Use 是四层工具扩展架构的第二层(in-app browser → Chrome Extension → Computer Use → MCP servers)。它的核心价值在于让 Agent 能够直接访问和操作互联网上的任何网站,将浏览器变成 AI 的”眼睛和手”。

关键信息

  • 类型:概念 / AI 能力
  • 领域:AI Agent / 浏览器自动化
  • 核心能力:自动打开网页 + 搜索信息 + 点击元素 + 提取数据 + 下载文件
  • 相关概念Computer UseCodexPlaywright
  • 与 Computer Use 的区别:Browser Use 操控浏览器(web 世界),Computer Use 操控桌面 APP(本地世界)

核心特性

能力范围

  • 自动打开网页:AI 可以导航到任意 URL,无需人工打开浏览器
  • 搜索与浏览:在搜索引擎或社交媒体中搜索关键词,浏览搜索结果
  • 信息提取:从网页中提取文本、图片、链接等结构化数据
  • 文件下载:自动下载网页中的图片、文档等文件
  • 表单操作:填写表单、点击按钮、提交数据
  • 登录态复用:利用已登录的浏览器会话访问需要认证的内容

与 API 调用的区别

维度Browser UseAPI 调用
适用范围任何网站,无需 API需要网站提供 API
登录态复用浏览器已登录状态需要 API Key / OAuth
数据类型页面上的任何可见内容仅 API 返回的结构化数据
反爬限制模拟真人操作,不易被封可能有速率限制和 IP 封锁
操作复杂度可执行复杂交互流程仅限 API 支持的操作

典型应用场景

  • 数据采集:自动打开社交媒体搜索并提取特定内容(如苍何用它从 X/Twitter 采集 GPT-image2 提示词)
  • 竞品监控:定期打开竞品网站检查更新
  • 内容审核:自动打开网页检查内容是否合规
  • 自动化测试:模拟用户操作流程进行端到端测试

不同素材中的观点

  • 2026-06-13-canghe-gpt-image2-codex-agentic-workflow:苍何将 Browser Use 作为 Codex 远程指挥工作流的核心能力之一。具体应用:Codex 通过 Browser Use 自动打开 X/Twitter,搜索最近 24 小时 GPT-image 2 相关帖子,找到含 Prompt 的帖子后下载图片并提取提示词,然后按项目分类规则自动归类。作者的核心发现是”配合 Codex 的 Browser Use 能力,不需要配 API”——Browser Use 让 Agent 能直接操作浏览器完成数据采集,绕过了 API 接入的复杂性。与 Computer Use 组合后形成”浏览器+桌面”双通道自动化能力

实用信息

快速上手

  1. 在 Codex APP 中安装 Browser Use 插件
  2. 确保浏览器已登录需要访问的网站
  3. 向 Codex 描述需要采集或操作的内容
  4. Codex 会自动打开浏览器执行任务

注意事项

  • 涉及登录态的操作需确保浏览器已登录目标网站
  • 频繁的自动化操作可能触发网站的反爬机制
  • 建议在专用设备(如 Mac Mini)上运行,避免影响日常浏览器使用

相关页面