Browser Use

AI 操控浏览器的能力——自动打开网页、搜索信息、点击元素、提取数据，是 Agent 与互联网交互的核心通道

简介

Browser Use 是指 AI 系统直接操控浏览器的能力，让 AI 能像人一样打开网页、搜索信息、点击链接、填写表单、提取页面数据。与传统的 API 调用或爬虫不同，Browser Use 让 AI 能够以人类的方式与任何网站交互——不需要网站提供 API，也不需要编写爬虫脚本。

在 Codex APP 中，Browser Use 是四层工具扩展架构的第二层（in-app browser → Chrome Extension → Computer Use → MCP servers）。它的核心价值在于让 Agent 能够直接访问和操作互联网上的任何网站，将浏览器变成 AI 的”眼睛和手”。

关键信息

类型：概念 / AI 能力
领域：AI Agent / 浏览器自动化
核心能力：自动打开网页 + 搜索信息 + 点击元素 + 提取数据 + 下载文件
相关概念：Computer Use、Codex、Playwright
与 Computer Use 的区别：Browser Use 操控浏览器（web 世界），Computer Use 操控桌面 APP（本地世界）

核心特性

能力范围

自动打开网页：AI 可以导航到任意 URL，无需人工打开浏览器
搜索与浏览：在搜索引擎或社交媒体中搜索关键词，浏览搜索结果
信息提取：从网页中提取文本、图片、链接等结构化数据
文件下载：自动下载网页中的图片、文档等文件
表单操作：填写表单、点击按钮、提交数据
登录态复用：利用已登录的浏览器会话访问需要认证的内容

与 API 调用的区别

维度	Browser Use	API 调用
适用范围	任何网站，无需 API	需要网站提供 API
登录态	复用浏览器已登录状态	需要 API Key / OAuth
数据类型	页面上的任何可见内容	仅 API 返回的结构化数据
反爬限制	模拟真人操作，不易被封	可能有速率限制和 IP 封锁
操作复杂度	可执行复杂交互流程	仅限 API 支持的操作

典型应用场景

数据采集：自动打开社交媒体搜索并提取特定内容（如苍何用它从 X/Twitter 采集 GPT-image2 提示词）
竞品监控：定期打开竞品网站检查更新
内容审核：自动打开网页检查内容是否合规
自动化测试：模拟用户操作流程进行端到端测试

不同素材中的观点

2026-06-13-canghe-gpt-image2-codex-agentic-workflow：苍何将 Browser Use 作为 Codex 远程指挥工作流的核心能力之一。具体应用：Codex 通过 Browser Use 自动打开 X/Twitter，搜索最近 24 小时 GPT-image 2 相关帖子，找到含 Prompt 的帖子后下载图片并提取提示词，然后按项目分类规则自动归类。作者的核心发现是”配合 Codex 的 Browser Use 能力，不需要配 API”——Browser Use 让 Agent 能直接操作浏览器完成数据采集，绕过了 API 接入的复杂性。与 Computer Use 组合后形成”浏览器+桌面”双通道自动化能力

实用信息

快速上手

在 Codex APP 中安装 Browser Use 插件
确保浏览器已登录需要访问的网站
向 Codex 描述需要采集或操作的内容
Codex 会自动打开浏览器执行任务

注意事项

涉及登录态的操作需确保浏览器已登录目标网站
频繁的自动化操作可能触发网站的反爬机制
建议在专用设备（如 Mac Mini）上运行，避免影响日常浏览器使用

个人知识库

探索

Browser Use

Browser Use

简介

关键信息

核心特性

能力范围

与 API 调用的区别

典型应用场景

不同素材中的观点

实用信息

快速上手

注意事项

相关页面

关系图谱

快速导航

目录

反向链接