Computer Use
AI 操控用户电脑的能力——看屏幕、点鼠标、敲键盘——能力越大风险越大,必须配多层安全防御机制
简介
Computer Use 是指 AI 系统直接操控用户电脑屏幕、鼠标和键盘的能力。与传统的 API 调用不同,Computer Use 让 AI 能像人一样”坐在电脑前操作”——截屏查看当前界面、移动鼠标点击按钮、敲击键盘输入文字。
这个能力在阿布(Abu)中得到最完整的工程化实践:不仅实现了 Computer Use 本身,还建立了 5 层独立安全防御机制。Shawn 的开发经验中,Computer Use 引发了他最有”产品恐惧感”的一天——模型在测试中自动打开了 Spotlight 搜索框并输入”Keychain Access”(钥匙串),意识到模型完全有能力打开电脑上任何 app。
关键信息
- 类型:概念 / AI 安全机制
- 领域:AI Agent / 桌面自动化
- 核心能力:截屏 + 鼠标操控 + 键盘输入
- 安全要求:必须配多层防御(不配安全层的 Computer Use 是危险的)
- 相关概念:AI Agent 智能体、阿布 Abu
核心特性
5 层安全防御体系(阿布实践)
阿布的 Computer Use 配备了 5 层独立兜底机制:
| 层级 | 防御机制 | 说明 |
|---|---|---|
| 1 | 敏感 app 黑名单 | 用 bundle_id 匹配,跨语言,拦截钥匙串/系统偏好设置等 |
| 2 | 危险按键拦截 | 阻止 AI 执行危险的键盘组合 |
| 3 | 全局停止快捷键 | 用户随时可以紧急停止 AI 操作 |
| 4 | 会话超时 | 超时自动断开,防止 AI 无限操作 |
| 5 | 双中止通道 | 两个独立的中止路径,确保单点故障不会导致无法停止 |
关键教训
模型在 dev 环境跑测试时截屏看了一圈,然后在 Spotlight 搜索框输入”Keychain Access”——这证明了模型完全有能力打开电脑上任何 app。第二天 Shawn 从早上写到深夜,连发 5 个 commit 一次性建立全部 5 层防御。
不同素材中的观点
- 2026-05-29-woshipm-shawn-abu-claude-code-6-weeks:Computer Use 的安全设计是阿布开发中最重要的教训之一。Shawn 的核心洞察:能力越大风险越大——模型不需要恶意,只需要在探索过程中”偶然”触达敏感 app,就可能造成不可逆的后果。5 层安全防御不是一次性设计出来的,是被模型试图打开钥匙串这件事”逼”出来的。每层防御独立工作,任何单层失效都不会导致安全防线崩溃
实用信息
安全设计原则
- 敏感 app 用 bundle_id 匹配(跨语言,不受 app 名称本地化影响)
- 5 层防御必须独立——不能共享同一个”开关”
- 全局停止快捷键必须在任何状态下都生效
- 会话超时是兜底——防止 AI 因 bug 进入无限操作循环