作者:Mario Chow & Figo @IOSG引言过去 12 个月,网页浏览器与自动化的关系发生了剧烈变化。几乎所有大型科技公司都在争相构建自主的浏览器代理(browser agent)。从 2024 年底开始这一趋势愈发明显:OpenAI 在 1 月推...
作者:Mario Chow & Figo @IOSG
引言
过去 12 个月,网页浏览器与自动化的关系发生了剧烈变化。几乎所有大型科技公司都在争相构建自主的浏览器代理(browser agent)。从 2024 年底开始这一趋势愈发明显:OpenAI 在 1 月推出了 Agent 模式,Anthropic 为 Claude 模型发布了“电脑使用”功能,Google DeepMind 推出了 Project Mariner,Opera 宣布了代理型浏览器 Neon,而 Perplexity AI 则推出了 Comet 浏览器。信号十分明确:AI 的未来在于能够自主导航网页的代理。
这一趋势并不仅仅是给浏览器加上更聪明的聊天机器人,而是机器与数字环境交互方式的根本转变。浏览器代理是一类能够“看”网页并采取行动的 AI 系统:点击链接、填写表单、滚动页面、输入文字:就像人类用户一样。这种模式承诺将释放巨大的生产力和经济价值,因为它能自动化那些目前仍需要人工操作,或传统脚本过于复杂而无法完成的任务。
▲ GIF 演示:AI 浏览器代理的实际操作:遵循指令,导航到目标数据集页面,自动截图并提取所需数据。
几乎所有大型科技公司(以及一些初创公司)都在开发各自的浏览器 AI 代理方案。以下是最具代表性的几个项目:
OpenAI – Agent 模式
OpenAI 的 Agent 模式(前身名为 Operator,2025 年 1 月推出)是一种自带浏览器的 AI 代理。Operator 能够处理各种重复性的在线任务:例如填写网页表单、订购杂货、安排会议:全部通过人类常用的标准网页界面完成。
▲ AI 代理像专业助理一样安排会议:检查日历、寻找可用时间段、创建活动、发送确认,并为你生成 .ics 文件。
Anthropic – Claude 的“Computer Use”:
2024 年底,Anthropic 为 Claude 3.5 引入了全新的 “Computer Use(电脑使用)” 功能,赋予了其像人一样操作电脑和浏览器的能力。Claude 可以看屏幕、移动光标、点击按钮、输入文字。这是首个同类的大模型代理工具进入公开测试版,开发者可以让 Claude 自动导航网站和应用程序。Anthropic 将其定位为一种实验性功能,主要目标是实现网页上的多步骤工作流自动化。
Perplexity – Comet
AI 初创公司 Perplexity(以问答引擎闻名)在 2025 年中期推出了 Comet 浏览器,作为 Chrome 的 AI 驱动替代品。Comet 的核心是内置在地址栏(omnibox)中的对话式 AI 搜索引擎,能够提供即时问答和摘要,而不是传统的搜索链接。
此外,Comet 还内置 Comet Assistant,这是一个驻留在侧边栏的代理,可以跨网站自动执行日常任务。例如,它可以总结你打开的邮件、安排会议、管理浏览器标签页,或代表你浏览并抓取网页信息。
通过侧边栏接口让代理能够感知当前网页内容,Comet 旨在将浏览与 AI 助手无缝融合。
在前文中,我们已经回顾了各大科技公司(OpenAI、Anthropic、Perplexity 等)如何通过不同的产品形态为浏览器代理(browser agents)注入功能。为了更直观地理解它们的价值,我们可以进一步看看在真实场景中,这些能力如何被应用到日常生活和企业工作流程中。
日常网页自动化
电商与个人购物
一个非常实用的场景是将购物与预订任务委托给代理。代理可以根据固定清单自动填充你的线上购物车并下单,也可以在多个零售商之间寻找最低价,并代你完成结账流程。
对于旅行,你可以让 AI 执行这样的任务:“帮我预订下个月去东京的航班(票价低于 800 美元),再订一家有免费 Wi-Fi 的酒店。”代理会处理整个流程:搜索航班、比较选项、填写乘客信息、完成酒店预订,全部通过航空公司与酒店网站完成。这种自动化水平远远超越了现有的旅游机器人:它不仅仅是推荐,而是直接执行购买。
提升办公效率
代理能够自动化许多人们在浏览器中进行的重复性业务操作。例如,整理电子邮件并提取待办事项,或在多个日历中检查空档并自动安排会议。Perplexity 的 Comet 助手已经可以通过网页界面总结你的收件箱内容,或为你添加日程。代理还可以在获得你的授权后,登录 SaaS 工具生成常规报告、更新电子表格,或提交表单。想象一个 HR 代理,能够自动登录不同的招聘网站发布职位;或一个销售代理,可以更新 CRM 系统的潜在客户数据。这些日常琐碎工作本来会耗费大量员工时间,但 AI 可以通过自动化网页表单和页面操作完成。
除了单一任务,代理还能串联起跨多个网络系统的完整工作流。所有这些步骤都需要在不同的网页界面中操作,而这正是 browser agent 的强项。代理可以登录各种仪表盘进行故障排查,甚至编排流程,例如为新员工完成入职操作(在多个 SaaS 网站上创建账号)。本质上,任何目前需要点开多个网站完成的多步骤操作,都可以交由代理执行。
尽管潜力巨大,但今天的浏览器代理距离完美仍有很大差距。当前的实现揭示出了一些长期存在的技术和基础设施难题:
架构不匹配
现代网络是为人类操作的浏览器而设计的,并且随着时间的推移逐渐演变为主动抵御自动化。数据常常埋藏在为视觉展示优化的 HTML/CSS 中,被交互手势(鼠标悬停、滑动)所限制,或者只能通过未公开的 API 访问。
在此基础上,反爬虫与反欺诈系统又人为增加了额外屏障。这些工具结合了 IP 信誉、浏览器指纹、JavaScript 挑战反馈以及行为分析(例如鼠标移动的随机性、打字节奏、停留时间)。矛盾的是,AI 代理表现得越“完美”、效率越高:比如瞬间填表、从不出错,就越容易被识别为恶意自动化。这可能导致硬性失败:例如 OpenAI 或 Google 的代理可能顺利完成结账前的所有步骤,但最终却被 CAPTCHA 或二次安全过滤拦下。
人类优化的界面与对机器人不友好的防御层叠加在一起,迫使代理采取脆弱的“人机模仿”策略。这种方法极易失效,成功率低(如果没有人工干预,完整交易的完成率仍不足三分之一)。
信任与安全顾虑
要让代理获得完全控制,通常需要访问敏感信息:登录凭证、Cookies、双因素认证令牌,甚至支付信息。这带来了用户与企业都能理解的担忧:
如果代理出错或被恶意网站欺骗怎么办?
如果代理同意了某个服务条款或执行了某笔交易,谁该负责?
基于这些风险,目前的系统普遍采取谨慎态度:
Google 的 Mariner 不会输入信用卡信息或同意服务条款,而是交还给用户。
OpenAI 的 Operator 会提示用户接管登录或 CAPTCHA 挑战。
Anthropic 的 Claude 驱动的代理可能直接拒绝登录,理由是安全考虑。
结果是:AI 与人类之间频繁的停顿与交接,削弱了无缝自动化的体验。
尽管存在这些障碍,进展仍在快速推进。OpenAI、Google、Anthropic 等公司在每一轮迭代中都吸取失败经验。随着需求的增长,很可能会出现一种“共同演化”:网站在有利的场景下变得更友好于代理,而代理也会不断提升对人类行为的模仿能力,以绕过现有屏障。
当下的浏览器代理正面临两种截然不同的现实:一方面是 Web2 的敌对环境,反爬虫与安全防御无处不在;另一方面是 Web3 的开放环境,自动化反而常常受到鼓励。这种差异决定了各类解决方案的方向。
下面的解决方案大致分为两类:一类帮助代理绕过 Web2 的敌对环境,另一类则是原生于 Web3 的方案。
虽然浏览器代理面临的挑战依旧显著,但新的项目正不断涌现,试图直接解决这些问题。加密货币与去中心化金融(DeFi)生态正在成为天然的试验场,因为它开放、可编程、且对自动化不那么敌视。开放的 API、智能合约与链上透明性,消除了许多 Web2 世界常见的摩擦点。
以下是四类解决方案,每一类都在应对当下的一项或多项核心局限:
面向链上操作的原生代理型浏览器
这些浏览器从零开始就是为自主代理驱动而设计的,并且与区块链协议深度集成。与传统的 Chrome 浏览器不同,后者若要进行链上操作自动化需要额外依赖 Selenium、Playwright 或钱包插件;而原生代理型浏览器则直接給予API 和可信的执行路径,供代理调用。
在去中心化金融中,交易的有效性依赖的是加密签名,而不是用户是否“像人类”。因此在链上环境中,代理可以绕过 Web2 世界常见的 CAPTCHA、欺诈检测分数和设备指纹检查。然而,如果这些浏览器指向像 Amazon 这样的 Web2 网站,它们并不能绕过相关的防御机制,在那种场景下依然会触发正常的反机器人措施。
代理型浏览器的价值并不是能神奇地访问所有网站,而在于:
原生区块链集成:内置钱包与签名支持,无需再通过 MetaMask 弹窗或解析 dApp 前端的 DOM。
自动化优先设计:提供稳定的高层指令,能直接映射为协议操作。
安全模型:精细化的权限控制与沙箱,确保私钥在自动化过程中安全。
性能优化:能够并行执行多个链上调用,而无需浏览器渲染或 UI 延迟。
案例:Donut
Donut 将区块链数据与操作作为一等公民进行集成。用户(或其代理)可以悬停查看代币的实时风险指标,或直接输入自然语言指令如 “/swap 100 USDC to SOL”。通过跳过 Web2 的敌对摩擦点,Donut 让代理能在 DeFi 中全速运行,提升流动性、套利与市场效率。
可验证与可信的代理执行
让代理获得敏感权限风险很大。相关解决方案使用可信执行环境(TEEs) 或零知识证明(ZKPs)来在执行前加密确认代理的预期行为,使用户与对手方在不暴露私钥或凭证的前提下验证代理动作。
案例:Phala Network
Phala 使用 TEEs(如 Intel SGX)来隔离与保护执行环境,从而避免 Phala 运营方或攻击者窥探或篡改代理逻辑与数据。TEE 就像一个硬件加持的“安全密室”,保证了保密性(外部无法看到)与完整性(外部无法修改)。
对于浏览器代理,这意味着它可以登录、持有会话令牌,或处理支付信息,而这些敏感数据永远不会离开安全密室。即便使用者机器、操作系统或网络被攻破,也无法泄露。这直接缓解了代理应用落地的最大障碍之一:对敏感凭证与操作的信任问题。
去中心化的结构化数据网络
现代的反机器人检测系统不仅检查请求是否“过快”或“自动化”,还会结合 IP 信誉、浏览器指纹、JavaScript 挑战反馈与行为分析(例如光标移动、打字节奏、会话历史)。那些来自数据中心 IP 或完全可重复的浏览环境的代理很容易被识别。
为了解决这一问题,这类网络不再抓取为人类优化的网页,而是直接收集并提供机器可读的数据,或者通过真实的人类浏览环境代理流量。这种方式绕过了传统爬虫在解析与反爬环节的脆弱性,能为代理提供更干净、更可靠的输入。
通过将代理流量代理到这些真实世界的会话,分布式网络(distribution network)让 AI 代理可以像人一样访问网页内容,而不会立即触发封锁。
#
案例
Grass:去中心化数据/DePIN 网络,用户共享闲置的住宅宽带,从而为公共网页数据收集与模型训练提供代理友好、地理多样化的访问渠道。
WootzApp:支持加密货币支付的开源移动浏览器,带有后台代理与零知识身份;它将 AI/数据任务“游戏化”推向消费者。
Sixpence:分布式浏览器网络,通过全球贡献者的浏览,为 AI 代理路由流量。
不过这并非完整解决方案。行为检测(鼠标/滚动轨迹)、账户层级的限制(KYC、账号年龄)以及指纹一致性检查依然可能触发封锁。因此,分布式网络最好被视作基础的隐匿层,必须与模仿人类的执行策略结合才能发挥最大效果。
面向代理的网页标准(前瞻)
目前,越来越多的技术社区和组织正在探索:如果未来网络用户不仅是人,还有自动化代理(agent),网站该如何安全、合规地与它们打交道?
这推动了一些新兴标准和机制的讨论,目标是让网站能够明确表示「我允许可信代理访问」,并且提供一个安全的通道来完成交互,而不是像今天这样默认把代理当作“机器人攻击”来拦截。
“Agent Allowed” 标签:就像搜索引擎遵守的 robots.txt 一样,未来网页可能会在代码中加一个标签,告诉浏览器代理“这里可以安全访问”。比如说,如果你用代理订机票,网站就不会弹出一堆验证码(CAPTCHA),而是直接提供一个认证后的接口。
认证代理的 API 网关:网站可以为经过验证的代理开放专门的入口,就像“快速通道”。代理不需要模拟人类点击、输入,而是走一条更稳定的 API 路径完成下单、支付或数据查询。
W3C 的讨论:万维网联盟(W3C)已经在研究如何为“受管自动化”制定标准化通道。这意味着,未来我们可能会有一套全球通用的规则,让可信代理能被网站识别和接纳,同时保持安全和可追责。
虽然这些探索都还在早期,但一旦落地,就可能极大改善人类↔代理↔网站之间的关系。想象一下:不再需要代理拼命模仿人类鼠标移动来“骗过”风控,而是光明正大地通过一个“官方允许”的通道完成任务。
在这条路线上,加密原生的基础设施可能会率先起步。因为链上应用天生就依赖开放 API 和智能合约,对自动化是友好的。相比之下,传统 Web2 平台可能还会继续谨慎防守,尤其是依赖广告或反欺诈体系的公司。但随着用户和企业逐渐接受自动化带来的效率提升,这些标准化尝试很可能会成为推动整个互联网迈向“代理优先架构”的关键催化剂。
浏览器代理正在从最初的简单对话工具,演化为能够完成复杂线上工作流程的自主系统。这一转变反映了一个更广泛的趋势:将自动化直接嵌入用户与互联网交互的核心界面中。虽然生产力提升的潜力巨大,但挑战同样严峻,包括如何突破根深蒂固的反机器人机制,以及如何确保安全性、信任与负责任的使用方式。
在短期内,代理的推理能力提升、速度更快、与现有服务的更紧密集成,以及分布式网络的进步,可能会逐步提高可靠性。从长期来看,我们或许会在那些自动化对服务提供方与用户双方都有利的场景中,看到“代理友好”标准的逐步落地。不过,这一转变将不会是均匀的:在如 DeFi 这样的自动化友好环境中,采用速度会更快;而在严重依赖用户交互控制的 Web2 平台,接受程度会更慢。
未来,科技公司的竞争将越来越集中在以下几个方面:其代理在现实世界限制下的导航能力如何、能否安全地集成到关键工作流程中,以及能否在多样化的线上环境中稳定交付结果。至于这一切是否最终会重塑“浏览器之战”,取决的并非单纯的技术实力,而是能否建立信任、对齐激励,并在日常使用中展现出切实的价值。