导航：首页>> 最新资讯>> 当你的浏览器成为代理

当你的浏览器成为代理

1小时前 8 资讯

作者：Mario Chow & Figo @IOSG

引言

过去 12 个月，网页浏览器与自动化的关系发生了剧烈变化。几乎所有大型科技公司都在争相构建自主的浏览器代理（browser agent）。从 2024 年底开始这一趋势愈发明显：OpenAI 在 1 月推出了 Agent 模式，Anthropic 为 Claude 模型发布了“电脑使用”功能，Google DeepMind 推出了 Project Mariner，Opera 宣布了代理型浏览器 Neon，而 Perplexity AI 则推出了 Comet 浏览器。信号十分明确：AI 的未来在于能够自主导航网页的代理。

这一趋势并不仅仅是给浏览器加上更聪明的聊天机器人，而是机器与数字环境交互方式的根本转变。浏览器代理是一类能够“看”网页并采取行动的 AI 系统：点击链接、填写表单、滚动页面、输入文字：就像人类用户一样。这种模式承诺将释放巨大的生产力和经济价值，因为它能自动化那些目前仍需要人工操作，或传统脚本过于复杂而无法完成的任务。

▲ GIF 演示：AI 浏览器代理的实际操作：遵循指令，导航到目标数据集页面，自动截图并提取所需数据。

谁将赢得 AI 浏览器之战？

几乎所有大型科技公司（以及一些初创公司）都在开发各自的浏览器 AI 代理方案。以下是最具代表性的几个项目：

OpenAI – Agent 模式

OpenAI 的 Agent 模式（前身名为 Operator，2025 年 1 月推出）是一种自带浏览器的 AI 代理。Operator 能够处理各种重复性的在线任务：例如填写网页表单、订购杂货、安排会议：全部通过人类常用的标准网页界面完成。

▲ AI 代理像专业助理一样安排会议：检查日历、寻找可用时间段、创建活动、发送确认，并为你生成 .ics 文件。

Anthropic – Claude 的“Computer Use”：

2024 年底，Anthropic 为 Claude 3.5 引入了全新的 “Computer Use（电脑使用）” 功能，赋予了其像人一样操作电脑和浏览器的能力。Claude 可以看屏幕、移动光标、点击按钮、输入文字。这是首个同类的大模型代理工具进入公开测试版，开发者可以让 Claude 自动导航网站和应用程序。Anthropic 将其定位为一种实验性功能，主要目标是实现网页上的多步骤工作流自动化。

Perplexity – Comet

AI 初创公司 Perplexity（以问答引擎闻名）在 2025 年中期推出了 Comet 浏览器，作为 Chrome 的 AI 驱动替代品。Comet 的核心是内置在地址栏（omnibox）中的对话式 AI 搜索引擎，能够提供即时问答和摘要，而不是传统的搜索链接。

此外，Comet 还内置 Comet Assistant，这是一个驻留在侧边栏的代理，可以跨网站自动执行日常任务。例如，它可以总结你打开的邮件、安排会议、管理浏览器标签页，或代表你浏览并抓取网页信息。

通过侧边栏接口让代理能够感知当前网页内容，Comet 旨在将浏览与 AI 助手无缝融合。

浏览器代理的真实应用场景

在前文中，我们已经回顾了各大科技公司（OpenAI、Anthropic、Perplexity 等）如何通过不同的产品形态为浏览器代理（browser agents）注入功能。为了更直观地理解它们的价值，我们可以进一步看看在真实场景中，这些能力如何被应用到日常生活和企业工作流程中。

日常网页自动化

电商与个人购物

一个非常实用的场景是将购物与预订任务委托给代理。代理可以根据固定清单自动填充你的线上购物车并下单，也可以在多个零售商之间寻找最低价，并代你完成结账流程。

对于旅行，你可以让 AI 执行这样的任务：“帮我预订下个月去东京的航班（票价低于 800 美元），再订一家有免费 Wi-Fi 的酒店。”代理会处理整个流程：搜索航班、比较选项、填写乘客信息、完成酒店预订，全部通过航空公司与酒店网站完成。这种自动化水平远远超越了现有的旅游机器人：它不仅仅是推荐，而是直接执行购买。

提升办公效率

代理能够自动化许多人们在浏览器中进行的重复性业务操作。例如，整理电子邮件并提取待办事项，或在多个日历中检查空档并自动安排会议。Perplexity 的 Comet 助手已经可以通过网页界面总结你的收件箱内容，或为你添加日程。代理还可以在获得你的授权后，登录 SaaS 工具生成常规报告、更新电子表格，或提交表单。想象一个 HR 代理，能够自动登录不同的招聘网站发布职位；或一个销售代理，可以更新 CRM 系统的潜在客户数据。这些日常琐碎工作本来会耗费大量员工时间，但 AI 可以通过自动化网页表单和页面操作完成。

除了单一任务，代理还能串联起跨多个网络系统的完整工作流。所有这些步骤都需要在不同的网页界面中操作，而这正是 browser agent 的强项。代理可以登录各种仪表盘进行故障排查，甚至编排流程，例如为新员工完成入职操作（在多个 SaaS 网站上创建账号）。本质上，任何目前需要点开多个网站完成的多步骤操作，都可以交由代理执行。

当下的挑战与局限

尽管潜力巨大，但今天的浏览器代理距离完美仍有很大差距。当前的实现揭示出了一些长期存在的技术和基础设施难题：

架构不匹配

现代网络是为人类操作的浏览器而设计的，并且随着时间的推移逐渐演变为主动抵御自动化。数据常常埋藏在为视觉展示优化的 HTML/CSS 中，被交互手势（鼠标悬停、滑动）所限制，或者只能通过未公开的 API 访问。

在此基础上，反爬虫与反欺诈系统又人为增加了额外屏障。这些工具结合了 IP 信誉、浏览器指纹、JavaScript 挑战反馈以及行为分析（例如鼠标移动的随机性、打字节奏、停留时间）。矛盾的是，AI 代理表现得越“完美”、效率越高：比如瞬间填表、从不出错，就越容易被识别为恶意自动化。这可能导致硬性失败：例如 OpenAI 或 Google 的代理可能顺利完成结账前的所有步骤，但最终却被 CAPTCHA 或二次安全过滤拦下。

人类优化的界面与对机器人不友好的防御层叠加在一起，迫使代理采取脆弱的“人机模仿”策略。这种方法极易失效，成功率低（如果没有人工干预，完整交易的完成率仍不足三分之一）。

信任与安全顾虑

要让代理获得完全控制，通常需要访问敏感信息：登录凭证、Cookies、双因素认证令牌，甚至支付信息。这带来了用户与企业都能理解的担忧：

如果代理出错或被恶意网站欺骗怎么办？
如果代理同意了某个服务条款或执行了某笔交易，谁该负责？

基于这些风险，目前的系统普遍采取谨慎态度：

Google 的 Mariner 不会输入信用卡信息或同意服务条款，而是交还给用户。
OpenAI 的 Operator 会提示用户接管登录或 CAPTCHA 挑战。

Anthropic 的 Claude 驱动的代理可能直接拒绝登录，理由是安全考虑。

结果是：AI 与人类之间频繁的停顿与交接，削弱了无缝自动化的体验。

尽管存在这些障碍，进展仍在快速推进。OpenAI、Google、Anthropic 等公司在每一轮迭代中都吸取失败经验。随着需求的增长，很可能会出现一种“共同演化”：网站在有利的场景下变得更友好于代理，而代理也会不断提升对人类行为的模仿能力，以绕过现有屏障。

方法与机遇

当下的浏览器代理正面临两种截然不同的现实：一方面是 Web2 的敌对环境，反爬虫与安全防御无处不在；另一方面是 Web3 的开放环境，自动化反而常常受到鼓励。这种差异决定了各类解决方案的方向。

下面的解决方案大致分为两类：一类帮助代理绕过 Web2 的敌对环境，另一类则是原生于 Web3 的方案。

虽然浏览器代理面临的挑战依旧显著，但新的项目正不断涌现，试图直接解决这些问题。加密货币与去中心化金融（DeFi）生态正在成为天然的试验场，因为它开放、可编程、且对自动化不那么敌视。开放的 API、智能合约与链上透明性，消除了许多 Web2 世界常见的摩擦点。

以下是四类解决方案，每一类都在应对当下的一项或多项核心局限：

面向链上操作的原生代理型浏览器

这些浏览器从零开始就是为自主代理驱动而设计的，并且与区块链协议深度集成。与传统的 Chrome 浏览器不同，后者若要进行链上操作自动化需要额外依赖 Selenium、Playwright 或钱包插件；而原生代理型浏览器则直接給予API 和可信的执行路径，供代理调用。

在去中心化金融中，交易的有效性依赖的是加密签名，而不是用户是否“像人类”。因此在链上环境中，代理可以绕过 Web2 世界常见的 CAPTCHA、欺诈检测分数和设备指纹检查。然而，如果这些浏览器指向像 Amazon 这样的 Web2 网站，它们并不能绕过相关的防御机制，在那种场景下依然会触发正常的反机器人措施。

代理型浏览器的价值并不是能神奇地访问所有网站，而在于：

原生区块链集成：内置钱包与签名支持，无需再通过 MetaMask 弹窗或解析 dApp 前端的 DOM。
自动化优先设计：提供稳定的高层指令，能直接映射为协议操作。
安全模型：精细化的权限控制与沙箱，确保私钥在自动化过程中安全。
性能优化：能够并行执行多个链上调用，而无需浏览器渲染或 UI 延迟。

案例：Donut

Donut 将区块链数据与操作作为一等公民进行集成。用户（或其代理）可以悬停查看代币的实时风险指标，或直接输入自然语言指令如 “/swap 100 USDC to SOL”。通过跳过 Web2 的敌对摩擦点，Donut 让代理能在 DeFi 中全速运行，提升流动性、套利与市场效率。

可验证与可信的代理执行

让代理获得敏感权限风险很大。相关解决方案使用可信执行环境（TEEs） 或零知识证明（ZKPs）来在执行前加密确认代理的预期行为，使用户与对手方在不暴露私钥或凭证的前提下验证代理动作。

案例：Phala Network

Phala 使用 TEEs（如 Intel SGX）来隔离与保护执行环境，从而避免 Phala 运营方或攻击者窥探或篡改代理逻辑与数据。TEE 就像一个硬件加持的“安全密室”，保证了保密性（外部无法看到）与完整性（外部无法修改）。

对于浏览器代理，这意味着它可以登录、持有会话令牌，或处理支付信息，而这些敏感数据永远不会离开安全密室。即便使用者机器、操作系统或网络被攻破，也无法泄露。这直接缓解了代理应用落地的最大障碍之一：对敏感凭证与操作的信任问题。

去中心化的结构化数据网络

现代的反机器人检测系统不仅检查请求是否“过快”或“自动化”，还会结合 IP 信誉、浏览器指纹、JavaScript 挑战反馈与行为分析（例如光标移动、打字节奏、会话历史）。那些来自数据中心 IP 或完全可重复的浏览环境的代理很容易被识别。

为了解决这一问题，这类网络不再抓取为人类优化的网页，而是直接收集并提供机器可读的数据，或者通过真实的人类浏览环境代理流量。这种方式绕过了传统爬虫在解析与反爬环节的脆弱性，能为代理提供更干净、更可靠的输入。

通过将代理流量代理到这些真实世界的会话，分布式网络（distribution network）让 AI 代理可以像人一样访问网页内容，而不会立即触发封锁。

案例

Grass：去中心化数据/DePIN 网络，用户共享闲置的住宅宽带，从而为公共网页数据收集与模型训练提供代理友好、地理多样化的访问渠道。
WootzApp：支持加密货币支付的开源移动浏览器，带有后台代理与零知识身份；它将 AI/数据任务“游戏化”推向消费者。
Sixpence：分布式浏览器网络，通过全球贡献者的浏览，为 AI 代理路由流量。

不过这并非完整解决方案。行为检测（鼠标/滚动轨迹）、账户层级的限制（KYC、账号年龄）以及指纹一致性检查依然可能触发封锁。因此，分布式网络最好被视作基础的隐匿层，必须与模仿人类的执行策略结合才能发挥最大效果。

面向代理的网页标准（前瞻）

目前，越来越多的技术社区和组织正在探索：如果未来网络用户不仅是人，还有自动化代理（agent），网站该如何安全、合规地与它们打交道？

这推动了一些新兴标准和机制的讨论，目标是让网站能够明确表示「我允许可信代理访问」，并且提供一个安全的通道来完成交互，而不是像今天这样默认把代理当作“机器人攻击”来拦截。

“Agent Allowed” 标签：就像搜索引擎遵守的 robots.txt 一样，未来网页可能会在代码中加一个标签，告诉浏览器代理“这里可以安全访问”。比如说，如果你用代理订机票，网站就不会弹出一堆验证码（CAPTCHA），而是直接提供一个认证后的接口。
认证代理的 API 网关：网站可以为经过验证的代理开放专门的入口，就像“快速通道”。代理不需要模拟人类点击、输入，而是走一条更稳定的 API 路径完成下单、支付或数据查询。
W3C 的讨论：万维网联盟（W3C）已经在研究如何为“受管自动化”制定标准化通道。这意味着，未来我们可能会有一套全球通用的规则，让可信代理能被网站识别和接纳，同时保持安全和可追责。

虽然这些探索都还在早期，但一旦落地，就可能极大改善人类↔代理↔网站之间的关系。想象一下：不再需要代理拼命模仿人类鼠标移动来“骗过”风控，而是光明正大地通过一个“官方允许”的通道完成任务。

在这条路线上，加密原生的基础设施可能会率先起步。因为链上应用天生就依赖开放 API 和智能合约，对自动化是友好的。相比之下，传统 Web2 平台可能还会继续谨慎防守，尤其是依赖广告或反欺诈体系的公司。但随着用户和企业逐渐接受自动化带来的效率提升，这些标准化尝试很可能会成为推动整个互联网迈向“代理优先架构”的关键催化剂。

结论

浏览器代理正在从最初的简单对话工具，演化为能够完成复杂线上工作流程的自主系统。这一转变反映了一个更广泛的趋势：将自动化直接嵌入用户与互联网交互的核心界面中。虽然生产力提升的潜力巨大，但挑战同样严峻，包括如何突破根深蒂固的反机器人机制，以及如何确保安全性、信任与负责任的使用方式。

在短期内，代理的推理能力提升、速度更快、与现有服务的更紧密集成，以及分布式网络的进步，可能会逐步提高可靠性。从长期来看，我们或许会在那些自动化对服务提供方与用户双方都有利的场景中，看到“代理友好”标准的逐步落地。不过，这一转变将不会是均匀的：在如 DeFi 这样的自动化友好环境中，采用速度会更快；而在严重依赖用户交互控制的 Web2 平台，接受程度会更慢。

未来，科技公司的竞争将越来越集中在以下几个方面：其代理在现实世界限制下的导航能力如何、能否安全地集成到关键工作流程中，以及能否在多样化的线上环境中稳定交付结果。至于这一切是否最终会重塑“浏览器之战”，取决的并非单纯的技术实力，而是能否建立信任、对齐激励，并在日常使用中展现出切实的价值。

登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。文章内容仅供参考，不构成投资建议。投资者据此操作，风险自担。

上一篇： HashKey交易时刻：比特币11万至11.2万美元成交量缺口待补，以太坊守稳4100美元是看涨关键

下一篇：价值超37亿美元的ETH等待解锁，以太坊抛压风险几何？

排名	交易所	24h成交额
1	Binance	¥1,527.57 亿
2	Bybit	¥576.23 亿
3	Coinbase Exchange	¥71.57 亿
4	OKX	¥519.71 亿
5	Upbit	¥77.13 亿
6	Kraken	¥43.20 亿
7	Bitget	¥494.79 亿
8	Raydium	¥11.50 亿
9	Bitfinex	¥6.09 亿
10	Uniswap v2	¥3.72 亿
查看更多

排名	币种	24h成交额
1	Bitcoin	¥364.78 亿
2	Ethereum	¥184.99 亿
3	Tether USDt	¥788.03 亿
4	XRP	¥44.33 亿
5	BNB	¥22.55 亿
6	Solana	¥29.59 亿
7	Dogecoin	¥19.18 亿
8	USDC	¥57.95 亿
9	Cardano	¥5.70 亿
10	TRON	¥4.66 亿
查看更多