2025年网络爬虫API报告
欢迎阅读我们的年度网络爬虫基础设施报告。本报告分为两部分。第一部分是技术分析:对近十几种常用的网络爬虫API进行基准测试,旨在评估它们在解锁受保护网站的有效性和成本。第二部分是探索性分析:我们将尝试分析人工智能的蓬勃发展对我们行业的影响。
总而言之,这是充满变革(甚至可以说是忙碌)的一年,它引入了许多新玩家,迫使现有玩家重新考虑他们的立场,并将网络数据访问置于万亿美元淘金热的中心。
结语
- 我们的解除封锁测试包括 11 个网络爬虫 API 和 15 个受保护的网站。
- 四家供应商(Zyte、 Decodo, OxylabsZyte 和 ScrapingBee 等公司成功打开了超过 80% 的漏洞,其中 Zyte 领先。
- Zyte 的 API 也是返回结果速度最快的 API 之一;ScraperAPI, Decodo和 Oxylabs 紧随其后。
- Shein、G2 和 Hyatt 给我们的参与者带来了最大的麻烦,近一半的人未能成功刮除这些污渍。
- 采用可变定价模式的供应商(Zyte、Zenrows、ScrapingBee 和 ScraperAPI)的基本价格最便宜,但它们的高级配置收费却高达基本配置的 100 倍!
- 我们的方法论涉及 JavaScript 和高级解锁机制, Decodo 成本最低。
- 到8月份,人工智能公司在2025年获得的融资额几乎与非人工智能初创公司持平。这催生了新一代总部位于美国的网页抓取基础设施提供商,例如Firecrawl和Browserbase。
- 他们采用基于人工智能的解析、云浏览器管理、开源工具和爬虫策略等创新方法,迫使根深蒂固的公司奋起直追。
- 尽管讨论的焦点转向了人工智能代理,但LLM训练仍然产生大量的网络流量,现在主要集中在多模态数据上。
- 对网络爬虫的日益关注带来了负面影响,Cloudflare 和 Google 加大了打击力度,反机器人行业也经历了快速增长。
解除阻塞状态
参与者成员
我们的研究包括 11 家主要的网页抓取 API 提供商。 大多数公司在我们直接联系他们后才允许我们访问。Firecrawl 和 ZenRows 是我们自己购买的。
| 参与者 | 目标听众 |
|---|---|
| 阿皮菲 | 中小型客户 |
| 爬虫库 | 中大型客户 |
| Decodo | 中小型客户 |
| 火爬 | 中小型客户 |
| 网络坚果 | 企业版 |
| Nimble | 企业版 |
| Oxylabs | 企业版 |
| 爬虫API | 从小到大的客户 |
| 蜜蜂 | 中小型客户 |
| 禅行 | 中小型客户 |
| 合特 | 中大型客户 |
研究方法
我们向参与者介绍了我们的一般方法。 但并未事先公布网站列表。 目的是为了避免抢占先机进行优化。
我们的大部分测试是在 2025 年 10 月进行的。
我们选择了 15目标 作为我们的基准测试。这些网站的选择标准是:1)受欢迎程度;2)受到主流反机器人厂商的保护。
| 目标 | 特性 | 机器人保护 |
|---|---|---|
| 快板 | 产品 | 数据穹顶 |
| Amazon | 产品 | 在内部 |
| ChatGPT | 已登出回答 | Cloudflare / 登录墙 |
| G2 | 公司评论 | 数据穹顶 |
| SERP | 在内部 | |
| 凯悦酒店 | 搜索结果 | Kasada |
| 不动产侦察兵24 | 上市 | Incapsula |
| 简介 | 在内部 | |
| leboncoin | 上市 | 数据穹顶 |
| 劳氏 | 产品 | Akamai的 |
| 诺思通 | 分类 | 形状 |
| 幸 | 产品 | 在内部 |
| 沃尔玛 | 产品 | PerimeterX + 额外 |
| YouTube | 成绩单 | 在内部 |
| Zillow的 | 上市 | PerimeterX |
虽然选择范围偏向电子商务网站,但实际上也涵盖了相当多的垂直领域:
- 我们收集了 约 6,000 个唯一 URL 针对每个目标网站。
- 然后我们编写了一个简单的 Python 脚本,用于调用 API 并获取输出结果。如果某个 API 有针对特定网站的接口,我们就使用这些接口。
- 我们的服务器位于美国而且在大多数情况下,我们还将 API 的地理位置设置为美国。
- 我们从基本参数出发,为每个目标平台找到了合适的配置方案。例如: 某些目标需要启用 JavaScript 或高级代理。 返回有价值的内容。
- 我们运行脚本两次来获取这 6,000 个 URL:一次是 2 次请求/秒,另一次是 10 次请求/秒。超时时间为 600 秒。这足以触发机器人防护系统,有时还会达到 API 的并发限制。
- 我们通过观察验证了结果: 响应代码、页面大小和页面标题在某些情况下(例如使用 ChatGPT),我们还会获取 CSS 选择器。
- 我们的 ZenRows 和 Firecrawl 方案存在并发限制,导致部分请求在 10 req/s 时失败。这主要是 ZenRows 的问题,因此结果可能无法完全反映其性能。
- 反机器人系统可能根据网站(甚至同一网站的不同类别)提供不同级别的保护,因此它们可能无法完全阻止公共网络数据的抓取。
- 我们尝试在相近的时间打开目标网站,但无法始终保证完全一致。虽然我们认为 API 应该能够持续访问目标网站,但总有可能在网站更新的维护窗口期内抓取到爬虫程序。
- 同样,我们的基准测试是在有限的时间范围内进行的,因此它们只能反映 API 性能的一个快照。
基准测试结果
我们排除了成功率低于 5% 的运行结果。如果 API 无法以 2 req/s 的速率可靠地解除目标阻塞,我们就不会尝试以 10 req/s 的速率运行。
为了让大家有个概念,每秒两次请求相当于每月五百万多次,而每秒十次请求则相当于每月近两千六百万次请求。
汇总结果
(鼠标悬停在标签上可高亮显示,点击可隐藏)
和去年一样,Zyte 在解锁难以访问的网站方面做得非常出色。 Decodo, OxylabsScrapingBee 也紧随其后。
ZenRows 和 ScraperAPI 也被证明是功能全面的优秀工具,而其他工具在我们的测试环境中可以被视为专业领域的提供商。Firecrawl 排名垫底,但该 API 最适合抓取长尾数据集,而非单个受保护的目标。
目标细分——每秒 2 个请求
(将鼠标悬停在标签上可高亮显示,点击可隐藏。)
这张图表有点难懂(点击标签可以隐藏网站),但它显示了哪些目标触发了 API。例如,Shein 对大多数人来说都是个问题,而 G2 则对某些人来说处理起来过于棘手。 Oxylabs, Decodo还有 ScrapingBee,但不包括 ScraperAPI。
目标细分——每秒 10 个请求
(将鼠标悬停在标签上可高亮显示,点击可隐藏。)
将抓取速度提高五倍确实产生了一定影响,但比我们预期的要小。ZenRows受到的影响最大,可能是由于达到了并发限制。
成功请求的平均响应时间
(鼠标悬停在标签上可高亮显示,点击可隐藏)
我们注意到,无论脚本以每秒 2 个请求还是 10 个请求的速度运行,响应时间都差不多——有时速度越快,响应时间甚至越短!因此,我们决定只展示速度最快的成功运行结果。
各个 API 的响应时间差异很大。Firecrawl 采取了一种有趣的策略:快速失败而不是在内部重复请求。这种策略确实有效,但却将重试的负担转嫁给了用户。
综合来看,Zyte 可能是速度最快的,其次是 ScraperAPI。 Decodo和 Oxylabs值得注意的是,所有这些服务提供商在解除目标用户的封锁方面也表现出色。
响应时间中位数为 5.05 秒(由于存在一个显著异常值,我们使用中位数),所有 API 都不足以满足 Google 代理访问的需求。当然,我们没有使用所谓的…… 光 or 来迅速 端点,而是通用选项。
每小时连续结果数
(鼠标悬停在标签上可高亮显示,点击可隐藏)
我们换个方法。如果我们连续发送请求,保持一个连接打开,能获得多少个成功结果?与之前的图表相比,这种方法考虑了失败请求所消耗的时间。
领导者们依然保持相似。ZenRows 和 Nimble 得益于 YouTube 的推广,NetNut 的排名下降了好几位,而 Firecrawl 则从第一名跌至最后一名。
Apify 的系统非常独特,值得单独介绍。
- 首先,这是一个 市场 刮削器,其中许多是由第三方制造和维护的。
- 其次,爬虫程序每次运行都会创建一个 Docker 容器;您可以根据需要自由地为其分配足够的内存和 CPU 能力。
- 然后,它们批量处理 URL,而不是逐个遍历页面。
- 最后,你只能 建议 并发性——平台通常会忽略此设置并动态调整它。
Apify – 成功运行
| 演员 | 功能验证 | 运行时 | 评论 | |
|---|---|---|---|---|
| 快板 | 通用 | 7,442 | 19m 19s | ~6.42 请求/秒 |
| Amazon | 专门 | 5,946 | 3h 30min | ~0.47 请求/秒 |
| G2 | 专门 | 5,926 | 14m 56s | ~6.6 请求/秒 |
| 专门 | 6,000 | 28m 33s | ~3.5 请求/秒 | |
| 专门 | 5,956 | 22m 42s | ~4.37 请求/秒 | |
| 沃尔玛 | 专门 | 4993 | 14h 3m | ~0.01 请求/秒 |
| YouTube | 专门 | 6,001 | 6h 12m | ~0.27 请求/秒 |
| Zillow的 | 专门 | 5,998 | 12m 26s | ~8 请求/秒 |
Apify 的一些爬虫表现非常出色,尤其是 G2。然而,我们对它们的并发性控制有限,导致运行时间差异巨大。
作为对比,以 2 req/s 的速度运行,一次运行大约需要 50 分钟;而以 10 req/s 的速度运行,一次运行大约只需 10 分钟即可完成。
Apify – 运行失败
| 演员 | 功能验证 | 运行时 | 评论 | |
|---|---|---|---|---|
| ChatGPT | 通用(定制迷彩狐狸) | 4584 | 21h 10m | 提前停止 |
| 凯悦酒店 | 通用(定制迷彩狐狸) | 0 | 12m 4s | 所有请求均失败 |
| Immobilienscout | 通用(剧作家) | 4,145 | 16h 6m | 提前停止 |
| leboncoin | 专门 | 620 | 17h 44m | 提前停止 |
| 劳氏 | 专门 | 89 | 1h 27m | 尝试4次后停止 |
| 诺思通 | 专门 | 2,078 | 17h 32m | 提前停止 |
| 幸 | 通用 | 541 | 11 m | 已完成,无需重试。 |
即使 Apify 使用了专门的 Actor,它们仍然无法与大约一半的目标正常工作。例如,Shein 的爬虫程序只是循环遍历所有 URL,然后被阻止,甚至没有尝试重试请求。而 Leboncoin 的爬虫程序则耗时过长,我们不得不中止运行。
最难解锁的目标
| 平均成功率(每秒 2 个请求) | 失败率超过 80% 的 API | |
|---|---|---|
| 幸 | 21.88% | 5 |
| G2 | 36.63% | 5 |
| 凯悦酒店 | 43.75% | 5 |
| 洛斯 | 52.57% | 4 |
| 59.54% | 3 | |
| 诺思通 | 61.97% | 3 |
| leboncoin | 63.83% | 3 |
| 快板 | 66.98% | 2 |
| ChatGPT | 71.04% | 1 |
| Immobilienscout | 71.68% | 1 |
| YouTube | 93.05% | 0 |
| 沃尔玛 | 93.05% | 0 |
| Amazon | 93.30% | 0 |
| 94.78% | 0 | |
| Zillow的 | 97.85% | 0 |
至少在2025年,Shein将成为网络爬虫梦想的终结之地。极少有API能够打开它,更别提可靠地打开了。除了下载HTML页面时页面体积巨大之外,这个目标网站的安全防护也非常严密。
G2现在使用DataDome,结果却成了另一个棘手的问题。由Kasada把守的Hyatt是第三个。
最热门的网络爬虫目标——谷歌和亚马逊——则呈现出截然不同的景象。这里的主要问题并非…… if API 将打开这些目标,但并非如此。 多快如果我们测试了数据解析能力,这将是另一个值得关注的点。
测试运行成本
假设我们对每个目标发出 14,000 个请求 (6,000 x 2 + 2,000 的余量),我们一共花了多少钱?
将鼠标悬停在标签上即可突出显示,单击即可过滤。
出乎意料的是,表现最好的供应商也是经济上最可行的选择。 Decodo 与 Oxylabs 受益于其相对平稳的价格结构,而且自去年以来至少降价过一次。
Zyte 是价格最便宜的供应商之一,在许多目标平台上都能满足需求(我们 14,000 次 YouTube 请求仅需 1 美元!),但当涉及到更严格的保护机制或无头浏览时,其成本也会成倍增长。仅 G2 和 Hyatt 两家公司就消耗了我们一半以上的预算。
虽然在一般情况下价格实惠,但像 ScraperAPI 和 ScrapingBee 这样采用积分制的支付服务商显然并非打开受保护网站的理想选择。相比之下,Zenrows 的积分上限更低,因此更具优势。
Apify 再次显得特立独行。它的各个爬虫可能采用不同的定价模式(流量/计算/请求),还有各种附加组件,甚至还有订阅费。例如,沃尔玛爬虫的使用费就高达每月 30 美元。因此,有些爬虫——比如 G2 或 Instagram——价格非常实惠,而 Leboncoin 却要价超过 60 美元,却只能返回十分之一的结果。
基本费率和最高费率
我们的计算结果不太可能代表实际使用场景,因为很少有用户专门访问受保护的网站。以下是…… 在任意设定的 500 美元预算下,每 1,000 次请求的最便宜和最贵的价格(CPM)。
将鼠标悬停在标签上即可突出显示,单击即可过滤。
图表显示,某些 API 之间存在巨大差距。例如,Zyte 对基本目标收费很低,但对最复杂的网站却收取高额费用。ScraperAPI 和 ScrapingBee 也是如此。
后两者的信用方案相对明确,但 Zyte 的费用难以提前预估。虽然它提供了一个便捷的计算器,但该服务商将网站分为五类;费率还会根据批量折扣、渲染和解析选项而变化。
与 2024 年相比,我们看到定价模式更加细分。 Oxylabs Crawlbase 针对渲染请求、亚马逊和谷歌分别制定了不同的费率。它还增加了类似 Zyte 的难度等级,甚至针对每种情况分别计算批量折扣。
年度叙事:人工智能
人工智能——更确切地说是大型语言模型——已经占据了主导地位两年之久了。网络爬虫行业对此感受尤为深刻,因为数据(无论是数据集还是实时网络内容)是人工智能训练和与网络交互的基础。说白了,我们就像在淘金热潮中卖铲子一样。
鉴于网络数据收集这个相对冷门的领域已经变得如此重要,年度词汇是 关注我们 ——无论是从商业、产品还是法律层面来说,情况都是如此。让我们来剖析一下这种现状是如何改变我们行业的。
前所未有的风险投资涌入
如何量化炒作?很简单:只需追踪风险投资的流向。就人工智能而言,数据显而易见:2024 年,人工智能初创公司获得的融资额是前一年的两倍;到 2025 年 8 月,它们的融资总额已经超过了 2024 年全年的总额。在今年的风险投资总额中,人工智能领域获得了…… 几乎占了馅饼的一半而前一年这一比例仅为三分之一。
这笔钱大部分流向了该领域几家最大的公司,例如40美元的公司。 十亿 对 OpenAI 的投资虽然数额微不足道,但超过 150 亿美元已分配给了网络数据访问领域的初创公司。该市场中另一笔大型风险投资事件(至少我们所看到的)是 EMK Capital 超过 100 亿美元的投资。 获得 of Bright Data ——早在2017年!
| 企业 | 创立日期 | 总部 | 资金 (2024-2025) |
| 埃克萨.ai | 2021 | 美国加利福尼亚 | $ 85M |
| 浏览器库 | 2024 | 美国加利福尼亚 | $ 67.5M |
| 塔维利 | 2024 | 纽约,美国 | $ 25M |
| 内核 | 2025 | 美国特拉华州 | $ 22M |
| 浏览器使用 | 2024 | 美国加利福尼亚 | $ 17M |
| 火爬 | 2024 | 美国特拉华州 | $ 14.5M |
这些被投资的公司全部位于美国,平均成立时间不到两年。美国公司一直参与这个行业,但从未真正占据主导地位。然而现在,风险投资有效地催生了一批装备精良的新一代网络爬虫基础设施提供商。
新一代人工智能网络爬虫公司
我们来谈谈这新一代产品。它有哪些显著特征,使其区别于老一代产品吗?还是说我们看到的只是更多老款产品?简而言之,这些公司 旨在 无论是在特征还是思维方式上,都截然不同。
基因工程人工智能网络爬虫公司的关注领域
| LLM友好型抓取 | 网络搜索 (谷歌内部,混合指数) | 浏览器代理 |
| 火爬 Crawl4AI ScrapeGraphAI | EXA 塔维利 困惑 | 浏览器库 浏览器使用 内核 |
首先,它们都是人工智能原生企业,这一点从它们的营销策略中显而易见。Firecrawl 提供“将网站转化为适合LLM的数据”的服务,Browserbase 承诺提供“适用于人工智能的网络浏览器”,而 Tavily 则致力于“将您的人工智能代理连接到网络”。毫无疑问,它们的目标用户是谁,以及用户将如何从服务中受益。正如 Tavily 的首席执行官所说,这些公司首先将自身定位为人工智能原生企业。 人工智能赋能者.
Gen-AI 在产品方面也采用了不同的方法。首先,他们喜欢简化输入,要么直接接受自然语言,要么构建能够处理自然语言的抽象层。例如,Browserbase 的 舞台手 该库允许用户选择何时使用代码或纯语言指令来自动化浏览器。后续发布的版本 主管 更进一步,并期望 仅由 纯文本命令。
此外,gen-AI 特别关注网站爬取,而这通常是网络爬虫基础设施提供商所回避的领域。现在,获取网站的 URL 结构或完整内容比以往任何时候都更加容易;您只需调用一个端点并调整几个参数即可。
同样,您可以请求抓取的不仅是谷歌搜索结果列表,还有其内容。Markdown 格式的加入使得批量抓取可以直接用于语言模型。Exa 和 Tavily 更进一步:它们并非简单地抓取谷歌搜索结果,而是缓存、解析并重新打包结果。 更换 人工智能代理搜索引擎。
人工智能提供商自身在数据处理中大量使用逻辑逻辑模型(LLM)。机器生成的静态解析器供人类使用时相对僵化;而人类指定的人工智能解析规则则效果相当不错——更重要的是,它们可以在不同领域之间迁移而不会出现太大问题。这解锁了Zyte所说的…… 网络长尾 这标志着在可扩展性方面比手工编写的解析规则迈出了一大步。
最后一个特征,虽然可能最难量化,是思维模式。尽管这些新一代公司主要提供基础设施,但它们似乎都具备建设者的心态。它们毫不犹豫地在核心服务之上叠加研究助理、线索挖掘工具和其他功能。这不仅展现了平台的能力,拓展了问题解决空间,也为未来的转型创造了潜在机遇。
相比之下,现有企业拥有明确的业务领域,专注于解决各自领域内的工程难题。因此,它们的方法通常是迭代式的,更侧重于维护而非创新。这使得它们少了些炒作,却拥有更坚实的基础。当然,由于没有急于求成的风险投资公司紧追不舍,它们也少了追求“登月计划”的外部压力。
强大的开源工具的出现
构建者思维的一个有趣推论是对开源的关注。Apify 和 Zyte 分别创建了出色的网络爬虫框架(Crawlee 和 Scrapy)。但除了这两个例子之外,大多数开源工具都来自独立开发者。 给予 而不是企业 回馈 对社区。
2024年情况发生了变化。新一代人工智能数据抓取公司创建了多个GitHub代码库,毫不夸张地说,这些代码库的受欢迎程度呈爆炸式增长:
| 存储库 | 目的 | GitHub 星星 (2025年9月) | 执照 |
| 浏览器使用 | 对无头浏览器的操控 | 70 | 麻省理工学院简介 |
| 火爬 | 爬虫、抓取和数据解析 | 60 | PLFA-3 |
| Crawl4AI | 爬虫、抓取和数据解析 | 54 | Apache的2.0 |
| GTP研究员 (塔维利) | 创建深度研究代理 | 23.5 | Apache的2.0 |
| 舞台手 (浏览器基数) | 对无头浏览器的操控 | 17 | 麻省理工学院简介 |
关于这一现象,有两点需要强调。首先,社区获得的不仅仅是一些有用但最终无关紧要的功能,例如模拟鼠标移动。Crawl4AI 是一个完整且完全开源的网络爬虫。而 Firecrawl 和 Browser-Use 则运行着…… 开核 通过云托管、反机器人程序和提升生活质量的功能实现盈利的商业模式。
第二个值得注意的现象是,除一个之外,所有列出的代码库都采用非常宽松的许可模式。实际上,只有 Firecrawl 限制了代码的重新分发,要求使用者必须共享他们对代码所做的任何更改。
对公司而言,其价值何在?开源本身就是一种可行的商业模式,Red Hat 就是一个很好的例子。但实际上,它更是一种极佳的建立品牌认知度的方法,并且能够帮助企业在遇到网络爬虫方面的难题后,逐步过渡到托管服务。
现任者的适应
人工智能的蓬勃发展对所谓的 编制 网络数据提供商中,哪些对大型语言模型趋之若鹜?有些提供商如获至宝般欣然接受;而另一些则恰恰相反,仅做了些表面功夫。无论如何,大多数提供商都已意识到大型语言模型在其业务中的重要性。
首先也是最显而易见地应用人工智能的领域是营销。像 Apify 这样的早期企业和 Bright Data 计划在2024年底开始积极争取初创公司入驻。最初,这些努力规模不大:在导航栏中添加一个版块、创建一个着陆页或投放一个横幅广告。到2025年3月, Bright Data 已完全转型为服务人工智能应用案例,减少了其他客户 其他一切 然后就简单地 BI 标题中。
这一策略似乎取得了成功:到 2025 年末, Bright Data 公布 人工智能使该公司年收入达到 300 亿美元(高于 2021 年的 100 亿美元),预计到 2026 年年中将达到 400 亿美元的年度经常性收入。
其他公司在2025年陆续效仿。Apify现在提供 人工智能所需的实时数据NetNut 权力 AI模型 (粗体) 以及复杂的管道, Oxylabs' 产品 赋能人工智能产业及其他领域,而 SOAX 提供 人工智能团队的实时公共网络数据不过,在我们撰写本文时,并非所有公司都已转变立场:ScraperAPI、Zenrows 甚至 Zyte 在争取 AI 公司方面仍然保持谦逊。
网络爬虫 API 与大型语言模型天然契合。但它们也带来了一些特殊需求,例如上下文规模有限或对 Google 搜索数据的需求,因此需要实现一些新功能。这些功能包括 Markdown、纯文本或 Toon 输出格式、轻量级版本的 Google 解析器,以及最近用于代理浏览的 MCP 服务器。
此外,人工智能热潮也推动了新产品的推出,以应对新兴竞争对手。例如, Bright Data 开发了爬虫API,并将其云浏览器业务剥离出来,成立了一个全新的、以人工智能为先的品牌。 browser.ai就其本身而言, Oxylabs 它发布了一项浏览器解锁服务,并运行一套独立的、类似 Firecrawl 的爬虫程序,名为 AI工作室.
人工智能导向特征的比较
| 发现端点 | 搜索端点 | 浏览器端点 | 结构化数据 | 输出格式 | MCP 服务器 | |
|---|---|---|---|---|---|---|
| 阿皮菲 | 爬虫、地图绘制器、目标特定 | SERP API | ❌ | 特定目标 | HTML、JSON、CSV、Markdown | ✅ |
| 爬虫库 | 特定目标 | SERP API | ❌ | 特定目标 | HTML、JSON、屏幕截图 | ✅ |
| Decodo | 特定目标 | SERP API | ❌ | AI选择器生成器,针对特定目标 | HTML、JSON、Markdown、屏幕截图 | ✅ |
| 网络坚果 | ❌ | SERP API | ❌ | 特定目标 | HTML、JSON | ❌ |
| Nimble | 特定目标 | SERP API | ❌ | 目标特定的AI解析器 | HTML、JSON、屏幕截图 | ✅ |
| Oxylabs | 爬虫、地图绘制器、目标特定 | 搜索引擎结果页面 (SERP) API、快速搜索、搜索+提取 | ✅ | 针对特定目标的AI选择器生成器、AI解析器 | HTML、JSON、Markdown、屏幕截图、卡通 | ✅ |
| 无刮擦 | 爬行者,目标特定 | SERP API | ✅ | 特定目标 | HTML、JSON、文本、Markdown、页面内容 | ✅ |
| 爬虫API | 爬虫(测试版),目标特定 | SERP API | ❌ | 特定目标 | HTML、JSON、文本、Markdown、屏幕截图 | ✅ |
| 蜜蜂 | 特定目标 | SERP API | ❌ | 目标特定的AI解析器 | HTML、JSON、文本、Markdown、屏幕截图 | ✅ |
| 禅行 | 特定目标 | SERP API | ✅ | 针对特定目标的输出过滤器(链接、电子邮件等) | HTML、JSON、Markdown、文本 | ❌ |
| 合特 | 产品、文章、职位 | 搜索结果应用程序接口 | 通过托管的 VS Code | 页面类型(产品、文章、职位、搜索结果) | HTML、JSON、页面内容 | ❌ |
那些依赖网络爬虫技术进行改进的模型,如今也出现在了爬虫API的功能列表中,从而形成了一种有趣的协同效应。它们面向客户的主要作用在于数据转换:既可以根据提示生成解析规则,也可以反过来,直接使用给定的规则提取数据。这张来自OxyCon的幻灯片展示了成熟供应商在采用AI进行解析方面所经历的曲折历程:
即便如此,也鲜有根深蒂固的服务提供商推出能够根据提示进行端到端信息提取的代理式网络爬虫技术。这项技术,以及规模较小的LLM解析任务,在可靠性和成本方面都难以满足企业级应用的需求,因此它们与其他构建长尾网络的方法展开竞争。
在这个领域最活跃的可能是 Zyte,它的机器学习模型能够以可预测的模式提取各种页面类型(产品、新闻等)。其他一些公司也实现了类似的功能,例如 Scrapfly。但总的来说,这种方法的应用范围有限。
面向人工智能的网络爬虫和普通的网络爬虫之间存在着足够的差异,值得将它们归入不同的分类体系。但正是在这里,我们这些审稿人遇到了令人费解的问题。 人工智能网页爬虫 是能帮助人工智能应用场景,还是能让人工智能更好地发挥作用?或许答案介于两者之间。
多模态数据(以及一般的训练数据)仍然需求旺盛。
随着LLM(学习学习模型)的热潮从RAG(随机数生成器)转向智能体,再到智能体,你可能会认为网络作为训练数据来源的潜力已经耗尽。的确,一些人已经开始使用合成数据、用户生成数据和授权数据来改进输入数据。但根据…… Cloudflare但事实并非如此:到 2025 年中期,所有 AI 流量中有四分之三是为训练目的而产生的。
当然,将此事视为非此即彼是不明智的。一如既往,答案需要更细致的分析。文本网络数据 用于培训目的虽然LLM是基础性技术,但它的重要性确实有所下降,并且已被多次提取。它可能也开始受到递归的影响,即LLM会摄取由另一个AI模型生成的内容。然而,像视频这样的多模态数据仍然是进一步训练的前沿领域。我们曾撰文讨论过这个问题。 春天回来我们仍然认为情况确实如此。
为了进一步佐证我们的观点,我们再次拿出 yt-dlp(一个流行的视频下载库)的 GitHub 趋势线图。如今的不同之处在于,市场上还提供了商业爬虫和预收集数据集的选择。 Oxylabs Wyndlabs 只是众多利用这一机遇的供应商中的几个例子。
如果以 Cloudflare 的图谱为基准,那么迄今为止,智能抓取技术更多的是引发讨论而非实际应用。然而,就目前的发展趋势和资金投入来看,它的份额势必会不断增长。
加大力度遏制人工智能数据收集
对网络爬虫技术的日益关注也带来了诸多负面影响。无论是为了保持竞争优势还是避免不必要的托管费用,企业从来都不愿意轻易向他人开放其数据访问权限。但如今,网络爬虫技术不仅规模空前,也开始对现有的商业模式构成威胁。
如果我们相信一家名为Mordor Intelligence的洞察公司的说法,那么Web应用程序防火墙(WAF)的市场是 11亿美元仅 Akamai 一家就赚了近 4 美元。 十亿 每年,我们都看到了一些备受瞩目的并购,例如 F5 以十位数收购 Shape Security,或者 PerimeterX 和 Human 合并。
在 OxyCon 和 Extract Summit 等大型网络爬虫大会上,普遍的看法是反机器人措施已显著加强。一位与会者半开玩笑地表示,过去只需两天的解封就能获得两周的网站访问权限;而现在情况正好相反。Zyte 甚至…… 宣告代理人的死亡他认为,对于许多人来说,自行构建网络爬虫既没有意义也没有技能。
机器人检测服务目前仍然价格不菲,但其技术日趋先进,也更容易被企业所接受。许多小型网站发现 Cloudflare 随处可见的“你是真人吗?”复选框就足够用了,而且这项功能是免费的。
就连那些一直以来都难以抓取但尚可接受的网络巨头们也开始感到不安。谷歌就是一个典型的例子: 一月它开始强制要求在搜索中使用 JavaScript,这让整个行业陷入混乱。9 月,它 不再一次请求返回 100 条搜索结果这导致许多搜索引擎优化(SEO)追踪工具失效。YouTube也受到了影响:它可能会要求用户在播放视频前完成验证码,或者直接拒绝播放,直到可疑用户登录。
Cloudflare及其各项人工智能相关举措值得单独一提。2025年,Cloudflare的用户可以选择将人工智能爬虫困在迷宫中,然后彻底屏蔽它们。该公司并未止步于此:它首先推出了机器人身份验证协议,随后又提供了通过402(一个已被遗忘的HTTP响应代码)付费爬虫的选项,以此来控制访问权限。这些大胆的举措既推广了加密货币(用于支付访问费用),也试图重新定义网络的激励机制。
Cloudflare 的举措褒贬不一。像 Browserbase 和 Browser-Use 这样的新兴网络爬虫软件迅速抓住机会,将网络机器人身份验证和按次付费爬取模式集成到各自的系统中。而像……这样的老牌服务提供商则…… Bright Data 锯 这被视为对开放网络的冒犯,以及试图成为网络守门人的企图。我们倾向于后一种观点。
结语
报告到此结束——感谢您的阅读!由于摘要已在开头,我们借此机会邀请您提出问题或提供反馈。欢迎随时通过 [email protected] 或我们的网站联系我们。 Discord服务器.