2026 年搜索 API:概述与基准
人工智能的蓬勃发展带动了所有网络爬虫工具的兴起,但检索增强生成和人工智能代理的出现,使得搜索引擎结果页面API(最近被称为搜索API)的需求尤为旺盛。资金雄厚且雄心勃勃的公司正在重塑原本成熟的网络爬虫工具类别。
我们的报告旨在反映这种转变: 我们将探讨 2026 年初的现状,比较三种类型的搜索 API,并对 15 家提供商进行基准测试。 看看他们的表现如何。
主要发现
- 市场已细分为面向人类的完整搜索 API、旨在服务于人工智能的索引,以及连接前两类的快速 API。
- 快速 API 和索引的主要区别在于,前者返回实时数据,但很少提取通过搜索找到的页面。
- 自 2025 年 1 月以来,谷歌一直在努力阻止网络爬虫,不断改变访问机制,甚至将爬虫公司告上法庭。
- 在我们的速度测试中,像 Exa 和 Perplexity 这样速度最快的索引在 0.4 秒内就获取了结果,而且波动很小。 Oxylabs Serper 是速度最快的实时 API,平均响应时间为 0.6-0.7 秒。
- 实时API成本更低,扩展性更好,但需要其他工具来执行搜索和页面提取。索引的成本大约为每1,000次请求5美元。
2024 年前的搜索引擎结果页面抓取
在LLM出现之前,搜索引擎抓取的问题领域相对明确。它服务于SEO机构和工具、广告验证机构、品牌保护公司以及其他依赖搜索数据的企业。
SERP API 的目标是可靠地获取尽可能多的搜索引擎页面内容。 起初,它们只包含自然搜索结果、广告、“人们还会问”框和相关查询。随着时间的推移,它们的覆盖范围扩展到知识图谱、美食地图、本地搜索结果、购物框、垂直搜索(例如酒店)以及所有其他逐渐丰富搜索页面的附加功能。
我们一直觉得很奇怪,只有搜索引擎结果页面(SERP)API构成了网络爬虫的一个独立子集,而且还有一些品牌专门针对搜索引擎进行爬虫。他们的主要目标当然是谷歌,其次是必应、Yandex,有时也会爬到亚马逊等电商网站的搜索页面。
在任何情况下, 搜索引擎结果页面(SERP)数据的消费者希望了解并操控搜索引擎与人类的互动方式。在他们所使用平台的范围内。
后人工智能时代的搜索API
到 2023 年,ChatGPT 已经面世一年了。很明显,训练数据集还不够: 要想真正发挥作用,聊天机器人需要一种方法来获取世界上正在产生的知识。 检索增强生成 (RAG)的出现是为了将语言模型从知识截止日期的限制中解放出来。
这极大地推动了搜索引擎作为知识来源和获取知识的途径的普及。LinkUp 致力于让 AI 更便捷地使用搜索功能,并因此筹集了 13 万美元,Tavily 获得 25 万美元,Exa 获得 85 万美元,Parallel 获得 100 亿美元,而 You 也从消费者搜索引擎转型而来,并完成了同样令人瞩目的 100 亿美元融资。
人工智能的网络搜索需求与人类消费者截然不同:
- 首先, 数据检索速度必须很快。 ——比典型的搜索引擎结果页面 (SERP) API 响应时间(超过 4 秒)快得多。这促使各公司创建自己的预抓取索引:虽然成本很高,但风险投资的资助使其成为可能。
- 因为索引不是实时更新的,因此无法忠实地反映谷歌的数据, API 需要根据自身的标准对结果进行重新排序。 例如,Tavily 会给它显示的每个页面分配一个相关性分数。
- 此外,语言模型并不满足于仅仅显示搜索结果页面——它们 还需要了解结果的具体内容。 响应可以包含完整输出、符合上下文窗口的高亮显示,或者 LLM 直接编写的查询答案。
- 以及最后, 人工智能不需要完整的搜索结果页面。 除了某些特殊情况外,广告、小部件和移动布局在知识查找中几乎没有用处。
2025年,硅谷的集体智慧围绕着一个新的应用场景——人工智能代理——达成共识。这使得搜索引擎结果页面(SERP)的API进一步偏离了其最初的概念。 他们的主要目标是为新的消费者(不再是人类,而是人工智能)重建网络搜索。 换句话说,各公司不再希望在搜索引擎内部运作——相反,他们希望用自己的搜索界面取代现有的搜索界面(这并非没有后果,但稍后会详细介绍)。
当搜索API成为新闻头条时, 另一个产品类别悄然兴起,即所谓的 来迅速 or 光 搜索引擎结果页面(SERP)API。 它们舍弃了大部分不必要的页面元素,以换取极致的速度,通常响应时间不到一秒。最初也是最成功的快速搜索引擎结果页面 (SERP) API 是 Serper;其他成熟的提供商如 Oxylabs, Bright Data此后,SerpApi 也推出了自己的快速版本。
谷歌的回应
谷歌一直是网络爬虫的主要目标之一,但这家搜索巨头似乎对此并不太在意。当然,数据中心代理服务器在某个时候开始出现故障,配置不当的爬虫程序也会遇到验证码。 但在 2025 年之前,该平台从未像 LinkedIn 或某些电子商务商店那样构成真正的挑战。
为什么呢?自己是最大的网络爬虫,却又屏蔽爬虫,这在公众眼中并不光彩。但更实际地说,之前的商业模式从未真正威胁到谷歌的广告帝国。另一方面,人工智能代理并不关心浏览量,它们当然也不关心购买广告。到那时…… Bright Data 汇集 一堆搜索 API 准备在 2025 年 11 月颠覆谷歌,这已经是压垮骆驼的最后一根稻草了。
In 2025 年 XNUMX 月中旬谷歌通过实施 SearchGuard,扰乱了所有网络爬虫(以及许多辅助功能工具)。 ——一个依赖于 JavaScript 的机器人防护系统。虽然对普通用户来说几乎没有变化,但此举却使抓取延迟和成本增加了一个数量级。几天后,情况基本稳定下来,但大势已去。
谷歌的第二次打击发生在9月份,当时它删除了…… &num = 100 参数。 此次调整显然针对的是网络爬虫,尤其是人工智能公司。受影响最大的包括Ahrefs等各种SEO工具,这些工具依赖扩展的SERP来查看排名和关键词。半年过去了,它们的功能仍然比调整前受限。
除了这些地震事件之外, 谷歌不断努力提高搜索引擎数据抓取的难度。 它聘请了专门的反机器人工程师,持续不断地破解解锁策略、页面解析模式和拼接式攻击手段。 &num = 100 替代品。
仅靠工程技术手段无法满足需求 谷歌将此事诉诸法庭。 起诉SerpApi 在十二月2025。 此案的关键在于两个论点:一是规避谷歌的SearchGuard技术,二是造成损失。 无谓损失以及未经授权抓取许可内容,例如知识面板,据称侵犯了《数字千年版权法案》。原告要求就每个被抓取的页面赔偿 200 至 2,500 美元,这显然是不可能的。
诉讼中有两个重要的关键词: 无谓损失这实际上意味着 忽略了我们的广告以及抓取的规模:根据谷歌的数据,SerpApi 在两年内将请求数量增加了 25,000%。 Bright Data的收入数据显示,其 SERP API 的收入增长超过 700%,证实了这一趋势。
当 SerpApi 和 Google 在法庭上激烈交锋时,其他服务商的法务团队密切关注着事态发展,而他们的工程师则拼命地往网络爬虫引擎里添加各种数据。这就是机会的代价。
三种谷歌爬虫
我们已经确定 市场已经分裂成三种搜索引擎抓取工具:完整型、快速型和基于索引型。 它们之间有何区别?我们制作了一张表格来展示它们的主要特点和优势。
简单来说, 每个人都在准确性、速度和完整性这三者之间做出不同的权衡。 如果我们比较两种直接竞争的选项:快速 API 和索引:
- 快速 API 可以提供对 SERP 的完整且最新的访问权限,但无法访问其包含的页面,因此需要额外的网络抓取工具。
- 索引可以快速找到相关页面并检索其内容,但数据库可能存在过时或不完整的风险。
| 完整 API | 快速 API | 指数 | |
| 输出 | 所有搜索结果页面元素、本地搜索、广告 | 关键的搜索结果页面要素(自然搜索、新闻) | 列出并提取相关页面 |
| 恢复 | 实时或最新 | 实时或最新 | 优先使用索引,实时作为备用 |
| 搜索结果页面的呈现方式 | 忠实 | 忠实 | 不忠 |
| 主要使用者 | 以人为本 | 人工智能,然后是人类 | AI |
| 使用场景 | 营销机构、SEO工具 | 实时数据需求、RAG、深度研究 | RAG、深度研究、人工智能代理 |
| 我们的强项 | 完整的搜索引擎结果页面覆盖,最新输出 | 快速、廉价、新鲜的产出 | 最快的预处理人工智能输出 |
| 弱点 | 速度慢,对人工智能的适用性有限 | 搜索引擎结果覆盖范围有限,需要其他工具来实现搜索和提取功能。 | 搜索结果覆盖范围有限、数据可能过时、成本高昂 |
网络搜索API概览
搜索引擎 API 的需求正在蓬勃发展,市场上的竞争对手数量也反映了这一点。虽然我们无法列出所有竞争对手(最值得注意的是,名单中缺少了 Firecrawl 和 Parallel), 我们购买并评估了涵盖所有三种爬虫类型的 15 项服务。 许多公司都是在最近几年内成立的。
| 完整 API | 快速API | 索引 | |
| 勇敢 | ❌ | ❌ | ✅ |
| Bright Data | ✅ | ✅ | ❌ |
| 数据搜索引擎优化 | ✅ | ❌ | ❌ |
| EXA | ❌ | ❌ | ✅(+实时检索) |
| 集纳 | ❌ | ❌ | ✅(+实时检索) |
| 衔接 | ❌ | ❌ | ✅ |
| Oxylabs | ✅ | ✅ | ❌ |
| 困惑 | ❌ | ❌ | ✅ |
| 蜜蜂 | ✅ | ✅ | ❌ |
| 刮dog狗 | ✅ | ✅ | ❌ |
| 搜索 API | ✅ | ✅ | ❌ |
| 服务端 | ✅ | ✅ | ❌ |
| 毒蛇 | ❌ | ✅ | ❌ |
| 塔维利 | ❌ | ❌ | ✅(+实时检索) |
| 您 | ❌ | ❌ | ✅(+实时检索) |
搜索 API 速度测试
人工智能应用案例非常重视速度。尤其是在音频对话等对延迟要求较高的格式中运行时,这一点更为重要。另一个重要的标准是数据相关性;但是,由于我们将比较搜索页面的直接和间接表示形式,因此我们没有好的方法来评估相关性。
为了对搜索 API 的速度进行基准测试, 我们在1月中旬的不同日期进行了三次测试。 (Exa – Instant 除外,该产品于 2 月中旬推出) 每个请求涉及 2,000 个请求,速率为每秒一个请求。
我们生成了一些随机查询,例如: 狗有多高? 对于索引,我们尽可能选择最快的模式,这可能会影响生产环境中的结果质量。我们的服务器位于美国东海岸。
在这个规模下,成功率通常不是问题。因此,我们省略了这项指标。但对于有较大需求的用户,需要注意:实时抓取谷歌数据的稳定性远不如以前。
正如所料, 大多数索引类型的 API 速度都非常快。Perplexity、Exa 和 Tavily 的 P50 响应时间几乎完全相同,而 You 和 Jina 的响应速度则慢了大约一半。这些指标的另一个显著特征是中位数和 P95 结果之间的差异很小。
根据Exa任何封装了 Google 的搜索 API 的 P50 最低为 700 毫秒。 在我们这个规模下,我们发现这种说法并不成立: Oxylabs SERP页面返回速度提升了近20%,而Serper的响应时间则徘徊在700毫秒左右。与索引相比,实时API的延迟差异更大。在四个案例中,P95响应时间超过了五秒。
计算成本
不同类型的搜索API之间的差异使得它们之间的比较异常困难。深入研究后发现,它们之间存在以下几个共同点:
- 指数往往依赖于基于使用情况的模型低廉的入门价格使其易于上手,但也导致其公开定价缺乏灵活性。价格普遍在每千次搜索结果 5 美元左右。
- 价格的主要影响因素是返回响应所需的处理费用。
- 实时 API 对订阅计划的依赖程度远高于索引。这意味着它们需要更多的前期投入,但扩展性更好。
- 然而,他们还需要考虑网站数据提取成本。难度更高的目标可能会收取基础请求价格的数倍费用。
| 型号 | 起始 CPM | 每千次展示费用 1,000 美元 | 修饰符 | 试验结果 | |
|---|---|---|---|---|---|
| 勇敢 | 现收现付制 | $3 | $3 | 使用条件 | 2,000 /月 |
| Bright Data | 预付费,子版 | $1.5 (提取费用另加 1.5 美元) | $1.1 (提取费用另加 1.1 美元) | 高级域名(2 个) | 1,000 |
| 数据搜索引擎优化 | 现收现付制 | $0.6 | $0.6 | 更快的排队,实时(x2,x3.3) | 1,000 |
| EXA | 现收现付制 | $5 | $5 | 搜索深度(x3) | 670-2,000 |
| 衔接 | 现收现付制 | $5 | $5 | 搜索深度(x10) | 100-1,000 |
| Oxylabs (常规 API) | 小组 | $1 (提取费用另加 1.15 美元) | $0.6 (提取费用另加 0.75 美元) | JS渲染(x1.35) | 2,000 |
| 困惑 | 现收现付制 | $5 | $5 | ❌ | ¯\ _(ツ)_ /¯ |
| 蜜蜂 | 小组 | $1.96 (提取费用另加 0.2 美元) | $0.71 (提取费用另加 0.07 美元) | API 类型(x2),提取难度(最高 x75) | 100 |
| 刮dog狗 | 小组 | $1 (提取费用另加 0.2 美元) | $0.25 (提取费用另加 0.05 美元) | API 类型(x2),提取难度(最高 x25) | 100-200 |
| 搜索 API | 小组 | $4 | $1.8 | 响应速度(x2) | 100 |
| 服务端 | 小组 | $25 | $7.25 | 响应速度(x2,x4) | 250 /月 |
| 毒蛇 | 现收现付制 | $1 (提取费用另加 1 美元) | $0.75 (提取费用另加 0.75 美元) | ❌ | 2,500 |
| 塔维利 | 预付费,子版 | $7.5 | 定制化 | 搜索深度(x2) | 每月 62-125 |
| 您 | 现收现付制 | $6.25 | $6.25 | 结果数(x1.28) | 12.5-16k |
我们来尝试绘制每 1,000 次搜索和提取请求的价格图表。这将更好地反映缩放比例——但请注意,我们没有考虑任何修正因子。
实时 API 几乎总是更便宜。 但是,要达到与指数相同的效果,它们需要更多的工作。
结语
感谢您阅读我们的报告!如有任何疑问或意见,请随时通过 [email protected] 或我们的网站联系我们。 Discord服务器.