中兴标志

Zyte 评论

来自网络抓取专家的复杂 API。

Zyte 将网站解锁、数据解析和浏览器管理整合到一个包罗万象的工具中。

评分 8.8 / 10
4.4/5

Zete 是 网络抓取圈内知名人物,尤其是当您需要电子商务数据时。它曾经提供一系列产品,现在这些产品正在整合到一个 API 中。该 API 由动态定价、机器学习和 100 多名工程师提供支持,有望成为从网络中提取数据所需的唯一工具。 

在这篇评论中 我们将仔细研究 Zyte API – 它能做什么,效果如何,以及你是否应该用它来代替你自己的堆栈或竞争对手的堆栈之一 网页抓取工具.

Zyte 新闻

我们对第二届 Zyte 年度网络爬虫大会的虚拟印象。
我们对第一届 Zyte 年度网络抓取会议的虚拟印象。
作者:Shane Evans,Zyte 首席执行官

基本信息

国家 爱尔兰
创立日期 2007
网页刮板具有数据解析功能的通用 API
其他服务数据集
价格范围廉价优质
起始价$1
支付方式信用卡
试用$ 5信用

Zyte 是一家爱尔兰网络抓取公司,在全球拥有 200 多名员工。该公司提供网络抓取产品和数据服务, 主要关注电子商务垂直领域.

Zyte 于 2007 年推出,可视为该领域最古老的跑步产品之一。 它以前被称为 ScrapingHub 直到 2021 年初进行品牌重塑. 该公司面向广泛的客户群, 重视开发人员。该公司还对数据收集相关的法律挑战有着深入的了解,这在其一些政策中有所体现。

除了商业产品之外,Z 维护流行的开源工具,例如数据收集框架 Scrapy,以及用于练习网页抓取技能的几个沙箱。此外,它还举办了最大的网页抓取年度会议之一,名为 萃取峰会

目前, Zyte 的重点是完善其 Web 抓取 API2023年,它弃用了运行已久的Crawlera(智能代理管理器),并集成了另一款名为Automatic Extraction的产品的AI解析功能。 

总而言之, Zyte 是一家信誉良好且成熟的网络数据公司 能够与行业巨头竞争 Bright Data 和 Oxylabs 在其重点领域。

Zyte API

Zyte API 仍为公司主打产品。 虽然该工具主要针对开发人员,但它也支持无代码界面。早期版本可用于电子商务网站。

之路

有多种集成方法可供选择。

API: ✅(实时)

代理: ✅

无代码:

其他: Python 库,Scrapy 插件

Zyte 的工具 主要作为 HTTP API 集成。有一个端点,您可以在其中发布 API 密钥、要抓取的 URL 以及 JavaScript 渲染或自定义标头等可选参数。API 接收请求、抓取目标并返回结果。 

Zyte 有一个 仪表板中的 API 游乐场 根据您选择的参数自动生成代码片段。对于高级用法,最好使用提供商的文档。

zyte api 游乐场
Zyte 的 API 游乐场。

Zte 已经 Scrapy 插件和基于 asyncio 的 Python 库 作为替代集成方法。考虑到 Scrapy 的文档记录良好(以及 Zyte 参与该项目),Scrapy 似乎是首选。 

还有 代理式集成 类似于已停产的智能代理管理器。当前版本省略了一些功能,如浏览器渲染、数据解析和创建会话的能力。 

最后, Zyte 正在试验无代码界面 在仪表板上。它需要订阅第二个产品 Scrapy Cloud,并且能够抓取电子商务产品页面。您可以选择请求数、抓取策略(HTTP 库或无头)和地理位置。此方法 自动抓取网站 来自您提供的 URL。

zyte 无代码模板
Zyte 适用于电子商务商店的无代码模板。

该界面看起来像是一次有趣的无代码抓取尝试。 Zte 肯定会随着时间的推移添加新的模板,并且它做出了一个明智的决定,将抓取工具的底层代码公开给想要更多自定义功能的工程师。但是,仍有改进的空间:我不太喜欢第二次订阅的要求,没有简单的方法来安排请求或指定要抓取哪些特定页面(从一个种子 URL 保存)。

特征

一个可定制的工具,可以自动完成大多数代理管理。

目标: 普遍

地点: 150+ 自动选择
JavaScript 渲染: ✅(与浏览器交互)

并发: 500 请求/分钟

输出格式: HTML、PNG、JSON
定制: 标头、Cookie、设备类型、会话

Zete API 是 通用刮刀, 这意味着它将尝试提供你向其发送的任何页面。这使它与以下专业工具区分开来: SERP API 专注于一类网站。 

与现已弃用的智能代理管理器不同,此 API 全面为您管理代理服务器。如果您不覆盖设置,它会根据页面自动选择必要的代理类型甚至位置。 

API 自行选择请求标头、设备类型和其他基本参数。但是, 你可以自由地提供自定义标头、传递 cookie 和创建会话 对于需要它的目标。 

此外,Zyte API 能够像浏览器一样呈现页面。从最基本的角度看,该功能就像一个开关。但 Zyte 更进了一步:它 公开交互参数 例如点击元素、等待和滚动。一个请求的执行时间为 60 秒。此外, 企业客户可以访问云托管的 Visual Studio Code 环境 编写完整的自动化脚本。  

Zyte 将请求数限制为每分钟 500 个。可以根据要求增加此阈值。

结构化数据

来自任何网站的三种类型的结构化数据。

数据解析:✅

支持的网站: 电子商务、新闻和招聘信息的人工智能解析器

合特 API 可以返回结构化数据. 与为单个目标提供解析器的类似工具不同, Zyte 的 AI 解析器适用于具有特定数据类型的所有页面。 到 2023 年末,您可以提取产品页面、新闻文章和招聘信息。 

您可以通过添加具有预期数据类型的参数来调用该功能。Zyte 的机器学习引擎会处理页面并 尝试根据提供者的架构返回结构化数据点.  

如果您需要处理各种各样的网站,这是一个很好的方法,但它可能不如定制的解析器那么准确。

定价计划

根据承诺的动态定价。

型号: 订阅,随用随付

格式: 成功的请求
加售: 浏览器脚本

自助服务: 
起始价: $1
试用: 5 美元积分

Zyte API 使用有趣的定价模型, 动态计算请求价格 基于多种因素。它考虑了网站难度、住宅代理的使用、无头浏览器、数据提取和浏览器操作的计算时间。 

您可以通过切换 JavaScript 渲染、选择是否解析 URL 以及配置页面交互来影响价格。但 有些因素永远超出你的控制范围例如,网站可能变得更难被 Zyte 抓取,这将提高费率。同样,它也会变得更便宜。 

描述可能会让 Zyte 的定价听起来令人困惑和难以预测。在某种程度上,确实如此。为了更加清晰,提供商建立了 动态定价计算器。它允许您输入任何域名,勾选几个功能切换,然后它会显示临时价格。

zyte 定价计算器
由于 Zyte 的模型很复杂,定价计算器是必要的。

Zyte 的定价在计划方面也是动态的。 您可以免费使用 API,每月最高费用为 25 美元 然后在结算期结束后付款. 如果超过这个限额,您就必须设置消费限额。这需要在月初预付限额的一半。您选择的金额越多,您获得的批量折扣就越大,最高可达 70%。这实际上相当于按月订阅。 

Zyte 提供 5 美元免费信用额度 适用于所有客户。如果您正在抓取没有渲染的简单网站,则这意味着数千次抓取。 

一般情况下, Zyte 的模型对于简单的网站来说非常具有性价比,但一旦您开始启用高级功能,成本就会飙升。这是一个例子。如果您投入 100 美元。到 2023 年底,这将为您提供 715,000 个亚马逊请求或 83,000 个 Nordstrom 页面抓取。后者目标具有严格的保护措施,并且需要 JavaScript。

性能基准

所有测试过的网站都取得了很好的结果。

我们最后一次测试 Zyte API 是在 2023 年 XNUMX 月,用于我们的 代理API研究.

我们向七个网站分别发出了 1,800 个请求,这些网站都配备了 DataDome 和 Shape 等强大的反机器人系统。 

 平均成功率平均响应时间
Amazon95.64%排放3.90小号
Google100%排放2.16小号
以照片为中心的社交媒体网络(JS 渲染)99.61%排放19.78小号
Kohls(Akamai,JS 呈现)99.10%排放29.44小号
Nordstrom(形状,JS 渲染)99.38%排放20.42小号
Petco(DataDome、Cloudflare)94.68%排放3.49小号
沃尔玛(PerimeterX、ThreatMetrix)96.53%排放2.69小号
整体97.82%排放11.70小号

Zete API 有 所有目标均取得优异成绩:成功率超过 95%,即使在需要渲染 JavaScript 的网站上也能在不到 30 秒的时间内返回结果。 

在更广泛的背景下, Zyte 的性能超越了所有类似的工具 来自主要竞争对手。

如何使用 Zyte

Zyte 提供了一个成熟的平台,其中包含大量文档,用于管理其服务。但是,交互有时会让人感觉笨拙,并且客户支持的可用性也令人不满意。

账号注册

要注册 Zyte,您需要输入您的姓和名、电子邮件地址和密码。或者, 可以使用 Google 或 GitHub 帐户注册.

立即开始

Zyte 有一个仪表板,用于与其两种产品 Zyte API 和 Scrapy Cloud 进行交互。 每个部分都包含在单独的部分中。 API 部分让您查看使用情况统计数据、使用 API 游乐场和定价计算器以及管理您的密钥。 

此外,还有一个用于管理帐户和组织设置以及账单的部分。有趣的是 一个账户可以与多个组织关联,拥有自己的产品订阅和会员。反之亦然——一个组织可以托管多个 具有角色的成员。这两个角色分别是普通会员和可以管理账单详情的所有者。

zyte 仪表板主页
仪表板的主页。我们希望在这里查看订阅详情。

订阅管理

要开始使用 Zyte API,您需要输入付款方式,即 总是信用卡。Zyte 将收取 1 美元来确认该卡,然后立即退款,您就可以开始使用该产品了。 

合特 支持自助服务,这意味着不需要与人互动。 没有钱包功能;因此,即使 Zyte API 可以基于现用现付模式运行,您仍然需要按月付费。 

Zyte 允许查看您的账单历史记录和持续支出 在仪表板上。这些信息不是一目了然的——而是隐藏在多个导航层后面。企业客户也会看到他们签署的合同。

使用情况追踪

合特 提供详细的使用情况统计数据 在仪表板上。您可以根据各种指标过滤数据:网站(全部或最多五个单独的网站)、功能(例如无头和非无头请求)、请求状态、解析类型,甚至请求成本。 

输出将显示在图形中 可以按价格、请求数或响应时间进一步筛选。 还有一张桌子 显示单个请求级别的结果,包括完整的 URL、响应时间和用于故障排除的请求 ID。

然而,使用情况跟踪并不完美:一些数据点加载速度可能很慢,并且 Zyte 显示不早于上个月或当前结算期的信息。另外,您无法导出表格以便于处理。 

总而言之,粒度有很多,但充分利用它并不总是那么容易。 

有关基础设施性能的更多常规信息, Zyte 有一个包含正常运行时间统计的页面.

zyte 使用情况统计
Zyte 的使用情况统计数据很详细,但速度很慢,并且仅涵盖一个月。

文件记录

Zte 具有 使用 Zyte API 的详细文档。它不仅提供API参考信息,还提供主要功能的详细说明,类似工具的迁移说明以及分步使用教程。 你应该能找到你需要的一切 开始使用 API 进行抓取。 

除了文档之外,提供商还提供了知识库,即支持中心。它显然已经过时了——你不会在 Zyte API 上找到任何内容,但可以阅读有关不再可用的产品的信息。  

最后,你可以观看 Zyte 的众多网络研讨会之一。它们涵盖了法律合规性、数据成熟度以及在各种场景中 Zyte API 的使用等主题。

实践支持

Zyte 的支持系统 使用您可以通过仪表板提交的票证。提供商提供的 SLA 为 1 小时,周末为 8 小时。企业客户可享受特殊待遇。 

这并不理想——周末支持不仅速度慢,而且只能通过异步联系方式获得。换句话说, 你得不到 24/7 支持或实时聊天 与许多代理服务提供商一样。 

也就是说,获得帮助的另一种方法是 在 Zyte 支持中心创建主题。但在这里,及时收到回复更加困难。一位被取消访问权限的用户 未能得到帮助  天 (!), 指出订阅结束后将无法使用票务系统。支持体验——至少对于我们正在讲述其困境的人来说—— 真的很糟糕.

zyte 客户支持
这位客户的体验不太好。

结语

Zyte 的 API 是 一款功能强大、效果显著的工具  并提供丰富的功能选择。有些功能(如 AI 解析和浏览器操作)在竞争产品中很难找到。 

Zyte 的动态定价目前是另一个强项 如果你正在抓取独立于 JavaScript 的网站。即便如此,它仍然是可以接受的,尽管费率上升了十倍或更多。话虽如此, 这里的开支可能更难估计 比一些公司希望的要多。

从用户体验的角度来看, Zyte 善待开发者,特别是如果你已经投资了它的 Scrapy 生态系统。但是 用户体验有时会很差,客服也非常令人恼火 如果您在周末需要紧急帮助或不在售票系统范围内。 

我很好奇无代码界面将会如何发展。 它为技术水平较低的用户带来了巨大的希望,同时仍允许工程师访问底层代码。目前,该实现已可行,但尚未完善。

综上所述, 我很喜欢使用 Zyte API 并认为它对于任何想要简化网络抓取操作的人来说都是一个不错的选择。

Zyte 替代品

Oxylabs 商标
评分 9.3 / 10
4.7/5

Oxylabs 拥有多个具有数据解析功能的网页抓取工具。它们可扩展、性能好,并且可以自动构建许多电子商务商店。 

Bright Data 商标
评分 9.1 / 10
4.5/5

Bright Data 提供出色的通用和搜索引擎抓取工具,可作为代理集成。它还有一个 IDE,您可以在其中自行构建爬虫。

scraperapi 徽标
评分 8.6 / 10
4.3/5

ScraperAPI 的产品对于简单的网站来说非常便宜,并且具有涵盖多种编程语言的开发人员友好的文档。

即将进行审核

推荐用于:

想要简化网络抓取操作的工程师。

中兴标志
评分 8.8 / 10
4.4/5
Adam Dubois 的图片
亚当·杜波依斯
代理极客和开发人员。