我们使用联盟链接。它们让我们能够维持运营,而您无需承担任何费用。

打造一款隐形浏览器:访谈 Rayobyte

Neil Emeigh 解释了他的公司为什么构建了一个内部 Chromium 分支,以及它与现有的开源工具有何不同。

尼尔·埃梅

如果没有网络浏览器,网络爬虫正变得越来越难以实现。我们有像 Camoufox 这样优秀的开源实现,而人工智能的需求也催生了一批专为智能任务而设计的云浏览器。 

Rayobyte然而,该公司认为市场上缺乏专为网络爬虫而设计的优秀工具。为了弥补这一空白,该公司自行开发了基于 Chromium 的实现方案。

我们坐下来…… RayobyteRayoBrowse 的首席执行官 Neil Emeigh 将探讨 RayoBrowse 的工作原理、它与其他现有工具的不同之处,以及它在快速增长的云端浏览器市场中的定位。此次采访还包括与 ScrapeOps 合作完成的浏览器指纹识别基准测试。 

您最近发布了一款名为rayobrowse的新工具。它究竟是什么?

“rayobrowse 是一款基于 Chromium 的自托管式隐形浏览器,专为网页抓取和自动化而构建。它运行在 Docker 容器内,无需 GPU,可在无头 Linux 服务器上运行。您现有的 Playwright、Selenium 或 Puppeteer 脚本可以通过标准 CDP 连接到它——无需更改任何代码。”

每个会话都会获得一个真实的、实际的设备指纹(用户代理、屏幕、画布、WebGL、字体、时区、WebRTC 等),该指纹来自一个包含数千个配置文件的数据库。我们在生产环境中使用它。 Rayobyte的抓取 API 可以每天抓取网络上一些最难抓取的网站上的数百万个页面。”

为什么不使用像 Patchright 这样的开源工具,而要自己构建网页浏览器呢? 或者 Camoufox?

“我曾在之前的博客文章中描述过我们最终构建 rayobrowse 的历程。但这里是简短版本。”

1)迷彩狐狸

Camoufox 基于 Firefox,而 Firefox 仅占全球浏览器市场份额的约 2%。在我们目前的运营规模下 Rayobyte (每月数亿次请求)我们知道,发送大量的Firefox流量会让我们立即脱颖而出。目标网站根本看不到那么多真正的Firefox用户。

由于 Camoufox 是开源的,我们也得以发现一些反机器人公司是如何逆向工程破解其一些细微信号,从而相对容易地检测到它的。随着时间的推移,这些检测手段变得越来越明显。此外,该项目基本上无人维护。我们看到一些迹象表明,新的所有者可能正在接手该项目,但最终结果如何还有待观察,而且即便如此,也无法解决前两个问题。

2)帕奇赖特

Patchright 对简单的网站效果不错,但它无法在更深层次上掩盖网站特征。你的操作系统、GPU 和系统级特征仍然会显示出来。

更严重的问题是:大规模的网络爬虫活动并非发生在用户的本地笔记本电脑上,而是发生在 Linux 服务器上。因此,在云环境中使用 Patchright 时,其指纹信息实际上是在告诉网站:“你好,我是一台 Linux 服务器。”换句话说:“我可能是一个机器人。”

以我们的规模,我们需要在可扩展的云基础设施上运行,同时确保我们的指纹看起来像真实的用户环境(就像真实的Windows用户一样)。现有工具根本无法实现这种程度的控制。”

您能更详细地解释一下rayobrowse的工作原理吗?

“它有三层。最底层是 Chromium 的一个分支——我们跟踪上游版本,并应用一组有针对性的补丁(类似于 Brave 维护其分支的方式),这些补丁规范化了暴露的 API,减少了指纹熵泄漏,并提高了自动化兼容性,同时保留了 Chromium 的原生行为。

除此之外,还有一个指纹引擎:在会话启动时,每个浏览器都会获得一个完整的真实设备配置文件——包括操作系统元数据、屏幕分辨率、Canvas/WebGL渲染属性、与目标操作系统匹配的字体、语言环境、时区和WebRTC配置。这些配置文件来自一个包含数千个指纹的数据库,这些指纹是使用与反机器人公司相同的技术收集的。

最后,自动化层仅公开标准的 Chromium CDP 接口。您的脚本通过原生 CDP 连接,并在未经修改的页面上下文上进行操作。所有操作都在单个 Docker 容器内运行,因此除了 Docker 和 Python 之外,没有任何其他主机依赖项。

你觉得它在绕过主流反机器人系统方面效果如何?它是如何做到的?
在类似 ScrapeOps 运行的那种合成基准测试中表现如何?

“我们不熟悉他们的基准测试,但我们当时急需找到一个有效的浏览器解决方案,以确保我们的一位财富 500 强客户能够继续在线,因为他使用了我们的爬虫 API。我们勉强用 Camoufox 和 Patchright 一段时间,直到他们检测到为止。我们测试了市面上所有云浏览器和“反检测”浏览器。”

我们找到了一些有效的反检测浏览器……但它们是基于 Windows 的,而且在代码方面很难进行大规模抓取(它们的商业模式是人管理帐户等等……而不是网络抓取)。

我们目前每天使用浏览器抓取搜索引擎结果页面 (SERP) 上数百万个页面,并在一个热门的亚洲电商网站上抓取数百万个页面。我们还会定期测试并从用户那里获得反馈,证明我们的系统在以下平台上运行良好:Cloudflare、Datadome、Akamai 和 Perimeterx。

我们发布此版本的一个动机是希望获得真实用户的反馈,了解它在任何无法正常运行的网站上的表现,以便我们不断改进。

目前,你们以限制访问的测试版工具形式分发rayobrowse。你们对这款产品的未来发展有何计划?

目前该软件以受限访问的测试版形式分发,提供免费套餐(允许一个浏览器同时运行,无需注册)和无限并发套餐。 Rayobyte 代理用户。第三种选择是您可以购买并发浏览器,以便自行托管并自带代理。最后,我们还在为不想自行托管的用户构建云浏览器模式。

从长远来看,我们希望rayobrowse成为所有从事严肃网络爬虫工作的用户的默认浏览器。它由商业团队维护,始终采用最新的反机器人技术,并可根据您的需求提供各种抽象级别:自托管、云端部署或集成到我们的爬虫API中。

我们有机会与 ScrapeOps 合作,并使用他们的工具测试 rayobrowse。 评估框架该基准测试依赖于 Antoine Vastel 的指纹识别工具来检查用户代理、硬件参数、CDP 自动化和其他信号中的蛛丝马迹。 

rayobrowse 的表现非常出色,通过了大部分测试。在 ScrapeOps 的框架中,它获得了 88.42 分,几乎与一些知名竞争对手的性能持平。 Bright DataScrapeless 和 Zenrows。

以下是报告摘要:

在我们的测试中,Rayobrowse 通过在各个层面上保持高度的内部一致性,提供了强大的浏览器指纹防御能力。该浏览器在 Windows 系统上呈现出现代化的 Chrome 144 环境,其 HTTP 标头采用了诸如 `zstd` 之类的高级压缩方法,并针对日本、德国和俄罗斯等国家/地区正确设置了本地化的 `Accept-Language` 值。

该提供商的硬件模拟功能非常多样化。Rayobrowse 没有采用静态的“一刀切”硬件配置,而是循环使用不同的 CPU 核心数和真正的消费级 GPU 渲染器,包括 NVIDIA RTX 系列和 Intel HD/UHD 集成显卡。这种多样性,加上每个会话独特的指纹哈希值,确保了自动化流量不会形成可识别的集群。尽管有这些优势,但该浏览器的内部几何结构和字体列表仍然是静态的,并且略显不真实,这可能会引起更高级的反机器人系统的注意。

近年来,解锁浏览器这一类别发展迅猛。像……这样的知名厂商层出不穷。 Bright Data 以及 Oxylabs 现在,它要与 Browse-Use、Kernel 和 Browserbase 等新兴公司展开竞争。那么,你的定位是什么呢?

“我们看到市场上存在明显的空白。”

一方面,有一些公司开发了云浏览器,这些公司对网络爬虫技术有着深刻的理解,例如…… Bright Data 以及 Oxylabs但是它们价格昂贵,而且不提供自助托管服务。你只能使用他们的基础设施和定价方案。

另一方面,有些云浏览器公司并非真正拥有网络爬虫背景。ScrapeOps 的基准测试清楚地表明了这一点:像 Browserbase 这样的平台以及其他同类平台,并没有像我们一样拥有超过十年的网络爬虫和代理经验。并非有意冒犯——只是这并非他们的核心业务模式。因此,他们自然无法敏锐地捕捉到那些在隐蔽操作中至关重要的细微信号和极端情况。而且,他们也不是自托管的。

然后是自托管解决方案。大多数反检测浏览器在 Linux 服务器环境下运行不佳,这使得它们极难扩展。当我们像我们一样运行成千上万个浏览器时,管理大量的 Windows 服务器简直就是一场噩梦。

此外,还有Camoufox和Patchright(上文已提及),它们自身也存在结构上的局限性。那么,我们该如何定位呢?

我们提供一款浏览器,您可以根据需要自行托管,而且价格实惠。在我看来,Camoufox 之所以如此受欢迎,原因之一是它是第一款真正意义上的开源隐身浏览器。在此之前,您唯一的选择要么是昂贵的云解决方案,要么是拼凑一个“基本能用”的临时方案。

我们相信,我们的浏览器填补了 Camoufox 留下的空白,并且由于它基于 Chromium 内核,因此更具优势。隐身功能对我们来说并非附属功能,而是核心所在。它必须是核心。我们的业务
以网络爬虫公司为代表的模式取决于不被发现。

对于那些不想自行托管的用户,我们也会提供价格实惠的云服务方案。关键词是“价格实惠”。 Rayobyte 我们每月在浏览器上消耗超过 200,000 万 GB 的带宽。如果我们把这个数字应用到…… Bright Data如果按每GB 5美元的模式来算,那我们就得关门大吉了!

你是否同意Zyte的观点,即网络爬虫的行为正变得越来越不理性? 他们自行管理代理,并且将越来越需要使用更高级别的代理。 像 API 这样的服务要想成功?

“我同意这种观点,10 年后,业余爱好者或初创公司将不可能安装一堆代码库,然后‘瞧!’他们就能大规模地抓取数据了。

反机器人公司持续发展壮大(看看 Cloudflare 作为 CDN 的主导地位就知道了),它们的商业模式使它们能够构建强大的反机器人解决方案,拦截大量用户。因此,它们会逐步改进,而个人用户则没有足够的预算去学习和跟上它们庞大的预算和知识水平。

话虽如此,但目前还无法实现。我们的浏览器即插即用,只需几分钟,您就可以使用它加载大多数主流网站以及受反机器人保护的网站。因此,在那个未来成为现实之前,我们希望尽可能帮助人们保持领先地位。

Rayobyte 公司本身在过去几年里经历了不少变化。 几年了。您能分享一下您接下来的计划吗?

正如我在博客文章中写到的,一年前我们发现我们在数据抓取方面真的很厉害。以前我们一直局限于代理服务器,但后来我们发现,我们能够抓取到一些亚洲高价值目标,而顶尖的数据抓取公司却无法做到。

凭借这些专业知识,我们不断构建抓取服务,规模也逐月增长。在此过程中,我们意识到需要一款可扩展的浏览器,因此 rayobrowse 应运而生。展望未来,我们将继续发挥自身优势,为高价值的抓取端点提供服务,并提供工具帮助其他用户更轻松地进行抓取。

请访问我们的Github仓库,立即免费试用: https://github.com/rayobyte-data/rayobrowse