我们使用联盟链接。它们让我们能够维持运营,而您无需承担任何费用。

2025 年 Zyte Extract 峰会(奥斯汀):回顾

我们对第一届 Zyte 年度网络抓取会议的虚拟印象。

亚当·杜波依斯
2025年萃取峰会

Extract Summit 是每年两大专注于网络爬虫的盛会之一,另一大盛会是 OxyCon。此次峰会首次横跨北美和欧洲两大洲。 

本次回顾涵盖了9月底在奥斯汀举行的美国部分。Zyte 已将会谈 可在 YouTube 上免费观看,因此您可以在提交之前使用本文快速了解它们。 

都柏林版定于11月初发布。我们也计划报道它。

组织事项

在都柏林和奥斯汀之间来回切换(2024年的演出地点在奥斯汀)之后,Zyte 决定同时覆盖这两个地方。这对于受时差困扰的观众来说无疑是个好消息。作为欧洲人,我们对此深有体会。 

奥斯汀站的活动为期两天。第一天,Zyte 举办了五场技术研讨会。第二天,被称为 这个 主要事件,共举办了十场演讲。线上参会免费,但只包含第二天。现场门票两天都花了几百美元;这笔钱原本用于支付研讨会、场地费用,当然还有墨西哥卷饼。

由于地理位置的限制,我们再次未能观看现场演讲。不过,Zyte 很慷慨地让我们在之后不久观看了录音。现场观众可以通过 Vimeo 观看直播,旁边还有 Slido 可以提问。 

奇怪的是,今年没有小组讨论——通常组织者会尽量安排至少一场小组讨论。而且,或许是因为时间限制,演讲者在演讲结束后很少回答问题,通常只有一两个。 

我们注意到的第三件事是业内人士的数量。除了 Zyte 的员工之外,我们统计了五家网络抓取基础设施提供商,但只有一家公司基于其处理的数据提供服务(甚至无需抓取数据!)。

Zyte Extract Summit 2025 界面
在线观众的平台。

主题

不出所料,会议围绕大型语言模型展开。然而,这个话题并没有让人感到太过压抑,因为 Zyte 巧妙地平衡了主题,并穿插了一些精彩的演示。 ,我们指的是针对演讲者业务范围的案例研究或专业知识,例如 Ovidius 在 IP 采购公司工作的战争故事。 

讲座并未单独提及数据处理,而数据处理除了自然语言输入之外,可以说是人工智能在我们这个领域的主要优势。我们还学习了如何使用法学硕士 (LLM) 和人工智能代理来生成蜘蛛。 

解锁问题几乎没人关注——仔细想想,除了朱利安在谷歌抓取数据时遇到的麻烦之外,这个话题完全被忽略了。或许随着风险的增加,各公司越来越不愿意分享自己的秘诀,这是我们在过去一年里注意到的一个普遍趋势。 

总体氛围(恕我直言,我们Z世代)是,许多激动人心的事情即将到来,但一切尚未尘埃落定——而且还有很多机会可以把握。这对我们来说,真是鼓舞人心!

会谈

演讲 1. 如何让 AI 编码用于企业 Web 数据抓取

从一开始就有产品演示!Zyte 邀请了两位重量级人物,Ian Lennon(首席产品官)和 John Rooney(开发合作经理)登台,展示公司今年推出的产品。 

直白地说,它是一个名为 Web Scraping Copilot 的 VS Code 扩展。该工具的主要目的是帮助开发人员通过编写对象、fixture 和其他爬取网站所需的代码来更快地构建 Scrapy 爬虫。它通过结合 GitHub 的 Copilot 和 Zyte 的 MCP 服务器来实现这一点。 

演示分为两部分。首先,John 启动了 VS Code,并在台上快速构建了一个爬虫程序,演示了如何抓取和构建多个产品页面。随后,Ian 接手演示,从业务角度提供了更广阔的视角。 

其核心在于,Zyte 的目标并非提供解决方案,而是创建组件来帮助工程师更好地进行网络抓取。这一切都是基于企业需求,特别是确定性、模块化和代码所有权。 

有趣的是,您甚至不需要购买 Zyte 的 API 即可使用该扩展程序——它接受任何代理或解锁工具。该扩展程序本身目前是免费的,但您可能需要购买 GitHub Copilot 的付费版本以避免限制。

摘录峰会 2025 奥斯汀演讲 1
直接从烤箱中取出。

演讲 2. 如何让 AI 编码用于企业 Web 数据抓取

在第一个演讲中,Ian 提到了自主性尺度,即 AI 工具在发展过程中从辅助角色逐渐向代理角色转变。Zyte 的高级数据科学家 Ivan Sanchez 采纳了这一想法,并在用于网页抓取的 AI 代理的背景下对其进行了充实。 

第一部分介绍了各种类型的人工智能代理,并用一些关于其应用的引言来炒作。然后,Ian 带领观众回归现实:就目前的情况而言,人工智能代理在网络抓取方面表现不佳。他用三张幻灯片介绍了面临的挑战和潜在的解决方案,然后介绍了 Zyte 为克服这些缺点所做的尝试。 

等一下,我们是不是又在讨论 Web Scraping Copilot 了?事实证明,是的。Ian 分享了更多关于该工具(内部项目)的起源及其内部结构的背景:Copilot 依靠微型代理和 MCP 采样来实现独立代理无法实现的功能。最后,他用一段用户评价来调侃观众,声称它将爬虫构建时间从 8 小时缩短到了 2 小时。真是令人印象深刻!

摘录峰会 2025 奥斯汀演讲 2
从幻灯片上看,它更像是一个巨大的洞。

演讲 3. 处理 Google 10% 全球搜索量的技术现实

在第三场演讲中,SerpApi 的首席执行官 Julien Khaleghy 分享了 2025 年谷歌数据抓取的种种艰辛。他的结论是,尽管谷歌投入了十倍的资源,但抓取速度却慢了一倍。真是让人头疼。

是什么让这个搜索引擎如此难缠?除了二月份臭名昭著的 JavaScript 依赖迁移以及每次抓取结果超过 10 条的弃用之外,Julien 的团队还面临着:更多的验证码、更多样化的验证码、更多(有时是永久性的!)IP 地址封禁、JS 挑战等等。 

这场演讲提供了一个绝佳的机会,让我们了解一家科技巨头在开始认真对待网络爬虫时会如何表现。Julien 还额外赠送了一个高性能的开源 Ruby 解析库——因为我们是同行。

摘录峰会 2025 奥斯汀演讲 3
朱利安的表情说明了一切。

演讲 4. 你可能想重新考虑用法学硕士 (LLM) 来申请

第四场演讲则彻底颠覆了我们的预期。演讲者是 Diffbot 增长总监 Jerome Choo,他探讨了大型语言模型在数据提取方面的表现。 

为什么我们觉得这场演讲如此颠覆?那是因为 Diffbot 是非基于通用人工智能的机器学习的早期采用者和主要支持者。我们原本以为 Jerome 会彻底摧毁法学硕士 (LLM),揭露其弱点,让所有人都能看到。但我们亲眼目睹的,实际上是对人工智能非常擅长将数据结构化这一事实的诚实证明。 

在整个演讲过程中,Jerome 向我们介绍了多种数据转换场景,例如提取有关并购的新闻信号,或从数据处理协议中获取所需信息。演讲者比较了各种语言模型,并给出了一些实用技巧,最终总结出以下智慧箴言: 编写模式,而不是规则.

摘录峰会 2025 奥斯汀演讲 4
杰罗姆发誓说的是真话,全部的真话,而且只说真话。

演讲五:你真的需要浏览器吗?重新思考大规模网页数据抓取

又一次逆向思维的演讲——不过这次没有丝毫的改变。Sequentum 的 Sarah McKenna 是 Zyte 活动的系列演讲嘉宾,她对通过网络浏览器运行一切的流行趋势提出了挑战。

Sarah 的回应主要源于人工智能代理的兴起及其对浏览器的依赖。我们有 Perplexity 的 Comet 浏览器,以及对 Browserbase 和 Browser-Use 等云基础设施的投资。然而,炒作是一回事,现实又是另一回事。Sarah 引用了一些揭示 LLM 局限性的著作,并提醒大家基于浏览器的数据抓取是多么昂贵且脆弱。 

在内部,Sequentum 的行为与任何正常(也就是自举式)的网络爬虫一样:它只在必要时才会启动浏览器,否则会提取必要的标识符并转向轻量级的 HTTP 库。Sarah 还谈到了 Cloudflare 的守门工作、标准之争等,并总结道,“浏览器领域的机遇”仍然广阔,等待着我们去争夺。 

可惜幻灯片格式不太好。不过这仍然是一场有趣的演讲。

摘录峰会 2025 奥斯汀演讲 5
你最好相信它。

演讲 6. 网络抓取作为社会实践:在数据饥渴的世界中平衡道德与效率

Posit 的 QA 工程师 Rodrigo Silva Ferreira 做了关于负责任地收集数据的演示。 

Rodrigo Silva 并非专业的网络爬虫专家,甚至连网络爬虫的习惯都算不上,所以他的演讲有时显得有些幼稚,听起来更像是个学校作业。然而,演讲者的真诚以及对他面向社会的个人项目的描述,让我们觉得值得一看。 

对我们来说,最宝贵的收获是,数据抓取绝不仅仅是技术层面的,这一点我们有时会忘记。它不仅会对抓取者产生重大影响,还会对目的地以及我们收集数据的个人或社区产生重大影响。

摘录峰会 2025 奥斯汀演讲 6
网络抓取可以看作是有时相互冲突的目标之间的协商。

演讲7:平衡数据抓取中的创新与监管

另一位在数据抓取峰会上发表系列演讲的嘉宾是 Zyte 的首席法务官 Sanaea Daruwalla,她向观众介绍了网络抓取和人工智能领域的最新法律发展。考虑到我们所做的就是抓取数据并讨论人工智能,这次演讲至关重要。

为了让这个庞大而复杂的话题更容易理解,Sanaea 提出了一个巧妙的尺度概念,将创新放在一边,将监管放在另一边。然后,她探讨了四个相关主题:公共网络数据、人工智能中的版权以及个人数据的使用。 

与2024年相比,创新的天平明显向好,但这仅限于抓取公共数据方面。其他案例则不那么简单。一些要点包括:不应收集盗版内容,欧盟非常重视个人信息。

摘录峰会 2025 奥斯汀演讲 7
Sanaea 讨论了网络抓取最具争议的领域的创新与监管之间的平衡。

讲座 8. 网络数据抓取业务的构建模块

Victor Bolu 负责确保其公司 Webautomation 的盈利能力,他登台分享了相关经验。更准确地说,他带来了一份针对小型网页抓取业务的通用计划,以及一些如何让利润率更接近典型 SaaS 业务的方案。

Victor 用图表和数字快速讲解;他分解了商品成本,讲解了客户生命周期价值 (LTV)、客户获取成本 (CAC) 以及其他商业管理书籍中的术语。他列举了两个案例,说明为什么收入增加未必能带来利润。 

Victor 甚至制定了一套三步走的利润提升策略,主要围绕降低代理成本、自动化支持以及利用人工智能推动追加销售。其中一些建议略显牵强(例如,构建能够自动适应机器人变化的模型),但这次演讲是从业务角度而非技术角度进行的。这个是可选的。

摘录峰会 2025 奥斯汀演讲 8
维克多实现财务成功的三步计划。

谈话 9. 99 个问题,但 /24 不是其中之一(除非它是)

这标题真是脑洞大开。Servers Factory 的 Ovidiu Dragusin 描述了 IP 经纪人每天面临的挑战——或者,用他俏皮的话说, 战争故事去年,我们在一个小组中看到了奥维迪乌;然而,他独自一人在舞台上才真正闪耀。

与我们见过的其他一些代理导向的演讲相比,这次演讲内容并不丰富。(事实上,我们可能在简短的问答环节学到了更多。)演讲者分享了三个关于服务等级协议 (SLA)、消失的供应商以及与新 IP 来源沟通不畅的轶事。其核心信息是:混乱是现状,而这些疯狂的人不会改变现状。 

奥维迪乌来这里是为了娱乐观众,或许还能让观众对知识产权经纪人产生共鸣。他成功了。 

摘录峰会 2025 奥斯汀演讲 9
客户想要的并不总是他们能得到的——但这是有原因的。

演讲 10. 用户提交的财务文件的数据质量框架

Truv 公司的 Egor Panlov 在会议结束时发表了关于从财务文件中提取信息的演讲。有趣的是,他的公司甚至不进行网络爬虫;无论如何,数据解析是我们这个领域的主要难题之一。

Egor 首先介绍了收入验证文​​件(例如税务报表或工资单)及其带来的挑战。这些文件通常包含缺失或不一致的记录以及不同的文档格式。然后,他向我们介绍了公司的验证系统,展示了他们如何规范字段、验证数据,并确保没有任何不准确或篡改的内容。毕竟,我们讨论的是人们的钱!

大型语言模型在这里也发挥了作用,当然是在严格的监管下。事实上,它们已经取代了照片等对象的OCR模型。Egor的演讲实际上收到了最多的提问,这可能是因为时间限制较少。然而,我们统计了一下,演讲有40多张幻灯片,其中很多都充斥着表格和公式;因此,这场演讲更适合点播而不是直播。我们建议点播。

摘录峰会 2025 奥斯汀演讲 10
Egor 的数据验证系统包含多项检查,以避免人们的钱财受到侵扰。

底线

这是 Zyte 2025 年 Web 数据提取峰会的首期内容。如果您对其中的摘要感兴趣,可以在 YouTube 上观看完整录音。感谢您的阅读!