2025 年 Zyte Extract 峰会(奥斯汀):回顾
我们对第一届 Zyte 年度网络抓取会议的虚拟印象。
- 出版日期:
Extract Summit 是每年两大专注于网络爬虫的盛会之一,另一大盛会是 OxyCon。此次峰会首次横跨北美和欧洲两大洲。
本次回顾涵盖了9月底在奥斯汀举行的美国部分。Zyte 已将会谈 可在 YouTube 上免费观看,因此您可以在提交之前使用本文快速了解它们。
都柏林版定于11月初发布。我们也计划报道它。
组织事项
在都柏林和奥斯汀之间来回切换(2024年的演出地点在奥斯汀)之后,Zyte 决定同时覆盖这两个地方。这对于受时差困扰的观众来说无疑是个好消息。作为欧洲人,我们对此深有体会。
奥斯汀站的活动为期两天。第一天,Zyte 举办了五场技术研讨会。第二天,被称为 这个 主要事件,共举办了十场演讲。线上参会免费,但只包含第二天。现场门票两天都花了几百美元;这笔钱原本用于支付研讨会、场地费用,当然还有墨西哥卷饼。
由于地理位置的限制,我们再次未能观看现场演讲。不过,Zyte 很慷慨地让我们在之后不久观看了录音。现场观众可以通过 Vimeo 观看直播,旁边还有 Slido 可以提问。
奇怪的是,今年没有小组讨论——通常组织者会尽量安排至少一场小组讨论。而且,或许是因为时间限制,演讲者在演讲结束后很少回答问题,通常只有一两个。
我们注意到的第三件事是业内人士的数量。除了 Zyte 的员工之外,我们统计了五家网络抓取基础设施提供商,但只有一家公司基于其处理的数据提供服务(甚至无需抓取数据!)。
主题
不出所料,会议围绕大型语言模型展开。然而,这个话题并没有让人感到太过压抑,因为 Zyte 巧妙地平衡了主题,并穿插了一些精彩的演示。 味,我们指的是针对演讲者业务范围的案例研究或专业知识,例如 Ovidius 在 IP 采购公司工作的战争故事。
讲座并未单独提及数据处理,而数据处理除了自然语言输入之外,可以说是人工智能在我们这个领域的主要优势。我们还学习了如何使用法学硕士 (LLM) 和人工智能代理来生成蜘蛛。
解锁问题几乎没人关注——仔细想想,除了朱利安在谷歌抓取数据时遇到的麻烦之外,这个话题完全被忽略了。或许随着风险的增加,各公司越来越不愿意分享自己的秘诀,这是我们在过去一年里注意到的一个普遍趋势。
总体氛围(恕我直言,我们Z世代)是,许多激动人心的事情即将到来,但一切尚未尘埃落定——而且还有很多机会可以把握。这对我们来说,真是鼓舞人心!
会谈
演讲 1. 如何让 AI 编码用于企业 Web 数据抓取
从一开始就有产品演示!Zyte 邀请了两位重量级人物,Ian Lennon(首席产品官)和 John Rooney(开发合作经理)登台,展示公司今年推出的产品。
直白地说,它是一个名为 Web Scraping Copilot 的 VS Code 扩展。该工具的主要目的是帮助开发人员通过编写对象、fixture 和其他爬取网站所需的代码来更快地构建 Scrapy 爬虫。它通过结合 GitHub 的 Copilot 和 Zyte 的 MCP 服务器来实现这一点。
演示分为两部分。首先,John 启动了 VS Code,并在台上快速构建了一个爬虫程序,演示了如何抓取和构建多个产品页面。随后,Ian 接手演示,从业务角度提供了更广阔的视角。
其核心在于,Zyte 的目标并非提供解决方案,而是创建组件来帮助工程师更好地进行网络抓取。这一切都是基于企业需求,特别是确定性、模块化和代码所有权。
有趣的是,您甚至不需要购买 Zyte 的 API 即可使用该扩展程序——它接受任何代理或解锁工具。该扩展程序本身目前是免费的,但您可能需要购买 GitHub Copilot 的付费版本以避免限制。
演讲 2. 如何让 AI 编码用于企业 Web 数据抓取
在第一个演讲中,Ian 提到了自主性尺度,即 AI 工具在发展过程中从辅助角色逐渐向代理角色转变。Zyte 的高级数据科学家 Ivan Sanchez 采纳了这一想法,并在用于网页抓取的 AI 代理的背景下对其进行了充实。
第一部分介绍了各种类型的人工智能代理,并用一些关于其应用的引言来炒作。然后,Ian 带领观众回归现实:就目前的情况而言,人工智能代理在网络抓取方面表现不佳。他用三张幻灯片介绍了面临的挑战和潜在的解决方案,然后介绍了 Zyte 为克服这些缺点所做的尝试。
等一下,我们是不是又在讨论 Web Scraping Copilot 了?事实证明,是的。Ian 分享了更多关于该工具(内部项目)的起源及其内部结构的背景:Copilot 依靠微型代理和 MCP 采样来实现独立代理无法实现的功能。最后,他用一段用户评价来调侃观众,声称它将爬虫构建时间从 8 小时缩短到了 2 小时。真是令人印象深刻!
演讲 3. 处理 Google 10% 全球搜索量的技术现实
在第三场演讲中,SerpApi 的首席执行官 Julien Khaleghy 分享了 2025 年谷歌数据抓取的种种艰辛。他的结论是,尽管谷歌投入了十倍的资源,但抓取速度却慢了一倍。真是让人头疼。
是什么让这个搜索引擎如此难缠?除了二月份臭名昭著的 JavaScript 依赖迁移以及每次抓取结果超过 10 条的弃用之外,Julien 的团队还面临着:更多的验证码、更多样化的验证码、更多(有时是永久性的!)IP 地址封禁、JS 挑战等等。
这场演讲提供了一个绝佳的机会,让我们了解一家科技巨头在开始认真对待网络爬虫时会如何表现。Julien 还额外赠送了一个高性能的开源 Ruby 解析库——因为我们是同行。
演讲 4. 你可能想重新考虑用法学硕士 (LLM) 来申请
第四场演讲则彻底颠覆了我们的预期。演讲者是 Diffbot 增长总监 Jerome Choo,他探讨了大型语言模型在数据提取方面的表现。
为什么我们觉得这场演讲如此颠覆?那是因为 Diffbot 是非基于通用人工智能的机器学习的早期采用者和主要支持者。我们原本以为 Jerome 会彻底摧毁法学硕士 (LLM),揭露其弱点,让所有人都能看到。但我们亲眼目睹的,实际上是对人工智能非常擅长将数据结构化这一事实的诚实证明。
在整个演讲过程中,Jerome 向我们介绍了多种数据转换场景,例如提取有关并购的新闻信号,或从数据处理协议中获取所需信息。演讲者比较了各种语言模型,并给出了一些实用技巧,最终总结出以下智慧箴言: 编写模式,而不是规则.
演讲五:你真的需要浏览器吗?重新思考大规模网页数据抓取
又一次逆向思维的演讲——不过这次没有丝毫的改变。Sequentum 的 Sarah McKenna 是 Zyte 活动的系列演讲嘉宾,她对通过网络浏览器运行一切的流行趋势提出了挑战。
Sarah 的回应主要源于人工智能代理的兴起及其对浏览器的依赖。我们有 Perplexity 的 Comet 浏览器,以及对 Browserbase 和 Browser-Use 等云基础设施的投资。然而,炒作是一回事,现实又是另一回事。Sarah 引用了一些揭示 LLM 局限性的著作,并提醒大家基于浏览器的数据抓取是多么昂贵且脆弱。
在内部,Sequentum 的行为与任何正常(也就是自举式)的网络爬虫一样:它只在必要时才会启动浏览器,否则会提取必要的标识符并转向轻量级的 HTTP 库。Sarah 还谈到了 Cloudflare 的守门工作、标准之争等,并总结道,“浏览器领域的机遇”仍然广阔,等待着我们去争夺。
可惜幻灯片格式不太好。不过这仍然是一场有趣的演讲。
演讲 6. 网络抓取作为社会实践:在数据饥渴的世界中平衡道德与效率
演讲7:平衡数据抓取中的创新与监管
讲座 8. 网络数据抓取业务的构建模块
Victor Bolu 负责确保其公司 Webautomation 的盈利能力,他登台分享了相关经验。更准确地说,他带来了一份针对小型网页抓取业务的通用计划,以及一些如何让利润率更接近典型 SaaS 业务的方案。
Victor 用图表和数字快速讲解;他分解了商品成本,讲解了客户生命周期价值 (LTV)、客户获取成本 (CAC) 以及其他商业管理书籍中的术语。他列举了两个案例,说明为什么收入增加未必能带来利润。
Victor 甚至制定了一套三步走的利润提升策略,主要围绕降低代理成本、自动化支持以及利用人工智能推动追加销售。其中一些建议略显牵强(例如,构建能够自动适应机器人变化的模型),但这次演讲是从业务角度而非技术角度进行的。这个是可选的。
谈话 9. 99 个问题,但 /24 不是其中之一(除非它是)
演讲 10. 用户提交的财务文件的数据质量框架
Truv 公司的 Egor Panlov 在会议结束时发表了关于从财务文件中提取信息的演讲。有趣的是,他的公司甚至不进行网络爬虫;无论如何,数据解析是我们这个领域的主要难题之一。
Egor 首先介绍了收入验证文件(例如税务报表或工资单)及其带来的挑战。这些文件通常包含缺失或不一致的记录以及不同的文档格式。然后,他向我们介绍了公司的验证系统,展示了他们如何规范字段、验证数据,并确保没有任何不准确或篡改的内容。毕竟,我们讨论的是人们的钱!
大型语言模型在这里也发挥了作用,当然是在严格的监管下。事实上,它们已经取代了照片等对象的OCR模型。Egor的演讲实际上收到了最多的提问,这可能是因为时间限制较少。然而,我们统计了一下,演讲有40多张幻灯片,其中很多都充斥着表格和公式;因此,这场演讲更适合点播而不是直播。我们建议点播。
底线
这是 Zyte 2025 年 Web 数据提取峰会的首期内容。如果您对其中的摘要感兴趣,可以在 YouTube 上观看完整录音。感谢您的阅读!