我们使用联盟链接。它们让我们能够维持运营,而您无需承担任何费用。

2024 年 Extract 峰会:回顾

我们对 Zyte 年度网络抓取活动的虚拟印象。

亚当·杜波依斯
提取 2024 年峰会横幅
Zyte 的 Web 数据提取峰会已经结束。今年的阵容特别强大,我们很喜欢观看这些演讲。以下是我们对此次活动的印象。
 
Zyte 已将视频免费提供 在YouTube上,这样您就可以在花费 30 分钟甚至 60 分钟的时间之前快速了解它们的内容。

组织事项

和前两年一样,Zyte 的会议也以线下形式举行。这是第一次,会议地点设在德克萨斯州奥斯汀。这对美国人来说是个好消息,但我们欧洲人却无法再舒适地观看会议——会议是在正常营业时间之后举行的。但我想这不可能让所有人都满意。

2024 年 Extract 峰会持续两天。9 月 10 日为现场研讨会,330 月 XNUMX 日进行演讲。两天的现场门票售价为 XNUMX 美元。虚拟出席是免费的,但只包括第二天的演讲。 

Zyte 使用 Eventbrite 进行票务管理,使用 Airmeet 作为流媒体平台。后者拥有所有花哨的功能,例如评论、投票和问答部分。我认为您也可以在演讲间隙加入虚拟讨论桌,但我没有机会尝试此选项。演讲者将回答现场观众以及 Airmeet 的问题,Zyte 的首席执行官 Shane Evans 将主持会议。 

主要活动包括九场演讲和两场小组讨论。由于时差,我只能观看录像。不过,我感觉一切都进行得相当顺利。毕竟,Zyte 自 2019 年以来就一直在做这件事,所以他们早已成为专业人士。

zyte 萃取峰会流媒体平台
这就是 Zyte 平台的样子。

主题

基本上,通过各种视角探索了一个主题。不难猜到——那就是人工智能:机器学习、大型语言模型、生成式人工智能,各种类型和风格。一遍又一遍。 

我无意表达消极情绪;毕竟,人工智能一直在推动网络抓取的发展,它成为每个人在尝试实施和跟上发展步伐时最关心的问题。Zyte 在组织演讲阵容方面做得很好,也有很多外部演讲者分享了他们的观点。 

引起我注意的是 Zyte 邀请了多少网络抓取工具供应商参加其活动。Apify、Browserless、Reworkd 都可以被视为竞争对手,但他们仍然被邀请发言。

会谈

演讲 1. 利用大型语言模型的强大功能实现高级数据工程和数据科学

沃尔玛的 Neelabh Pant 讲述了他的团队如何使用 LLM 进行数据清理。出于对初学者的极大慷慨,他决定从宇宙的创造开始,介绍数据处理甚至 LLM。但没过多久,事情就加快了步伐。

简而言之,传统的基于规则的方法需要大量的人工,无法很好地处理上下文和非结构化数据。相反,这些是 LLM 擅长的领域。经过多次实验,Neelabh 建立了一个两阶段系统,该系统添加缺失值(称为改进阶段)并从非结构化数据中提取事实(称为特征增强阶段)。他提供了实施细节,并根据价格和有效性比较了四种方法(剧透:RAG + 代理获胜)。 

如果您从事数据工程领域并在混乱的数据上花费了大量的时间,那么这就是适合您的谈话。

摘录峰会 2024 演讲 1
手动数据预处理需要付出很多努力。

演讲 2. Web 数据提取精通:实际实施和 ROI 驱动的成功案例

John Fraser 的公司 Parts ASAP 每周都会多次抓取数十家竞争对手的农产品数据。他将这一流程外包给 Zyte,通过及时实施提取的见解,确保了公司年增长率达到 20%,虽然不至于令人震惊,但董事会对此非常满意。听起来……有点平淡无奇,不是吗?

嗯,是的,但也不是。约翰是我对自己说的 漠不关心的坏蛋 – 一只手放在口袋里,讲述了一个严肃的故事,讲述了他如何找到利用网络抓取数据来发展业务的实用方法。它没有挑战任何极限,也没有向你承诺一切。然而,我非常喜欢它。

摘录峰会 2024 演讲 2
约翰同情那些公开库存水平的傻瓜。

演讲3. 如何负责任地使用大数据来培训法学硕士的实践示范

哈佛大学的 Joachim Asare 谈到了法学硕士培训过程中可能出现的道德陷阱。其中包括泄露私人信息、引入偏见以及获取低质量数据等。演讲者探讨了培训不同阶段中的问题:数据收集、微调和部署。

约阿希姆在整个演讲中的口头禅是 转储数据,“愚蠢”的人工智能。他提供了一些令人痛心的例子,比如一个训练不良的心理健康人工智能模型可以建议人们自杀,或者 Meta 的 AR 眼镜被黑客入侵,导致严重的隐私问题。我没有接受过法学硕士培训,所以这次谈话很难理解,但它对于理解第三方人工智能如何影响你作为用户仍然非常重要。

摘录峰会 2024 演讲 3
LLM 培训的问题可以归结为这句话。

演讲 4. 我们如何利用尖端 AI 技术改变 Zyte 的数据业务

Zyte 的 Ian Lennon 谈到了横向扩展的问题,特别是该公司从数百个网站提供高质量(即结构化)数据的方法。据 Ian 称,这是一个组合问题,而 AI 让 Zyte 能够大幅削减设置成本并吸引以前无法实现的客户。 

具体怎么做呢?首先,通过构建可以解析各种页面类别的监督机器学习模型。然后,通过让它们在没有浏览器渲染的情况下工作。Zyte 的最终迭代(此时)允许用户通过添加手动代码或调用私人托管的 LLM 来自定义模型。 

Zyte 还大力投资抓取模板,这些模板涵盖了网页抓取的所有主要阶段:抓取、解锁和解析。我记得该提供商去年推出了无代码产品页面模板——事实证明,电子商务数据占 Zyte 业务的近 60%。更多模板即将推出。

总的来说,这是一个了解 Zyte 方法的有趣观察,即使它采取了更具销售性的角度。

摘录峰会 2024 演讲 4
...当然,除非您使用 Zyte!

小组讨论。代理技术的未来:住宅、移动和数据中心代理的趋势和创新

Massive 的 Jason Grad、来自 Rayobyte、Serversfactory 的 Ovidiu Dragusin 和 Pubconcierge 的 Vlad Harmanescu 坐下来讨论代理服务器,由 Zyte 的 Shane Evans 主持。原本应该还有一位参与者——来自 The Social Proxy 的 Tal Klinger——但他未能出席。

小组成员讨论了许多主题,从 IP 来源、不同代理类型的有效性、地理位置挑战到道德和 IP 评分。令我惊讶的是,后者受到了特别关注,因为越来越多的客户开始使用 IPQualityScore 等服务来评估代理服务。这可能是一种危险(且并不总是有用)的做法,但它可以作为 IP 质量的简单信号。  

该小组在专注于住宅和基于服务器的代理的提供商之间取得了良好的平衡,强调了他们的观点和挑战:例如,地理位置对于 ISP 代理供应商来说是一个重要问题,而对于点对点网络来说则不那么重要。考虑到我们的网站上有这个词 代理 在其中,这是必须的。

摘录 2024 年峰会第 1 部分
怎样称呼一组代理服务提供商?也许是一个池子?

演讲5. 分布式数据的分布式智能

Charity Engine 联合创始人 Matthew Bloomberg 谈到了该项目及其未来发展方向。几年前,我们在测试 Zyte 现已停用的 Crawlera 工具时第一次遇到了 Charity Engine;当时它充当智能代理管理层的 IP 网络。 

事实证明,该项目比我们想象的要复杂得多。Charity Engine 是一个分布式计算平台,类似于 Folding @ Home。它不仅可以调动网络资源,还可以调动计算能力,甚至可以调动有意愿的住宅用户的完整浏览器。Matthew 举例说明了网络如何用于学术目的,并分享了即将推出的更新,例如基本 API 之上的数据处理层。 

我最喜欢的想法是,慈善引擎不仅从网络中提取知识,而且还在此过程中创造新知识。顺便说一句,该网络向任何对其功能感兴趣的企业开放。

摘录峰会 2024 演讲 5
这很性感。

小组讨论:了解网络数据提取的法律环境

Zyte 的 Sanaea Daruwalla、Quinn Emanuel(负责 HiQ 案的律师事务所)的 Hope Skibitsky、Zwillgen 的 Stacey Brandenburg 和 Glacier Network 的 Don D'Amico 讨论了与网络数据提取相关的法律主题。有很多话题要谈:讨论持续了近一个小时,我几乎因为记笔记而患上了腕管综合症。 

无需过多展开,当前的法律环境非常不稳定:我们有 Bright Data 诉讼,所有人工智能案件都为律师们购买了第三栋海滨豪宅。小组成员谈到了不同在线协议的适用性、公开个人数据的收集、如何在人工智能背景下处理版权、相关法规等。 

如果您正在经营网络抓取业务或与 LLM/Gen AI 合作,那么您一定要看这个。

摘录 2024 年峰会第 2 部分
Sanaea 在主持讨论方面做得很出色。

演讲 6. 从不同来源提取特定数据属性的先进技术和创新

Zyte 高级数据工程师 Iván Sánchez 介绍了该公司使用 LLM 进行数据解析的情况。它补充并缩小了 Ian(演讲 4)对 Zyte 人工智能功能的高级概述。 

Iván 首先介绍了使用 LLM 背后的原因。然后,他继续解决在实施模型时出现的主要挑战,例如优化令牌使用和设计评估指标。我学到了很多:训练模型所需的样本相对较少,通过仅选择页面的相关区域可以节省资金,并且模型在低于其最大令牌限制的情况下会变得很古怪。推荐。

摘录峰会 2024 演讲 6
Zyte 减少代币消耗的绝妙方法。

演讲 7. 缓存、Cookie、重新连接:通过会话管理加速抓取

Browserless 公司的 Joel Griffith 介绍了会话管理的方法。Browserless 是一家运行强化无头浏览器的公司,因此您无需再使用浏览器。他特别介绍了缓存、cookie 和浏览器进程,并比较了每种方法的优缺点。

这是一个高度结构化的演示,让我想起了大学讲座。如果你在公司内部处理无头浏览器,你将了解何时使用每种方法,并得到 Joel 的个人经验和一些粗略的实现示例(他优雅地称之为 草图)流程方法在 QA 中得到了最多的关注,对我来说也是如此。

摘录峰会 2024 演讲 7
你认为现在不需要观看演讲了吗?还有更多内容。

演讲 8. 如何利用来自网络的数据为大型语言模型 (LLM) 提供数据

另一家网络抓取公司也登台亮相,这次是 Jan Čurn 领导的 Apify。如果说有什么不同的话,那就是这次演讲只是一次产品演示,但这并不意味着我们什么也没学到。 

Jan 谈了很多关于检索增强生成的内容——它的基本机制和作为杀手级 LLM 应用程序的重要性。这是一个大胆的说法,但很难不同意。然后,他完成了一些网络抓取挑战,为演示搭建了舞台,并在过程中引入了简洁的第三方实用程序。最后,Jan 展示了 Apify 为 RAG 制作的新参与者,包括与 Pinecone、Langchain 等的集成。 

摘录峰会 2024 演讲 8
Jan 为您的 RAG 准备了一些精彩的东西。

演讲 9. 使大型语言模型 (LLM) 代理能够理解 Web

又一家网络抓取公司。Reworkd AI 首席执行官 Asim Shrestha 代表了与 LLM 一起出现的新一代数据提取工具。从我在 Techcrunch 采访中读到的内容来看,Reworkd 的目标是抓住客户需求的长尾,而竞争对手喜欢 Bright Data 目前可能覆盖得不是很好。 

在演讲中,Asim 描述了公司面临的问题。其中包括找到正确的界面来向 AI 代理提供数据、制作有用的提示以及使用真实网站评估输出。通过不断的试验,Akim 的团队找到了非常规的解决方案,例如将网页渲染为带有链接和其他元素标签的空间 2D 结构。此工具以及另一个用于运行评估的工具已开源,供所有人使用。

不幸的是,听众此时已经很累了,没有提出任何问题。但这并不反映演讲的质量——我觉得演讲很精彩。知道 Reworkd 得到了风险投资的支持,我们一定会看到更多创新从中产生。

摘录峰会 2024 演讲 9
Reworkd 带注释的网页空间二维映射。

底线

这就是 Zyte 的 Web 数据提取峰会——2024 年最后一次与网络抓取相关的会议。如果您对任何摘要感兴趣,可以在 YouTube 上找到完整的录音。谢谢阅读!