我们使用联盟链接。它们让我们能够维持运营,而您无需承担任何费用。

2023 年 Extract 峰会:回顾

我们对 Zyte 年度网络抓取活动的(虚拟)印象。
亚当·杜波依斯
zyte 提取物峰会 2023
Zyte 的 Web 数据提取峰会已经结束。这是一次盛宴——在我看来,对于我们这个行业的任何人来说,无论是为了交流还是学习,这都是一次必去的盛会。在本文中,我将分享我们的印象,并简要回顾会议的 13 场演讲。它们 按需提供 填写潜在客户捕获表单后,您将能够观看任何吸引您眼球的演示文稿。让我们开始吧!

组织事项

与去年一样,2023 年的活动也有实体场地。这次活动在 Zyte 的家乡都柏林举办,但您也可以在线参加。除了社交机会外,现场与会者还有机会参加在会谈前一天举行的四场研讨会。 

早鸟票售价 159 欧元(另加 80 欧元参加研讨会)。今年虚拟出席实际上是免费的,这对那些不能(或不会)到场的人来说是一个可喜的变化。不幸的是,我们也在其中。Zyte 使用 Eventbrite 购票,因此那些在会议开始后才知道会议的人就没那么幸运了,因为注册已经结束。

Zyte 通过 YouTube 直播了该活动,使用 Slido 设置来提问,并使用 Slack 频道进行不太紧急的讨论。 

主题

我们知道会议将花时间讨论人工智能,但今年它确实占据了中心位置。ChatGPT、其他 LLM 和机器学习几乎渗透到了每场演讲中,甚至包括通常介绍一些小众用例的特色演讲。考虑到这项新技术被大肆宣传并且与我们行业的兼容性,这是可以理解的。 

其次,Zyte 确实努力让会议变得实用,或者至少在实践中适用。我们说的不是研讨会。在会谈期间,参与者可以访问 Zyte 新的无代码界面、一个(当然)集成了 ChatGPT 的 POC 工具、一个用于计算其网络抓取费用的表格等等。即使是关于法律事务的演示也为四个相关用例(其中两个再次涉及 AI)提供了可操作的清单。 

Zyte 的网页抓取 API 在一年内已​​经成熟了很多。主持人知道这一点,专门做了三次演讲来推广该工具。这绝对是引人注目的;但在网上观看时,并没有感觉到咄咄逼人或俗气。

会谈

演讲 1. Zyte 首席执行官介绍:我为什么要更换最受欢迎的产品

标题很有趣,对吧?Zyte 的首席执行官 Shane Evans 以一段回忆开始演讲。他讲述了 Crawlera(Zyte 的代理管理层)的诞生、发展历程以及它为何必须让位于 Zyte API。这既是一次功能体验(看看我们现在能做什么!),也是对旧工具的弃用通知。 

这次演讲有点宣传性质(甚至包括我们的基准测试!)但仍然很有趣,因为它描述了问题空间。总的来说,这是开始一天的好方法。 

摘录峰会 2023 演讲 1
有的话请举手。

演讲 2. 创新或死亡:2023 年代理行业的现状

艾萨克·科尔曼,营销副总裁 Rayobyte,为其主要产品数据中心代理发布了讣告。我不知道他们上过什么公开演讲课,但是 Rayobyte的演讲者都有美国传教士的风格。说实话,这非常适合这个场合。 

Isaac 谈到了三种转变,它们有时在一夜之间摧毁了三种主要用例的数据中心代理。据报道,这种代理类型的市场已经萎缩,甚至剩下的主要垂直市场也面临风险。很可怕,对吧?然后,Isaac 分解了网络抓取操作的成本,并提供了一个计算成本的工作表。方便吗?是的。值得一看吗?如果你使用代理,那么绝对值得一看。 

摘录峰会 2023 演讲 2
数据中心代理与以前不同了。

讨论3. ChatGPT能解决Web数据提取吗?

Zyte 数据科学主管 Konstantin Lopuhkin 试图回答我们许多人心中的问题:我可以使用 ChatGPT 进行抓取吗?在多大程度上可以使用?是否值得?Konstantin 讨论了使用 OpenAI API 的价格考虑因素、不同的抓取方法(生成代码与直接使用 LLM 提取),并将商业模型与开源替代方案进行了比较。最后,他演示了一个不再可用的内部工具。

演讲源于经验,因此提供了具体的数字和合理的论据。由于技术发展速度太快,它可能不会过时,但就目前而言,我认为这次演讲非常有意义。观众的问题也很有趣,因为它们触及了我们许多人对法学硕士的考虑。 

摘录峰会 2023 演讲 3
我们对这个会说话的黑匣子抱有很高的期望。

演讲 4. 利用人工智能实现企业级数据抓取

Zyte 团队的另一场演讲建立在之前的演讲基础之上,因此这两场演讲可能值得一看。特别是,Zyte 的 Ian 谈到了水平扩展(解析多个页面)的问题以及如何使用 AI 来解决该问题。 

奇怪的是,这个故事的主角不是法学硕士:他们被简要提及,然后被当作不成熟的技术推开。相反,这是 Zyte 自己的监督机器学习模型,该提供商已经完善了四年多。它在每个页面上运行,据报道更准确,而且比 ChatGPT 50 便宜 3.5 倍。Ian 深入研究了该模型的内部结构,而他的同事 Adrian 演示了一个无代码包装器,它可以抓取和解析电子商务页面。 

摘录峰会 2023 演讲 4
与 ChatGPT 的公开版本相比,Zyte 的机器学习模型非常高效。

演讲 5. 检测、分析和响应。利用数据打击宣传和虚假信息

Identrics 公司的 Nesin Veli 就认知战的方法和预防作了一次精彩演讲。这听起来是不是有点耳熟?这个术语定义了用于操纵公众认知以达到各种目的的技术。 

Nesin 介绍了他公司的网络抓取堆栈,并展示了他们如何训练 ML 模型来识别新闻网站数据集中的仇恨言论。但对我们来说,最吸引人的部分是 形成一种 Identrics 运用这些工具来对抗认知战。活动范围非常广泛,包括跨媒体渠道的叙事跟踪和媒体可信度检查等。考虑到信息战已经变得多么普遍和阴险,这绝对具有教育意义。 

摘录峰会 2023 演讲 5
内辛的公司试图利用科技来抑制认知战。

演讲 6. Spidermatch:利用机器学习和 OpenStreetMap 验证和丰富抓取的位置数据

Jimbo Freedman 的公司 Huq Industries 提供与地理区域或物体相关的受欢迎程度、访问时间和其他数据点。为此,他们首先需要精确绘制兴趣点。您可能认为这不是一个挑战,但 Jimbo 向我们证明了并非如此。有趣的事实:Huq 的一些竞争对手仍然通过亲自访问大多数物体来标记物体!

简而言之,该公司的问题空间包括抓取数千家相关商店(通过分叉的 AllThePlaces 蜘蛛)并将信息与 OpenStreetMaps 交叉引用以验证准确性。这引发了与元数据和商店坐标相关的多个问题。Jimbo 描述了他的四步流程以及 LLM 的参与如何影响输出。给你一个提示:显著,但幻觉仍然是一个问题。 

摘录峰会 2023 演讲 6
在 Huq 的办公室里,AllThePlaces 和 OpenStreetMap 堪称绝配。

演讲 7. 反机器人保护的剖析

这是一次难忘的体验。Wiremind 的反检测专家 Fabien Vauchelles 剖析了主要的机器人保护方法。这本身就很有趣,但 Fabien 的法国口音、热情的演讲和定制的(可能是人工智能制作的)插图真正让这次演讲变成了一次体验。 

Fabien 介绍了四个网络抓取层——IP 地址、协议、浏览器和行为——以及反机器人系统如何精确地使用它们来识别机器人。他们可以跟踪的数据点太多了……有时太多了,对他们自己不利!演讲者指出了主要的数据点,并列出了解决越来越困难的目标的八个步骤。推荐。  

摘录峰会 2023 演讲 7
Fabien 确实热爱他的手艺......并且创作出令人惊叹的插图。

演讲 8. 驯服万维网

美国口音、00 年代初期的幻灯片、以及一个向世界许诺的模糊标题……这就是 LexisNexis 的 Eric Platow 向您介绍的内容。但这只是第一印象。实际上,Eric 向观众介绍了他必须完成的一个项目:1) 每月从数千个网站抓取一百万份传记记录,2) 六个月的期限,3) 最少的人力资源。

这些网站与律师有关,因此它们带来了一些特殊的挑战:旧的(非常旧的)页面结构、重新利用或抢注的域名以及不相关的页面。另一个重大挑战是提取和规范化正确的数据;这需要模糊匹配、NLP 和 LLM。最终,Eric 的努力成功节省了 3.7 人的 400 万美元人工成本。观看演讲以了解具体细节。 

摘录峰会 2023 演讲 8
幻灯片把我们带回到了大学时代。

演讲 9. 金融领域 Web 数据提取的飞速发展和深度探索

Hatched Analytics 的 Alex Lokhov 发表了另一场精彩演讲,主题是将另类数据产品化以服务金融行业。演讲分为两个相关但又有些独立的部分。 

第一部分阐述了另类数据的相关性,并列出了将其产品化的要求。例如,我们了解到金融服务始终需要背景信息,并且数据集会受到所谓的 alpha 衰减的影响。第二部分更具技术性,重点关注数据存储,尤其是视觉监控——这是演讲者的强项。因此,即使您对这个用例不是特别感兴趣,也有可能学到一些东西。 

摘录峰会 2023 演讲 9
亚历克斯 (Alex) 非常擅长视觉监控。

讨论 10. 评估网页抓取合规性的分步指南

法律时间到了!演讲由 Zyte 首席法律官 Sanaea Daruwalla 发表。我们之前见过 Sanaea 多次;根据之前的反馈,今年她选择了一个非常具体的主题。它涵盖了四种流行的网页抓取用例,并附有一份可能的法律风险清单及其缓解策略。 

对我们来说,这种组合确实恰到好处——尤其是考虑到其中两个情况涉及人工智能模型,而人工智能模型是当今极为相关的话题。Sanaea 给出了切实可行的建议,并概述了即将出台的可能影响网络抓取操作的法规,例如欧盟的《人工智能法案》。总而言之,这是本次会议上必看的节目之一。  

摘录峰会 2023 演讲 10
Sanaea 的合规检查表简单且内容丰富。

演讲 11. 使用 Web 数据来可视化和分析 EPC 评级

Neha Setia Nagpal 和 Daniel Cave 进行了另一个技术演示。它展示了 Zyte API 用于电子商务产品页面的无代码包装器,以及其灵活的 Scrapy 云基础。 

基本上,Daniel 扮演了一位心里想着一个快速项目的数据科学家。他使用包装器快速收集家用电器的能效等级,并在 Tableau 中将其可视化。Neha 扮演了一名工程师的角色。抓取器的常规功能无法完全满足 Daniel 的需求,因此她打开引擎盖并通过添加一些参数来解决这个问题。总的来说,这是一个有趣但完全可选的演示。

摘录峰会 2023 演讲 11
这一事实促使丹尼尔开始寻找最具成本效益的冰箱。

演讲 12. 大规模动态抓取高流量复杂网络空间

来自 Zoominfo 的 Andrew Harris 的演讲。复杂空间是指许多用户同时与其交互的平台:社交媒体、搜索引擎等。Andrew 面临的挑战是设计一个低代码平台,让有复杂需求的用户可以同时使用。解决方案,也是本次演讲的重点,是一个复杂的调度系统,具有加权排队和其他元素。 

也许是因为演讲在会议中来得太晚,我们一口气看完了,所以有点吃力。演讲者使用了学术语言,幻灯片中的信息量很大,但不一定与演讲内容相符。如果你关心这个话题并决定观看演讲,请准备好多次暂停。 

摘录峰会 2023 演讲 12
安德鲁的幻灯片最适合按需观看。

演讲 13. 数据的未来:网络抓取数据市场和人工智能革命带来的需求激增

当天的最后一场演讲由数据市场 Data Boutique 的 Andrea Squatrito 主持。演讲分为两个部分。第一部分试图使用适用于大多数平台的论点来证实数据市场:主要是规模经济和更易于分销。第二部分更有趣,因为它解决了信任和质量保证的挑战。人工智能只是被顺便提及。 

摘录峰会 2023 演讲 13
Andrea 认为数据市场有很多优点。

结语

这就是 2023 年的 Extract Summit!如果你觉得任何演讲都很有趣,你可以在活动网站上观看。现在,我们将等待今年的最后一次会议—— Bright Data的 ScrapeCon (不幸的是,由于以色列的事件,该活动不得不推迟)。