2023 年 Extract 峰会:回顾
- 出版日期:
组织事项
与去年一样,2023 年的活动也有实体场地。这次活动在 Zyte 的家乡都柏林举办,但您也可以在线参加。除了社交机会外,现场与会者还有机会参加在会谈前一天举行的四场研讨会。
早鸟票售价 159 欧元(另加 80 欧元参加研讨会)。今年虚拟出席实际上是免费的,这对那些不能(或不会)到场的人来说是一个可喜的变化。不幸的是,我们也在其中。Zyte 使用 Eventbrite 购票,因此那些在会议开始后才知道会议的人就没那么幸运了,因为注册已经结束。
Zyte 通过 YouTube 直播了该活动,使用 Slido 设置来提问,并使用 Slack 频道进行不太紧急的讨论。
主题
我们知道会议将花时间讨论人工智能,但今年它确实占据了中心位置。ChatGPT、其他 LLM 和机器学习几乎渗透到了每场演讲中,甚至包括通常介绍一些小众用例的特色演讲。考虑到这项新技术被大肆宣传并且与我们行业的兼容性,这是可以理解的。
其次,Zyte 确实努力让会议变得实用,或者至少在实践中适用。我们说的不是研讨会。在会谈期间,参与者可以访问 Zyte 新的无代码界面、一个(当然)集成了 ChatGPT 的 POC 工具、一个用于计算其网络抓取费用的表格等等。即使是关于法律事务的演示也为四个相关用例(其中两个再次涉及 AI)提供了可操作的清单。
Zyte 的网页抓取 API 在一年内已经成熟了很多。主持人知道这一点,专门做了三次演讲来推广该工具。这绝对是引人注目的;但在网上观看时,并没有感觉到咄咄逼人或俗气。
会谈
让我们回顾一下本次大会的 13 场演讲。它们涵盖了各种主题,从探索 ChatGPT 的数据收集目的到深入研究当前的机器人保护系统。
以下是阵容。点击标题即可查看:
演讲 1. Zyte 首席执行官介绍:我为什么要更换最受欢迎的产品
标题很有趣,对吧?Zyte 的首席执行官 Shane Evans 以一段回忆开始演讲。他讲述了 Crawlera(Zyte 的代理管理层)的诞生、发展历程以及它为何必须让位于 Zyte API。这既是一次功能体验(看看我们现在能做什么!),也是对旧工具的弃用通知。
这次演讲有点宣传性质(甚至包括我们的基准测试!)但仍然很有趣,因为它描述了问题空间。总的来说,这是开始一天的好方法。
演讲 2. 创新或死亡:2023 年代理行业的现状
艾萨克·科尔曼,营销副总裁 Rayobyte,为其主要产品数据中心代理发布了讣告。我不知道他们上过什么公开演讲课,但是 Rayobyte的演讲者都有美国传教士的风格。说实话,这非常适合这个场合。
Isaac 谈到了三种转变,它们有时在一夜之间摧毁了三种主要用例的数据中心代理。据报道,这种代理类型的市场已经萎缩,甚至剩下的主要垂直市场也面临风险。很可怕,对吧?然后,Isaac 分解了网络抓取操作的成本,并提供了一个计算成本的工作表。方便吗?是的。值得一看吗?如果你使用代理,那么绝对值得一看。
讨论3. ChatGPT能解决Web数据提取吗?
Zyte 数据科学主管 Konstantin Lopuhkin 试图回答我们许多人心中的问题:我可以使用 ChatGPT 进行抓取吗?在多大程度上可以使用?是否值得?Konstantin 讨论了使用 OpenAI API 的价格考虑因素、不同的抓取方法(生成代码与直接使用 LLM 提取),并将商业模型与开源替代方案进行了比较。最后,他演示了一个不再可用的内部工具。
演讲源于经验,因此提供了具体的数字和合理的论据。由于技术发展速度太快,它可能不会过时,但就目前而言,我认为这次演讲非常有意义。观众的问题也很有趣,因为它们触及了我们许多人对法学硕士的考虑。
演讲 4. 利用人工智能实现企业级数据抓取
Zyte 团队的另一场演讲建立在之前的演讲基础之上,因此这两场演讲可能值得一看。特别是,Zyte 的 Ian 谈到了水平扩展(解析多个页面)的问题以及如何使用 AI 来解决该问题。
奇怪的是,这个故事的主角不是法学硕士:他们被简要提及,然后被当作不成熟的技术推开。相反,这是 Zyte 自己的监督机器学习模型,该提供商已经完善了四年多。它在每个页面上运行,据报道更准确,而且比 ChatGPT 50 便宜 3.5 倍。Ian 深入研究了该模型的内部结构,而他的同事 Adrian 演示了一个无代码包装器,它可以抓取和解析电子商务页面。
演讲 5. 检测、分析和响应。利用数据打击宣传和虚假信息
Identrics 公司的 Nesin Veli 就认知战的方法和预防作了一次精彩演讲。这听起来是不是有点耳熟?这个术语定义了用于操纵公众认知以达到各种目的的技术。
Nesin 介绍了他公司的网络抓取堆栈,并展示了他们如何训练 ML 模型来识别新闻网站数据集中的仇恨言论。但对我们来说,最吸引人的部分是 形成一种 Identrics 运用这些工具来对抗认知战。活动范围非常广泛,包括跨媒体渠道的叙事跟踪和媒体可信度检查等。考虑到信息战已经变得多么普遍和阴险,这绝对具有教育意义。
演讲 6. Spidermatch:利用机器学习和 OpenStreetMap 验证和丰富抓取的位置数据
Jimbo Freedman 的公司 Huq Industries 提供与地理区域或物体相关的受欢迎程度、访问时间和其他数据点。为此,他们首先需要精确绘制兴趣点。您可能认为这不是一个挑战,但 Jimbo 向我们证明了并非如此。有趣的事实:Huq 的一些竞争对手仍然通过亲自访问大多数物体来标记物体!
简而言之,该公司的问题空间包括抓取数千家相关商店(通过分叉的 AllThePlaces 蜘蛛)并将信息与 OpenStreetMaps 交叉引用以验证准确性。这引发了与元数据和商店坐标相关的多个问题。Jimbo 描述了他的四步流程以及 LLM 的参与如何影响输出。给你一个提示:显著,但幻觉仍然是一个问题。
演讲 7. 反机器人保护的剖析
这是一次难忘的体验。Wiremind 的反检测专家 Fabien Vauchelles 剖析了主要的机器人保护方法。这本身就很有趣,但 Fabien 的法国口音、热情的演讲和定制的(可能是人工智能制作的)插图真正让这次演讲变成了一次体验。
Fabien 介绍了四个网络抓取层——IP 地址、协议、浏览器和行为——以及反机器人系统如何精确地使用它们来识别机器人。他们可以跟踪的数据点太多了……有时太多了,对他们自己不利!演讲者指出了主要的数据点,并列出了解决越来越困难的目标的八个步骤。推荐。
演讲 8. 驯服万维网
美国口音、00 年代初期的幻灯片、以及一个向世界许诺的模糊标题……这就是 LexisNexis 的 Eric Platow 向您介绍的内容。但这只是第一印象。实际上,Eric 向观众介绍了他必须完成的一个项目:1) 每月从数千个网站抓取一百万份传记记录,2) 六个月的期限,3) 最少的人力资源。
这些网站与律师有关,因此它们带来了一些特殊的挑战:旧的(非常旧的)页面结构、重新利用或抢注的域名以及不相关的页面。另一个重大挑战是提取和规范化正确的数据;这需要模糊匹配、NLP 和 LLM。最终,Eric 的努力成功节省了 3.7 人的 400 万美元人工成本。观看演讲以了解具体细节。
演讲 9. 金融领域 Web 数据提取的飞速发展和深度探索
Hatched Analytics 的 Alex Lokhov 发表了另一场精彩演讲,主题是将另类数据产品化以服务金融行业。演讲分为两个相关但又有些独立的部分。
第一部分阐述了另类数据的相关性,并列出了将其产品化的要求。例如,我们了解到金融服务始终需要背景信息,并且数据集会受到所谓的 alpha 衰减的影响。第二部分更具技术性,重点关注数据存储,尤其是视觉监控——这是演讲者的强项。因此,即使您对这个用例不是特别感兴趣,也有可能学到一些东西。
讨论 10. 评估网页抓取合规性的分步指南
法律时间到了!演讲由 Zyte 首席法律官 Sanaea Daruwalla 发表。我们之前见过 Sanaea 多次;根据之前的反馈,今年她选择了一个非常具体的主题。它涵盖了四种流行的网页抓取用例,并附有一份可能的法律风险清单及其缓解策略。
对我们来说,这种组合确实恰到好处——尤其是考虑到其中两个情况涉及人工智能模型,而人工智能模型是当今极为相关的话题。Sanaea 给出了切实可行的建议,并概述了即将出台的可能影响网络抓取操作的法规,例如欧盟的《人工智能法案》。总而言之,这是本次会议上必看的节目之一。
演讲 11. 使用 Web 数据来可视化和分析 EPC 评级
Neha Setia Nagpal 和 Daniel Cave 进行了另一个技术演示。它展示了 Zyte API 用于电子商务产品页面的无代码包装器,以及其灵活的 Scrapy 云基础。
基本上,Daniel 扮演了一位心里想着一个快速项目的数据科学家。他使用包装器快速收集家用电器的能效等级,并在 Tableau 中将其可视化。Neha 扮演了一名工程师的角色。抓取器的常规功能无法完全满足 Daniel 的需求,因此她打开引擎盖并通过添加一些参数来解决这个问题。总的来说,这是一个有趣但完全可选的演示。
演讲 12. 大规模动态抓取高流量复杂网络空间
来自 Zoominfo 的 Andrew Harris 的演讲。复杂空间是指许多用户同时与其交互的平台:社交媒体、搜索引擎等。Andrew 面临的挑战是设计一个低代码平台,让有复杂需求的用户可以同时使用。解决方案,也是本次演讲的重点,是一个复杂的调度系统,具有加权排队和其他元素。
也许是因为演讲在会议中来得太晚,我们一口气看完了,所以有点吃力。演讲者使用了学术语言,幻灯片中的信息量很大,但不一定与演讲内容相符。如果你关心这个话题并决定观看演讲,请准备好多次暂停。
演讲 13. 数据的未来:网络抓取数据市场和人工智能革命带来的需求激增
当天的最后一场演讲由数据市场 Data Boutique 的 Andrea Squatrito 主持。演讲分为两个部分。第一部分试图使用适用于大多数平台的论点来证实数据市场:主要是规模经济和更易于分销。第二部分更有趣,因为它解决了信任和质量保证的挑战。人工智能只是被顺便提及。
结语
这就是 2023 年的 Extract Summit!如果你觉得任何演讲都很有趣,你可以在活动网站上观看。现在,我们将等待今年的最后一次会议—— Bright Data的 ScrapeCon (不幸的是,由于以色列的事件,该活动不得不推迟)。