Zyte 2022 年萃取峰会:回顾
- 出版日期:
组织事项
我们无法现场参加活动,因此我们只能评论其虚拟方面。我们要感谢 Zyte 慷慨地为我们提供免费门票。
Zyte 通过 EventBrite 进行门票销售,该体验相当流畅。唯一令人困惑的是完成购买流程后,不清楚接下来会发生什么。值得庆幸的是,Zyte 很快就发了一封电子邮件,其中包含流媒体页面的链接。
直播本身在 YouTube 上进行。你可以很容易地在平台上打开它,所以我想这些 25 英镑的门票在某些公司里很有用。还有一个 Slido 小部件可以提问。
这场线上活动一开始就出现了严重的技术故障,导致线上观众错过了前两场演讲。不过,直播上线后,一切就顺利了。
会谈
Extract Summit 一天内举办了 12 场演讲,与 OxyCon 两天演讲的总和相同。这些演讲涵盖了各种主题,从数据收集趋势和发展,到运行和扩展网络抓取基础设施的实际问题。
以下是完整列表。点击演讲名称即可查看其描述:
讲座 1:2022 年网络数据行业状况
按照惯例,会议以 Zyte 首席执行官 Shane Evans 的演讲拉开帷幕。Shane 简要介绍了自上届 Extract 峰会以来他发现的数据收集趋势。12 分钟的演讲提供了不少有趣(尽管有时是可以预见的)的见解。
简而言之,公司已开始将数据视为日益重要的战略优先事项。一些公司甚至正在实施组织变革,以建立专门的数据团队。此外,从法律角度来看,网络抓取变得更加清晰,这有助于采用。根据一项研究,网络数据支出应以每年中两位数的速度增长。
演讲中,Zyte 的客户按行业和用例进行了细分。不出所料,电子商务占据了第一位,但 Zyte 在金融领域也有不少客户。最后,Shane 思考了自建与购买的困境,强调了现代数据收集的挑战。
讲座二:实用机器学习加速数据智能
Versionista 首席执行官 Peter Bray 的演讲。他的服务为制药业和其他行业的客户监控网站变化。Peter 进行了一次实用的演示,展示了现成的机器学习工具如何以有限的成本大规模创造价值。
作为一项变更监控服务,Versionista 需要一种对内容进行分类的方法,以便能够深入了解变更情况。Peter 展示了他的团队如何应用 Google Vertex、ElasticSearch 和命名实体识别来为各种页面和内容类型创建模型。他还给出了简化数据标记和克服自然语言处理缺乏背景情况的建议。
我们觉得这个演示非常适合 艾伦·奥尼尔的速成课程 关于机器学习。他们一起介绍了与网络抓取相关的机器学习技术,并给出了公司如何在现实生活中应用它们的具体示例。可以同时观看这两部影片。
演讲 3:如何在从每天 100 个请求扩展到每天 100 亿个请求的同时确保高质量数据
介绍一家公司在 10 年的业务中其网络抓取基础设施是如何演变的。这是一个有趣的演示,一步一步地讲解了每个步骤背后的原因,并附上了公司基础设施越来越复杂的图表。值得一看。
演讲者是来自 OTA Insight 的 Glenn de Cauwsemaecker,他在 OxyCon 上也发表了同样的演讲,因此您可以阅读我们更详细的印象 开始.
讲座 4:Zyte 最新创新一探
这是(可以理解的)最长的一次演讲,其中 Zyte 的首席产品官 Iain Lennon 和开发主管 Akshay Philar 介绍了公司的新发展。
简而言之,Zyte 在这一年中致力于解决三个问题:
- 解决网站封禁问题。Zyte 表示,技术已经存在,但真正的难题是平衡效率和成本。
- 创建一个专为网络数据提取而设计的浏览器,以及
- 解决扩大规模的挑战以实现更快的增长。
为了解决前两个问题,该公司正在发布 Zyte API。它会自动选择代理、解决 CAPTCHA 并在需要时运行无头浏览器以确保抓取成功。在这方面,它与 Bright Data的 Web Unlocker 或 Oxylabs' API。然而,Zyte 还带来了一些创新,以使其与竞争对手区分开来:
- 不同的目标将根据从中提取数据的成本进行动态定价。您将能够在仪表板中看到此信息,并尝试使用各种参数来降低费用。
- 该 API 将允许您对依赖 JavaScript 的页面执行各种页面操作,例如滚动或单击按钮。
- Zyte 将提供基于云的 IDE,用于编写浏览器操作脚本。
对于第三个问题,Zyte 引入了通过 Zyte API 公开的抓取功能。该公司将为高流量网站维护自定义蜘蛛,并使用机器学习来处理长尾。此功能不需要合同或最低承诺,这应该非常适合快速原型设计。
Zyte API 预计将于 27 月 2023 日发布,网络爬虫将于 XNUMX 年初推出。
对话 5:数据成熟度模型如何帮助您的企业实现升级
Zyte 的另一个演讲。产品经理 James Kehoe 介绍了该公司在采访了 40 位行业代表后创建的数据成熟度模型。该模型旨在帮助企业确定他们在数据收集操作中所处的位置以及未来的发展前景。这是一场以业务为导向的演讲,交付速度非常快。
James 勾勒出了一个网格:列列出了数据收集操作的五个连续步骤,行列出了它们的成熟度级别。James 逐步讲解了每个步骤,解释了不同成熟度级别的步骤。然后,他展示了受访者在网格上的位置。
简而言之,这个模型看起来非常有用,即使有点理论化。如果 Zyte 决定发表博文,那么这次演讲应该可以很好地转化为博文。
讲座 6:构建可扩展的网页抓取项目
Zyte 的另一个演讲由开发者倡导者 Neha Setia Nagpal 发表。它与之前的演讲类似,演讲者介绍了一个框架。但是,数据成熟度模型更多的是用于评估数据抓取操作,而这个模型旨在帮助设计一个。
Neha 概述了可帮助开发人员构建可扩展解决方案的八个步骤(以及最佳实践):
- 明确目标。
- 分析该网站。
- 优先考虑项目属性,如可扩展性和可扩展性。
- 突出限制因素。
- 设计爬行。
- 确保数据质量。
- 选择技术堆栈。
- 做好应对冲击的准备。
总的来说,这是一个方便的考虑事项列表,特别是当您从临时抓取转向持续操作或准备在公司环境中收集数据时。
讲座 7:网络数据提取中的道德与合规性
讲座 8:像搜索引擎一样爬行
Babbar 首席技术官 Guillaume Pitel 的演讲。他的公司每天抓取超过 1 亿个网页,以帮助 SEO 营销人员进行反向链接工作。与 Glenn 的演讲类似,这次演讲也讲述了 Babbar 实现其当前规模的历程。对于进行大量网络抓取的公司来说,这应该很有趣;对于常规网络抓取工具来说可能没那么有趣。
据 Guillaume 称,网络上的大部分内容都是垃圾。因此,他和团队必须想出如何持续抓取网络上最有趣的部分,在图表上计算类似 Page-Rank 的指标,然后分析上下文以创建以语义为导向的索引。
演讲的很大一部分内容涉及技术实现。它描述了 Guillaume 的团队如何根据自己的需求调整 BUbiNG 爬虫、管理 WWW 图,以及设计整个系统以成功处理每天数十亿个 URL。奇怪的是,该基础设施基于 Java 运行,仅使用 16 个 IP,并且目前不处理动态内容。
讲座 9:提取网络数据用于学术研究的挑战
这种令人耳目一新的视角在类似的会议上很少见。蒂尔堡大学的 Hannes Datta 博士讲述了在大学环境中收集数据的原因和方法。值得一看,以拓展您的视野并了解其他人的限制有多么不同。
事实证明,网络数据在市场研究等领域越来越受欢迎。2020 年,网络数据在该领域所有研究中占 15%。科学家使用这些数据来研究新现象、改进方法论以及执行各种其他任务。当 Spotify 平台尚处于起步阶段时,Hannes 本人就研究了 Spotify 播放列表算法的影响。
Datta 博士(这个名字很贴切)提出了一些学术界面临的特殊挑战。例如,他们非常关心数据的有效性,当从住宅 IP 访问内容时,网站更改甚至个性化算法都会影响数据的有效性。科学家还必须担心法律和道德问题。总而言之,有很多考虑因素需要考虑,Hannes 描述了其中的很多因素。
讲座 10:乌克兰防空洞的数据挖掘
Zyte 的乌克兰软件工程师 Alexander Lebedev 的演讲非常感人。战争爆发时,他被困在乌克兰。作为一名工程师,Alex 决定使用数据驱动的方法来安排睡眠和其他活动,尽量减少干扰。
实际上,亚历克斯编写了一个 Telegram 抓取工具,从两个渠道收集空中警报。然后,他在一张图表上绘制了一天中不同时间空中警报的频率。一旦警报响起,人们就会冲向防空洞,因此亚历克斯认为,找出这些规律可以帮助他的家人安排他们的生活。
亚历克斯身处一个相对平静的地区,所以我们不确定这些数据对他来说到底有多大用处。但这个项目确实帮助他保持忙碌并控制不确定性。亚历克斯还设法对不同地区的轰炸频率及其随时间的变化得出了一些更广泛的见解。
这绝对是网络抓取用途的更独特的演示之一。
讲座 11:如何获取代理 IP 以进行数据抓取
首席执行官 Neil Emeigh 发表演讲 Rayobyte. 最近从 Blazing SEO 更名, Rayobyte 控制着数十万个数据中心代理。Neil 分享了他的公司如何获取这些 IP 以及客户应该注意什么的见解。有时他的演讲有点夸张(向观众扔钱?拜托),但这让演讲看起来很有趣。
Neil 谈到了租用与购买地址、IP 多样性和 ASN 质量的重要性。他给出了一些使用数据中心代理的策略(控制与多样性选项),以及一些有趣的知识。您是否知道 Google 可以禁止每小时仅 200 个请求的子网?您永远不应该获得 AFRINIC IP?或者 IPv6 代理很烂(目前)?好吧,有充分的理由。
最重要的是,尼尔讲述了联邦调查局如何来到他家并开始审问他有关代理服务器的故事。事实证明,IP 地址行业相当有争议,特别是如果你来自非洲。但通过观看演讲,你会学到更多。
讲座 12:无代码网页抓取的未来
最后一位演讲者 Victor Bolu 运营着一款名为 Web Automation 的无代码数据收集工具。他概述了无代码和低代码网页抓取工具的类型、潜力和局限性,同时试图说服网页抓取专业人士相信,这些工具是未来的发展方向。
但结果并不理想:在一项民意调查中,大约 85% 的人认为无代码工具不会在短期内取代基于代码的网络抓取工具。但话又说回来,也许这不是正确的问题。Victor 本人花了很多时间谈论扩大市场,而无代码很有可能实现这一目标。
无论您的立场如何,此次演讲都提供了大量材料来帮助您了解无代码数据收集的概况和卖点,特别是如果您正在考虑引入自己的类似工具。
结语
尽管最初存在技术问题,但我们相信 Zyte 举办的会议非常成功,值得我们支付入场费。我们将满怀期待地等待下一届 Extract Summit —— 甚至可能现场参加?到时见!