OxyCon 第一天回顾
我们经历了网络抓取活动的第一天。
- 出版日期:
您可以查看我们对第二天的回顾 开始.
组织事项
关于这次活动的组织方式,我简单说几句。 Zyte 的峰会 (我们建议尽可能参加),一切都在网上进行。只要您填写一份包含基本信息的潜在客户捕获表格,即可免费参与。一旦完成, Oxylabs 向您发送一个包含登录信息的链接,然后您就可以访问其流媒体平台。
今年的演讲分为三个类别:基础设施、开发和业务。它们都在同一轨道上进行,因此主题可能会从维护网络抓取工具转变为网络抓取的法律影响。您可以随时提出问题,人们可以投票,每个演讲大约有 10 分钟的时间来回答问题。还有一个 Slack 频道用于交流,尽管不可否认的是,它并不是很热闹。
总体而言,从组织的角度来看,第一天进展顺利。有些人在通过电子邮件接收密码时遇到了问题,但这个问题很快就解决了。
会谈
现在我们来谈谈……演讲。总共有五场演讲,第六场是关于网络抓取合法性的讨论。时间安排非常紧凑,所以我们分享了要观看的演讲并汇总了我们的笔记。
讲座 1:管理数十个 Python 抓取工具的依赖项:Monorepo 方式
Python 开发人员 Tadas Malinauskas 的一次技术性演讲 Oxylabs,这是针对其他开发人员的。我不知道组织者为什么决定以此为开端,但事实就是如此。
基本上, Oxylabs 过去,我们习惯使用多个存储库来管理项目。事实证明,这种方式效率低下,因为每次更改(例如,修复错误)都需要为所有依赖项创建单独的合并请求。因此, Oxylabs 在优化流程的过程中经历了成长的烦恼。
为了解决这个问题, Oxylabs 切换到一种类似 monorepo 的方法,其中按类型分组的多个项目归入一个存储库。例如,一个存储库用于网络抓取工具,另一个存储库用于数据解析,等等。这减少了合并请求并缩短了开发时间(因为当项目集中在一个地方时,在本地测试项目变得更加容易)。
然后,演示者继续演示如何实现 monorepo 方法。
演讲 2:如何在每日请求量从 100 增长至 100 亿的同时持续提供高质量数据
这次演讲非常精彩。演讲者是来自 OTA Insight 的 Glen de Cauwsemaecker,他从多个来源收集酒店数据,然后向收益经理提供见解。他的演讲展示了公司在扩大数据收集规模方面所经历的成长烦恼和做出的决定,这些决定可以追溯到 2013 年。
您可以关注 Glen 及其团队构建网络抓取基础设施的分步过程。例如,他们如何将爬虫程序与解析器分开,因为错误的假设意味着要重新进行整个抓取。他们如何引入完整性来监控和重试来自大型爬虫程序输入的失败请求。他们如何开始安排任务,构建超级代理来监控错误,从 JSON 切换到 Protobuf,超越两个无头浏览器库等等。
每一步都附有一张图表,以展示它如何影响基础设施。在演讲结束时,你可以理解左图是如何演变成右图的(我们将尝试获得更高质量的图像):
演讲中也提出了一些有趣的问题:为什么是 Protobuf?如何管理黑名单代理?Puppeteer 有什么问题?如今 SSL 指纹识别的频率有多高?如何避免 CAPTCHA?我们强烈建议观看这个视频。
演讲三:政府用例的数据抓取:如何检测网上非法内容?
又一个 Oxylabs该公司的系统工程师 Ovidijus Balkauskas 介绍了他们开发的用于检测虐待儿童和色情内容的工具。该工具通过网络抓取、警方提供的哈希值和基于机器学习的分析实现了自动化。这次演讲的技术性较弱,更多的是“这很有趣”的氛围。
此次会谈的两个主要亮点是:1)与公共实体合作;2)确定立陶宛的网络空间到底是什么。
第一个问题显示了公共实体必须应对的限制。这些限制包括节省纳税人资金的义务(试验空间较小、被迫接受最便宜的报价)、缺乏合格的专家以及可能的繁文缛节。考虑到这一点, Oxylabs 决定构建一个工具而不是一个服务。
确定立陶宛的网络空间也被证明是件棘手的事。 Oxylabs 不能依赖 .LT 域名或立陶宛 IP,所以他们采取了组合方法。
讲座 4:如何挖掘未来的网络
Apify 首席运营官 Ondra Urban 的演讲。标题很诱人,自我推销成分颇多。但除此之外,这是一场充满活力和趣味的演讲,尤其适合刚接触网络抓取的人。
上半场围绕着 Ondra 所说的 开通网站的艺术。它逐渐经历了各种保护机制,以及网络爬虫实际上需要多少才能打开一个网站。一个基本的 cURL 请求 -> 错误,cURL + 用户代理 -> 另一个错误 – 等等。非常有趣。
下半场转而推广 Apify 的新网页抓取和自动化库 Crawlee。此时我们有点不感兴趣了;但如果您更喜欢使用 node.JS 进行抓取,Ondra 很好地介绍了 Crawlee 的主要功能。
讲座 5:hiQ Labs 诉 LinkedIn 案及其后续案件如何改变美国网络抓取法律
律师对网络抓取合法性的看法。演讲者 Alex Reese 从 CFAA(美国反黑客法)的角度重点介绍了 hiQ 诉 LinkedIn 案。Alex 的公司代表 hiQ,因此从亲身经历过这些问题的人那里听到这些问题令人印象深刻。
Alex 首先概述了 CFAA,以及它如何逐渐应用于网络抓取(这显然不是黑客行为)。简而言之,平台认为登录后的数据位于受保护的计算机上,抓取者无权访问这些数据。即使他们有权限访问,发送“停止并终止”通知也会撤销授权。平台还辩称,这会影响后来被保密的公共数据。
随后,亚历克斯阅读了 Meta 发送的一封真正的停止并终止信,解释了双方的论点。
随后,他列举了 hiQ 诉 LinkedIn 案中的论点,以及该判决对网络数据抓取的意义。简而言之(不要引用我们的话,我们不是律师):抓取公共数据是合法的;该案为缩小 CFAA 范围奠定了基础;法院开始质疑平台的行为是否具有反竞争性。
最后,Alex 介绍了一些与网络抓取相关的最新案例(例如 Van Buuren v. the US 或 Sandvig v. Baar)。
小组讨论:律师讨论数据抓取
该小组有五名律师:来自 Oxylabs、Zyte 的 Sanaea Daruwalla、Farella Braun 和 Martel 的 Alex Reese、Dataistic 的 Julius Zaleskis 和 i2Coalition 的 Christian Dawson。
这是一场有趣的讨论,涵盖了网络爬虫的几个相关主题:数据收集问题、最佳实践、如何在美国和欧洲爬取个人数据、如何区分敏感数据、如何保护自己免受诉讼等等。如果您正在进行任何类型的数据收集,这是必看的。
除了有用的建议之外,总体要点是网络抓取仍然是一个法律灰色地带,许多问题尚未解决。
小组讨论还包括一项声明:Coresignal, Smartproxy, Oxylabs, Rayobyte 和 Zyte 联合发起了一项道德网络数据收集倡议。其目标是改善网络抓取的形象,并与立法者就行业相关事宜进行联合沟通。