ScrapeCon 2024:回顾
我们的印象 Bright Data首次有关网络抓取的虚拟会议。
- 出版日期:
组织事项
ScrapeCon 最初计划于 7 年 2023 月 XNUMX 日举行。不幸的是,由于以色列发生的事件,它不得不推迟。一段时间没有消息,然后 Bright Data 在三月某个时候宣布新的日期。
注册是免费的,这很好,而且现在已成为在线活动的行业标准。您必须填写表格,提供姓名、姓氏和电子邮件等基本信息。该应用程序还要求选择您希望参加的会议。(是为了衡量兴趣吗?您无法观看您未选择的演讲吗?我勾选了所有框,所以我无法测试在这种情况下会发生什么。)然后,ScrapeCon 的团队将验证您的申请并手动批准(或拒绝?)进入。
我相信 Bright Data 使用名为 Cvent 的平台来主办会议。中心制作精良,有通知和用于问答的聊天框。与 Extract Summit 或 OxyCon 不同,每个会议都有不同的页面,其中包含描述和 Vimeo 播放器。有些演讲大约需要 15 分钟,因此您必须不断进出。
Bright Data 选择在下午 3 点至晚上 7 点(欧洲中部夏令时间)之间举办会议。对于我们以及欧洲的不少企业来说,这个时间很不寻常,但选择这个时间很可能是为了同时吸引欧洲和美国的观众。所有会议都准时举行。日程安排中没有正式的休息时间,但通常在下一次演讲之前会有五到十分钟的时间。
在整个活动过程中,我一直无法摆脱的一个感觉是,我更像是一个旁观者,而不是一个积极的参与者。当然,你可以自由提问。但所有答案都是以文字形式给出的,演讲者实际上从未与观众直接互动。一切都可能是预先录制好的,你不会错过太多。
会谈
会议包括六场演讲、三场小组讨论和六分钟的介绍。 Bright Data的首席执行官或 Lenchner。让我们一一介绍一下。
以下是标题潜水员的快速导航:
开幕致辞:公共网络数据的现状
Or Lenchner 以以下发言拉开了会议的序幕 Bright Data对现状的叙述。它使活动变得生动活泼,并很好地说明了将会发生什么。
简而言之,数据需求呈指数级增长,就像饮用水一样,它将塑造人类的未来。人工智能是下一场大革命,自然需要数据来训练。大公司正在关闭,但 Bright Data 取得了一些重要的胜利(主要是对抗 Meta),而监管是下一个前沿。
或者提到了所谓的 刮云 – 我想这就是 Bright Data 将从现在开始定位自己。他还透露了目前处于测试阶段的双管齐下的产品 Bright Shield:
- Bright Data客户可以使用它来跟踪和执行他们的网络抓取政策,同时
- 网站管理员能够看到他们的财产的哪些部分被抓取,并且在一定程度上影响这些域名上的数据收集活动。
演讲 1:让云原生数据抓取变得简单
在第一个演讲中, Bright Data谈到了无服务器网络抓取基础设施。更准确地说,他介绍了 Bright Data 函数,以前称为 Web Scraper IDE,以前称为 Data Collector。
简而言之,Functions 是一个基于云的开发环境,可通过以下方式访问 Bright Data的仪表板。它包括预构建的代码函数、热门网站的模板,并在后端使用提供商的解锁基础设施。还有其他内置的简洁功能,例如用于调试和监控的工具。如果需要,Functions 还可以在云中运行无头浏览器。
随后,Itzhak 迅速构建了一个交互式抓取工具,从 Lazada 收集数据,以展示该产品。我发现 Functions 将抓取和解析阶段分开并缓存页面,这样您就可以调整解析器而无需重新加载 URL,这一点很不错。这是当天的第一个产品广告。
一些旁注。看看 Functions 是如何演变的,这很有趣。最初的迭代,Data Collector,实际上是作为无代码工具销售的:模板有一个 UI 层,并且有一个用于可视化构建抓取工具的扩展。 Bright Data 然后转向开发人员,将无代码部分留给数据集。
这也是第一次展示 Bright Data的现代网络管道图。它会在整个会议期间一次又一次地出现。
对话 2:解读抓取策略:构建、购买还是 API?
Nir Borenshtein, Bright Data的首席运营官谈到了内部构建抓取工具与外包部分流程的考虑。演讲再次重点关注 Bright Data的工具,但更一般地说, 以下是我们的平台(数据抓取云)的样子, 一种方式。
Nir 首先详细阐述了我们在上次会议中看到的 Web 数据管道,谈到了多年来出现的挑战以及它们如何促成了 Web Unlocker 的创建。然后,他描述了三种数据收集模型:内部、混合和数据即服务。随后,Nir 用几个案例研究说明了他的观点,最后介绍了 Bright Data 平台的层数。
总体而言,这是一次不错的高层概述,可能更多是从企业高管的角度。我不确定为什么这次演讲没有在介绍之后进行——也许这是最初的设计,但它在过程中被重新安排了。
小组一:人工智能数据的未来:平衡法律与运营挑战
Bright Data首席执行官 Or Lenchner、Norton 律师事务所的 Jo Levy 和 Kaggle 联合创始人 Anthony Goldbloom 讨论了网络数据在人工智能中的作用、收集这些数据所带来的挑战以及如何在日常工作中应对这些挑战。Jennifer Burns 来自 Bright Data 主持了讨论。
由于习惯了专家小组讨论,我发现这个交叉点很有趣,但它也提供了有用的见解。安东尼的公司使用网络数据来微调法学硕士,他概述了一个数据收集框架。它包括了解你的来源、报道深度和可能的法律影响。
Or 提出了一些发人深省的观点,例如在选择 LLM 数据集时固有的偏见以及数据新鲜度日益重要。在我看来,Jo 最有价值的论点是,版权或偏见等问题应该在策划阶段而不是选择阶段解决。其他话题也被提及,例如自我监管。
总而言之,我很喜欢这次讨论,建议大家观看。我还发现,他们谦虚的举止很有趣。 Bright Data 与其他会议相比,出现了以下情况:或者暗示他们的服务一开始可能没有必要,安东尼承认使用多个供应商来降低风险。
讲座 3:从人工智能洞察到法学硕士培训
演讲 4:构建可靠数据集的蓝图
小组 2:高管策略
第二场小组讨论由 Ixigo 的 Ernesto Cohnen、Claro Analytics 的 Michael Beygelman 和 Rakuten 的 Ganesh Kumar 主持。 Bright Data的 CCO Omri Orgad。此次讨论的目的是讨论实时数据收集的运营和财务方面的最佳实践。
事实上,它涉及许多主题,包括但不限于法学硕士及其对业务运营的影响。参与者带来了各自领域的专业知识,分享了个人挑战,这些挑战有时围绕数据的多模态性、实时决策日益增长的重要性以及辨别数据来源和反刍者的必要性等主题相交叉。
举几个例子,Ernesto 发现现在大约 10% 的新 Google 图片都是由人工智能生成的,这对旅游门户网站来说是一个问题。Ganesh 发现了解客户购买产品时使用的参考资料至关重要,有时你需要在意想不到的地方进行搜索(例如售票网站)。Michael 强调,我们生活在一个即时时代,企业需要规范数据。
埃内斯托最后总结道,数据的价值在于你用数据构建的故事。总而言之,我发现这个小组是会议的亮点之一。
讲座 5:从点击到捕获:掌握爬虫的浏览器交互
讲座 6:超越 IP 禁令和 CAPTCHA
另一场演讲由 Aviv Besinsky 和 Ilya Kolker 二人组进行。这次,他们讨论了网站保护免受网络抓取的挑战。这些挑战包括从简单的 IP 拦截到复杂的行为跟踪。
Aviv 首先展示了反机器人技术的发展时间表。然后,他按难度顺序概述了主要的反爬虫方法,并提供了一些克服这些方法的方法。这些指南的水平相当高(例如 模拟真实的用户交互),它更多的是作为进一步研究的起点,而不是直接适用的建议。
在第二部分中,Ilya 演示了数据中心和住宅代理在两种情况下的表现:访问亚马逊和 G2。他使用了基本的抓取工具,先没有标头,然后有标头。在 G2 上都失败后,Ilya 改用 Bright Data的 Web Unlocker(运行无头浏览器并在需要时解决 CAPTCHA)并成功抓取了该页面。
第三小组:从最初的请求到最终的分析