我们使用联盟链接。它们让我们能够维持运营,而您无需承担任何费用。

ScrapeCon 2024:回顾

我们的印象 Bright Data首次有关网络抓取的虚拟会议。 

亚当·杜波依斯
scrapecon 回顾插图
Bright Data的网络抓取会议 ScrapeCon 于 2 月 XNUMX 日举行。回顾行业重大事件已成为我们的传统——这次也不例外。本文分享了我们的印象,并提供了会议演讲的简短(通常是主观的)摘要。如果您有任何想法, Bright Data 制作了视频 按需提供 我发现 ScrapeCon 特别有趣,因为它 Bright Data首次在会议上发表(据我们所知)。鉴于 Zyte 的 Extract Summit 和 Oxylabs“多年来,人们对 OxyCon 的期望越来越高。  主办方能见到他们吗?嗯,这得看情况。从技术方面来看——绝对可以。活动组织得非常好,确实没有什么技术问题。同时,产品推广很多,互动性比我们预期的要少。

组织事项

ScrapeCon 最初计划于 7 年 2023 月 XNUMX 日举行。不幸的是,由于以色列发生的事件,它不得不推迟。一段时间没有消息,然后 Bright Data 在三月某个时候宣布新的日期。 

注册是免费的,这很好,而且现在已成为在线活动的行业标准。您必须填写表格,提供姓名、姓氏和电子邮件等基本信息。该应用程序还要求选择您希望参加的会议。(是为了衡量兴趣吗?您无法观看您未选择的演讲吗?我勾选了所有框,所以我无法测试在这种情况下会发生什么。)然后,ScrapeCon 的团队将验证您的申请并手动批准(或拒绝?)进入。 

我相信 Bright Data 使用名为 Cvent 的平台来主办会议。中心制作精良,有通知和用于问答的聊天框。与 Extract Summit 或 OxyCon 不同,每个会议都有不同的页面,其中包含描述和 Vimeo 播放器。有些演讲大约需要 15 分钟,因此您必须不断进出。 

scrapecon 会议中心
该在线平台有很多花哨的附加功能。

Bright Data 选择在下午 3 点至晚上 7 点(欧洲中部夏令时间)之间举办会议。对于我们以及欧洲的不少企业来说,这个时间很不寻常,但选择这个时间很可能是为了同时吸引欧洲和美国的观众。所有会议都准时举行。日程安排中没有正式的休息时间,但通常在下一次演讲之前会有五到十分钟的时间。 

在整个活动过程中,我一直无法摆脱的一个感觉是,我更像是一个旁观者,而不是一个积极的参与者。当然,你可以自由提问。但所有答案都是以文字形式给出的,演讲者实际上从未与观众直接互动。一切都可能是预先录制好的,你不会错过太多。

会谈

开幕致辞:公共网络数据的现状

Or Lenchner 以以下发言拉开了会议的序幕 Bright Data对现状的叙述。它使活动变得生动活泼,并很好地说明了将会发生什么。 

简而言之,数据需求呈指数级增长,就像饮用水一样,它将塑造人类的未来。人工智能是下一场大革命,自然需要数据来训练。大公司正在关闭,但 Bright Data 取得了一些重要的胜利(主要是对抗 Meta),而监管是下一个前沿。 

或者提到了所谓的 刮云 – 我想这就是 Bright Data 将从现在开始定位自己。他还透露了目前处于测试阶段的双管齐下的产品 Bright Shield:

  • Bright Data客户可以使用它来跟踪和执行他们的网络抓取政策,同时
  • 网站管理员能够看到他们的财产的哪些部分被抓取,并且在一定程度上影响这些域名上的数据收集活动。
scrapecon 介绍
数据正在以指数级的速度生成。

演讲 1:让云原生数据抓取变得简单

在第一个演讲中, Bright Data谈到了无服务器网络抓取基础设施。更准确地说,他介绍了 Bright Data 函数,以前称为 Web Scraper IDE,以前称为 Data Collector。 

简而言之,Functions 是一个基于云的开发环境,可通过以下方式访问 Bright Data的仪表板。它包括预构建的代码函数、热门网站的模板,并在后端使用提供商的解锁基础设施。还有其他内置的简洁功能,例如用于调试和监控的工具。如果需要,Functions 还可以在云中运行无头浏览器。 

随后,Itzhak 迅速构建了一个交互式抓取工具,从 Lazada 收集数据,以展示该产品。我发现 Functions 将抓取和解析阶段分开并缓存页面,这样您就可以调整解析器而无需重新加载 URL,这一点很不错。这是当天的第一个产品广告。

scrapecon 谈话 1
功能,简而言之,就是网络抓取 IDE。

一些旁注。看看 Functions 是如何演变的,这很有趣。最初的迭代,Data Collector,实际上是作为无代码工具销售的:模板有一个 UI 层,并且有一个用于可视化构建抓取工具的扩展。 Bright Data 然后转向开发人员,将无代码部分留给数据集。 

这也是第一次展示 Bright Data的现代网络管道图。它会在整个会议期间一次又一次地出现。

scrapecon 数据管道
这是我们多次看到这张幻灯片中的第一张。

对话 2:解读抓取策略:构建、购买还是 API?

Nir Borenshtein, Bright Data的首席运营官谈到了内部构建抓取工具与外包部分流程的考虑。演讲再次重点关注 Bright Data的工具,但更一般地说, 以下是我们的平台(数据抓取云)的样子, 一种方式。 

Nir 首先详细阐述了我们在上次会议中看到的 Web 数据管道,谈到了多年来出现的挑战以及它们如何促成了 Web Unlocker 的创建。然后,他描述了三种数据收集模型:内部、混合和数据即服务。随后,Nir 用几个案例研究说明了他的观点,最后介绍了 Bright Data 平台的层数。

总体而言,这是一次不错的高层概述,可能更多是从企业高管的角度。我不确定为什么这次演讲没有在介绍之后进行——也许这是最初的设计,但它在过程中被重新安排了。

scrapecon 谈话 2
无论你选择哪条路, Bright Data 有东西可以提供。

小组一:人工智能数据的未来:平衡法律与运营挑战

Bright Data首席执行官 Or Lenchner、Norton 律师事务所的 Jo Levy 和 Kaggle 联合创始人 Anthony Goldbloom 讨论了网络数据在人工智能中的作用、收集这些数据所带来的挑战以及如何在日常工作中应对这些挑战。Jennifer Burns 来自 Bright Data 主持了讨论。

由于习惯了专家小组讨论,我发现这个交叉点很有趣,但它也提供了有用的见解。安东尼的公司使用网络数据来微调法学硕士,他概述了一个数据收集框架。它包括了解你的来源、报道深度和可能的法律影响。 

Or 提出了一些发人深省的观点,例如在选择 LLM 数据集时固有的偏见以及数据新鲜度日益重要。在我看来,Jo 最有价值的论点是,版权或偏见等问题应该在策划阶段而不是选择阶段解决。其他话题也被提及,例如自我监管。 

总而言之,我很喜欢这次讨论,建议大家观看。我还发现,他们谦虚的举止很有趣。 Bright Data 与其他会议相比,出现了以下情况:或者暗示他们的服务一开始可能没有必要,安东尼承认使用多个供应商来降低风险。

scrapecon 面板 1
小组成员从来不会同时出现在一个屏幕上,因此我们只能根据现有的情况开展工作。

讲座 3:从人工智能洞察到法学硕士培训

Lior Levhar 来自 Bright Data 介绍了为大型语言模型创建数据集的最佳实践。目标受众可能是希望接受 LLM 培训的商业人士,因为大多数建议都很基础:根据用例定制数据集,不要太大或太小,删除重复项,并验证社交媒体等不可靠的来源。

在整个会议期间,Lior 巧妙地提到 Bright Data的数据集多次,并使用 Snowflake 作为分析工具进行了实际演示。虽然该课程对数据专业人员的价值有限,但对其他人来说是一个不错的介绍。

scrapecon 谈话 3
数据库的大小必须恰到好处。

演讲 4:构建可靠数据集的蓝图

伊塔玛·阿姆拉莫维奇 Bright Data 继续讨论数据集的话题,深入探讨公司如何制作数据集。演讲主要以销售为导向,主要使用营销术语和修辞技巧。 

简而言之,Itamar 介绍了他所谓的数据可靠性支柱。第一,数据收集,依赖于代理和解锁基础设施,并应用各种策略,例如通过搜索引擎发现来源和抓取内部 API。架构设计需要定义核心元素和清理原始输出,而数据验证则考虑填充率、唯一性、最小-最大阈值和其他指标。

抛开营销不谈,此次演讲兑现了提供蓝图的承诺,同时让我们了解到 Bright Data的内部工具,例如其数据集的通用模式。

scrapecon 谈话 4
数据可靠性的支柱。

小组 2:高管策略

第二场小组讨论由 Ixigo 的 Ernesto Cohnen、Claro Analytics 的 Michael Beygelman 和 Rakuten 的 Ganesh Kumar 主持。 Bright Data的 CCO Omri Orgad。此次讨论的目的是讨论实时数据收集的运营和财务方面的最佳实践。 

事实上,它涉及许多主题,包括但不限于法学硕士及其对业务运营的影响。参与者带来了各自领域的专业知识,分享了个人挑战,这些挑战有时围绕数据的多模态性、实时决策日益增长的重要性以及辨别数据来源和反刍者的必要性等主题相交叉。 

举几个例子,Ernesto 发现现在大约 10% 的新 Google 图片都是由人工智能生成的,这对旅游门户网站来说是一个问题。Ganesh 发现了解客户购买产品时使用的参考资料至关重要,有时你需要在意想不到的地方进行搜索(例如售票网站)。Michael 强调,我们生活在一个即时时代,企业需要规范数据。

埃内斯托最后总结道,数据的价值在于你用数据构建的故事。总而言之,我发现这个小组是会议的亮点之一。

scrapecon 面板 2
再次,小组成员从未在演讲期间同时出现,所以让我们看看他们漂亮的个人资料照片。

讲座 5:从点击到捕获:掌握爬虫的浏览器交互

Aviv Besinsky 和 ​​Ilya Kolker 来自 Bright Data 介绍了抓取动态网站的挑战及其解决方法。其中一些障碍包括维护无头浏览器基础设施、避免阻塞以及解析呈现的内容。很难,对吧?

好吧,你总是可以使用 Scraping Browser 来克服它们。它会自动扩展并内置了解锁功能。Aviv 提供了一个案例研究,其中一位客户通过切换节省了 5,000 美元,而 Ilya 则继续演示了一个场景,他编写了一个爬虫程序来访问亚马逊,输入 笔记本电脑,然后下载页面。总而言之,如果您对该产品感兴趣,这是一个产品推销。

scrapecon 谈话 5
动态抓取会带来多层麻烦 - 但这些问题都可以通过好的工具来解决(在此处插入附属链接)。

讲座 6:超越 IP 禁令和 CAPTCHA

另一场演讲由 Aviv Besinsky 和 ​​Ilya Kolker 二人组进行。这次,他们讨论了网站保护免受网络抓取的挑战。这些挑战包括从简单的 IP 拦截到复杂的行为跟踪。

Aviv 首先展示了反机器人技术的发展时间表。然后,他按难度顺序概述了主要的反爬虫方法,并提供了一些克服这些方法的方法。这些指南的水平相当高(例如 模拟真实的用户交互),它更多的是作为进一步研究的起点,而不是直接适用的建议。

在第二部分中,Ilya 演示了数据中心和住宅代理在两种情况下的表现:访问亚马逊和 G2。他使用了基本的抓取工具,先没有标头,然后有标头。在 G2 上都失败后,Ilya 改用 Bright Data的 Web Unlocker(运行无头浏览器并在需要时解决 CAPTCHA)并成功抓取了该页面。

scrapecon 谈话 6
我原本要写一封愤怒的信来抱怨缺乏模因,但 Aviv 扭转了局面。

第三小组:从最初的请求到最终的分析

五位科技影响者参加的小组讨论会:Tech with Tim、Coding with Lewis、TiffinTech、Python Simplified 和 Tech Bible。我原本以为会采用讨论形式,但看起来参与者收到了一份问题清单,并分别记录了他们的答案。 

无论如何,他们涵盖了各种各样的主题,从最基本的 什么是网络数据? 开发人员在抓取数据时面临的挑战以及他们最喜欢的技术堆栈。我不认为这个小组讨论值得一看,但它很有趣,并以轻松的气氛结束了会议。

scrapecon 面板 3
这个话题比奥运游泳运动员的肩膀还要宽广。

结语

这就是 ScrapeCon。尽管销量比我们以往的要高,但我相信这是成功的。祝贺 Bright Data 在他们的第一次在线会议上! 

如果你已经读到这里,并想了解其他重大行业事件,以下是我们对 2023 年的回顾 萃取峰会 以及 奥克西康.