我们使用联盟链接。它们让我们能够维持运营,而您无需承担任何费用。

OxyCon 2023:回顾

我们对年度网络抓取会议的印象。
亚当·杜波依斯
oxycon 2023 主图
OxyCon 是有关网络抓取的最大的虚拟会议之一,现已结束。我们亲眼见证了这一切,现在我们想与您分享我们的印象。本摘要简要介绍了此次活动的八场演讲。它们涵盖了各种相关主题,从大规模网络抓取、最新法律发展到视频数据提取的潜力,当然还有人工智能。视频将 可按需访问,因此您可以使用我们的回顾来确定是否要观看其中哪些以及观看哪些。让我们开始吧!

关于今年 OxyCon 的一般信息

喜欢 前一年,OxyCon 以线上形式举行,外部演讲者远程演讲。提供联系信息后,您可以通过专用网页访问视频流。 Oxylabs 通过电子邮件发送登录代码,然后您就可以进入了。 

总共有六场个人演讲、两场小组讨论和 15 位演讲者。活动没有休息,因此要听完所有演讲是一项相当大的挑战。每次演讲结束时,观众都可以通过 Slido 提问,还有一个 Discord 频道供讨论(与前一年的 Slack 不同)。

总的来说,会议进行得很顺利,没有出现较大的中断或连接困难。凭借四年的经验, Oxylabs 对如何运行虚拟事件有很好的掌握。

会谈

讲座 1:克服大规模网络爬取中的障碍

Denis Zyk 来自 Oxylabs 会议开始时,Denis 概述了大规模运行 Web 抓取操作需要什么。他介绍了主要挑战(例如动态内容)、避免阻塞的策略以及管理可扩展性的方法。后一部分是最薄弱的,但详细介绍它将远远超出 30 分钟的演讲时间。最后,Denis 提倡 OxylabsWeb Unblocker 解决了上述问题,并以服务形式提供。 

总的来说,虽然经验丰富的网络抓取专业人士不太可能听到新奇的东西,但对于其他所有人来说,这却是对现状的坚实总结。

oxycon 2023 讨论 1
第一次谈话讲的是广度而不是深度,这没关系。

讲座 2:网络犯罪足迹消除:应对策略

零信任安全服务公司 Appgate 的 Javier Velandia 介绍了其公司在打击网络犯罪分子时遇到的挑战,并分享了克服这些挑战的方法。了解网页抓取在特定领域的应用总是令人着迷,这次演讲也不例外。 

Javier 解释了网络犯罪分子使用的策略,例如实施隐藏重定向、域名抢注或将恶意软件隐藏在 URL 缩短器后面。有些挑战触及我们的痛点,例如处理动态网站或 IP 拦截。此外,您是否知道 ChatGPT 有一个邪恶的孪生兄弟?那么,请观看此演示以了解更多信息。

oxycon 2023 讨论 2
网络犯罪是一个相当大的问题,尤其是在金融领域。

讲座 3:利用机器学习进行网页抓取

另一位 Oxylaber Andrius Kuksta 谈到了机器学习在他的公司以及更广泛的网络抓取环境中所扮演的角色。了解网络抓取工具和反机器人公司如何使用相同的工具来实现相反的目标,这既有趣又有点荒谬。 Oxylabs,ML 有助于自动解析网站、避免屏蔽和管理代理。虽然没什么新奇之处,但听起来确实很有用。 

在演讲的最后,Andrius 介绍了机器学习的多个尚未开发的途径。也许你可以从中汲取灵感,开展自己的项目?

oxycon 2023 讨论 3
机器人和机器人检测公司使用相同的工具来达到相反的目的。

演讲四:大规模提取高质量数据的开源技术

OTA Insight 的 Glen De Cauwsemaecker 今年是第二次来到这里。此前,他曾讲述过公司每天处理 100 亿个请求的增长历程。现在,Glen 介绍了一些他认为可能对网页抓取有用的开源工具。 

事实上,演讲的大部分内容都围绕着无头与有头的两难选择展开。演讲者分享了一些有用的浏览器自动化资源,但他似乎更喜欢通过逆向工程和扭曲代理等非常规工具来实现无浏览器的方法。 

有时,这些谈话听起来像是某个在该行业工作了太久的人的沉思。但我们建议你看一下这个,如果你是专业人士,可能更建议你看一下,因为它远离了千篇一律的路线。

oxycon 2023 讨论 4
如果您想在网络抓取方面取得成功,还有很多东西需要学习。

小组讨论 1:网络抓取、人工智能和不断变化的法律环境

四位律师进入一个(虚拟)房间听起来像是一个好笑话的开头。但在这种情况下,它引发了一场关于网络抓取法律方面的有趣讨论。小组成员包括来自 Oxylabs、Farella Braun + Martel 的 Alex Reese、McCarthy Law Group 的 Kieran McCarthy 和昆鹰纽约律师事务所的 Hope Skibitsky。 

Hope 首先讲述了臭名昭著的 HiQ 诉 LinkedIn 案,该案结束了基于 CFAA 的诉讼,并将在线合同变成了主战场。与会者讨论了何时数据不再被视为公开,以及服务条款实际上可以达到什么程度(抓取暴露的端点是否合法?如果您的高管有社交媒体账户,您可以抓取 Twitter 吗?)。 

最后,他们谈到了人工智能模型的版权问题以及相关案例。如果你从事网页抓取业务,那么这个视频是必看的。

oxycon 2023 讨论 5
五分之四的律师推荐此小组讨论。

演讲 5:使用异步 Python 和 AWS 加速按需数据服务。

在一年前的 Zyte 会议上,乌克兰人 Alexander Lebedev (Hotjar) 谈到了从防空洞绘制空中警报地图!我们很高兴看到,自那时起,他的情况或多或少已经恢复正常。 

这次,Alexander 给出了如何创建可扩展数据提取服务的建议——更准确地说,按需每分钟抓取数万个页面。演讲涵盖了 AWS Fargate 的优势、Web 抓取器架构的最佳选择、高效的代理使用、最佳请求批处理等。Alex 提供了大量示例,使其成为会议上最实用的演讲之一。强烈推荐。

oxycon 2023 讨论 6
1 和 2 是业余数字。亚历山大在说大话!

演讲 6:从视频数据中获取见解:挑战和解决方案

Allen O'Neill 是 OxyCon 的长期参与者,他通过视频数据提取的机会激发了观众的兴趣。由于主题比较小众,该演示在今天具有有限的实际意义。但我们仍然喜欢观看它,即使只是为了它的期望价值。 

Allen 谈到了中国的直播购物活动、Z 世代以及到 2.5 年视频商务将创造的 2028 万亿美元收入。要点是——视频很重要!同时,如果超越元数据,这将是一个难题:中层影响者可以生成 162 亿张图片和 63 天的音频供分析。Allen 的 SocialVoice 团队成功了,他分享了一些经验技巧。

oxycon 2023 讨论 7
视频内容可以承载极其丰富的信息。

小组讨论 2:2023 年及以后的网络抓取

第二个小组聚集了四位业务负责人——Ali Chaudhry(Veracious AI)、Sash Sarangi(EMAlpha)、Neil Emeigh(Rayobyte) 和 David Cohen (Datasembly) 共同探讨数据提取的未来趋势。会议由 Juras Jursenas 主持,他是 Oxylabs. 

演讲者探讨了多个主题,主要集中在大型语言模型和日益增加的网络爬虫难度上。我们不会在这里介绍所有细节;但例如,Sash 谈到了 LLM 在同质化数据方面的价值,而 Neil 则披露了亚马逊最近对数据中心 IP 实施的影子禁令。 

如果您想跟上行业趋势,您会发现本次讨论很有价值 - 特别是如果您正在寻找涉及人工智能的商业创意。

oxycon 2023 讨论 8
在上一次小组讨论中,人工智能成为了焦点。

结语

这就是 2023 年的 OxyCon。如果任何演讲引起了你的注意,请继续观看活动网页上的视频。总而言之,我们很享受这次会议。现在,我们将等待今年的第二场重大活动—— Zyte 萃取峰会!