我们使用联盟链接。它们让我们能够维持运营,而您无需承担任何费用。

OxyCon 2024:回顾

我们的印象 Oxylabs'第五届年度网络抓取会议。 

亚当·杜波依斯
oxycon 2024 横幅

OxyCon 周年纪念版已经过去。如果您没有机会参加,或者只是想阅读我们的详细总结,以下是 Proxyway 对此次活动的印象。演讲内容如下 按需提供,这样您就可以随时观看那些吸引您眼球的节目。 

2024 年 OxyCon 的一般信息

喜欢 去年 (据我所知,之前大多数年份都是如此),OxyCon 都是在线举行的。不过,有一个很大的变化:所有演讲都是实时进行的。背景中还有现场观众,我猜主要是公司员工,他们有时会做出反应或欢呼。 

有些演讲者显然有些紧张,确实出现了一些小问题。但这种安排让发布会更加人性化,不像苹果的诡异机械主题演讲。 

除此之外,与之前的版本相比,流程变化不大:注册(免费),收到邀请邮件,然后登录 Oxylabs'平台,内嵌视频播放器和 Slido 小部件用于提问。那些想要进行更多或更深入讨论的人可以访问提供商的 Discord 服务器。

除了介绍之外,2024 年的 OxyCon 还举办了六场演讲和一场小组讨论作为结束。总而言之,活动进展顺利,符合计划。 

会谈

这些是 2024 年的演讲和小组讨论。您可以使用下面的快速链接跳转到您感兴趣的演讲。

  1. 简介:网页抓取趋势
  2. 确保数据收集的可扩展性:关键要素、挑战和进步
  3. 以人为本的精简数据收集方法
  4. 通过鼠标移动模拟真实用户行为
  5. 利用 Gen AI 获取数据驱动的答案
  6. 人工智能大规模公共网络数据收集
  7. 人工智能时代的法律合规
  8. 小组讨论:高级解锁策略

简介:网页抓取趋势

快点。Gabriele Montvile,CCO Oxylabs概述了影响网络数据收集的三大趋势。这些趋势在业内人士中广为人知,因此为您剧透一下也无妨:人工智能、道德和先进的反机器人。有趣的部分是支持材料,其中包括调查数据、人工智能用例和挑战。十分钟花得很值。

oxycon 介绍性演讲
当今网络数据收集的三大趋势。

演讲一:确保数据收集的可扩展性:关键要素、挑战和进步

Zydrunas Tamasauskas,另一位 C 级面孔 Oxylabs,谈到了网络抓取管道、代理服务器的实施策略、无头抓取等等。标题没有说明清楚,但这个演示主要讲的是代理。您将学习如何选择合适的类型并实施几种负载平衡方法。一些要点:桌面住宅 IP 是最好的,管理代理和无头浏览器之间的会话本身就是地狱。 

总而言之,这是一次有用的演讲。我们也被提及了,所以你当然必须现在就看!

第一次谈论oxycon
我们选择这张幻灯片没有什么特别的原因。确实如此。

演讲 2:以人为本的精简数据收集方法

立陶宛房地产情报网站 CityNow 的 Vilius Visockas 披露了(让我们稍微夸张一下)他如何能够仅凭 3-4 人的小团队就搜集到近一千个本地消息来源。在资本主义和工程学的奇妙协同作用下,Vilius 选择了唯一合理的方法:他建立了一个管道管理平台,实施了一些故障保险,并聘请了编程学校的毕业生来挖掘经验并赚取一些现金。 

Vilius 谈到了保持系统正常运行的挑战。除其他事项外,这涉及维护和优化架构,以及确保来自不同背景且通常编程经验很少的贡献者提供令人满意的结果。但对我来说,真正的美妙之处在于这个想法本身以及它提供的自利社会价值。

第二次关于氧合剂的谈话
这是 免费 可负担得起的房地产。

演讲三:通过鼠标移动模拟真实用户行为

这是一场实实在在的演示,根据反馈,至少让观众看了好几天。Tadas Gedgaudas 来自 Oxylabs 分享了他处理基于鼠标的检测方法的诀窍。 

演讲者在第一部分中致力于确定网站是否真的跟踪鼠标移动。(来自野外的例子以及他自己为解锁一个网站而进行的长达数周的追逐证明了网站确实会跟踪鼠标移动。)然后,他展示了如何使用浏览器的开发工具来验证这一点,并讨论了三种主要鼠标算法的优缺点:贝塞尔、高斯和 Perlin。最后,Tadas 介绍了一个由 Oxylabs 用几行代码就可以实现任何算法。  

我最大的抱怨是,由于时间限制,我们都陷入了困惑:为什么要使用 Perlin 以外的其他语言?但这个问题可能在 Discord 上得到了解答……

第三次谈论氧
这个 Python 库实际上是开源的。

演讲 4:利用通用人工智能获得数据驱动的答案

做好准备——我们即将进入 AI 区域。当 Paul Felby (Adthena) 开始演示聊天机器人时,我的第一个想法是,“哦,不!......”。但事实证明,谈话的内容比表面上看到的要多:特别是,如何确保答案准确,并且在使用每天吸收数亿个 SERP 的数据库时不会让 LLM 崩溃。

Paul 有多种技巧。其中一些技巧是让 LLM 生成正确的查询,要么直接使用 SQL,要么通过添加语义层。其他技巧是创建一个代理团队,每个代理执行自己的任务 - 甚至是 QA。AI 层层叠加,它们以某种方式协同工作。结果:一个聊天机器人,但并不完全符合我们的预期。现在每个人都在研究 AI,所以我相信你会从中找到一些值得借鉴的东西。

第四讲 oxycon
Adthena 聊天机器人背后精心设计的多代理后端。

演讲 5:人工智能驱动的大规模公共网络数据收集

今天的广告时间。Aleksandras Sulzenko 来自 Oxylabs 阐述了网络数据采集流程,然后讨论了每个步骤的挑战以及如何 Oxylabs' 工具可以减少伤害。差不多就是这样了,但 Aleksandras 还发布了一个产品公告:Web 抓取 API 将获得名为 Copilot 的 AI 功能(多么新颖啊)。 

好吧,这是可以操作的。而且实现确实令人着迷:该功能根据自然语言指令生成 API 查询。真正的实用性在于,Copilot 还可以创建自定义解析器,具有可修改的架构和可视化界面,便于微调。许多竞争对手使用 AI 直接与页面交互,因此这种方法非常实用,尽管手动程度更高,对变化的适应性较差。

简而言之,如果您对数据抓取工具有兴趣,或者您正在尝试创建自己的竞争服务,那么请注意讨论。

第五讲 氧合剂
Oxylabs“真正的 AI 解析器(或者更确切地说是仪表板)。

讲座六:人工智能时代的法律合规

Nerijus Sveistys,高级法律顾问 Oxylabs,介绍了与人工智能相关的风险、法规和相关诉讼。它更像是一个概述,而不是直接适用的指南。对不起,人工智能初创公司创始人——你仍然需要聘请律师。 

由于没有密切关注法律环境,我了解到欧盟已经有了监管框架,中国针对特定问题制定了法律,而美国目前缺乏统一的方法。我还看到有多少诉讼正在进行,主要是关于版权问题。我最喜欢的例子是侵入浴室的 Roomba 监控系统。总的来说,这是一次不错的演讲。

第六讲 氧合剂
谨防 Roombas 侵入浴室。

小组讨论。高级解锁策略

讨论嘉宾包括 Dataimpact 的 Hocine Amrane、 Oxylabs、Ceartas 的 Jonny Smyth、Lighthouse Intelligence 的 Brecht Stamper 和 Wiser Solutions 的 Carl Erkof。主持人是 Juras Jursenas,他是 Oxylabs. 人山人海。

这花了 40 多分钟,所以我不确定我是否能把所有的事情都讲出来。我建议你去看看讨论——这是值得的。以下是我的一些笔记,供您参考:

  • 参与者最大的担忧之一是反机器人软件的商业化。专业工具更加强大,这些公司拥有大量的营销人员。
  • 我们终于开始看到 Canvas 指纹识别等检测方法投入使用。还有更多技术等待利用,例如本地存储。
  • 反机器人研究和大部分解锁工作仍然是手动完成的,成功依赖于人为错误(令人惊讶的是,这种错误非常频繁)。 
  • 要想在这场游戏中获得成功,你需要有耐心,并且愿意用头撞墙,直到墙塌下来。


迷人的东西。

讨论嘉宾
讨论嘉宾在台上。

结语

这就是今年的 OxyCon。你发现什么有趣的东西了吗?视频可按需观看。现在,我们将等待即将到来的另一场重大行业活动——Zyte 萃取峰会。