我们使用联盟链接。它们让我们能够维持运营,而您无需承担任何费用。

OxyCon 2025:回顾

我们的虚拟印象来自 Oxylabs'第六届网络抓取年度会议。

亚当·杜波依斯
oxycon 2025 主要
OxyCon 是我们领域内两大会议之一,转眼间就过去了。如果你没能参加,别担心——我们全程观看了会议,并在这里记录了我们的感受。 Oxylabs 将按需提供会谈,这样您就可以在收听之前快速熟悉它们。

您会发现我们对早期 OxyCons 和其他主要行业事件的报道 开始.

组织事项

Oxylabs 会议坚持其经过验证的模式,仅以线上形式举行。任何人都可以免费参加,只要提前注册即可。活动当天,组织者会发送一封包含链接和代码的电子邮件。点击链接后,会进入一个大厅,其中包含视频流、用于提问的 Slido 小部件以及议程——非常标准的流程。

oxycon 2025平台
在线观众的平台。

作为一家欧洲公司, Oxylabs 主要面向这片大陆,尤其是不列颠群岛。节目安排以英国夏令时(BST)为参考时区,播出时间介于中午12点至下午5点30分之间。东海岸的美国人实际上可以观看,但对于西海岸的观众来说太早,而对于亚洲大部分地区来说则太晚。 

我们总是觉得这很奇妙,2025年也不例外:尽管主办方选择了线上观赛,但仍然保留了场地、主持人和现场观众。我们从未见过现场观众,但能听到他们的欢呼和掌声。我们推测这些大多是 Oxylabs' 雇员。 

为了让出席者更加兴奋, Oxylabs 在Discord上举办了几次有奖问答活动。服务器还设有会议聊天室,演讲者可以在这里解答由于时间限制而未能在台上发言的问题。相信我们——这非常必要,因为每次演讲都会引发大量问题。 

总而言之,活动进行得很顺利,显然组织者已经将这种形式做得相当完美。我们唯一注意到的是,它很短——包括所有演讲、小组讨论和休息时间,OxyCon 总共只用了五个半小时。

主题

毫不意外:本篇故事的主角是大型语言模型。我们看到了各种形态和规模的大型语言模型:解析助手、代理和代码生成器。Zia Ahmad 带来了理论讲解,来自 The Web Scraping Club 的著名 Pierluigi 分享了一些实际应用,而团队 Oxylabs 在他们的产品中展示了人工智能。 

我们确信,在可预见的未来,这个话题仍将萦绕每个人的心头(或者,如果你还没喝早咖啡的话,这个话题会一直萦绕在每个人心头,直到人工智能泡沫即将破裂,金融体系随之崩溃)。但谁又能责怪他们呢?

我们喜欢 Oxylabs 安排了两场小组讨论。律师们从各自的角度探讨了大型语言模型,引人入胜。第二场小组讨论的是另一个经常被人工智能所掩盖的热门话题——解锁。这两场小组讨论都值得推荐,但我们稍后会在回顾中讨论。 

最后要说的是,OxyCon 的开场演讲不止一场,而是两场。第一场由 Tesonet(NordVPN 背后的公司)的联合首席执行官 Tomas Okmanas 发表。第二场演讲也不超过五分钟,警告了数据把关和垄断的危险。但我们不应该让这成为我们眼中的阴云(火光)。抱歉,我们实在忍不住。

会谈

演讲 1. 从混乱到清晰:大规模数据抓取中的数据结构

Aleksandras Šulženko,产品负责人 Oxylabs的演讲以历史回顾和功能揭晓拉开帷幕。他详细阐述了公司在数据解析方面的所有方法,并最终推出了能够自我修复的人工智能解析器。 

该公司的道路漫长而曲折,历经七个阶段才最终实现目前的实施。他们从专用抓取工具开始,尝试过机器学习模型,甚至接受过手动解析指令,最终最终确定了基于法学硕士 (LLM) 的方法。Aleksandras 详细地讲述了整个过程,并重点介绍了每个阶段的优缺点。 

Apex 方法根据简单的语言提示生成选择器,并带有可选的模式以确保更高的准确性。然而,它的主要突破在于,一旦这些静态解析器出现故障,系统就能自动发现,无需人工干预即可重新生成它们。演示到这里,流程略显混乱(毕竟,你到底该如何演示自愈解析器呢?),但我们仍然认为它值得一看。

oxycon 2025 讨论 1
Aleksandras 展示了解析方法的优缺点 Oxylabs 已经尝试过了。

演讲 2. 扩展电子商务数据提取:从零到每天 10 亿件产品

好例子!自称“规模化”首席技术官的弗雷德·德·维拉米尔(Fred de Villamil)解释了他的公司尼尔森智财(NielsenIQ)如何成功运行超过10,000个精确地理定位的蜘蛛程序,用于数字货架分析。简而言之,弗雷德的团队帮助沃尔玛等品牌了解其门店的线上表现。 

演讲者概述了他面临的三大挑战:覆盖范围、资源管理和反机器人。随后,他介绍了尼尔森构建可扩展流程的策略。该策略包括定制反机器人工具、集中控制中心、强大的监控工具,甚至还设立了一个学院,用于帮助新人加入其50名网络抓取专家团队。 

一些事实:构建一个爬虫程序需要六到八天的时间,而最难攻克的机器人防护系统是 PerimeterX。你还会发现更多类似的信息。

oxycon 2025 讨论 2
弗雷德的雇主正在大规模收集数据。

演讲 3. 使用 Cursor 和 Oxylabs人工智能工作室

又一次产品演示。这次, Oxylabs数据主管 Rytis Ulys 亲自驾驶,展示了公司全新的 AI Studio。它包含用于抓取和爬取网站数据、搜索谷歌以及控制云浏览器的端点——它们专为 AI 初创公司设计,与 Firecrawl 非常相似。 

Rytis 介绍了一个假设场景:他想开一家自行车商店,需要获取竞争情报。他使用 Cursor 以及 AI Studio 的爬虫和浏览器端点创建了一个抓取工具,并在几分钟内从竞争对手的网站上构建了两组产品数据。 

演示是预先录制的,但它展示了演示者希望观众见证的内容:现在无需构建解析器、与阻塞机制斗争,甚至无需了解如何编写代码,就能快速获取数据。AI Studio 的当前版本感觉有点像游乐场,远离了 Oxylabs' 其他服务。但它的实用性是显而易见的,我们相信提供商会找到一种方法将其纳入主要产品线。

oxycon 2025 讨论 3
AI 工作室包括 AI 爬行者, AI 刮刀, AI 地图, AI 搜索...和浏览器代理。

演讲 4. AI-Scraper 循环:机器学习如何改进 Web 抓取(反之亦然)

图灵的数据科学家 Zia Ahman 探索了人工智能(比法学硕士更广泛的意义)和网络抓取如何相互促进,形成良性改进循环。 

演讲首先展示了网络爬虫如何补充机器学习,最终归结为语言模型需要大量数据才能发挥作用。在第二部分,演讲者尝试通过 LLM 接口探索网络爬虫,并取得了不同的成果。随后,他继续探讨数据解析技术,包括计算机视觉、选择器的序列模型以及同时使用多个模型达成共识。 

Zia 是一位经验丰富的教育工作者,他讲授过很多课程,所以我们很乐意学习机器学习技术在数据解析和验证方面的应用。但谈到数据访问,我们发现他的论证有些不足。

oxycon 2025 讨论 4
事实证明,民主甚至在数据解析中也发挥着作用!

小组讨论 1. 网络数据抓取与人工智能:法律接触点与未来发展方向

第一个小组讨论有三名律师(Tegos 律师事务所的 Mindaugas Civilka、Farella Braun + Martel 的 Alex Reese 和 McCarthy 法律集团的 Kieran McCarthy)、一名工程副总裁(Corsearch 的 Chase Richards)和 Denas Grybauskas(也是来自 Oxylabs ——担任主持人。小组成员都曾参与过一些备受瞩目的案件,例如 HiQ 诉 LinkedIn 案,因此本次小组的阵容非常强大。 

讨论涉及诸多话题。例如,我们了解了网络抓取中的主要法律问题、涉及人工智能的立法及其给法律界带来的变化。版权问题引起了广泛关注,并提出了“ 版权优先权小组成员还讨论了如何平衡人工智能公司和世界其他地区的利益。这些努力包括Cloudflare的把关、重新制作robots.txt文件等等。

邀请代表美国和欧洲法律体系的律师参与讨论,真是个绝妙的选择。总而言之,我们强烈推荐观看这场座谈会。

oxycon 2025面板
三位加两位小组成员。

演讲 5. 人工智能如何重塑我作为爬虫开发者和内容创作者的工作流程

最后一位个人演讲嘉宾是来自 DataBoutique 和 The Web Scraping Club 的 Pierluigi Vinciguerra。他分享了法学硕士学位如何帮助他作为内容创作者和网络抓取专家,实现耗时任务的自动化。 

具体来说,Pierluigi 构建了几个辅助工具。其中一个可以自动管理付费新闻通讯用户的访问级别和权限。另一个工具则从 Reddit 和 Hacker News 等来源汇总相关文章,并编制一份摘要阅读清单。之后,Pierluigi 展示了他由法学硕士 (LLM) 协助的爬虫设置,其中包含一份蓝图和详细说明,以确保该模型始终(尽其所能)遵循最佳实践。 

除了实际例子之外,Pierluigi 还分享了一些真知灼见。其中最重要的一点虽然已成为常识,但仍值得重申:语言模型在水平扩展方面非常出色。但最引人注目的是,去年超过 90% 的代码是由 AI 编写的。我们非常享受这场演讲,并推荐给大家。

oxycon 2025 讨论 5
当法学硕士梦见电子羊时,Anthropic 的首席执行官梦见了 Pierluigi。

小组讨论 2. 高级网页抓取:保持畅通的技术

第二组成员包括来自 Oxylabs、来自 Idealista 的 Juan Riaza Montes、来自 Nielsen IQ 的 Hocine Amrane 和前 Tadas GedgaudasOxylabs 离开后创办了 topYappers。本次讨论由 Oxylabs我们可以毫不犹豫地说,这是本次大会上必看的节目之一。 

小组成员首先分享了一年来的变化。当然,最热门的话题是谷歌严厉打击网络爬虫。但总的来说,解锁变得更加困难,现在需要掌握深厚的技术。反机器人解决方案已经成为一门大生意,正如尼尔森的人常说的那样,以前两天就能解锁的,现在可能要花两周时间。 

好的一面是,开源工具领域活跃度很高,它们能够覆盖高达 90% 的用例。关键在于拥有一个可以快速插入并测试工具的系统。然而,大多数人都认为,自己撞墙是没有意义的——从某种程度上来说,更好的选择是外包。 

与之前的专题讨论一样,Cloudflare 是所有人最关心的问题,而且很明显,网络的激励机制正在发生变化。小组成员们分享了他们的其他担忧,例如像 JA4 这样的新指纹识别方法、寻找解锁技术所需的资源不断增加,以及可能需要使用真实设备进行抓取。

讨论中还涉及了许多小问题:例如,DataDome 是否是最难攻克的反机器人程序,或者亚洲电商平台提供的虚假数据是否真的比其他大洲更多。总而言之,尽管存在担忧,但小组成员对未来仍然保持乐观。

oxycon 2025面板
解除对网站的封锁并不是一件开玩笑的事,但也没必要太认真。

底线

这就是2025年的OxyCon。我们学到了很多,希望你也一样!趁着第二届OxyCon还没到来,赶紧去看看演讲吧。 Zyte 萃取峰会.