OxyCon 2023:回顾
- 出版日期:
关于今年 OxyCon 的一般信息
喜欢 前一年,OxyCon 以线上形式举行,外部演讲者远程演讲。提供联系信息后,您可以通过专用网页访问视频流。 Oxylabs 通过电子邮件发送登录代码,然后您就可以进入了。
总共有六场个人演讲、两场小组讨论和 15 位演讲者。活动没有休息,因此要听完所有演讲是一项相当大的挑战。每次演讲结束时,观众都可以通过 Slido 提问,还有一个 Discord 频道供讨论(与前一年的 Slack 不同)。
总的来说,会议进行得很顺利,没有出现较大的中断或连接困难。凭借四年的经验, Oxylabs 对如何运行虚拟事件有很好的掌握。
会谈
以下是今年的 OxyCon 演讲和小组讨论。感觉很幸运?单击标题即可跳转至:
讲座 1:克服大规模网络爬取中的障碍
讲座 2:网络犯罪足迹消除:应对策略
讲座 3:利用机器学习进行网页抓取
演讲四:大规模提取高质量数据的开源技术
小组讨论 1:网络抓取、人工智能和不断变化的法律环境
四位律师进入一个(虚拟)房间听起来像是一个好笑话的开头。但在这种情况下,它引发了一场关于网络抓取法律方面的有趣讨论。小组成员包括来自 Oxylabs、Farella Braun + Martel 的 Alex Reese、McCarthy Law Group 的 Kieran McCarthy 和昆鹰纽约律师事务所的 Hope Skibitsky。
Hope 首先讲述了臭名昭著的 HiQ 诉 LinkedIn 案,该案结束了基于 CFAA 的诉讼,并将在线合同变成了主战场。与会者讨论了何时数据不再被视为公开,以及服务条款实际上可以达到什么程度(抓取暴露的端点是否合法?如果您的高管有社交媒体账户,您可以抓取 Twitter 吗?)。
最后,他们谈到了人工智能模型的版权问题以及相关案例。如果你从事网页抓取业务,那么这个视频是必看的。
演讲 5:使用异步 Python 和 AWS 加速按需数据服务。
演讲 6:从视频数据中获取见解:挑战和解决方案
小组讨论 2:2023 年及以后的网络抓取
第二个小组聚集了四位业务负责人——Ali Chaudhry(Veracious AI)、Sash Sarangi(EMAlpha)、Neil Emeigh(Rayobyte) 和 David Cohen (Datasembly) 共同探讨数据提取的未来趋势。会议由 Juras Jursenas 主持,他是 Oxylabs.
演讲者探讨了多个主题,主要集中在大型语言模型和日益增加的网络爬虫难度上。我们不会在这里介绍所有细节;但例如,Sash 谈到了 LLM 在同质化数据方面的价值,而 Neil 则披露了亚马逊最近对数据中心 IP 实施的影子禁令。
如果您想跟上行业趋势,您会发现本次讨论很有价值 - 特别是如果您正在寻找涉及人工智能的商业创意。
结语
这就是 2023 年的 OxyCon。如果任何演讲引起了你的注意,请继续观看活动网页上的视频。总而言之,我们很享受这次会议。现在,我们将等待今年的第二场重大活动—— Zyte 萃取峰会!