我们使用联盟链接。它们让我们能够维持运营,而您无需承担任何费用。

OxyCon 第一天回顾

我们正在进行网络抓取活动的第二天。
亚当·杜波依斯
OxyCon 的第二天很快就过去了 第1天。这次会议再次以六场演讲为特色,主题涉及一系列与数据收集相关的主题。演讲者谈到了爬虫监控方法、避免检测的方法,还有趣地介绍了机器学习及其在数据收集中的用途。本文简要概述了这些演讲,并附上了我们的印象。 Oxylabs 已提供视频点播,因此这是一个很好的机会来看看它们是否值得你花时间。

讲座 1:利用网页抓取进行文本机器学习的速成课程

Dataworks 首席技术官 Allen O'Neill 对机器学习进行了精彩的介绍。Allen 的演讲听起来就像是大学讲座,这很适合博士生。演讲并没有过多地涉及技术,而是侧重于业务方面。

艾伦的演讲有几个要点。首先,机器学习并不是什么魔法。但它可以预测我们可能看不到的模式。 

第二点是,数据提取不同于信息提取。后者更有价值。他认为信息提取是为数据提供上下文,例如在字符串“Intel i9”中识别出 英特尔 指的是品牌和 i9 到处理器模型。ML 模型可以帮助将数据转化为有价值的信息。 

艾伦介绍了一系列机器学习技术:命名实体识别、为单词分配似然值(狗是人类的可能性有多大)以及创建邻近图等。他强调,单独使用这些技术效果并不大,但你可以将它们结合起来实现非常酷的事情:消除分类中的歧义(1080p 和 1920×1080 是否相同?)、丰富产品数据、挖掘评论以发现问题等等。

如果您已经在进行机器学习,那么这个演示可能不会让您大吃一惊。但如果您还没有,它会令人信服地概述您可以实现的目标以及可以使用哪些工具来实现这一目标。

oxycon 第 2 天演讲 1
通过结合机器学习技术,您可以实现出色的目标。

讲座 2:数据抓取和创意算法如何催生出令人兴奋的产品

另一个演讲与技术无关,但听起来很有趣。演讲者 Karsten Madsen 运营着一款名为 Morningscore 的搜索引擎优化工具。他提供了一个案例研究,说明如何通过专注于引人注目的数据呈现方式,在艰难的市场中竞争。 

当 Karsten 进入 SEO 领域时,他发现了 200 多个竞争对手。其中一些公司,如 Ahrefs,拥有大量服务器和令人印象深刻的内部基础设施。Karsten 并没有像大多数理智的人一样逃避,而是做了两件事:

  1. 他将所有数据收集工作外包给多家供应商。Morningscore 的代码会查看所有多个来源,进行比较并优化数据。这样他们就可以根据需要轻松更换供应商,每月运行成本约为 20 万美元。 
  2. 他专注于用户体验。一种方法是通过建议优化“任务”并奖励经验值来使工具游戏化。第二种方法是构建一个不同且更透明的链接评分算法。他给出的第三个例子是可以立即响应网站变化的健康评分。


因此,简而言之,Morningscore 牺牲了数据数量和全面性,以求实现更加个性化的方法。这种方法基于即时反馈(可能通过根据请求抓取 SERP)以及通过游戏化和上下文明确方向。我们不确定这种方法从长远来看效果如何,但 Karsten 的演讲表明,即使在艰难的条件下,一些创造力也可以占据一席之地。 

Oxycon 的一位演讲者在题为“我们如何有机会?不拥有数据抓取和创造力”的演讲中说道
这两个因素使得晨星能够与规模更大的公司竞争。

演讲 3:可观察性和网络爬虫:填补未知空白

古怪、夸张,而且……有趣?我不确定是否有人曾用这些词来描述伐木演讲。但话又说回来,我也不确定有多少人以古希腊语格言开头。所以我们就在这里。

主持人 Martynas Saulius 来自 Oxylabs,对观察网络抓取基础设施进行了全面介绍。他区分了可观察性的三要素——日志、跟踪和指标,并描述了每个要素及其实现。 

演讲中还提供了构建您自己的日志记录基础设施的示例和技巧。 OxylabsMartynas 使用 ELK 堆栈来处理和可视化数据输出。至于良好的警报指标,他指出了 RED 方法,它代表速率、错误和持续时间。 

在演讲的最后,有一个关于警报疲劳的好问题,随着规模的扩大,警报疲劳可能会成为一个问题。演讲者的建议是从简单开始,只提醒重要的事情。

Oxycon 的一位演讲者在演讲
这并不是开始有关伐木的演示的有力方式。

讲座 4:常见网页抓取技术的实际应用

这不是演讲,而是演示。另一位来自 OxylabsEivydas Vilčinskas 给出了九条提高网页抓取成功率的秘诀。这些秘诀可能不会给经验丰富的专业人士留下深刻印象,但对许多初学者和中级网页抓取者来说可能会有所帮助。 

有些技巧非常基本:例如,使用代理或更改 用户代理 标头。其他方法则不那么明显,例如在无头浏览器中准备会话,然后使用 HTTP 客户端重用参数。或者更喜欢使用 API 而不是 HTML 代码。但综合起来,它们构成了一套出色的数据收集最佳实践。

幻灯片很少——Eivydas 使用浏览器和 IDE 演示了这些技巧。代码示例可在线获取;因此,如果您是新手或对这些技巧缺乏经验,那么这是一个亲自尝试的好机会。

一些更有趣的趣闻:

  • 一个无头请求相当于 800 卷曲 请求。
  • 您使用的 HTTP 客户端很重要 – 它们的工作方式不同,并且具有不同的 TLS 参数。 
  • 如果网站没有将标头链接到 IP,您通常可以使用不同的代理重复使用相同的会话参数。 
Oxycon 的一位演讲者在演讲
演示文稿中涵盖的九种技术。

演讲 5:数据收集:编排、可观察性和自省

保罗·摩根 (Paul Morgan) 的演讲,他是 Datasembly 的技术团队负责人,该公司负责跟踪本地定价和产品数据。与第一天的格伦一样,保罗每天发出多达 1 亿个请求。这是一场关于管理、监控网络抓取工具以及适应抓取过程中发生的变化的相对高级的演讲。 

在编排方面,三大挑战是管理资源、调度运行和确定作业大小。Paul 认为,最好将工作负载分配给多个代理提供商以处理故障。您应该有守门人来启动作业,并有收割者来终止缓慢的作业。在运行细粒度作业和批量作业之间也存在两难选择:前者更容易确定优先级和重新启动,但会产生更多开销。 

可观察性部分包括日志记录和监控。拒绝率是一个很好的指标,但它们还可以包括重定向次数、基于历史平均值的速度等。Paul 建议使用 Prometheus 和 Grafana 进行监控。 

关于自省的部分特别有趣。Paul 强调了快速检测和终止失败作业的重要性;否则,他们注意到它可能会“污染”其他运行。他还养成了在运行中期改进设置的习惯(标题、指纹等),因此最高的成功率通常在运行结束时。 

观众提出了一些关于避免阻止、模拟 TLS 指纹和有问题的反机器人系统的好问题。演讲和给出的答案都是基于丰富的经验,所以我们建议你观看一下。 

Paul 是 Oxycon 的演讲者,正在演讲
保罗表示,如果你的网络爬虫出现故障,那么尽快采取行动非常重要。

演讲 6:数据收集:编排、可观察性和自省

当天的最后一个演讲者是 Sequentum 首席执行官 Sarah McKenna。该公司运营着一个企业级平台,用于自动化数据管道。Sarah 承诺涵盖构建强大且合法的数据收集基础设施所需的所有方面,通常是从她自己的低代码工具的角度出发。  

尽管提供了有关如何开展大规模运营的有用信息,但我们并不喜欢这次演讲。首先,它必须涵盖非常高层次的内容。其次,重复的内容很多。第三,尽管演讲持续了 40 分钟,但只有八张幻灯片,因此有时感觉有点吃力。 

话虽如此,但您可能会发现其中的更多价值。我们建议您浏览幻灯片以判断其相关性。它们包含大量信息,并且很少更改,因此这应该不难。 

Oxycon 的一位演讲者在演讲
莎拉对大规模网络抓取操作的要求。

结语

这就是今年的 OxyCon!这是一场精彩而又激烈的活动,我们期待明年的 OxyCon。