我们使用联盟链接。它们让我们能够维持运营,而您无需承担任何费用。

网络爬行与网络抓取 – 它们有何区别?

了解网络爬行和网络抓取之间的区别。

网页爬取与网页抓取缩略图

您可能多次遇到过网络爬取和网络抓取这两个术语。它们的用法非常相似,有时甚至可以互换。但它们的意思并不相同。本指南将向您解释网络爬取和网络抓取之间的确切区别。 

什么是网络爬行?

如果互联网被称为网络,那么网络爬虫是做什么的呢?没错!也称为蜘蛛, 网络爬虫会浏览网站。 在这一过程中,他们会记录下遇到的一切:网站的结构、内容以及与网络上其他网站的关系。整个过程就是网络爬虫。 

最大的网络爬虫是搜索引擎,尤其是谷歌。它们的工作是不断爬取它们能找到的所有网站,并对结果进行大规模索引。然后,搜索引擎会根据它们的发现应用某些算法,例如,有多少其他页面链接到您的网站,并据此对网站进行排名。 

但它不一定非得是搜索引擎。您可以自己构建网络爬虫,也可以使用 Screaming Frog 等专门的工具来抓取网站。我们很快就会发现,网络爬虫在网络抓取过程中起着重要作用。 

什么是网页抓取?

无需赘述, 网络抓取涉及从网站提取数据。 这些信息可以是任何内容,从电子商务网站上的笔记本电脑价格到在线黄页中的电话号码,再到电影数据库中的电影及其主要演员列表。 

您可以在我们全面的爬取指南中了解有关爬取、其工作原理和主要爬取工具的更多信息 网络抓取指南。

网页爬取与网页抓取

那么,网络爬行和网络抓取有什么区别?

网络爬行的挑剔程度没那么高。 它会浏览网站并查找任何能找到的信息:从 URL 结构开始,到内容结束。换句话说,网络爬虫的工作就是索引或编目数据。 

另一方面, 网页抓取更加集中。如果您正在寻找竞争对手的定价信息,则无需抓取隐私政策或“关于我们”页面。您甚至不需要完整的产品页面——产品名称、型号和定价数据可能就足够了。 

在 Web 数据提取过程中

爬取和抓取不是一回事,但它们确实密不可分。如果你想从多个页面抓取数据,你必须浏览网站的 URL。为此,你需要为抓取工具配备抓取逻辑。此时,你不再清楚自己是在处理抓取工具还是爬虫,因此两者的用途可以互换。 

因此,要回答这两者之间的关系: 网络爬虫将你的爬虫送到正确的位置,以便它能够完成工作

在公众认知中

这是技术层面的问题。当我们研究如何抓取和爬取数据时, 感知,差异变得更加明显。

由于它们与搜索引擎的关联, 网络爬虫有着比较好的声誉。 它们尊重网站的 robots.txt 文件(告诉爬虫程序可以在网站上做什么的文档),不会给服务器带来负担,总体来说是友好的小机器人。

然而,网络抓取却带有负面声誉。 爬虫程序会忽略 robots.txt,收集非法信息,并通过不计后果地发出过多请求来使网站瘫痪。它们不会  – 但通常不会。但无论何时进行比较,通常都会将网络抓取视为坏种子。 

代理服务器作为房屋

关于网页爬取与网页抓取的常见问题

网络爬虫主要用于搜索引擎索引互联网上的网站及其网页。它也用于网页抓取,引导网页抓取工具从一个页面抓取到另一个页面。

在实际使用中 – 是的。但是,网页抓取和数据抓取并不相同。后者不仅包括网站,还包括其他数据,例如 .pdf 文档。

可以,但不必。例如,没有人将 Google Bot 称为网络抓取工具,尽管它确实会抓取访问的每个页面。但是,当您构建抓取逻辑以从多个网页中提取特定数据时,网络抓取就成为网络抓取过程的一部分。

Adam Dubois 的图片
亚当·杜波依斯
代理极客和开发人员。