网络爬虫的工作原理(二)

Web网络爬虫一般会选择一些比较重要的、出度(网页中链出超链接数)较大的网站的URL作为种子URL集合。

网络爬虫以这些种子集合作为初始URL,开始数据抓取。因为网页中含有链接信息,通过已有网页的 URL会得到一些新的 URL,可以把网页之间的指向结构视为一个森林,每个种子URL对应的网页是森林中的一棵树的根节点。

这样,Web网络爬虫可以根据广度优先算法或者深度优先算法遍历所有的网页。由于深度优先搜索算法可能会使爬虫系统陷入一个网站内部,不利于搜索比较靠近网站首页的网页信息,因此一般采用广度优先搜索算法采集网页。

Web网络爬虫首先将种子URL放入下载队列,简单地从队首取出一个URL下载其对应的网页。得到网页的内容将其存储后,再经过解析网页中的链接信息可以得到一些新的URL,将这些URL加入下载队列。然后再取出一个URL,对其对应的网页进行下载,然后再解析,如此反复进行,直到遍历了整个网络或者满足某种条件后才会停止下来。

9180a5caa520b697dbe83081a7fb6657.jpg