百度蜘蛛日常工作习惯浅析
回顾:搜索引擎用来抓取和访问页面的程序叫做蜘蛛,也称为机器人。搜索引擎蜘蛛访问与普通用户使用的浏览器相似的网页。通过搜索引擎抓取和访问的页面被称为蜘蛛程序使用,也被称为僵尸。搜索引擎蜘蛛访问的网页是类似于普通用户使用的浏览器,蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序和存储接收到的原始代码网页的数据库,搜索引擎使用多个蜘蛛抓取为了提高爬行和抓取速度。
1。robots.txt文件
当蜘蛛访问任何网站,它将访问在网站根目录的robots.txt文件,如果robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止的网址。
与浏览器一样,搜索引擎蜘蛛也有表示其身份的代理名称。网站管理员可以在日志文件中看到搜索引擎的特定代理名称,以便识别搜索引擎的蜘蛛。
两。跟踪链接
为了抓取尽可能多的页面,搜索引擎蜘蛛会跟踪页面上的链接,从一页爬到下一页,就像蜘蛛在蜘蛛网上爬行一样。这就是搜索引擎蜘蛛的起源。
整个互联网是由相互连接的网站和页面组成的,理论上,蜘蛛可以从任何网页爬行到所有网页,并按照链接。当然,由于网站和页面链接结构非常复杂,蜘蛛需要采取一定的抓取策略遍历所有的网页。
最简单的爬行遍历策略分为两类,一类是深度优先策略,另一类是广度优先策略。
所谓深度优先是指蜘蛛沿着爬行爬行找到的链接,直到没有其他链接之前,再回到第一页并沿着其他链接爬行。
蜘蛛跟踪链接,从网页抓取Al、A2、A3、A4及A4页面,没有其他环节追溯到一个网页,爬到B1,B2,B3,B4在页面上的其他链接。在深度优先策略,蜘蛛爬到了无法前进之前他回到其他线。
广度优先意味着当蜘蛛在一个页面上找到多个链接时,它们不会沿着一个链接移动,而是爬上页面上的第一个链接,然后沿着第二层页面上的链接爬到第三层页面。
有一个蜘蛛抓取下来的网页链接从Al、B1、C1页,一页直到所有的链接爬行,然后从A1页找到下一层的链接,爬行到A2,A3,A4,在理论上,无论是深度还是广度优先,只要蜘蛛足够的时间,可以爬上一个完整的网络。在实际工作中,蜘蛛的带宽资源,时间不是无限的。爬上所有的页面是不可能的。事实上,最大的搜索引擎仅仅是互联网的抓取和收集的一小部分。