搜索引擎的兩種基本抓取策略

發(fā)布時(shí)間: 2012/9/11 11:18:12

大家好，這里是雅安seo優(yōu)化博客。今天我們來(lái)說(shuō)說(shuō)搜索引擎的收錄過(guò)程中所采取的收錄抓取策略。

　　蜘蛛在完成對(duì)robots.txt文件的訪(fǎng)問(wèn)之后便會(huì)開(kāi)始對(duì)所進(jìn)入的頁(yè)面進(jìn)行判斷是否符合收錄標(biāo)準(zhǔn)，如果符合，那么提取其內(nèi)容和鏈接。這個(gè)頁(yè)面抓取完成之后，還沒(méi)完，蜘蛛還會(huì)順著所提取的鏈接探索下去，從這個(gè)鏈接爬到下一個(gè)頁(yè)面，又從下一個(gè)頁(yè)面上的鏈接爬到再下一個(gè)頁(yè)面......

　　由于互聯(lián)網(wǎng)上的頁(yè)面鏈接結(jié)構(gòu)異常復(fù)雜，蜘蛛需要采用一定的策略才能爬行到網(wǎng)上的所有頁(yè)面。最簡(jiǎn)單的搜索引擎抓取策略有兩種：

　　1、深度優(yōu)先策略

　　如上圖，簡(jiǎn)單點(diǎn)來(lái)說(shuō)就是沿著一條路線(xiàn)垂直深入的爬行下去，直到完成任務(wù)。

　　2、廣度優(yōu)先策略

　　如上圖，簡(jiǎn)單說(shuō)就是先把指定的一個(gè)頁(yè)面上的所有鏈接爬行一遍，然后再?gòu)拿織l鏈接深入同樣平行地進(jìn)行爬行。

　　在實(shí)際中，這兩種策略是同時(shí)發(fā)生的，理論上只要給予足夠的時(shí)間，搜索引擎蜘蛛就可以爬完所有的頁(yè)面。但是蜘蛛的帶寬資源、時(shí)間并不是無(wú)限的，所以蜘蛛只能爬行一定的時(shí)間，權(quán)重越高的網(wǎng)站自然爬行的時(shí)間越長(zhǎng)。

　　搜索蜘蛛的目的就是探索到有價(jià)值的頁(yè)面并收錄，這就是為什么權(quán)重高的站爬行時(shí)間長(zhǎng)，抓取度深的原因。所以我們建議新站的網(wǎng)站鏈接層次不要過(guò)深，免得蜘蛛在短時(shí)間內(nèi)爬行不到。

在收索引擎蜘蛛爬行完畢之后，便會(huì)把搜集到的網(wǎng)頁(yè)數(shù)據(jù)交給數(shù)據(jù)分析系統(tǒng)，整個(gè)收錄過(guò)程便結(jié)束了。好了，今天的seo基礎(chǔ)就到這里。
本文出自：億恩科技【xuefeilisp.com】

服務(wù)器租用/服務(wù)器托管中國(guó)五強(qiáng)！虛擬主機(jī)域名注冊(cè)頂級(jí)提供商！15年品質(zhì)保障！--億恩科技[ENKJ.COM]