蜘蛛統(tǒng)計(jì)

——

打印本文             

網(wǎng)絡(luò)蜘蛛也稱搜索引擎蜘蛛,英文單詞是Web Spider,如果把互聯(lián)網(wǎng)比喻成一個(gè)蜘蛛網(wǎng),那么Spider就是在網(wǎng)上爬來爬去的蜘蛛,當(dāng)網(wǎng)頁上存在鏈接,蜘蛛就會通過這些鏈接地址尋找網(wǎng)頁,一直循環(huán)直到你的網(wǎng)站所有頁面被抓取完。

搜索引擎要抓取互聯(lián)網(wǎng)上的所有網(wǎng)頁是不大可能的,一方面原因是抓取技術(shù)上的瓶頸,另一方面是存儲技術(shù)和處理技術(shù)的問題,所以蜘蛛一般只抓取比較重要的網(wǎng)頁,而評價(jià)網(wǎng)頁重要性主要是依據(jù)網(wǎng)頁的鏈接深度。通常網(wǎng)絡(luò)蜘蛛在抓取網(wǎng)頁的時(shí)候會發(fā)送一個(gè)請求,這個(gè)請求中就有一個(gè)字段為User -agent,用于標(biāo)識網(wǎng)絡(luò)蜘蛛的身份,例如Google網(wǎng)絡(luò)蜘蛛的標(biāo)識為GoogleBot,Baidu網(wǎng)絡(luò)蜘蛛的標(biāo)識為BaiDuSpider,Yahoo網(wǎng)絡(luò)蜘蛛的標(biāo)識為Inktomi Slurp,在網(wǎng)站上的訪問日志記錄可以看出哪些搜索引擎的網(wǎng)絡(luò)蜘蛛來過,及讀了多少數(shù)據(jù)等。


上一篇
下一篇添加內(nèi)容鏈接