服務(wù)熱線
153 8323 9821
我們?cè)谧?a class="innerlink" >網(wǎng)站優(yōu)化的時(shí)候,經(jīng)常要通過分析網(wǎng)站日志來(lái)尋找站點(diǎn)的相關(guān)信息。
比如:
1、網(wǎng)站上線時(shí),是否有搜索引擎蜘蛛的痕跡。是否被收錄,有沒有死鏈和錯(cuò)誤鏈接。
2、網(wǎng)站收錄異常時(shí),分析網(wǎng)站日志,對(duì)比日志中蜘蛛的行為。
3、網(wǎng)站被封問題時(shí),分析網(wǎng)站日志,進(jìn)行修改。
我們說:網(wǎng)站日志是站點(diǎn)管理員和搜索引擎對(duì)話溝通的途徑,我們可以通過網(wǎng)站日志,了解搜
索引擎蜘蛛的訪問情況。
先說如何下載日志:
網(wǎng)站日志在根目錄下,如圖所示:

下面部分日志內(nèi)容:
2009-10-22 16:18:31 W3SVC194 59.36.99.93 GET /index.asp - 80 - 61.135.165.202
Nokia6681/1.0+(2.30.0)+Series60/2.6+Profile/MIDP-2.0+Configuration/CLDC-
1.1+(compatible;+baiduspider;++http://www.baidu.com/search/spider.html) 200 0 0
11831 (注意:baiduspider,百度機(jī)器人。)
2009-10-22 16:22:18 W3SVC194 59.36.99.93 GET /html/SEOERdzpzs_568_14.html - 80 -
203.208.60.202 Mozilla/5.0+(compatible;+Googlebot/2.1;+
+http://www.google.com/bot.html) 200 0 0 8438 (注意:Googlebot,谷歌機(jī)器人。)
2009-10-22 18:24:15 W3SVC194 59.36.99.93 GET /bbs/index.asp
boardid=9&TopicMode=0&List_Type=8,0,0&page= 80 - 202.160.180.113
Mozilla/5.0+(compatible;+Yahoo!+Slurp+China;+http://misc.yahoo.com.cn/help.html)
200 0 0 15677 (注意:Slurp,雅虎機(jī)器人。)
關(guān)于搜索引擎機(jī)器人:
百度:baiduspider Google:Googlebot Msn:msnbot
yahoo:Slurp yodao:YoudaoBot sogou:Sogou+get+spider
搜索以上蜘蛛名稱,就可以看到蜘蛛抓取的痕跡。我們重要的就是如何讀懂后面的那些代碼。我們稱HTTP狀態(tài)碼。(像:200)
我們說在日志里,發(fā)現(xiàn)比較多的HTTP狀態(tài)碼是,200(正常)、304(沒變化)、404(錯(cuò)誤鏈接)。
在這里,200 0 0 11831 我們說因?yàn)榉?wù)器或虛擬主機(jī)設(shè)置的日志記錄內(nèi)容的不同,格式也不同。我們需要通過觀察自己站點(diǎn),通過對(duì)網(wǎng)站日志的分析,來(lái)確定第幾個(gè)數(shù)是代表抓取的字節(jié)數(shù)。一般比較大的這個(gè)數(shù)就是本次抓取的字節(jié)數(shù)。
在這里,304代表,自從上次抓取后,該內(nèi)容沒有更新。一般情況下,網(wǎng)站的圖片經(jīng)常會(huì)返回該值。
404代表,訪問的這個(gè)鏈接是錯(cuò)誤鏈接。這個(gè)錯(cuò)誤鏈接,一方面來(lái)自原本存在后來(lái)刪除了網(wǎng)頁(yè),另一方面可能來(lái)自本來(lái)就不存在,但其他人外鏈了這么個(gè)死鏈接。