服務熱線
153 8323 9821
我們在做網站優化的時候,經常要通過分析網站日志來尋找站點的相關信息。
比如:
1、網站上線時,是否有搜索引擎蜘蛛的痕跡。是否被收錄,有沒有死鏈和錯誤鏈接。
2、網站收錄異常時,分析網站日志,對比日志中蜘蛛的行為。
3、網站被封問題時,分析網站日志,進行修改。
我們說:網站日志是站點管理員和搜索引擎對話溝通的途徑,我們可以通過網站日志,了解搜
索引擎蜘蛛的訪問情況。
先說如何下載日志:
2009-10-22 16:18:31 W3SVC194 59.36.99.93 GET /index.asp - 80 - 61.135.165.202
Nokia6681/1.0+(2.30.0)+Series60/2.6+Profile/MIDP-2.0+Configuration/CLDC-
1.1+(compatible;+baiduspider;++http://www.baidu.com/search/spider.html) 200 0 0
11831 (注意:baiduspider,百度機器人。)
2009-10-22 16:22:18 W3SVC194 59.36.99.93 GET /html/SEOERdzpzs_568_14.html - 80 -
203.208.60.202 Mozilla/5.0+(compatible;+Googlebot/2.1;+
+http://www.google.com/bot.html) 200 0 0 8438 (注意:Googlebot,谷歌機器人。)
2009-10-22 18:24:15 W3SVC194 59.36.99.93 GET /bbs/index.asp
boardid=9&TopicMode=0&List_Type=8,0,0&page= 80 - 202.160.180.113
Mozilla/5.0+(compatible;+Yahoo!+Slurp+China;+http://misc.yahoo.com.cn/help.html)
200 0 0 15677 (注意:Slurp,雅虎機器人。)
關于搜索引擎機器人:
百度:baiduspider Google:Googlebot Msn:msnbot
yahoo:Slurp yodao:YoudaoBot sogou:Sogou+get+spider
搜索以上蜘蛛名稱,就可以看到蜘蛛抓取的痕跡。我們重要的就是如何讀懂后面的那些代碼。我們稱HTTP狀態碼。(像:200)
我們說在日志里,發現比較多的HTTP狀態碼是,200(正常)、304(沒變化)、404(錯誤鏈接)。
在這里,200 0 0 11831 我們說因為服務器或虛擬主機設置的日志記錄內容的不同,格式也不同。我們需要通過觀察自己站點,通過對網站日志的分析,來確定第幾個數是代表抓取的字節數。一般比較大的這個數就是本次抓取的字節數。
在這里,304代表,自從上次抓取后,該內容沒有更新。一般情況下,網站的圖片經常會返回該值。
404代表,訪問的這個鏈接是錯誤鏈接。這個錯誤鏈接,一方面來自原本存在后來刪除了網頁,另一方面可能來自本來就不存在,但其他人外鏈了這么個死鏈接。