怎么使用robots.txt控制搜索引擎抓取文章

來源： | 時(shí)間：2010/7/20 22:49:04 |

搜索引擎數(shù)據(jù)庫中的所有網(wǎng)頁，都是由Robot程序自動抓取收錄的。但我們網(wǎng)站上總會有部分私密性數(shù)據(jù)不希望被搜索引擎抓取，這時(shí)候，就需要robots.txt。

　　robots.txt 是一個(gè)標(biāo)準(zhǔn)文檔，意在阻止搜索引擎的Spider(蜘蛛）從您的 Web 服務(wù)器下載某些或全部信息，控制Spider的搜索范圍。robots.txt的設(shè)置很簡單，只要用記事本或其他文本編輯器，依照自己的網(wǎng)站需求，設(shè)定一系列選項(xiàng)，然后將其上傳到網(wǎng)站根目錄即可。robots.txt的設(shè)置如下：

User-agent: 搜索引擎的spider代號
Disallow: 輸入數(shù)據(jù)夾或文件名的路徑

　　如設(shè)定所有的spider都能夠搜索及抓取整個(gè)網(wǎng)站。

User-agent: *
Disallow:

　　如拒絕Google搜索及抓取整個(gè)網(wǎng)站，但允許其它的

User-agent: Googlebot
Disallow:

　　如拒絕所有的Spider

User-agent: *
Disallow: /

　　如拒絕所有的Spider搜索及抓取protect目錄及seo目錄下abc.html文件

User-agent: *
Disallow: /protect/
Disallow: /seo/abc.html

　　如拒絕google搜索及抓取protect目錄及seo目錄下abc.html文件，但允許其他的

User-agent: Googlebot
Disallow: /protect/
Disallow: /seo/abc.html

　　很簡單吧？另有一點(diǎn)請記住，搜索引擎不會立即對robots.txt 文件所作的更改作出反應(yīng)，必須等到搜索引擎下一次讀取該文件。這段時(shí)間，依搜索引擎及具體網(wǎng)站情況，從幾小時(shí)到幾天不等。