當今天設計好網頁後,都希望搜尋引擎的小蜘蛛來造訪,當小蜘蛛來訪時不管三七二十一,就把站中的資料通通抓回去,並寫到搜尋引擎的資料庫中,若有些較機密的資料被搜走那就不好了,所以這時就可以設定規則,告知小蜘蛛那些是不可外帶的,如此一來就不用擔心資料外洩等問題。
robots.txt語法設定:
User-agent: {搜尋引擎小蜘蛛名稱}
Disallow: {不允許搜索的檔案位置}
Disallow: {不允許搜索的檔案位置}
範例1.
User-agent用*代表所有的搜尋小蜘蛛
Disallow: /tmp/ 表示tmp底下的所有資料禁止外帶
User-agent: *
Disallow: /tmp/
Disallow: /tmp/
範例2.
Disallow: /tmp/abc.html 表示tmp/abc.html網頁禁止外帶
User-agent: *
Disallow: /tmp/abc.html
Disallow: /tmp/abc.html
範例3.
Disallow: / 表示該站的所有資料都不允許外帶
User-agent: *
Disallow: /
Disallow: /
範例4.
表示只有Google跟MSN的小蜘蛛,對於該站所有資料都不允許外帶
User-agent: Googlebot
User-agent: Slurp
Disallow: /
User-agent: Slurp
Disallow: /
設定完畢後,再將它存成robots.txt,並上傳到網頁的根目錄下,一般User-agent都設*居多,除非有特別需求,那些資料不允許某些的搜尋小蜘蛛收集,這是一個很簡單也很重要的設定喔!