為您的網站示例robots.txt文件

存儲在您網站根目錄中的robots.txt文件將告訴網絡漫遊器,例如搜索引擎蜘蛛,它們允許抓取哪些目錄和文件。 使用robots.txt文件很容易,但還是應該記住一些事情:

  1. 黑帽網絡機器人將忽略您的robots.txt文件。 最常見的類型是惡意軟件機器人和尋找電子郵件地址收穫的機器人。
  2. 一些新的程序員將編寫忽略robots.txt文件的機器人。 這通常是錯誤的。
  1. 任何人都可以看到你的robots.txt文件。 他們總是被稱為robots.txt,並始終存儲在網站的根目錄。
  2. 最後,如果有人鏈接到robots.txt文件排除的文件或目錄,而該文件或目錄不會被robots.txt文件排除的頁面,那麼搜索引擎無論如何都可能會找到它。

不要使用robots.txt文件來隱藏任何重要的東西。 相反,您應該將重要信息放在安全密碼後面或完全離開網絡。

如何使用這些示例文件

從樣本中復制最接近您想要的樣本的文本,並將其粘貼到您的robots.txt文件中。 更改機器人,目錄和文件名以符合您的首選配置。

兩個基本的robots.txt文件

用戶代理: *
不允許: /

該文件表示,任何訪問它的機器人(User-agent:*)都應該忽略站點上的每個頁面(Disallow:/)。

用戶代理: *
不允許:

這個文件說任何訪問它的機器人(User-agent:*)都可以查看站點上的每個頁面(Disallow:)。

您也可以通過將robots.txt文件留空或者根本沒有網站來做到這一點。

保護機器人的特定目錄

用戶代理: *
Disallow:/ cgi-bin /
禁止:/ temp /

這個文件說任何訪問它的機器人(User-agent:*)應該忽略目錄/ cgi-bin /和/ temp /(Disallow:/ cgi-bin / Disallow:/ temp /)。

保護機器人的特定頁面

用戶代理: *
不允許:/jenns-stuff.htm
禁止:/private.php

這個文件說任何訪問它的機器人(User-agent:*)應該忽略文件/jenns-stuff.htm和/private.php(Disallow:/jenns-stuff.htm Disallow:/private.php)。

防止特定的機器人訪問您的網站

用戶代理:Lycos / xx
不允許: /

這個文件說Lycos bot(User-agent:Lycos / xx)不允許訪問站點的任何地方(Disallow:/)。

只允許一個特定的機器人訪問

用戶代理: *
不允許: /
用戶代理:Googlebot
不允許:

這個文件首先不允許像我們上面所做的所有機器人,然後明確讓Googlebot(User-agent:Googlebot)訪問所有內容(Disallow:)。

合併多行以獲得您想要的排除項

儘管最好使用一個非常具有包容性的User-agent行,比如User-agent:*,您可以根據自己的喜好進行選擇。 請記住,機器人按順序讀取文件。 所以如果第一句話說所有的機器人都被阻塞了,然後在文件中說它允許所有的機器人訪問所有的東西,機器人將可以訪問所有的東西。

如果您不確定自己是否正確編寫了robots.txt文件,則可以使用Google的網站管理員工具檢查robots.txt文件或編寫一個新文件。