標籤:

wordpress網站的robots.txt文件寫法詳解

robots.txt是一個放置在網站根目錄的協議,它是搜索引擎進入網站的必經關卡,robots文件能告知進入網站的搜索引擎spider,這個網站中哪些網站是允許爬取的,哪些是禁止爬取的。

robots的語法很豐富,最常用的兩個命令有兩個:User-Agent和Disallow。

User-Agent:適用下列規則的漫遊器,一般常寫為:

User-agent: *

星號(*)表示面對所有搜索引擎爬蟲spider程序,比如Google的「Googlebot」,百度的「Baiduspider」等。

Disallow:要攔截的網頁,即不允許搜索引擎訪問和索引的目錄。robots文件中至少要有一個Disallow,如果都允許收錄,則寫: Disallow: ,如果都不允許收錄,則寫:Disallow: / (註:只是差一個斜桿)。Disallow的用法非常多,具體如下:

1、屏蔽spider捉取程序文件,同時也節約了搜索引擎蜘蛛資源。

Disallow: /wp-admin/

Disallow: /wp-content/

Disallow: /wp-includes/

2、每個默認的文章頁面代碼里,都有一段trackback的鏈接,如果不屏蔽讓蜘蛛去捉取,網站會出現重複頁面內容問題。

Disallow: /*/trackback

3、頭部代碼里的feed鏈接主要是提示瀏覽器用戶可以訂閱本站,而一般的站點都有RSS輸出和網站地圖,故屏蔽搜索引擎捉取這些鏈接,節約蜘蛛資源。

Disallow: /feed

Disallow: /*/feed

Disallow: /comments/feed

4、屏蔽捉取站內搜索結果。站內沒出現這些鏈接不代表站外沒有,如果收錄了會造成和TAG等頁面的內容相近。

Disallow: /?s=*

Disallow: /*/?s=*

5、屏蔽留言鏈接插件留下的變形留言鏈接。(沒安裝相關插件當然不用這條指令)

Disallow: /?r=*

6、屏蔽捉取任何圖片文件,在這裡主要是想節約點寬頻,不同的網站管理員可以按照喜好和需要設置這幾條指令。

Disallow: /*.jpg$

Disallow: /*.jpeg$

Disallow: /*.gif$

Disallow: /*.png$

Disallow: /*.bmp$

7、屏蔽捉取短鏈接。默認頭部里的短鏈接,百度等搜索引擎蜘蛛會試圖捉取,雖然最終短鏈接會301重定向到固定鏈接,但這樣依然造成蜘蛛資源的浪費。

Disallow: /?p=*

8、屏蔽捉取留言信息鏈接。一般不會收錄到這樣的鏈接,但為了節約蜘蛛資源,也屏蔽之。

Disallow: /*/comment-page-*Disallow: /*?replytocom*

9、屏蔽其他的一些形形色色的鏈接,避免造成重複內容和隱私問題。

Disallow: /a/date/

Disallow: /a/author/

Disallow: /a/category/

Disallow: /?p=*&preview=true

Disallow: /?page_id=*&preview=true

Disallow: /wp-login.php

Sitemap:如果說sitemap是給搜索引擎爬蟲指路的地圖,那麼robots則是看守網站的一道門。如果您想了解更多關於sitemap的知識和寫法,可以參照《wordpress博客seo優化之sitemap》一文。sitemap在robots文件的寫法如下:

Sitemap:http://***.com/sitemap.txt

切記S是大寫的!

當然以上介紹的Disallow和Sitemap並非全部必須,可以按您網站的具體情況寫入,同時可以用google管理工具測試robots.txt是否合乎規範。(轉載請註明轉自五月蘭博客http://www.wuyuelan.com)

推薦閱讀:

搞建築的常去網站
我整理的一些有趣網站(持續更新中...8.8最後更新)——1
如何讓你的網站排名靠前
100個經典超酷網站收集
工商常用網站

TAG:網站 | 文件 |