百度蜘蛛是笨蛋看我怎么活捉蜘蛛

最新發(fā)現(xiàn)，百度蜘蛛(Baiduspider)是笨蛋!最近發(fā)現(xiàn)網(wǎng)站百度收錄的很慢，基本上是過(guò)幾天重新快照下首頁(yè)，其它頁(yè)面基本上不收錄!郁悶!實(shí)在郁悶!打開(kāi)網(wǎng)站IIS log，查了下百度蜘蛛，大驚!有重大發(fā)現(xiàn)：百度蜘蛛真是個(gè)笨蛋!

一、先看看百度蜘蛛是怎么笨死的。以下是百度蜘蛛在我網(wǎng)站上的活動(dòng)記錄。

1、2009-06-03 21:26:05 W3SVC962713505 218.60.130.19 GET /robots.txt - 80 - 123.125.64.15 Baiduspider ( ) 404 0 64 (注：404表明未找到robots.txt)

2、2009-06-03 21:26:49 W3SVC962713505 218.60.130.19 GET /index.asp - 80 - 123.125.64.15 Baiduspider ( ) 200 0 64 (注：200表明找到首頁(yè)文件index.asp)

由此可以看出，百度蜘蛛的活動(dòng)，先到網(wǎng)站找robots.txt 這個(gè)文件，如果沒(méi)有則找到網(wǎng)站首頁(yè)index.asp，和百度目前收錄的首頁(yè)對(duì)比后發(fā)現(xiàn)和原來(lái)沒(méi)變化，然后走了。和廣大站長(zhǎng)一樣，誰(shuí)不想自己被百度收錄的頁(yè)面時(shí)不時(shí)的快照更新下?看來(lái)只有先完善robots.txt ，牽著百度蜘蛛到我站上到處跑了。

二、書(shū)寫(xiě)robots.txt ，帶百度到你站上四處逛逛。

robots.txt 這個(gè)文件必須寫(xiě)。具體怎么寫(xiě)大家都懂吧?不會(huì)的話我再重復(fù)下

例1. 禁止所有搜索引擎訪問(wèn)網(wǎng)站的任何部分

User-agent: *

Disallow: /

例2. 允許所有的robot訪問(wèn)

(或者也可以建一個(gè)空文件 /robots.txt)

User-agent: *

Disallow:

或者

User-agent: *

Allow: /

(桌子注：這個(gè)必須的，不要建空文件，那是百度在放煙。最好寫(xiě)下面一句。)

例3. 僅禁止Baiduspider訪問(wèn)您的網(wǎng)站

User-agent: Baiduspider

Disallow: /

例4. 僅允許Baiduspider訪問(wèn)您的網(wǎng)站

User-agent: Baiduspider

Disallow:

User-agent: *

Disallow: /

例5. 禁止spider訪問(wèn)特定目錄

在這個(gè)例子中，該網(wǎng)站有三個(gè)目錄對(duì)搜索引擎的訪問(wèn)做了限制，即robot不會(huì)訪問(wèn)這三個(gè)目錄。需要注意的是對(duì)每一個(gè)目錄必須分開(kāi)聲明，而不能寫(xiě)成 Disallow: /cgi-bin/ /tmp/。

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

例6. 允許訪問(wèn)特定目錄中的部分url

User-agent: *

Allow: /cgi-bin/see

Allow: /tmp/hi

Allow: /~joe/look

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

例7. 使用*限制訪問(wèn)url

禁止訪問(wèn)/cgi-bin/目錄下的所有以.htm為后綴的URL(包含子目錄)。

User-agent: *

Disallow: /cgi-bin/*.htm

例8. 使用$限制訪問(wèn)url

僅允許訪問(wèn)以.htm為后綴的URL。

User-agent: *

Allow: .htm$

Disallow: /

例9. 禁止訪問(wèn)網(wǎng)站中所有的動(dòng)態(tài)頁(yè)面

User-agent: *

Disallow: /*?*

例10. 禁止Baiduspider抓取網(wǎng)站上所有圖片

僅允許抓取網(wǎng)頁(yè)，禁止抓取任何圖片。

User-agent: Baiduspider

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

例11. 僅允許Baiduspider抓取網(wǎng)頁(yè)和.gif格式圖片

允許抓取網(wǎng)頁(yè)和gif格式圖片，不允許抓取其他格式圖片

User-agent: Baiduspider

Allow: .gif$

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .png$

Disallow: .bmp$

例12. 僅禁止Baiduspider抓取.jpg格式圖片

User-agent: Baiduspider

Disallow: .jpg$

看看桌子自己寫(xiě)的robots.txt，大家參考

復(fù)制代碼

User-agent: *

Disallow: /admin/

Disallow: /Soft/

Allow: /images/

Allow: /html/

Allow: .htm$

Allow: .php$

Allow: .asp$

Allow: .gif$

Allow: .jpg$

Allow: .jpeg$

Allow: .png$

Allow: .bmp$

Allow: /

解釋:

1、允許各種搜索引擎索引

2、禁止索引/admin目錄，這里是網(wǎng)站的后臺(tái)，當(dāng)然禁止了

3、禁止/soft等重要安全目錄

4、允許訪問(wèn)/images目錄

5、允許訪問(wèn)/html目錄

6、允許訪問(wèn)所有htm，php,asp,html文件

7、允許抓取gif,jpg,jpeg,png,bmp格式的圖片

8、允許抓取網(wǎng)站根目錄下的文件。

好了，把你的 robots.txt傳到網(wǎng)站跟目錄下等著百度蜘蛛再來(lái)吧。到時(shí)候有這個(gè)好向?qū)?huì)帶著那個(gè)笨蛋到你站上到處走走的。本文作者桌子，由MOFHOT外貿(mào)服裝批發(fā)網(wǎng)www.mofhot.com 搜集發(fā)布，請(qǐng)A5留個(gè)連接謝謝~發(fā)個(gè)文章也不容易的。

上一篇:百度今日起可識(shí)別帶漢字的utf-8編碼URL

下一篇:外貿(mào)建站不可不知的注意事項(xiàng)

相關(guān)文章: