最新發(fā)現(xiàn),百度蜘蛛(Baiduspider)是笨蛋!最近發(fā)現(xiàn)網(wǎng)站百度收錄的很慢,基本上是過(guò)幾天重新快照下首頁(yè),其它頁(yè)面基本上不收錄!郁悶!實(shí)在郁悶!打開(kāi)網(wǎng)站IIS log,查了下百度蜘蛛,大驚!有重大發(fā)現(xiàn):百度蜘蛛真是個(gè)笨蛋!
一、先看看百度蜘蛛是怎么笨死的。以下是百度蜘蛛在我網(wǎng)站上的活動(dòng)記錄。
1、2009-06-03 21:26:05 W3SVC962713505 218.60.130.19 GET /robots.txt - 80 - 123.125.64.15 Baiduspider ( ) 404 0 64 (注:404表明未找到robots.txt)
2、2009-06-03 21:26:49 W3SVC962713505 218.60.130.19 GET /index.asp - 80 - 123.125.64.15 Baiduspider ( ) 200 0 64 (注:200表明找到首頁(yè)文件index.asp)
由此可以看出,百度蜘蛛的活動(dòng),先到網(wǎng)站找robots.txt 這個(gè)文件,如果沒(méi)有則找到網(wǎng)站首頁(yè)index.asp,和百度目前收錄的首頁(yè)對(duì)比后發(fā)現(xiàn)和原來(lái)沒(méi)變化,然后走了。和廣大站長(zhǎng)一樣,誰(shuí)不想自己被百度收錄的頁(yè)面時(shí)不時(shí)的快照更新下?看來(lái)只有先完善robots.txt ,牽著百度蜘蛛到我站上到處跑了。
二、書(shū)寫(xiě)robots.txt ,帶百度到你站上四處逛逛。
robots.txt 這個(gè)文件必須寫(xiě)。具體怎么寫(xiě)大家都懂吧?不會(huì)的話我再重復(fù)下
例1. 禁止所有搜索引擎訪問(wèn)網(wǎng)站的任何部分
User-agent: *
Disallow: /
例2. 允許所有的robot訪問(wèn)
(或者也可以建一個(gè)空文件 /robots.txt)
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
(桌子注:這個(gè)必須的,不要建空文件,那是百度在放煙。最好寫(xiě)下面一句。)
例3. 僅禁止Baiduspider訪問(wèn)您的網(wǎng)站
User-agent: Baiduspider
Disallow: /
例4. 僅允許Baiduspider訪問(wèn)您的網(wǎng)站
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
例5. 禁止spider訪問(wèn)特定目錄
在這個(gè)例子中,該網(wǎng)站有三個(gè)目錄對(duì)搜索引擎的訪問(wèn)做了限制,即robot不會(huì)訪問(wèn)這三個(gè)目錄。需要注意的是對(duì)每一個(gè)目錄必須分開(kāi)聲明,而不能寫(xiě)成 Disallow: /cgi-bin/ /tmp/。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
例6. 允許訪問(wèn)特定目錄中的部分url
User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
例7. 使用*限制訪問(wèn)url
禁止訪問(wèn)/cgi-bin/目錄下的所有以.htm為后綴的URL(包含子目錄)。
User-agent: *
Disallow: /cgi-bin/*.htm
例8. 使用$限制訪問(wèn)url
僅允許訪問(wèn)以.htm為后綴的URL。
User-agent: *
Allow: .htm$
Disallow: /
例9. 禁止訪問(wèn)網(wǎng)站中所有的動(dòng)態(tài)頁(yè)面
User-agent: *
Disallow: /*?*
例10. 禁止Baiduspider抓取網(wǎng)站上所有圖片
僅允許抓取網(wǎng)頁(yè),禁止抓取任何圖片。
User-agent: Baiduspider
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
例11. 僅允許Baiduspider抓取網(wǎng)頁(yè)和.gif格式圖片
允許抓取網(wǎng)頁(yè)和gif格式圖片,不允許抓取其他格式圖片
User-agent: Baiduspider
Allow: .gif$
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .png$
Disallow: .bmp$
例12. 僅禁止Baiduspider抓取.jpg格式圖片
User-agent: Baiduspider
Disallow: .jpg$
看看桌子自己寫(xiě)的robots.txt,大家參考
復(fù)制代碼
User-agent: *
Disallow: /admin/
Disallow: /Soft/
Allow: /images/
Allow: /html/
Allow: .htm$
Allow: .php$
Allow: .asp$
Allow: .gif$
Allow: .jpg$
Allow: .jpeg$
Allow: .png$
Allow: .bmp$
Allow: /
解釋:
1、允許各種搜索引擎索引
2、禁止索引/admin目錄,這里是網(wǎng)站的后臺(tái),當(dāng)然禁止了
3、禁止/soft等重要安全目錄
4、允許訪問(wèn)/images目錄
5、允許訪問(wèn)/html目錄
6、允許訪問(wèn)所有htm,php,asp,html文件
7、允許抓取gif,jpg,jpeg,png,bmp格式的圖片
8、允許抓取網(wǎng)站根目錄下的文件。
好了,把你的 robots.txt傳到網(wǎng)站跟目錄下等著百度蜘蛛再來(lái)吧。到時(shí)候有這個(gè)好向?qū)?huì)帶著那個(gè)笨蛋到你站上到處走走的。本文作者桌子,由MOFHOT外貿(mào)服裝批發(fā)網(wǎng)www.mofhot.com 搜集發(fā)布,請(qǐng)A5留個(gè)連接謝謝~發(fā)個(gè)文章也不容易的。