robots.txt at 2007-07-09

自架網站的朋友通常都會遇到流量爆增的情況,結果就是流量或 CPU 使用超過主機商限制,然後就必須多繳錢或者被懲罰性地暫停使用。

當然,沒流量就代表沒人看,那你架網站幹麼?把東西放在網路上要有個觀念:「那就是給人看的東西」。但是,有許多流量都是在網路上蒐集資料的機器人所造成。機器人有好有壞,因為它是工具,好的用途例如這個網誌上頭的咕狗客製化搜尋。我的網站不需要提供搜尋功能,讓咕狗機器人抓取我網站資料作成索引,想找本站啥內容問咕狗就好,有誰自家的搜尋技術可以打得過人家一堆研究人員寫出來的搜尋技術?

通常,好的機器人在抓取您的網站前,都會先自您的網站抓取一個檔案來看看,叫做 robots.txt,然後它會跟據裡面的敘述決定抓取的行為,不讓您因為太過頻繁的造訪而有煩惱。下列是 Kirin Lin 的 robots.txt:

User-agent: *
Sitemap: http://kirin-lin.idv.tw/sitemap.xml.gz
Crawl-delay: 120
Disallow: */feed*
Disallow: */trackback
Disallow: */comments/feed*
Disallow: */wp-admin
Disallow: */wp-content
Disallow: */wp-includes
Disallow: */wp-login.php

User-agent: ShopWiki
Disallow: /

User-agent: Baiduspider
Disallow: /

User-agent: Gaisbot
Disallow: /

User-agent: Slurp
Crawl-delay: 10

User-agent: Yahoo-Blogs/v3.9
Crawl-delay: 20

User-agent: msnbot
Crawl-delay: 120

以上僅針對幾個常見的機器人做出行為指示,若機器人遵循這檔案內的敘述,對整體網站流量所造成的影響就應該不大。當然,對於那種拼老命抓網頁的壞機器人,就必須使用不同手段對付。

註:Sitemap 欄位是您的網站有提供該資訊時才需要加上去,說明請見 sitemap.org


Posted

in

by

Tags:

Comments

5 responses to “robots.txt at 2007-07-09”

  1. jerome Avatar

    百度的機器人超級討厭
    七月份才過 9 天,已經從我家抓走了 2.86GB
    Googlebot 也不過才 628MB
    不知道他到底在抓啥?

  2. Kirin Lin Avatar

    To Jerome,
    百度、搜狗、搜狐等中國機器人的造訪頻率都很高,流量增是必然的事情,所以需要配合大絕招 .htaccess 檔案來用。

  3. 花水木 Avatar

    我之前用Dreamhost和現在用台灣的主機, 都遇過流量或CPU超過而被迫停站的情況…真的很可怕, 後來去看流量的記錄, 發現真的大陸的機器人會耗掉比較多流量呢…可是我換台灣主機之後, 大陸人來看網站似乎又都變慢…所以滿困擾的.

    目前小妹照抄了您的robots.txt, 希望您不會介意>”

  4. Kirin Lin Avatar

    To 花水木,
    盡量用,這個沒版權的…哈~
    流量的問題,我改天寫個有關 .htaccess 得來分享一下。
    至於網站變慢我本身不太在意,這年頭什麼都快,大家都沒耐心。