自架網站的朋友通常都會遇到流量爆增的情況,結果就是流量或 CPU 使用超過主機商限制,然後就必須多繳錢或者被懲罰性地暫停使用。
當然,沒流量就代表沒人看,那你架網站幹麼?把東西放在網路上要有個觀念:「那就是給人看的東西」。但是,有許多流量都是在網路上蒐集資料的機器人所造成。機器人有好有壞,因為它是工具,好的用途例如這個網誌上頭的咕狗客製化搜尋。我的網站不需要提供搜尋功能,讓咕狗機器人抓取我網站資料作成索引,想找本站啥內容問咕狗就好,有誰自家的搜尋技術可以打得過人家一堆研究人員寫出來的搜尋技術?
通常,好的機器人在抓取您的網站前,都會先自您的網站抓取一個檔案來看看,叫做 robots.txt,然後它會跟據裡面的敘述決定抓取的行為,不讓您因為太過頻繁的造訪而有煩惱。下列是 Kirin Lin 的 robots.txt:
User-agent: *
Sitemap: http://kirin-lin.idv.tw/sitemap.xml.gz
Crawl-delay: 120
Disallow: */feed*
Disallow: */trackback
Disallow: */comments/feed*
Disallow: */wp-admin
Disallow: */wp-content
Disallow: */wp-includes
Disallow: */wp-login.php
User-agent: ShopWiki
Disallow: /
User-agent: Baiduspider
Disallow: /
User-agent: Gaisbot
Disallow: /
User-agent: Slurp
Crawl-delay: 10
User-agent: Yahoo-Blogs/v3.9
Crawl-delay: 20
User-agent: msnbot
Crawl-delay: 120
以上僅針對幾個常見的機器人做出行為指示,若機器人遵循這檔案內的敘述,對整體網站流量所造成的影響就應該不大。當然,對於那種拼老命抓網頁的壞機器人,就必須使用不同手段對付。
註:Sitemap 欄位是您的網站有提供該資訊時才需要加上去,說明請見 sitemap.org。