廣告廣告
  加入我的最愛 設為首頁 風格修改
首頁 首尾
 手機版   訂閱   地圖  簡體 
您是第 4959 個閱讀者
 
發表文章 發表投票 回覆文章
  可列印版   加為IE收藏   收藏主題   上一主題 | 下一主題   
月光 手機
個人頭像
個人文章 個人相簿 個人日記 個人地圖
社區建設獎
頭銜:看我代替月亮懲罰你!看我代替月亮懲罰你!
版主
級別: 版主 該用戶目前不上站
版區: Unix-like, 網站架設
推文 x42 鮮花 x565
分享: 轉寄此文章 Facebook Plurk Twitter 複製連結到剪貼簿 轉換為繁體 轉換為簡體 載入圖片
推文 x0
[教學] 用 Apache 拒絕網路流氓的騷擾
User-agent: abc
Disallow: /not_for_abc/
User-agent: *
Disallow: /secret/

意思是禁止 abc 這個 robot 捉 /not_for_abc/ 目錄,及禁止所有的 robots 捉 /secret/ 目錄. 網站管理者理論上可以將不喜歡的 robot,或是禁止 robot 捉取的目錄或檔案,寫在這個檔案中.

但是這個只防君子不防小人,碰到網路流氓就沒轍了,有些搜尋引擎的 robot 根本不看網站的 robots.txt,就一路抓下去,實在另人髮指. 網路流氓是什麼,就是這些不遵守遊戲規則,到處亂捉別人網站的內容的壞蛋,這樣會造成網站的流量增加,也就是費用的增加,或是不想被搜尋的資料也被捉走了,侵犯網站的隱私. 很可惡是吧. 下面是幾個例子:
iaskspider 是「愛問」屬於中國新浪網的 robot,完全不管 robots.txt

60.28.164.87 - - [06/Jan/2007:06:28:47 +0800] "GET /wp/archives/2005/08/13/12/46/48/ HTTP/1.0" 200 20969 "-" "Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)"
60.28.164.87 - - [06/Jan/2007:06:29:34 +0800] "GET /wp/archives/2005/08/13/21/28/00/ HTTP/1.0" 200 19601 "-" "Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)"
60.28.164.87 - - [06/Jan/2007:06:31:45 +0800] "GET /wp/archives/2005/07/06/22/47/17/ HTTP/1.0" 200 39200 "-" "Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)"

QihooBot,也是來自中國的「奇虎網」,也是垃圾一個,浪費一堆頻寬,來源 IP 有很多個:

220.181.34.162 - - [03/Jan/2007:11:36:27 +0800] "GET /wp/feed/ HTTP/1.1" 200 21947 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; QihooBot 1.0)"
220.181.34.170 - - [03/Jan/2007:11:38:14 +0800] "GET /wp/archives/2006/12/ HTTP/1.1" 200 5373 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; QihooBot 1.0)"
220.181.34.177 - - [03/Jan/2007:11:38:30 +0800] "GET /wp/archives/category/childtalking/ HTTP/1.1" 200 6554 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; QihooBot 1.0)"

另有 larbin,iearthworm,yodaoice,lanshanbot,Outfoxbot 等等一堆,到網路上徵信一下,這些通通不是什麼好東西,還有一個 WebClipping.com 不知是好人壞人…

碰到這種網路流氓,說實在的也沒什麼積極的辦法,不能叫網路警察把它捉起來...不過消極的辦法還是有的,把網站門戶看好 — Apache 可以擋住特定 IP,但因為 robots 大多有多重 IP,過濾壞蛋的姓名比較有效,可以用 BrowserMatchNoCase 來過濾,用法像是:

複製程式
<directory "/wwwroot">
Order allow,deny
Allow from all
BrowserMatchNoCase "iaskspider" badguy
BrowserMatchNoCase "QihooBot" badguy
BrowserMatchNoCase "larbin" badguy
deny from env=badguy
</directory>

如此,它們就會收到 Apache 丟回 403 碼:Forbidden

但是,有些更沒品的還會隱姓埋名,不敢用真面目見人的…



月光論壇
http://bbs.dj...com/


===================================
贊助本站 -- 刊登廣告 -- 物超所值虛擬主機租用
獻花 x0 回到頂端 [樓 主] From:臺灣中華電信HINET | Posted:2008-03-25 06:07 |
kolong
個人頭像
個人文章 個人相簿 個人日記 個人地圖
小人物
級別: 小人物 該用戶目前不上站
推文 x2 鮮花 x14
分享: 轉寄此文章 Facebook Plurk Twitter 複製連結到剪貼簿 轉換為繁體 轉換為簡體 載入圖片

我只能說..
道高一尺,魔高一丈.. 表情


成功者找方法,失敗者找理由。
獻花 x0 回到頂端 [1 樓] From:臺灣新世紀資通股份有限公司 | Posted:2008-03-25 13:21 |
lapklaman
個人文章 個人相簿 個人日記 個人地圖
小有名氣
級別: 小有名氣 該用戶目前不上站
推文 x3 鮮花 x427
分享: 轉寄此文章 Facebook Plurk Twitter 複製連結到剪貼簿 轉換為繁體 轉換為簡體 載入圖片

感謝大大的教學


獻花 x0 回到頂端 [2 樓] From:台灣中華電信 | Posted:2010-03-10 16:05 |

首頁  發表文章 發表投票 回覆文章
Powered by PHPWind v1.3.6
Copyright © 2003-04 PHPWind
Processed in 0.183425 second(s),query:16 Gzip disabled
本站由 瀛睿律師事務所 擔任常年法律顧問 | 免責聲明 | 本網站已依台灣網站內容分級規定處理 | 連絡我們 | 訪客留言