今天早上進入Feedsky管理后臺,從實時統計里,驚訝的發現有個“Larbin爬蟲”!

從地區顯示來看,這個少見的爬蟲來自中國Shunyi(順義)。
我從來沒看到過有Larbin爬蟲的記錄,今天還是第一次遇到。為了解除疑問,我查了下有關Larbin爬蟲的資料。
Larbin的簡介
Larbin是一種開源的網絡爬蟲/網絡蜘蛛,由法國的年輕人Sébastien Ailleret 獨立開發。Larbin目的是能夠跟蹤頁面的url進行擴展的抓取,最后為搜索引擎提供廣泛的數據來源。
Larbin只是一個爬蟲,也就是說Larbin只抓取網頁,至于如何parse的事情則由用戶自己完成。另外,如何存儲到數據庫以及建立索引的事情 Larbin也不提供。
Larbin的作用
1. Larbin獲取單個、確定網站的所有聯結,甚至可以鏡像一個網站。
2. Larbin建立url 列表群,例如針對所有的網頁進行url retrive后,進行xml的聯結的獲取 。
3. Larbin定制后可以作為搜索引擎的信息的來源(例如可以將抓取下來的網頁每2000一組存放在一系列的目錄結構里面)。
后記
終于大致了解了Larbin爬蟲,原來Larbin爬蟲是網站管理員安裝的,并不是某個搜索引擎放出來的蜘蛛。Larbin爬蟲爬到的網頁可以放在一個特定的文件夾中,這個文件夾里還可以創建子文件夾,每個子文件夾存放N個網頁,并且文件夾里邊有index索引文件,記錄了爬過的url序列。這樣一來,確實是可以作為搜索引擎的信息來源,是一個非常實用的SEO武器。
Larbin爬蟲目前沒有支持windows版本,只能在Linux下使用,但它是一個用C++編寫的開源的工具。有興趣的人可以研究下,根據自身情況制定自己的Larbin爬蟲。
Larbin官方地址:http://larbin.sourceforge.net/index-eng.html

