Web spider也稱為Webcrawler(網絡爬蟲),是一種網絡機械人,會搜查及分析網絡中各個網站頁面的數據,包括文字、表格和鏈接,並會沿著網頁內的超連結一直搜索和爬取其他的網頁,以類似樹枝分叉狀延伸下去,一直循環直到把所有可能到達的網頁抓取出來。
而它在搜尋引擎的運用上,就發揮偵察兵的作用。它先抓取網站所有頁面,然後下載到自己的伺服器上形成一個資料庫,資料庫儲存著每一個網絡上可到達頁面的內容。這樣做的目的是將預先搜尋到的網頁放在數據庫上建立索引,好讓搜尋引擎能夠在搜尋進行時快速查詢數據庫,便可以更有效率地回饋匹配的網頁給搜尋引擎用家。而且,它會每日持續運行,所以能夠抓獲有變化的網頁內容,以確保資料庫保持更新。
對於網主來說,我們要讓搜尋引擎的Web crawler能找到我們完整的網站和有用的頁面,相反就要避免無用的網頁被抓取,以免被搜尋引擎降級。方法是網主可以建一個robots.txt檔和網站地圖(Sitemap),來標示哪些頁面可以被Webcrawler找取而哪些不可以,以及標示網站架構去告訴Google、Yahoo!、Bing等搜尋引擎的Webcrawler如何爬取網站。
另一方面,除了廣泛用於搜尋引擎,個人也可利用網絡爬蟲,比如一些伺服器便提供了爬蟲日誌給網主,日誌內的一些原始瀏覽數據可幫助網主監察及找出有問題的頁面,以便作出修正。
不過,有一些人為了提升網站排名卻試圖對搜尋引擎的Webspider作弊,希望用替身來騙過搜尋引擎的web spider,想知道更多?何不立即看看什麼是黑帽 SEO?
三大編輯精選:
Google打造AI 王國,真人工程師將被AutoML代替?