前面已經介紹過暗網,這些網頁和“非暗網”網頁是脫鉤的,也就是說Spider 通過普通的抓取機制永遠都不可能抓取到這些頁面。用戶瀏覽這些暗網頁面一般都是通過提交條件查詢或者文本框主動搜索,當然還有很多其他情況產生的暗網網頁,但是普通搜索引擎的Spider 考慮到很多因素是不會直接這樣來操作的。由于暗網頁面的數量巨大,價值也遠高于非暗網頁面,所以大型搜索引擎都把對暗網的抓取當成了重要研究課題,各自也有著不同的抓取策略。這里來介紹一下百度的“阿拉丁計劃”。
百度的“阿拉丁計劃”誕生的初衷就是挖掘出更多存在于暗網之中有價值的信息,讓更多人從中受益。通過加入阿拉丁平臺,可以指定關鍵詞,把自己網站的內容更精準地呈獻給目標用戶;可以指定展現樣式,使用更豐富、更適合資源本身的樣式,而不再局限于文字;可以指定更新頻率,也就是直接告訴百度自己資源的更新頻率,以保證百度搜索結果數據和實際數據的實時同步。
由于是成都seo優化站長自己提交資源,所以百度可以很容易地解決一部分暗網抓取問題。這個平臺對于有著獨特資源的網站來說是個福利,不僅使得更多使用百度搜索的網民受益,自己的網站也獲得了更多的流量,重要的是非商業內容網站加入阿拉丁平臺完全是免費的。不過對于大部分無獨特資源的中小站長來說,這個平臺會減少自己網站的展示機會,在一定角度上來說也是在鼓勵站長發掘自己獨有的內容和資源。當然如果網站資源比較不錯,也可以通過付費的方式加入到百度阿拉丁平臺,不過付費阿拉丁對資源應該有特別的要求?,F在阿拉丁中的商業內容基本上都是付費的,比如房產、汽車等。
即使不能進入阿拉丁,站長自己也可以輔助百度抓取自己站內處于“暗網”中的頁面。比如商城和房產類網站,把希望百度收錄的交叉查詢的鏈接全部呈現出來(如圖2-5所示),或者把自已希望百度收錄的頁面制作成 HTML和 XML 地圖以供百度 Spider 抓取和收錄,并且百度站長平臺開通了sitemap 提交功能,有比較優質資源的站長可以通過此工具提交自己網站“暗網”中的頁面。百度在對暗網抓取方面比較依靠站長自己的主動配合,而沒有暴力查詢網站的數據庫
地址:四川省成都市武侯區二環南四段51號1棟11樓