在線客服
24小時(shí)免費(fèi)咨詢電話:18978941786
客服時(shí)間:上午9:30~下午6點(diǎn)
當(dāng)前位置:首頁(yè)>>服務(wù)中心 >> 網(wǎng)站優(yōu)化 >> 網(wǎng)站搜索引擎優(yōu)化之爬蟲篇
網(wǎng)站搜索引擎優(yōu)化之爬蟲篇
收藏 分享 發(fā)布日期:2012-2-12 16:33:01 編輯:admin 文章來(lái)源: 點(diǎn)擊率:
下面就讓我們來(lái)介紹一下今天的主角——爬蟲(crawler)。爬蟲是搜索引擎獲取網(wǎng)絡(luò)資源的重要途徑。通過(guò)網(wǎng)絡(luò)爬蟲,搜索引擎可以有機(jī)的獲取當(dāng)前互聯(lián)網(wǎng)上最新的網(wǎng)頁(yè),為接下來(lái)分析關(guān)鍵詞,排序等等提供素材。既然爬蟲如此的重要,那么我們就應(yīng)該針對(duì)爬蟲給他提供一些適合他的“食物”(筆者在此不想提過(guò)多的技術(shù)分析,比如說(shuō)廣度優(yōu)先,深度優(yōu)先,內(nèi)容相關(guān),網(wǎng)頁(yè)重要性等等,那些是留給各個(gè)研發(fā)人員去關(guān)心的事情,在這里筆者只想描述些概念性的觀點(diǎn),適合大家理解討論)。但是在這里有個(gè)非常重要的概念就是爬蟲是很有禮貌的,它不會(huì)不告而訪。它會(huì)在自己的“user agent”聲稱“我是某某搜索引擎的爬蟲”。這就為我們提用一個(gè)很好的機(jī)會(huì),因?yàn)闄C(jī)器畢竟和人不一樣,要達(dá)到人類最好的視覺(jué)效果可能會(huì)對(duì)搜索引擎對(duì)頁(yè)面的分析不利,反之亦然。通過(guò)探測(cè)爬蟲的方法,可以把一個(gè)完全只適合給機(jī)器看的頁(yè)面交給爬蟲但是一點(diǎn)也不影響到自己真正用戶的用戶體驗(yàn)。而且,隨著時(shí)間的發(fā)展,爬蟲開(kāi)始變的越來(lái)越聰明,有些爬蟲比如說(shuō)google,已經(jīng)可以理解頁(yè)面本身中的javascript(但不是包括<script type=”text/javascript” src=”XXX”>這樣外部的javascript),這樣如果你不想讓爬蟲去某個(gè)鏈接的話完全可以把它寫進(jìn)javascript中。至于說(shuō)html里面的各個(gè)標(biāo)簽應(yīng)該怎么寫對(duì)搜索引擎有益,互聯(lián)網(wǎng)上已經(jīng)有很多文章闡述了,本文就不贅述了。
爬蟲還有一個(gè)重要但是很無(wú)奈的特點(diǎn)就是爬蟲的資源是有限的。特別是對(duì)于一些規(guī)模較小的搜索引擎,他們會(huì)設(shè)計(jì)自己的一套算法來(lái)決定是否要讓爬蟲訪問(wèn)某個(gè)頁(yè)面。如果這個(gè)頁(yè)面不夠“重要”(由各個(gè)引擎自己定義),而且資源也不夠的情況下,這個(gè)頁(yè)面就會(huì)被忽略。我們不妨來(lái)做個(gè)實(shí)驗(yàn),去百度的網(wǎng)站輸入“site: cn.alexa.com”,會(huì)顯示有“約694,000篇”,再去sogou的網(wǎng)頁(yè)嘗試,你會(huì)看見(jiàn)“找到 6 個(gè)網(wǎng)頁(yè)”。這也給各位希望做搜索引擎優(yōu)化的諸位提個(gè)警鐘,不要太在意這個(gè)時(shí)候在(小規(guī)模搜索引擎的)結(jié)果。如果資金允許的話,在這個(gè)時(shí)候在小規(guī)模引擎上買些關(guān)鍵詞的效果會(huì)來(lái)的更好。
本文章由南寧網(wǎng)站建設(shè)、南寧網(wǎng)站優(yōu)化、南寧網(wǎng)絡(luò)公司整理,轉(zhuǎn)載請(qǐng)注明出處:http://www.absorbed3d.com/
