在Google誕生之前,傳統(tǒng)搜索引擎主要依靠頁面內(nèi)容中的關(guān)鍵詞匹配搜索詞進(jìn)行排名。這中排名方式的短處現(xiàn)在看來是顯而易見,那就是很容易被刻意操縱。黑帽SEO在頁面上堆積關(guān)鍵詞。或加入與主題無關(guān)的熱門關(guān)鍵詞,都能提高排名,使搜索引擎排名結(jié)果質(zhì)量大為下降?,F(xiàn)在的搜索引擎都使用鏈接分析技術(shù)減少垃圾,提高用戶體驗(yàn)。本節(jié)就簡(jiǎn)要探討鏈接在搜索引擎排名中的應(yīng)用原理。
在排名中計(jì)入鏈接因素,不僅有助于減少垃圾,提高結(jié)果相關(guān)性,也使傳統(tǒng)關(guān)鍵詞匹配無法排名的文件能夠被處理。比如圖片、視頻文件無法進(jìn)行關(guān)鍵詞匹配,但是卻可能有外部鏈接,通過鏈接信息,搜索引擎就可以了解圖片和食品的內(nèi)容從而排名。
鏈接因素現(xiàn)在已經(jīng)超過頁面內(nèi)容的重要性。不過理解鏈接關(guān)系比較抽象。頁面上的因素對(duì)排名的影響能看得到:關(guān)鍵詞在標(biāo)題標(biāo)簽中出現(xiàn)有什么影響,出現(xiàn)在最前面又有什么影響,有技術(shù)資源的還可以大規(guī)模地統(tǒng)計(jì),技術(shù)出關(guān)鍵詞出現(xiàn)在標(biāo)題標(biāo)簽中不同位置與排名之間的關(guān)系。雖然這種關(guān)系不一定是因果關(guān)系,但至少是統(tǒng)計(jì)上的聯(lián)系,使SEO人員大致了解如何優(yōu)化。
李彥宏超鏈分析
百度創(chuàng)始人李彥宏在回國之前就是美國頂級(jí)的搜索引擎工程師之一。據(jù)說李彥宏在尋找風(fēng)險(xiǎn)投資時(shí),投資人詢問其他三個(gè)搜索引擎業(yè)界的技術(shù)高人一個(gè)問題:要了解搜索引擎技術(shù)應(yīng)該問誰。這三個(gè)被問到的高人中有兩個(gè)人回答:搜索引擎的事就問李彥宏。由此投資人斷定李彥宏是最了解搜索引擎的人之一。
這事實(shí)就是在現(xiàn)實(shí)生活中類似于鏈接關(guān)系的應(yīng)用。要判斷哪個(gè)頁面最具權(quán)威性,不能光看頁面自己怎么說,還要看其他頁面怎么評(píng)價(jià)。
李彥宏1997年就提交了一份名為“鏈接文件檢索系統(tǒng)和方法”的專利,這比Google傳說人發(fā)明PR要早得多,不得不說這是非常具有前瞻性的研究工作。在這份專利中,李彥宏提出了與傳統(tǒng)信息檢索系統(tǒng)不同的基于鏈接的排名方法。
這個(gè)系統(tǒng)除了索引頁面之外,還建立一個(gè)鏈接詞庫,記錄鏈接錨文字的一些相關(guān)信息,如錨文字中包含哪些關(guān)鍵詞,發(fā)出鏈接的頁面索引,包含特定錨文字的鏈接總數(shù),包含特定關(guān)鍵詞的鏈接都指向哪些頁面。詞庫不僅包含關(guān)鍵詞原型,也包含同一個(gè)詞干的其他衍生關(guān)鍵詞。
根據(jù)這些鏈接數(shù)據(jù),尤其是錨文字,計(jì)算出基于鏈接的文件相關(guān)性。在用戶搜索時(shí),將得到的基于鏈接的相關(guān)性與基于關(guān)鍵詞匹配的傳統(tǒng)相關(guān)性綜合使用,得到更準(zhǔn)確的排名。
在今天看到,這種基于鏈接的相關(guān)性計(jì)算是搜索引擎的常態(tài),每個(gè)SEO人員都知道。但是在十幾年前,這無疑是非常創(chuàng)新的概念,當(dāng)然現(xiàn)在的搜索引擎算法對(duì)鏈接的考慮,已經(jīng)不僅僅是錨文字,實(shí)際上要復(fù)雜的多。
HITS算法
HITS是英文Hyperlink-Induced Topic Search 的縮寫,意譯為“超鏈誘導(dǎo)主題搜索” 。
按照HITS算法,用戶輸入關(guān)鍵詞后,計(jì)算對(duì)返回的匹配頁面技術(shù)兩種值,一種是樞紐值,另一種是權(quán)威值,這兩個(gè)值是相互依存、相互影響的。所謂樞紐值,指的是頁面上所有導(dǎo)出鏈接指向頁面的權(quán)威值之和。權(quán)威值指的是所有導(dǎo)入鏈接所在頁面的樞紐值之和。
上面的定義比較拗口,我們可以簡(jiǎn)單的說,HITS算法會(huì)提煉出兩種比較重要的頁面。也就是樞紐頁面和權(quán)威頁面。樞紐頁面本身可能沒有多少導(dǎo)入鏈接,但是有很多導(dǎo)出鏈接指向權(quán)威頁面。權(quán)威頁面本身可能導(dǎo)出鏈接不多,但是有很多來自樞紐頁面的導(dǎo)入鏈接。
典型的樞紐頁面就是如雅虎目錄,開放目錄或好123這樣的網(wǎng)站目錄。這種高質(zhì)量的網(wǎng)站目錄作用就在于指向其他權(quán)威網(wǎng)站,所有稱為樞紐,而權(quán)威頁面有很多導(dǎo)入鏈接。其中包含很多來自樞紐頁面的鏈接。權(quán)威頁面通常是提供真正相關(guān)內(nèi)容的頁面。
HITS算法是針對(duì)特定查詢?cè)~的,所以稱為主題搜索。
HITS算法的最大缺點(diǎn)是,它在查詢階段進(jìn)行計(jì)算,而不是在抓取或預(yù)處理階段。所以HITS算法是以犧牲查詢排名相應(yīng)為代價(jià)的。也正因?yàn)槿绱恕T糎ITS算法在搜索引擎中并不常用。不過HITS算法的思想很可能融入到搜索引擎的索引階段,也就是根據(jù)鏈接關(guān)系找出具有樞紐特征或權(quán)威特征的頁面。
稱為權(quán)威頁面的第一優(yōu)先,不過難度比較大,唯一的辦法就是獲得高質(zhì)量的鏈接,當(dāng)你的網(wǎng)站不能成為權(quán)威頁面時(shí),就讓它成為樞紐頁面。所以導(dǎo)出鏈接也是當(dāng)前搜索引擎排名的因素之一。絕不鏈接到其他網(wǎng)站的做法,并不是好的SEO辦法。
TrustRank算法
TrustRank是近年來比較受關(guān)注的基于鏈接關(guān)系的排名算法。TrustRank可以翻譯為“信任指數(shù)”。
TrustRank算法最初來自于2004年斯坦福大學(xué)和雅虎的一項(xiàng)聯(lián)合研究,用來檢測(cè)垃圾網(wǎng)站,并且于2006年申請(qǐng)專利。TrustRank算法發(fā)明人還發(fā)表了一份專門的PDF文件,說明TrustRank算法的應(yīng)用。
TrustRank算法并不是有Google提出的,不過哦由于Google所占市場(chǎng)份額最大,而且TrustRank在Google排名中也是一個(gè)非常重要的因素,所以有些人誤認(rèn)為TrustRank是Google提出的。更讓人糊涂的是,Google曾經(jīng)把TrustRank申請(qǐng)為商標(biāo),但是TrustRank商標(biāo)中的TrustRank指的是Google檢測(cè)含有惡意代碼網(wǎng)站的方法,而不是指排名算法中的信任指數(shù)。
TrustRank算法基于一個(gè)基本假設(shè):好的網(wǎng)站很少會(huì)鏈接到壞的網(wǎng)站,反之則不成立,也就是說,壞的網(wǎng)站很少鏈接到好的網(wǎng)站這句話不成立。正相反,很多垃圾網(wǎng)站會(huì)鏈接到高權(quán)威、高信任指數(shù)的網(wǎng)站,試圖提高自己的信任指數(shù)。
基于這個(gè)假設(shè),如果能挑選出可以百分之百信任的網(wǎng)站,這些網(wǎng)站的Trustrank評(píng)為最高,這些TrustRank最高的網(wǎng)站所鏈接的網(wǎng)站信任網(wǎng)站稍微降低,但也會(huì)提高。與此類似,第二層被信任的網(wǎng)站鏈接出去的第三層網(wǎng)站,信任度繼續(xù)下降。由于種種原因,好的網(wǎng)站也不可避免的會(huì)鏈接到一些垃圾網(wǎng)站,不過離第一層網(wǎng)站點(diǎn)擊距離越近,所傳遞的信任指數(shù)越高,離第一級(jí)網(wǎng)站點(diǎn)擊距離越遠(yuǎn),信任指數(shù)將以此下降,這樣,通過TrustRank算法,就能給所有網(wǎng)站計(jì)算出相應(yīng)的信任指數(shù),離第一層網(wǎng)站越遠(yuǎn),成為垃圾網(wǎng)站的可能性越大。
計(jì)算TrustRank值首先要選擇一批種子網(wǎng)站,然后人工查看網(wǎng)站,設(shè)定一個(gè)初始TrustRank值,挑選種子網(wǎng)站的兩種方式,一種是選擇導(dǎo)出鏈接最多的網(wǎng)站,因?yàn)門rustRank算法就是計(jì)算指數(shù)隨著導(dǎo)出鏈接的衰減。導(dǎo)出鏈接多的網(wǎng)站,在某種意義上可以理解為“逆向PR值”比較高。
另一種挑選種子網(wǎng)站的方法是選PR值高的網(wǎng)站,因?yàn)镻R值越高,在搜索結(jié)果頁面出現(xiàn)的概率越大。這些網(wǎng)站才正是TrustRank算法最關(guān)注的、需要調(diào)整排名的網(wǎng)站,那些PR值很低的頁面,在沒有TrustRank算法時(shí)排名也很靠后,計(jì)算TrustRank意義就不大了。
根據(jù)測(cè)算,挑選出兩百個(gè)左右網(wǎng)站作為種子,就可以比較準(zhǔn)確地計(jì)算出所有網(wǎng)站的TrustRank值。
計(jì)算TrustRank隨鏈接關(guān)系減少的公式有兩種形式。一種是隨著鏈接次數(shù)衰減,也就是說如果第一層頁面TrustRank指數(shù)為100,第二層頁面衰減為90,第三層衰減為80.第二種計(jì)算辦法是按導(dǎo)出鏈接數(shù)目分配TrustRank值,也就是說,如果一個(gè)頁面的TrustRank值為100,頁面上有5個(gè)導(dǎo)出鏈接,那個(gè)鏈接將傳遞20%的TrustRank值,衰減和分配這兩種計(jì)算方法通常綜合使用,整體效果都是隨著鏈接層次的增加,TrustRank值逐步降低。
得出網(wǎng)站和頁面的TrustRank值后,可以通過兩種方式影響排名。一種是把傳統(tǒng)排名算法挑選出的多個(gè)頁面,根據(jù)TrustRank值比較,重新做排名調(diào)整。另一種是設(shè)定一個(gè)最低的TrustRank值門檻,只有超過這個(gè)門檻的頁面,才被認(rèn)為有足夠的質(zhì)量進(jìn)入排名,低于這個(gè)門檻的頁面將被認(rèn)為是垃圾頁面,從搜索結(jié)果中過濾出去。
雖然TrustRank算法最初是作為檢測(cè)垃圾的辦法,但在現(xiàn)在的搜索引擎排名算法中,TrustRank概念使用更為廣泛,常常影響大部分網(wǎng)站的整體排名,TrustRank算法最初針對(duì)的是頁面級(jí)別,現(xiàn)在在搜索引擎算法中,TrustRank值也通常表現(xiàn)在域名級(jí)別,整個(gè)域名的信任指數(shù)越高,整體排名能力就越強(qiáng)。
Google PR
PR是PageRank的縮寫。Google PR理論是所有基于鏈接的搜索引擎理論中最有名的。PR是Google創(chuàng)始人之一拉里佩奇發(fā)明的,用于表示頁面重要性的概念。用最簡(jiǎn)單的話說就是,反向鏈接越多的頁面就是越重要的頁面,因此PR值也就越高。Google PR有點(diǎn)類似于科技文獻(xiàn)中互相應(yīng)用的概念,被其他文獻(xiàn)引用較多的文獻(xiàn),很可能是比較重要的文獻(xiàn)。
PR的概念和計(jì)算
我們可以把互聯(lián)網(wǎng)歷程成由結(jié)點(diǎn)和鏈接組成的有向圖,頁面就是一個(gè)個(gè)結(jié)點(diǎn),頁面之間的有向鏈接傳遞著頁面的重要性。一個(gè)鏈接傳遞的PR值決定于導(dǎo)入鏈接所在頁面的PR值,發(fā)出鏈接的頁面本身PR值越高,所能傳遞出去的PR值也越高。傳遞的PR數(shù)值也取決于頁面上的導(dǎo)出鏈接數(shù)目。對(duì)于給定PR值的頁面來說,假設(shè)能傳遞到下級(jí)頁面100份的PR,頁面上有10個(gè)導(dǎo)出鏈接,每個(gè)鏈接能傳遞10份PR,頁面上有20個(gè)導(dǎo)出鏈接的話,每個(gè)鏈接只能傳遞5份PR。所以一個(gè)頁面的PR值取決于導(dǎo)入鏈接總數(shù),發(fā)出鏈接頁面的PR值,以及發(fā)出鏈接頁面上的導(dǎo)出鏈接數(shù)目。
PR的兩個(gè)比喻模型
關(guān)于PR有兩個(gè)著名的比喻。一個(gè)比喻是投票。鏈接就像民主投票一樣,A頁面鏈接到B頁面,就意味著A頁面對(duì)B頁面投了一票,使得B頁面的重要性提高。同時(shí)A頁面本身的PR值決定了A所能投出去的投票力,PR值越高的頁面,投出的票也更重要。在這個(gè)意義上,傳統(tǒng)基于關(guān)鍵詞匹配的算法是看頁面直接說頁面內(nèi)容是什么,基于鏈接的PR則是看別人怎么評(píng)價(jià)這個(gè)頁面。
第二個(gè)比喻是隨機(jī)沖浪比喻。假設(shè)一個(gè)訪問者從一個(gè)頁面開始,不停地隨機(jī)點(diǎn)擊鏈接,訪問下一個(gè)頁面,有時(shí)候這個(gè)用戶感到無聊了,就再點(diǎn)擊鏈接,就隨機(jī)跳到另一個(gè)網(wǎng)址,再次開始不停地向下點(diǎn)擊。所謂PR值,也就是一個(gè)頁面在這種隨機(jī)沖浪訪問中被訪問到的概率。一個(gè)頁面導(dǎo)入鏈接越多,被訪問的概率也越高,因此PR值也越高。