新聞中心

搜索引擎關鍵詞排名的鏈接原理

類型 : 行業(yè)動態(tài)

 

    在Google誕生之前,傳統(tǒng)搜索引擎主要依靠頁面內容中的關鍵詞匹配搜索詞進行排名。這中排名方式的短處現在看來是顯而易見,那就是很容易被刻意操縱。黑帽SEO在頁面上堆積關鍵詞。或加入與主題無關的熱門關鍵詞,都能提高排名,使搜索引擎排名結果質量大為下降?,F在的搜索引擎都使用鏈接分析技術減少垃圾,提高用戶體驗。本節(jié)就簡要探討鏈接在搜索引擎排名中的應用原理。
 
        在排名中計入鏈接因素,不僅有助于減少垃圾,提高結果相關性,也使傳統(tǒng)關鍵詞匹配無法排名的文件能夠被處理。比如圖片、視頻文件無法進行關鍵詞匹配,但是卻可能有外部鏈接,通過鏈接信息,搜索引擎就可以了解圖片和食品的內容從而排名。
 
         鏈接因素現在已經超過頁面內容的重要性。不過理解鏈接關系比較抽象。頁面上的因素對排名的影響能看得到:關鍵詞在標題標簽中出現有什么影響,出現在最前面又有什么影響,有技術資源的還可以大規(guī)模地統(tǒng)計,技術出關鍵詞出現在標題標簽中不同位置與排名之間的關系。雖然這種關系不一定是因果關系,但至少是統(tǒng)計上的聯(lián)系,使SEO人員大致了解如何優(yōu)化。
 
李彥宏超鏈分析
 
        百度創(chuàng)始人李彥宏在回國之前就是美國頂級的搜索引擎工程師之一。據說李彥宏在尋找風險投資時,投資人詢問其他三個搜索引擎業(yè)界的技術高人一個問題:要了解搜索引擎技術應該問誰。這三個被問到的高人中有兩個人回答:搜索引擎的事就問李彥宏。由此投資人斷定李彥宏是最了解搜索引擎的人之一。
 
        這事實就是在現實生活中類似于鏈接關系的應用。要判斷哪個頁面最具權威性,不能光看頁面自己怎么說,還要看其他頁面怎么評價。
 
        李彥宏1997年就提交了一份名為“鏈接文件檢索系統(tǒng)和方法”的專利,這比Google傳說人發(fā)明PR要早得多,不得不說這是非常具有前瞻性的研究工作。在這份專利中,李彥宏提出了與傳統(tǒng)信息檢索系統(tǒng)不同的基于鏈接的排名方法。
 
        這個系統(tǒng)除了索引頁面之外,還建立一個鏈接詞庫,記錄鏈接錨文字的一些相關信息,如錨文字中包含哪些關鍵詞,發(fā)出鏈接的頁面索引,包含特定錨文字的鏈接總數,包含特定關鍵詞的鏈接都指向哪些頁面。詞庫不僅包含關鍵詞原型,也包含同一個詞干的其他衍生關鍵詞。
 
        根據這些鏈接數據,尤其是錨文字,計算出基于鏈接的文件相關性。在用戶搜索時,將得到的基于鏈接的相關性與基于關鍵詞匹配的傳統(tǒng)相關性綜合使用,得到更準確的排名。
 
        在今天看到,這種基于鏈接的相關性計算是搜索引擎的常態(tài),每個SEO人員都知道。但是在十幾年前,這無疑是非常創(chuàng)新的概念,當然現在的搜索引擎算法對鏈接的考慮,已經不僅僅是錨文字,實際上要復雜的多。
 
HITS算法
 
        HITS是英文Hyperlink-Induced Topic Search 的縮寫,意譯為“超鏈誘導主題搜索” 。
 
        按照HITS算法,用戶輸入關鍵詞后,計算對返回的匹配頁面技術兩種值,一種是樞紐值,另一種是權威值,這兩個值是相互依存、相互影響的。所謂樞紐值,指的是頁面上所有導出鏈接指向頁面的權威值之和。權威值指的是所有導入鏈接所在頁面的樞紐值之和。
 
        上面的定義比較拗口,我們可以簡單的說,HITS算法會提煉出兩種比較重要的頁面。也就是樞紐頁面和權威頁面。樞紐頁面本身可能沒有多少導入鏈接,但是有很多導出鏈接指向權威頁面。權威頁面本身可能導出鏈接不多,但是有很多來自樞紐頁面的導入鏈接。
 
        典型的樞紐頁面就是如雅虎目錄,開放目錄或好123這樣的網站目錄。這種高質量的網站目錄作用就在于指向其他權威網站,所有稱為樞紐,而權威頁面有很多導入鏈接。其中包含很多來自樞紐頁面的鏈接。權威頁面通常是提供真正相關內容的頁面。
 
        HITS算法是針對特定查詢詞的,所以稱為主題搜索。
 
 
        HITS算法的最大缺點是,它在查詢階段進行計算,而不是在抓取或預處理階段。所以HITS算法是以犧牲查詢排名相應為代價的。也正因為如此。原始HITS算法在搜索引擎中并不常用。不過HITS算法的思想很可能融入到搜索引擎的索引階段,也就是根據鏈接關系找出具有樞紐特征或權威特征的頁面。
 
        稱為權威頁面的第一優(yōu)先,不過難度比較大,唯一的辦法就是獲得高質量的鏈接,當你的網站不能成為權威頁面時,就讓它成為樞紐頁面。所以導出鏈接也是當前搜索引擎排名的因素之一。絕不鏈接到其他網站的做法,并不是好的SEO辦法。
 
 
TrustRank算法
 
        TrustRank是近年來比較受關注的基于鏈接關系的排名算法。TrustRank可以翻譯為“信任指數”。
 
        TrustRank算法最初來自于2004年斯坦福大學和雅虎的一項聯(lián)合研究,用來檢測垃圾網站,并且于2006年申請專利。TrustRank算法發(fā)明人還發(fā)表了一份專門的PDF文件,說明TrustRank算法的應用。
 
TrustRank算法并不是有Google提出的,不過哦由于Google所占市場份額最大,而且TrustRank在Google排名中也是一個非常重要的因素,所以有些人誤認為TrustRank是Google提出的。更讓人糊涂的是,Google曾經把TrustRank申請為商標,但是TrustRank商標中的TrustRank指的是Google檢測含有惡意代碼網站的方法,而不是指排名算法中的信任指數。
 
        TrustRank算法基于一個基本假設:好的網站很少會鏈接到壞的網站,反之則不成立,也就是說,壞的網站很少鏈接到好的網站這句話不成立。正相反,很多垃圾網站會鏈接到高權威、高信任指數的網站,試圖提高自己的信任指數。
 
        基于這個假設,如果能挑選出可以百分之百信任的網站,這些網站的Trustrank評為最高,這些TrustRank最高的網站所鏈接的網站信任網站稍微降低,但也會提高。與此類似,第二層被信任的網站鏈接出去的第三層網站,信任度繼續(xù)下降。由于種種原因,好的網站也不可避免的會鏈接到一些垃圾網站,不過離第一層網站點擊距離越近,所傳遞的信任指數越高,離第一級網站點擊距離越遠,信任指數將以此下降,這樣,通過TrustRank算法,就能給所有網站計算出相應的信任指數,離第一層網站越遠,成為垃圾網站的可能性越大。
 
        計算TrustRank值首先要選擇一批種子網站,然后人工查看網站,設定一個初始TrustRank值,挑選種子網站的兩種方式,一種是選擇導出鏈接最多的網站,因為TrustRank算法就是計算指數隨著導出鏈接的衰減。導出鏈接多的網站,在某種意義上可以理解為“逆向PR值”比較高。
 
        另一種挑選種子網站的方法是選PR值高的網站,因為PR值越高,在搜索結果頁面出現的概率越大。這些網站才正是TrustRank算法最關注的、需要調整排名的網站,那些PR值很低的頁面,在沒有TrustRank算法時排名也很靠后,計算TrustRank意義就不大了。
 
        根據測算,挑選出兩百個左右網站作為種子,就可以比較準確地計算出所有網站的TrustRank值。
 
        計算TrustRank隨鏈接關系減少的公式有兩種形式。一種是隨著鏈接次數衰減,也就是說如果第一層頁面TrustRank指數為100,第二層頁面衰減為90,第三層衰減為80.第二種計算辦法是按導出鏈接數目分配TrustRank值,也就是說,如果一個頁面的TrustRank值為100,頁面上有5個導出鏈接,那個鏈接將傳遞20%的TrustRank值,衰減和分配這兩種計算方法通常綜合使用,整體效果都是隨著鏈接層次的增加,TrustRank值逐步降低。
 
        得出網站和頁面的TrustRank值后,可以通過兩種方式影響排名。一種是把傳統(tǒng)排名算法挑選出的多個頁面,根據TrustRank值比較,重新做排名調整。另一種是設定一個最低的TrustRank值門檻,只有超過這個門檻的頁面,才被認為有足夠的質量進入排名,低于這個門檻的頁面將被認為是垃圾頁面,從搜索結果中過濾出去。
 
        雖然TrustRank算法最初是作為檢測垃圾的辦法,但在現在的搜索引擎排名算法中,TrustRank概念使用更為廣泛,常常影響大部分網站的整體排名,TrustRank算法最初針對的是頁面級別,現在在搜索引擎算法中,TrustRank值也通常表現在域名級別,整個域名的信任指數越高,整體排名能力就越強。
 
Google PR
 
         PR是PageRank的縮寫。Google PR理論是所有基于鏈接的搜索引擎理論中最有名的。PR是Google創(chuàng)始人之一拉里佩奇發(fā)明的,用于表示頁面重要性的概念。用最簡單的話說就是,反向鏈接越多的頁面就是越重要的頁面,因此PR值也就越高。Google PR有點類似于科技文獻中互相應用的概念,被其他文獻引用較多的文獻,很可能是比較重要的文獻。
PR的概念和計算
         我們可以把互聯(lián)網歷程成由結點和鏈接組成的有向圖,頁面就是一個個結點,頁面之間的有向鏈接傳遞著頁面的重要性。一個鏈接傳遞的PR值決定于導入鏈接所在頁面的PR值,發(fā)出鏈接的頁面本身PR值越高,所能傳遞出去的PR值也越高。傳遞的PR數值也取決于頁面上的導出鏈接數目。對于給定PR值的頁面來說,假設能傳遞到下級頁面100份的PR,頁面上有10個導出鏈接,每個鏈接能傳遞10份PR,頁面上有20個導出鏈接的話,每個鏈接只能傳遞5份PR。所以一個頁面的PR值取決于導入鏈接總數,發(fā)出鏈接頁面的PR值,以及發(fā)出鏈接頁面上的導出鏈接數目。
 
PR的兩個比喻模型
         關于PR有兩個著名的比喻。一個比喻是投票。鏈接就像民主投票一樣,A頁面鏈接到B頁面,就意味著A頁面對B頁面投了一票,使得B頁面的重要性提高。同時A頁面本身的PR值決定了A所能投出去的投票力,PR值越高的頁面,投出的票也更重要。在這個意義上,傳統(tǒng)基于關鍵詞匹配的算法是看頁面直接說頁面內容是什么,基于鏈接的PR則是看別人怎么評價這個頁面。
         第二個比喻是隨機沖浪比喻。假設一個訪問者從一個頁面開始,不停地隨機點擊鏈接,訪問下一個頁面,有時候這個用戶感到無聊了,就再點擊鏈接,就隨機跳到另一個網址,再次開始不停地向下點擊。所謂PR值,也就是一個頁面在這種隨機沖浪訪問中被訪問到的概率。一個頁面導入鏈接越多,被訪問的概率也越高,因此PR值也越高。
地址 : 浙江省湖州市吳興區(qū)加利廣場
QQ : 2279641406 547859428
電話:13735195038 傳真:0572-2198989
電子郵件:cn-hope@163.com 網址:socalsys.com
后普網絡 版權所有 Copyright ? 2018 浙ICP備11012944號 網站地圖 | 免責申明 | 聯(lián)系我們