百度搜尋引擎排名規則(百度搜尋的結果是按什麼排序)

我們向搜尋引擎提交一個查詢,搜尋引擎會從先到後列出大量的結果,排序的不同帶來的經濟效應也不同,我們想要的就是讓自己的搜尋結果靠前,最好是能得到NO.1。那麼這些搜尋結果排序的標準是什麼呢?

還是看看百度搜尋研發部以求醫為例談搜尋引擎排序演算法的基礎原理。

比如,如果我牙疼,應該去看怎樣的醫生呢?假設只有三種選擇:

A醫生,既治眼病,又治胃病;

B醫生,既治牙病,又治胃病,還治眼病;

C醫生,專治牙病。

A醫生肯定不在考慮之列,B醫生和C醫生之間,貌視更應該選擇C醫生,因為他更專注,更適合我的病情。假如再加一個條件:B醫生經驗豐富,有二十年從醫經歷,醫術高明,而C醫生只有五年從醫經驗,這個問題就不那麼容易判斷了,是優先選擇更加專注的C醫生,還是優先選擇醫術更加高明的B醫生,的確成了一個需要仔細權衡的問題。

至少,我們得到了一個結論,擇醫需要考慮兩個條件:醫生的專長與病情的適配程度、醫生的醫術。大家肯定覺得這個結論理所當然,而且可以很自然地聯想到,搜尋引擎排序不也是這樣嗎,既要考慮網頁內容與使用者搜尋查詢的匹配程度,又要考慮網頁本身的質量。

但是,怎麼把這兩種因素結合起來,得到一個,而不是兩個或多個排序標準呢?簡單的加減乘除是不夠嚴謹的,最好能跟數學這樣堅實的學科聯絡起來。人類在古代就能建造出高樓,但要建造出高達數百米的摩天大廈,如果沒有建築力學、材料力學這樣堅實的學科作為後盾,則是非常非常困難的。同理,搜尋引擎演算法要處理上億的網頁,也需要更為牢固的理論基礎。

求醫,病人會優先選擇診斷準確、治療效果好的醫生。而對於搜尋引擎來說,一般按網頁滿足使用者需求的概率從大到小排序。如果用q表示使用者給出了一個特定的搜尋查詢,用d表示一個特定的網頁滿足了使用者的需求,那麼排序的依據可以用一個條件概率來表示:

這個簡單的條件概率,將搜尋引擎排序演算法與概率論這門堅實的學科聯絡了起來。可以看到,搜尋引擎的排序標準,是由三個部分組成的:搜尋查詢本身的屬性P(q)、網頁本身的屬性P(d)、兩者的匹配關係P(q|d)。對於同一次查詢來說,所有網頁對應的P(q)都是一樣的,因此排序時可以不考慮,即

搜尋引擎為了提高響應使用者搜尋查詢的效能,需要事先對所有待查詢的網頁做預處理。預處理時,搜尋引擎預處理只知道網頁,還不知道使用者查詢,因此需要倒過來計算,即分析每個網頁能滿足哪些需求,該網頁分了多大比例來滿足該需求,即得到公式右邊的第一項P(q|d),這相當於醫生的專注程度。

比如,一個網頁專門介紹牙病,另一個網頁既介紹牙病又介紹胃病,那麼對於“牙疼”這個查詢來說,前一個網頁的P(q|d)值就會更高一些。

公式右邊的第二項P(d),是一個網頁滿足使用者需求的概率,它反映了網頁本身的好壞,與查詢無關。假如要向一個陌生人推薦網頁(我們並不知道他需要什麼),那麼P(d)就相當於某個特定的網頁被推薦的概率。在傳統的資訊檢索模型中,這個不太被重視,之前都試圖只根據查詢與文件的匹配關係來得到排序的權重。而實際上,這個與查詢無關的量是非常重要的。

假如我們用網頁被訪問的頻次來估計它滿足使用者需求的概率,可以看出對於兩個不同的網頁,這個量有著極其巨大的差異:有的網頁每天只被訪問一兩次,而有的網頁每天被訪問成千上萬次,這對於排序非常重要。

總而言之,這個公式模型告訴了我們網頁與查詢的匹配程度,和網頁本身的好壞都是參與排序排名的重要因素。

怎麼樣?文章中的內容在現在是不是有很多都似曾相似,是不是在網際網路上看到很多文章都和這類似?其實很多內容都是從這裡衍生出去的。比如搜尋引擎的綜合得分排序、比如關鍵詞與網頁內容的相關度、比如網頁本身好壞對排序影響等等。

一個最簡單的例子,著名的搜尋引擎排序演算法pagerank演算法,其實就是為了彌補傳統演算法對P(d)值(頁面本身好壞判斷)的不足而產生的,Pagerank是對網頁好壞判斷的一個不錯的標準。而現在的網頁點選量、停留時間、跳出率、頁面訪問速度等都是對網頁滿足使用者需求概率的預估,這一個因素越來越重要。

前不久百度釋出的《百度搜尋引擎網頁質量白皮書》你再看看,其實也是大篇幅的在談談網頁本身好壞這一點。隨著使用者時代來臨,使用者投票越來越影響搜尋排名,而使用者主要衡量的除了需求滿足外就是網頁本身質量。所以,網頁本身質量不管對於使用者還是搜尋引擎,在排序上都變得越來越重要。

一句話,很多時候需要透過現象去看本質,而你看透這個本質後,再看其他現象,一切都那麼明瞭。

歡迎關注木木SEO部落格,微信公眾號:mumuseo。如果你覺得這篇文章有價值,請分享給你的朋友,如果你覺得沒有價值,沒有關係,請給以指導,這是一次改變的機會。也歡迎交流QQ&微訊號809472503