系統公告
個人檔案
個人圖檔
ID:post
暱稱:大尾
地區:臺北市

post的最新的回應
  • 目前沒有留言
好時光貼曆
人氣指數
當日人次:
累積人次:
我推薦誰
目前無名單
誰推薦我
目前無名單
誰來我家
RSS 訂閱
RSS2
ATOM
贊助商
其它資訊
本部落所刊登之內容,皆由作者個人所提供,不代表 yam天空部落 本身立場。
POWERED BY
POWERED BY
會員登入免費註冊
April 19, 2006

資料來源:http://www.seo.org.cn/article/view_152.html
Google的原罪--網頁序列等級
1998年,當時互聯網正在高速發展,處於最光彩照人的階段。1995年開始出現的搜索引擎引起世人關注,在當時被高科技的權威們(以及福布斯雜誌)評判為另一個互聯網神奇組合中又一個讓大家富裕的利潤增長點。然而,這樣的創新除了意味著整個商業模式的終結之外沒有其他。 事實的真相是,就像這些早期的預言家事後不得不承認的是:輕鬆的迅速致富的虛假諾言成為一種附加在優秀公司頭上的最大壓力,妨礙了他們本來可以瞭解得更多,做得更好。

最早最成功的搜索引擎之一,數位設備公司(DEC)旗下的AltaVista,從1998年開始就迷失了它原有的方向,所有的網路先驅們都在談論 "門戶",所以AltaVista也嘗試成為一個門戶網站,它忘卻了繼續在搜索引擎序列上尋求發展。 甚至到了1998年,搜索人在搜索引擎中鍵入一到兩個關鍵字所獲得的搜索結果過多這個問題已經變得非常明顯。AltaVista提供了眾多的方法以調整關鍵字的特定聯繫,但是它仍然極少關心到"序列或者排序"的問題。序列,或者說是按照一定標準的返回資訊列,應該早就不成為問題了。搜索引擎用戶們可不想進行布林邏輯運算,同時他們也不會想看前二十個以外的搜索結果。所以,真正的問題是:相對於搜索引擎B,在搜索引擎A中輸入相同的關鍵字,其首頁顯示結果如何能給用戶更多有用的幫助。AltaVista在忙著嘗試成為門戶網站的同時根本無法注意到這麼重要的一點。

進入Google 1998年初,斯坦福大學畢業生Larry Page和Sergey Brin已經在網上運用了一個獨有的排列方法。他們在全球互聯網大會上交了名為"超級文本搜索引擎網站的解析"一文。斯坦福作為指導而Larry Page作為發明者,並於1998年9月註冊了專利。直到 2001年9月4日被授予專利(專利號:第6,285,999),這種計算方法被成為"頁面序列等級",而Google在當時擁有1億5千萬的日查詢量。 AltaVista則日暮西山;甚至連續兩次易主都未能有所起色。 Goolge開始大肆宣傳頁面序列等級,因為這一個極為方便的流傳辭彙,使那些想知道為何Google的引擎確實能提供更好的搜索結果的人感到滿意。甚至在今天,Google都在為他們所取得的進步而驕傲。所有的宣傳都接近於一點,那些網路文章的發表者有時候不得不說明他們所使用的"PR"含義,是指頁面序列等級(PageRank),一種計算方式,而非指Google所做的優秀的公共關係(Public Relations): 頁面序列等級憑藉了互聯網特有的自由民主特性,將大量的鏈結指向作為判定單個網頁價值的標準以及指向器。非常精髓之處在於:Google把從網頁A通向網頁B的鏈結作為一個A對B的投票。投票的多少決定在搜索引擎中的排名。但是,Google並不僅僅只注意一個絕對的鏈結量,或者是某個網頁接到的鏈結要求有多少。一個網頁本身在Google的重要性越高,將越能使其他被鏈結的網頁顯得重要。比如:品牌幾何網站在 Google的重要性指數為5,在中文網頁中已經算較高,所以被品牌幾何鏈結的網頁的重要性會比其他被低於5的網站鏈結的重要性要高。 Google繼而承認,除了網頁序列等級之外,還有其他的變數被使用於決定網頁的意義。當另外的這些變數的宏大外觀易於被那些想知道如何提升自己網站排名的站長們辨識的時候,所有序列計算方法實際的細節將會被考慮作為Google公司的商業機密。使網站的管理者盡可能困難地探知他們的序列方法正是Google的興趣所在。 萬般皆序列 早在飽受懷疑之前,搜索引擎已經在網上日漸重要。電子商務與網頁序列非常合拍,因為高位的網頁序列等級能直接轉化為銷售成績。各種不同的引擎設計出各種不同的方式使網頁序列創造利益價值,諸如付費排名,點擊付費廣告以及付費的含有性鏈結。2002年6月27日,美國聯邦交易委員會在討論此類問題後要求:不論是按照客觀公正的網頁重要性標準進行排列,還是按照付費高低的網頁序列等級,都應該清楚地被標識出來,從而保護消費者的利益。這表明,像網頁序列等級這類總能被解釋得合情合理的計算方式將會為搜索網站的未來維持一個重要的方向。 這樣,搜索引擎網站不僅僅是改進了他們的排列方式,同時還使他們的網站成長得龐大以至於大多數飆網的人每天都會使用搜索引擎數次。所有的門戶網站都嵌入了搜索功能,而且他們中大多數都不得不依靠少數已有的搜索引擎提供商提供搜索結果。這是因為真正有能力經常檢索和排列超過2億個頁面以保持資料時效性的網站屈指可數。Google也許是唯一被公認的持續性和規律性最好的搜索引擎,而實現這一點也只用了兩年不到的時間。Google用一周時間覆蓋現有的網頁,同時再用一周時間計算排列每一個頁面的序列等級。 Google的一個更新週期大約是28天,這對那些對新聞如饑似渴的網蟲們來說似乎是慢了一些。

2001年8月,Google對新聞類網站開始了二次迷你檢索,此類檢索將會使新聞類網站每天均被檢索一次。而每次檢索的結果將會被混在一起,這樣就會給搜索者一種更新的印象。 對於普通的網站管理者,從1996年到2002年,運營好一個網站的技巧被戲劇性地改變了。這完全是由於搜索引擎重要性的增加。儘管在2000年以及2001年大多數.COM神話開始崩潰(這對於那些對崩潰前的日子記憶猶新的非商業性網站的站長們是一個解脫),這個事實一直延續到現在,而搜索引擎幾乎是所有網站頁面設計與鏈結的基本要素。那也是為什麼搜索引擎網站認為應該將聯邦交易委員會所提出的公正客觀的排序標準計算法則需要進一步審視。 什麼樣的客觀標準才是有效的 序列標準評判分成三個部分。第一部分是鏈結受歡迎程度,這被大量的搜索引擎一定程度使用。Google 的頁面序列等級是"鏈結知名度"的最原始模式,並且保持著其最純潔的表達方式。這第二個部分則是網頁特色。這部分包括字體大小、網頁標題、關鍵字、關鍵字出現頻率、文字相近度、檔案名、目錄名以及功能變數名稱。最後那部分是內容分析。通常這一步會將搜索結果即時分類後歸入幾個專案中,這使得搜索者可以通過更具體的樣式得到資料。以上每一種方法都有自己的作用。搜索引擎使用第一和第二種方法的一些組合,或者是單獨使用頁面特性檢索(第三種方法),又或者是三種方法全部使用。 內容分析是這三種方法中最最困難的一種,但它也是非常讓人浮想聯翩的。如果一切變得理想化,當使用這種方法時,圖形的檢索將會成為可能,這種方法會使搜索引擎因為其創新與卓越贏得輝煌的聲譽。但在許多情況下,這種方法並不能正常運作,因為電腦對於自然語言的處理並不擅長。它們不會明白這一大堆來自于不相干的來源的語言之間有什麼細微的差別。而且大部分頂級的搜索引擎都會使用成打的語言種類,而由於每一種語言都會有自己的不同之處,這使得內容分析更為困難。有一些搜索引擎已經對此做了一些有趣的改進,其中有些甚至還發展了圖形搜索功能,但是Google並不是其中之一。其實內容分析最有希望的前景在於它能夠被用於和鏈結知名度相結合,在特定的領域內排列網站。這可能為解決一些純鏈結知名度的問題提供一個新的思考角度。 鏈結知名度,Google 把它成為PageRank,很顯然是Google的序列層最重要的部分。當一個頁面的部分頁面特性能夠勝過其較其上位的競爭頁面的頁面序列時,一些按照通常標準具有十分完美頁面關聯的網頁會因為極低的頁面序列而被埋沒將會成為十分正常的事。另一方面,一個在其標題、頭條以及內部鏈結均有可查詢元素的網站,也可能因為其母網站的鏈結知名度不夠而在排列中遭到埋沒,同時不能向這些相關網站過渡足夠的頁面序列等級。 2002年12月,Google發佈了一個可供下載的工具欄,它可以看到任何網頁相關的頁面序列等級。實際上可下載的工具欄解析,以及針對競爭頁面所做的頁面排列研究,也涉及了對頁面序列規律的相當洞察。 此外,頁面序列等級驅使Google每月檢索一次,相對於那些頁面序列等級低的網站,頁面序列等級高的網站將會被更早,更快,更深入地檢索。對於那些擁有相對較低序列等級的大型網站,這確實是個阻礙。假如你的網頁不被檢索,那也就不會被編入序列索引中。假如不被編入Google的索引中,人們就不會知道。假如人們不知道,那麼就沒有足夠的點數維持網站。Google另外對所有網頁啟動了28天的更新週期,所以錯過的網頁在下一輪更新還有機會。簡單地說,頁面序列等級是Google的核心與實質,對於非常重要的檢索和排列也一樣。到2002年Google已經被普遍認知為世界最知名的搜索引擎。 如何使頁面序列等級達到標準? 首先,Google的單純的宣言"頁面序列等級完全是依賴於網站的獨一無二的民主特性"必須被認真審視一番。在一個民主體制中,每一個人只有一次投票機會。而對於頁面序列等級,富有的人比貧窮的人有更多的投票機會,或者,在網路範圍內,頁面序列等級高的網頁所投的票會比頁面序列等級低的網頁所投的票重要。Google對此的解釋是:"投票計算是投票方自身的重要性決定了投票本身的重要?換句話說其實就是,富人更富,而窮人幾乎都不能被計算在內。這不是"獨一無二的民主",而是獨一無二的暴政。搜索引擎是美國的夢幻機器,是一個可以以大欺小的地方。頁面序列等級只是看上去更貼合聯邦交易委員會所標榜的 "公平、客觀的序列標準"。 其次,只有大型的網站才會有大量的資料。假如你的網站擁有一個較平均的頁面序列等級,你就不用非常費心地將你的資料改成Google能檢索到的有效格式,因為Google很有可能不會檢索你所有的資料。這對於一些擁有超過幾千個網頁,同時主頁在Google的工具欄上的粗略分數只有不足5個等級分的網站來說非常重要。 再次,為了讓Google能深入訪問並檢索擁有數千個頁面的網站,這就需要一個入口網頁的分層系統,它能使Google的檢索系統從頂層向下開始工作。一個擁有數千網頁的單獨網站,其所有典型的外部鏈結都會鏈結至它的主頁,而很少或者根本不會鏈結到它的內頁上。因此主頁的頁面序列等級也籍由內部分層鏈結結構的功效而得以分佈到深層頁面上。但當檢索系統搜索到這些大樹底下的真正"事物"的時候,這些頁面的頁面序列等級經常會歸零。零意味著該頁面的序列等級完全毀壞,甚至當該頁面已經被Google的檢索系統發現,並被列入索引中,而它具有出色的頁面特性。因此原則是:只有較大型的,知名度高的網站將它們的資料置於網上的機會更大,然後期待Google能夠適時地光顧它們的資料。這對於早在1999年Google啟動之前就已經存在的網站也是一樣的。 無數據網站會如何呢? 頁面序列等級也會在一些地方產生負面的效果,甚至是那些沒有什麼資料的網站。頁面序列等級的實質是不公平的,它其實是其積極作用的對立面。當大多數人將積極的作用看作反面的不公正時,沒有人會主張這種有利於已有特權的人為的不公正是解決問題的方法。這本來也是Google所主張的內容。 由於Google的強勢,在2002年開設新網站並使網站走上正規相對于Google成名前困難了許多。新網站的第一步是要讓自己被列入一個開放式的目錄計畫,比較直白的說最好去dmoz.org 登記你的網站。這是 Google每月一次檢索基礎。再經過將近一年試圖從其他已建立的網站誘騙鏈結(或友情鏈結交換)到自己的新網站,一個新的站長可以期望每天有不到30次的訪問量。而另一方面,一個有相當頁面序列等級的網站每天則會有上萬的訪問量。這是網路世界的標準,而Google那0~10的工具欄則是這一標準的最佳表達,而6分也許是及格。由原先的等級4升至等級5需要更多次的新鏈結。這一點並不容易達到。癌症的治療法可能早就已經在網路某個角落存在了,只不過假如存在於新的網站上,那麼你就無法發現它。值得注意的是中文網站的分數會相對低很多,這是因為發展及Google業務進程的原因。 頁面序列等級也鼓勵網站管理者們改變他們的鏈結模式。在討論"搜索引擎最優化"的論壇上,站長們甚至討論對一些鏈結廣告收費,收費標準是按照它們所達到的頁面序列等級。這將使那些頁面序列等級很低同時支付這些鏈結廣告的網站收益。而有時候這些頁面序列等級是由於鏈結作弊或者是其他一些不正當努力的成果,而這些正是Google努力去偵測並及時將之頁面序列等級歸零作為處罰。另一方面,Google專業的網站優化員能夠消除這些類似垃圾郵件的技術。鏡像網站以及存在於某些網域內的複製頁將會被Google查禁並立即處罰,甚至當某些類似網站有其存在的特殊原因時也是這樣。

總之,Google使得鏈結模式發生了意義重大的改變。許多網站管理者吝嗇於給出自己的鏈結(這能緩解你的頁面序列等級轉移到你所給予鏈結的網站),同時他們又不顧一切地想從別人的網站得到更多的鏈結。因此"google吧"網站將友情鏈結的頁面放在了二級頁面,也正式因為這樣的考慮。當遊戲變得商業化時,才會這樣有趣。 Google應該做什麼 我們覺得頁面序列等級在走它自己的路。Google完全可以放任它,同時不應該去突出它。第一步應該停止在工具欄上再顯示頁面序列等級。這同時會減弱頁面序列等級在網站優化者和網站管理者中的印象,以及由於這些已形成的印象所導致的奇異的影響。第二步是在所有的公關文章中不提及頁面序列等級,而代之以有關鏈結知名度只是眾多頁面序列演算法中的一個重要因素的內容。同時Google應該保持眾多演算法的平衡以使得優秀的頁面特色不會因為較低的鏈結知名度而變得無用。 頁面序列等級必須合理化以使"富人的專制"特性縮減,並代之以類似鏈結知名度的更為平等的方式。這在很大程度上將會簡化那些用以滿足排列2億網站需要的複雜的迴圈計算結果,而得出如此複雜的計算結果對Google來說代價也是是非常昂貴的。而網站檢索也必須不以頁面序列等級所驅動。Google應該使用一種方法,使得某網站即使在一次檢索中未被發現,Google的檢索程式也能在下一次檢索時從前一次遺漏的地方發現這個網站。 Google對於網路來說是越來越重要了,它也許應該成為一項公眾或公益事業。來自於像聯邦交易委員會這樣的政府機構的,對於搜索引擎利益的控制是非常應該的,但我們感覺聯邦交易委員會也僅僅非常表面和空洞地注意到了搜索引擎表面的弊端。開始採用贊助鏈結以及廣告欄的 Google並不是一個很大的顧慮,即使Nader小組針對所謂"商業目的提示警告"向聯邦交易委員會進行了投訴。 這其實是個錯誤,因為"商業目的提示警告"的提出是沒有足夠接近地觀察和瞭解頁面序列等級的結果。Google已經實行的頁面序列等級的一些方面幾乎和付費頁面排序一樣有害。為了保護消費者的利益,聯邦交易委員會應該控制廣告商在搜索引擎中的過度炫耀以保護消費者利益。Google仍舊是個搜索引擎,他們只要修正了頁面序列等級的一些壞處就足以說明它還是一個優秀的搜索引擎。 當這篇寫於2002年8月的文章被最終翻譯時,Google收購了Blogger.com, 中國的.CN功能變數名稱剛剛於3月17日推出,blogger.cn還沒有被人註冊。外面天氣很好。












引用 (你可以針對此文寫一篇屬於自己的blog/想法,並給作者一個通告)
引用
留言 (0筆) (登入後, 即可開始發表留言)
1 E 5xGNmawx^)ʑbm*:03Ԯ/fyDl~30CEQDxHʿ5sdKrk?B<