服務熱線
153 8323 9821
目前中文網站在整個互聯網中的影響還比較小,這主要是由于中文網站總體的水平(技術上,內容上)都還相對落后造成的,最主要的表現有:
行業知識:不知道搜索引擎對吸引的新用戶的重要性,在搜索引擎排名服務中追求“傻瓜相關”,購買一些其實沒有太多實際意義的行業關鍵詞。其實能夠用戶輸入的關鍵詞越多,真對性越強,價值越高。如果用戶能夠直接定位到產品具體內容頁比到網站首頁有價值的多;
發布技術:網站的網頁進入Google的索引量非常小,動態網頁仍是主要發布機制,缺乏將動態頁面鏈接表現成靜態頁面的機制;
頁面設計:頁面標題重復,關鍵詞不突出,過度使用JavaScript腳本/圖片/Flash等不適合搜索引擎索引的非文本形式;
無法量化的東西是不可管理的,以上根本的原因往往是網站自身缺乏日志統計分析造成:
其實大部分網站只要通過一些簡單的策略還是可以讓網站自身的水平在互聯網中有一個真實的體現,網站結構設計中面向搜索引擎的優化注意事項包括:
鏈接引用的重要性;
如何突出關鍵詞:網頁標題、主題的設計;
頁面及站點結構設計注意事項;
以及站點訪問統計的重要性等;
Google的站點設計指南
(注意:本網站設計本身就利用了其中一些方法)。
什么是PageRank
Google 等新一帶搜索引擎的優勢之一在于不僅索引量很大,而且還將最好的結果排在搜索結果的最前面,具體的原理可以參考Google の秘密 - PageRank 徹底解説一文,PageRank簡單的說類似于科技論文中的引用機制:誰的論文被引用次數多,誰就是權威。在互聯網上 PageRank就是基于網頁中相互鏈接關系的分析得出的。
此外,從計算方法角度闡述PageRank機制還有這篇文章:http://pr.efactory.de/里面有更詳細的PageRank算法說明和各種清晰的小型個案分析:
比如:子頁中導航條的重要性
B <=> A => C
Vs
B <=> A <=> C (好)
頁面數量因素:
B <=> A <=> C
Vs
F <=\ /=> G
B <=> A <=> C (好)
D <=/ \=> E
一個意想不到的結論:
(B <=> A <=> C) ( E <=> D <=> F)
Vs
(B <=> A <=> C) <=> ( E <=> D <=> F)
PageRank升高的只是被鏈接的2個首頁A和D,而網站子頁面的PageRank平均會略有下降。同時:一個網站進入Google的索引量越大其受類似因素影響越小。
PageRank不對稱的頁面互鏈:
Google會用BadRank之類的算法進行糾正,而且一個網頁著有來自“與其自身不相稱”的高PageRank站點的鏈接,而自身又缺少足夠數量和質量的反相鏈接的話,其PageRank會自動降低為0,A(pr=7) <=> B(pr=0)
簡單的說就是:偶爾要被權威站點反相鏈接不算數,要被足夠多的權威站點引用才能提高自身網頁的PageRank。
鏈接就是一切
在互聯網的海洋中,最重要的就是互聯互通,不被其他網站引用的網站就是“信息孤島”。“酒好也怕巷子深”,也許這話說起來有點像垃圾郵件廣告,但事實就是這樣。所以如果做網站的目的不是孤芳自賞,就需要積極的推廣自己的網站。
通過搜索引擎推廣自己需要注意以下幾個方面:
以量取勝:不一定加入大型網站的分類目錄才是網站推廣,來自其他網站的任何反相鏈接都是有用的
網站推廣比較經典的方式就是加入比較大型門戶網站的分類目錄,比如:Yahoo!,dmoz.org等。其實這里有一個誤區:不一定非要加入大型網站的分類目錄才是網站推廣,因為現在搜索引擎已經不再只是網站目錄的索引,而是更全面的網頁索引,所以無論來自其他網站任何地方的反相鏈接都是非常有價值的,哪怕是出現在新聞報道,論壇,郵件列表歸檔中。很多大型站點的郵件列表發郵件時,一定注意在自己的簽名中加上自己網站的地址。
Blogger(Weblog的簡稱)們也許最深刻地理解了“鏈接就是一切”這句話的含義,由于Blog的內容之間有大量的相互鏈接,因此最經常被引用的 Blog頁面在搜索引擎中的排名往往比一些大型商業網站的頁面還要高。
以質取勝:被PageRank高的網站引用能更快地提高PageRank
數量只是關鍵因素之一,來自PageRank高的頁面的鏈接還能更快的提高被鏈接目標的PageRank,我只是將一些文章投稿在了ZDNet中國上,由于頁面上有文章出處鏈接,相應網頁和網站整體的PageRank過了一段時間后就有了很大的提升。有時候被什么樣的網站引用有時候比引用次數多更重要。這里我要特別感謝的是,當時ZDNet中國是唯一遵循了我的版權聲明的要求表明了文章出處,并且有反相鏈接的網站。
按照這個原則:能夠名列Yahoo!和DMOZ這樣的大型權威目錄的頭2層是非常有價值的。
了解搜索引擎的"價值觀":
Lucene 簡介這篇文章被Jakarta.apache.org的lucene項目引用以后,這篇文章就成為了所有頁面中PageRank最高的頁面,而 Google支持的一些項目,比如:Folding@Home,讓我一直懷疑他們對政府,教育和非盈利組織的站點有特別加分,畢竟.org .edu才代表了互聯網的實質:分權和共享。
但更合理的解釋是:.org很多都是開放技術平臺的開發者,他們會在首頁這樣的地方加入 Powered By Apache, Power by FreeBSD之類的鏈接表示對其他開源平臺的尊重,所以象Apache, PHP, FreeBSD這樣的開源站點在GOOGLE中都有非常高的PageRank。而在.edu這些站點中,很多都是學術性比較強的文檔,以超鏈接形式標明參考文獻的出處已經成為一種習慣,而這也無疑正是PageRank最好的依據。
注意:不要通過Link Farm提高自身的站點排名:Google會懲罰那些主動鏈接到Link Farm站點以提高自身排名站點,相應站點的頁面將不會被收入到索引中。但如果你的頁面被別的Link Farm鏈接了也不必擔心,因為這種被動的鏈接是不會被懲罰的。
不要吝嗇給其他網站的鏈接:如果一個網頁只有大量的進入鏈接,而缺乏導出鏈接,也會被搜索引擎認為是沒有價值的站點。保證你的網站能夠幫助搜索引擎更準確地判斷哪些是對用戶最有價值的信息,也就是說如果你的網站只有外部反向鏈接而沒有導出鏈接的話,也會對你的網站在搜索結果中的表現帶來負面影響。當然網站中連一個導出鏈接都沒有的情況非常罕見,除非你是刻意這么做。正常情況下大家都會自然地在網頁中加上一些其他網站的鏈接,帶領訪問者去到我們認為重要或能夠提供更多有價值信息的地方,
另外在推廣自己網站之前也許首先需要了解自己網站目前在一些搜索引擎中的知名度,原理非常簡單,可以參考如何評價網站的人氣一文。
網站推廣只是手段,如何突出內容、讓需要相關信息的用戶能夠盡快的找到你的網站才是目的,PageRank高并不代表像Yahoo!這樣的門戶站點就能在所有搜索結果中排名靠前,因為搜索引擎的結果是搜索關鍵詞在頁面中的匹配度和頁面的PageRank相結合的排名結果。因此第二個要點:如何突出關鍵詞。
如何突出關鍵詞:面向主題(Theme)的關鍵詞匹配
Theme Engine正在逐步超過PR,成為結果排序中更主要的因素,可以比較一下以下現象:
為什么查“新聞”,“汽車”之類的文字,各種門戶網站的首頁不在第一位?要知道他們的頁面中都有相應頻道的鏈接文字的
一篇新聞頁面中,搜索引擎如何不通過模板匹配,自動將新聞的主體和頁面中的頁頭,欄目導航條,頁尾等部分的內容區分開的?
其實以上問題都可以歸結為網頁內容摘要的提取策略和關鍵詞在其中的命中:
首先將能夠描述一個頁面內容的分成以下幾種類型:
鏈入文字描述:inbound link text
http://www.google1.net/google/ww ... -inbound-link.shtml
HTML頁面標題:title 好標題一般會將頁面中最重要的關鍵詞放在最前面,比如:ABC-10型吸塵器 - XX家電城
HTML內容主體:content text
鏈出文字:outbound link text
如果按照以下規則:
一個頁面中關鍵詞命中權重:鏈入文字 > HTML標題文字 > HTML頁面主體內容 » 出鏈文字,以上現象就比較好解釋了。
鏈入文字是頁面上看不見的,但鏈入文字對被鏈接頁面有巨大的作用:在現代搜索引擎在關鍵詞匹配的過程中,匹配的過程不只看當前頁面的內容摘要:很大程度上,不只看這個網頁自己說自己有什么內容,還要看別人如何鏈接時,如何描述你的網站別人怎么稱呼你,比你自己說自己更重要。。
比如查:“世界衛生組織”,返回結果中有
http://www.google1.net/google/www.who.int/index.htm 而這個頁面中是沒有中文的,之所以能匹配上,是因為很多鏈接它的中文網站使用了:世界衛生組織,所以,這個頁面中不存在的中文關鍵詞也成為了頁面摘要的一部分。
這樣一想,就可以知道鏈出鏈接的文字其實是為被鏈接的子頻道首頁或者內容詳情頁服務的。對自身頁面的關鍵詞密度只有負面的影響,這也是Google建議一個頁面中鏈接不要超過100個的原因:他根本不索引100個鏈接以后的內容。
按照以上規則,搜索引擎將一篇新聞詳情頁中的新聞內容提取出來就是把頁面上所有帶HTTP鏈接的文字都去掉,就是新聞的內容部分了,更精確一些可以通過取最長文本段落等策略實現;
而很多網站首頁或頻道首頁中幾乎全部都是鏈接,經過搜
上一篇:如何判斷高質量外部鏈接