搜尋引擎最佳化
搜尋引擎最佳化(英語:Search engine optimization,缩写:SEO)是透過了解搜尋引擎的運作規則來調整網站,以及提高目的網站在有關搜尋引擎內排名的方式。由於不少研究發現,搜尋引擎的用戶往往只會留意搜尋結果最前面的幾個條目,所以不少網站都希望透過各種形式來影響搜尋引擎的排序,讓自己的網站可以有優秀的搜尋排名。當中尤以各種依靠廣告維生的網站為甚。
所謂「針對搜尋引擎作最佳化的處理」,是指為了要讓網站更容易被搜尋引擎接受。搜尋引擎會將網站彼此間的內容做一些相關性的資料比對,然後再由瀏覽器將這些內容以最快速且接近最完整的方式,呈現給搜尋者。搜尋引擎最佳化就是通過搜尋引擎的规则進行最佳化,為用户打造更好的用户体驗,最终的目的就是做好用户體驗。
對於任何一個網站來说,要想在網站推廣中取得成功,搜尋引擎最佳化都是至為關键的一项任務。同时,随着搜尋引擎不断變换它們的搜尋排名演算法规则,每次演算法上的改變都會讓一些排名很好的網站在一夜之間名落孫山,而失去排名的直接後果就是失去了網站固有的可觀訪問流量。所以每次搜尋引擎算演法的改變都會在網站之中引起不小的骚動和焦慮。可以说,搜尋引擎最佳化是一個愈來愈複雜的任務。
經過許多專業的SEO研究機構調查後發現,當使用者利用搜尋引擎尋找資料、產品或服務時,大部分人通常只會點擊搜尋結果當中,最前面出現的幾個連結,因此,大部分的網站都希望能透過各種方式或手法來試圖影響網站頁面在搜尋引擊的排名。不過,搜尋引擎的演算法會不斷的更新,網站的排名也會因此會有動盪,所以如果沒有持續做好SEO,很快地排名就很有可能會掉下來。
歷史
早期搜尋引擎
網站管理員以及網路內容提供者在90年代中期開始使用搜尋引擎來最佳化網站。此時第一代搜尋引擎開始對網際網路分門別類。一開始,所有網站管理員能做的事只有提交所屬網站到各家搜尋引擎。這些引擎运行一些蜘蛛機器人(spider)──t他们会在網頁程式中找到連至其他網頁的超链接──並且儲存所找到的資料。過程中同時包含了將網頁下載並儲存至搜尋引擎擁有者的伺服器中,這時有另外一個軟體稱為Indexer來擷取頁面中不同的資訊——頁面中的文字、文字的位置、文字的重要性以及頁面所包含的任何連結,之後將頁面置入清單中等待過些時日後,再來擷取一次。隨著線上文件數目日積月累,越來越多網站員意識到自然搜尋 (有機搜尋) 條目的重要性,所以較普及的搜尋引擎公司開始整理他們的列表,以顯示最恰當適合的網頁為優先。搜尋引擎與網站管理員的戰爭就此開始,並延續至今。
一開始搜尋引擎是被網站管理員本身牽著走的。早期版本的搜尋演算法有賴於網站員提供資訊,如關鍵字的基本定義標籤(meta tag)。當某些網站員開始濫用標籤,造成該網頁排名與連結無關時,搜尋引擎開始捨棄標籤並發展更複雜的排名演算法。这些算法将网页的内容特征作为分析目标,由於數繁不及備載,僅列舉數個分析目標如下:
- 在標題簽裡的文字,如 <h1>引擎</h1>
- 域名,如 wikipedia.org
- 統一資源定位符(URL)下屬的目錄與檔名,如 http://zh.wikipedia.org/wiki/Seo (页面存档备份,存于互联网档案馆)
- 關鍵字密度
- 關鍵字接近度,如 '軟盤、軟碟' '硬盤、硬碟'
- 圖形連結的 Alt 屬性,如 <img src=".../powerby_mediawiki_88x31.png" alt="MediaWiki" />
但是經過多年的搜尋引擎演算法的調整,現在較重要的影響標籤為:
- <title>
- <meta>
- <h1>
- <img>中的 alt屬性
由於這些都還在網站人員的眼皮下打滾,搜尋引擎陸陸續續碰到諸多濫用與操縱排名等難題。為了要提供較好的結果給使用者,搜尋引擎必須被调整到能够产生真正有价值的搜索結果,而非某些不道德的网站站主產生的、只有塞滿關鍵字的無用網頁。由此,新種類的搜尋引擎應運而生。
当代搜尋引擎
Google的兩名创始者拉里·佩奇(Larry Page) 和謝爾蓋·布林(Sergey Brin)帶來了一個給網頁評估的新概念,稱為「網頁級別」 (PageRank),是Google搜尋引擎演算法[1]重要的開端。網頁級別十分倚賴導入連結(incoming link),並利用“每個導入某網頁的連結相當於給該網頁價值投一票”的理論建立起邏輯系統。越多導入連結意味著該網頁越有“價值”。而每個導入連結本身價值直接根據該連結從何而來的網頁級別,以及相反的該頁導出連結 (outgoing link) 。而在2009年的10月,Google網站管理工具正式移除了PageRank[2],而緊接著 Google 在2011年移除了 Firefox 的 Google Toolbar,並在2016年正式移除 Google PageRank[3]。
Google 在服務相關的結果上證明網頁級別相當優異。Google 成為了最普遍和最成功的搜索引擎。由於網頁級別納入站點外因子,Google認為它們會比頁內因子難以動手腳。
然而網站員們已經開發出對付Inktomi搜索引擎的連結操作工具和計劃。這些方法證明對Google 算法一樣管用。許多站集中於交換、買賣大量連結。隨著網站員尋求獲取連結只單單要影響Google送更多流量給該站,而不管對站點訪客是否有用,這種行為的增加,讓網頁級別對原始算法的信賴度漸漸被破壞了。
此時,是Google 和其它查尋引擎對廣大範圍的站外因子仔細檢視的時候。開發更加聰明的算法有其他原因。網際網路已經擴大到擁有並無相關技術的廣大用戶。他們經常無法使用先進的提問技巧來取得資訊;而且他們得面對網際網路比起發展早期更龐大資料、更複雜的索引。搜尋引擎必須開發具備預測性、語義性、語言性和啟發性演算法。
目前,網頁級別的縮小版仍然被顯示在Google 工具條上,不過網頁級別只不過是Google考慮在網頁分級時超過100個因素裡中的一個。
今天,大多數搜尋引擎對它們的如何評等的演算法保密。搜索引擎也許使用上百因素在排列目錄;每個因素本身和因素所佔比重可能不斷地在改變。
大部分當代搜尋引擎最佳化的思路──哪些有效、哪些沒效──這些很大部分在於觀察與根據內線消息來的猜測。某些最佳化員得在執行控制下的實驗中取得不同最佳化方法的結果。
儘管如此,以下是搜尋引擎發展它們演算法時的一些參考,一份Google的專利清單[4]也許可以讓讀者猜出他們會走哪條路線:
- 站點的年齡
- 自該網域註冊後過多久
- 內容的年齡
- 新內容增加的規律性
- 連結的年齡,連接站點的名譽和其相關程度
- 一般站內因素
- 負面站內因素 (例如,太多關鍵字匯標(meta tag),很顯然被最佳化過,會對站點造成傷害)
- 內容的獨特性
- 使用於內容的相關術語 (搜尋引擎關聯到的術語的方式視同如何關聯到網頁的主要內容)
- Google網頁級別 (只被使用在Google 的算法)
- 外在連結、外部連結的連結文字、在那些和在站點/網頁包含的那些連結
- 引證和研究來源(表明內容是研究性質)
- 在搜索引擎資料庫裡列舉的詞根與其相關的術語(如 finance/financing)
- 導入的逆向連結,以及該連結的文字
- 一些導入連結的負面計分 (或許那些來自低價值頁、被交換的逆向連結等)
- 逆向連結取得速率:太多太快意味著“不自然”的連結購買活動
- 圍繞在導出連結、導入的逆向連結周圍的文字。例如一個連結如果被 "Sponsored Links" (贊助商連結)包圍,該連結可能會被忽略。
- 用 "rel=nofollow" 建議搜尋引擎忽略該連結
- 在站點該文件的結構深度
- 從其他資源收集的網格表,譬如監視當搜尋結果導引用戶到某頁後,用戶有多頻繁按瀏覽器的返回
- 從來源像:Google AdWords/AdSense、Google 工具條等程序收集的網格表
- 從第三方資料分享協議收集的網格資料 (譬如監測站點流量的統計程式提供商)
- 刪除導入連結的速率
- 使用子網域、在子網使用關鍵字和內容品質等等,以及從這些活動來的負面計分
- 和主文件語意上的連結
- 文件增加或改動的速率
- 主機服務商 IP 和該 IP 旗下其它站點的數量/品質
- 其他連結站會員 (link farm / link affiliation) 與被連結的站 (他們分享IP嗎? 有一個共同的郵遞地址在"聯絡我們 (Contact Us)" 頁嗎?)
- 技術細節像利用301重定向被移除的網頁、對不存在網頁顯示404伺服器標頭而非200伺服器標頭、適當的利用 robots.txt
- 主機服務商正常運行時間
- 是否站點對不同類的用戶顯示不同的內容(稱為「掩飾」(cloaking))
- 未及時矯正、無效的導出的連結
- 不安全或非法內容
- HTML代碼品質,以及錯誤出現數
- 由搜尋引擎自他們搜尋結果觀察到的實際點擊通過率評等
- 由最常存取搜尋結果的人手動評等
搜尋引擎最佳化和搜尋引擎之間關係
於1997年,搜尋引擎公司意识到,網站管理員們會不餘遺力地讓自己的網站擁有較好的搜尋排名,甚至於會將不相關的關鍵字塞在網頁中,用來欺騙搜尋引擎以得到較好的搜尋排名。早期搜尋引擎, 譬如Altavista與INFOSEEK,就開始調整搜尋演算法以避免受到人為的操弄。於2005年召開的AirWeb年會,就希望把實務與研究者聚集起來,共同討論關於搜尋引擎最佳化等相關議題。
如果過度地操作搜尋引擎最佳化,可能會導致操作的網站被搜尋引擎封鎖。在2005年,華爾街日報就曾經報導Traffic Power公司[5],據說使用高風險的方式,並且沒有讓客戶了解這些操作的風險。Wired網站則報導了這家公司對部落客提起告訴,只因為提及該公司被取締的事件[6]。Google 的克特斯 (Matt Cutts) 稍後確認Google 確實取締了Traffic Power以其他們的客戶群[7]。
某些搜尋引擎對搜尋引擎最佳化產業提供了援助,而且是常常是最佳化會議和研討會的贊助商和來訪貴賓。所有主要搜尋引擎都提供資訊/指南以協助站點最佳化: Google[8] 、Yahoo [9], 和MSN[10]。Google提供了Sitemaps 程序[11]幫助網站員學習如果Google有任何問題檢索他們的網站時該如何做,並且提供Google流量與你的網站關係間無價的豐富資料。雅虎的Ambassador Program[12] 與Google的Advertising Professionals[13] 提供專家級的認證。
搜尋引擎入手
新站點不需要“提交”到搜尋引擎才能登記上市。一個來自於已建立好的、其他站點的簡單鏈結就會讓搜尋引擎拜訪新站點,並且開始“爬”過該站內容。它可能得花幾天甚或幾週從這樣一個已建立站點取得連結,並使所有主要搜索引擎開始拜訪並索引新站點。社交媒體及新聞發佈網站是較容易吸引搜索引擎建立站點的方法。
一旦搜索引擎發現了新站點,它一般將拜訪和開始索引該站,直到所有標準的 <a href>
超連結被鏈結的頁索引到為止。只能透過Flash或JavaScript拜訪的鏈結可能不會被蜘蛛機器人找到。
當搜索引擎的蜘蛛機器人爬過一個站點時會取決相當數量的不同因子,並且該站的許多頁可能不會被索引到除非它們網頁級別、連結、或流量增加到一個程度。從站點的根目錄到該頁的距離,以及其它比重考量,也許也是決定是否該頁得到檢索的因素。Cho et al.(Cho et al. 1998)[14] 描述了哪些頁會被拜訪、哪些會收入搜尋引擎索引的決定標準。
網站員可透過在網域根目錄裡標準robots.txt檔案指示蜘蛛機器人不索引某些文件或目錄。標準的實現要求是搜索引擎在拜訪這個網域時參考這個文件,雖然搜索引擎的蜘蛛機器人當它拜訪某站點網頁時將保留這個文件的快取拷貝,並且更新速度沒像網站員那麼快。網站發展人員可能使用這個特性防止某些頁,譬如購物車或其它動態、特定使用者的內容出現在搜索引擎結果中,並且防止機器人進入死循環和其它機器人陷阱。
對於某些有償提交的查尋引擎(像雅虎),支付象徵性費用提交也許會節省一些時間,雖然雅虎有償提交方案不保證提交人/公司包括在他們的查尋結果中。中文的搜狐和新浪ask等需要支付一定费用,但免费的非商业网站可以提供,当然搜索引擎方并不保证一定收录相应的网站。
白帽方法
搜尋引擎最佳化的白帽法包括遵循搜尋引擎哪些可接受哪些不能接受的指導方針。他們的建議一般是為用戶創造內容,而非搜尋引擎、是讓這些內容易於被蜘蛛機器人索引、並且不嘗試對搜尋引擎系統耍花招。網站員經常於設計或構建他們的網站時,犯下致命錯誤、疏忽“毒害”該站以致排名不會很好。白帽法最佳化員企圖發現並糾正錯誤,譬如機器無法讀取的選單、無效鏈接、臨時改變導向、或粗劣的導引結構。
因為搜尋引擎是以文本為中心,許多有助於網頁親和力的同樣手段同樣便利於搜尋引擎最佳化。這些方法包括最佳化圖形內容、包括ALT 屬性、和增加文本說明。甚至Flash動畫可於設計該頁時包括替代性內容──這本來用來給訪客無法閱讀Flash的環境用的──來幫助最佳化。
白帽是正確的最佳化方式,是根據搜尋引擎所提出的最佳化方針規範而執行的最佳化方法。採用白帽可以避免掉任何被搜尋引擎懲罰的風險,從網站框架、關鍵字、網站內容、外連等各方面使用合乎搜尋引擎規律的手段,做到合理最佳化網站,提高使用者體驗,合理與其他網站互聯。同時對網站內容持續不斷地更新。同時白帽所投入的時間較長,必須按部就班一步一步實現的。但其所投入的時間並不會白白浪費,反而會在日後反饋更多效益。
這裡是一些搜尋引擎認為適當的方法:
- 在每頁使用一個短、獨特和相關的標題。
- 編輯網頁,用與該頁的主題。有關的具體術語替換隱晦的字眼。這有助於該站訴求的觀眾群,在搜尋引擎上搜尋而被正確導引至該站。
- 在該站點增加相當數量的原創內容。
- 使用合理大小、準確描述的匯標,而不過度使用關鍵字、驚嘆號、或不相關標題術語。
- 注意網址字眼,有助於搜尋引擎最佳化。
- 確認所有頁可透過正常的鏈結來訪問,而非只能透過Java 、JavaScript或Adobe Flash應用程序訪問。這可透過使用一個專屬列出該站所有內容的網頁達成(網站地圖)
- 透過自然方式開發鏈結:Google不花功夫在這有點混淆不清的指南上。寫封電子郵件給網站員,告訴他:您剛剛貼了一篇挺好的文章,並且請求鏈接,這種做法很可能為搜尋引擎所認可。
- 參與其他網站的網路集團(譯按:web ring 指的是有相同主題的結盟站群)──只要其它網站是獨立的、分享同樣題目和可比較的品質。
On-Page 頁面最佳化
On-Page SEO指的是站內最佳化或稱頁面最佳化,On-Page SEO 能夠讓你自由的控制所有SEO的因素,透過SEO觀念與技巧,使得頁面能夠有更佳的使用者體驗與更高的排名。 On-Page SEO就是結合了白帽SEO觀念與撰寫技巧而成的,透過提高網站內文質量來獲取更好的排名就是On-Page SEO的目標,想要做好 On-Page SEO主要有三個因素:
- 高質量內容
- 網站架構
- 外觀設計與使用者體驗
黑帽方法
垃圾索引(Spamdexing)意指透過欺騙技術和濫用搜索演算法來推銷毫不相關、主要以商業為著眼的網頁。許多搜索引擎管理員認為任何搜索引擎最佳化的形式,其目的用來改進網站的頁排名者,都是垃圾索引。然而,隨時間流逝,業界內公眾輿論發展出哪些是哪些不是可接受的、促進某站的搜索引擎排名與流量結果的手段。
因為搜尋引擎以高度自動化的方式運作,網站員通常可以利用某些未被搜尋引擎認可的手段、方法來促進排名。這些方法經常未被注意,除非搜索引擎雇員親臨該站點並注意到不尋常活動、或在排名算法上的某個小變化導致站點丟失以過去方式取得的高排名。有時某些公司雇用最佳化顧問評估競爭者的站點、和"不道德的" 最佳化方法向搜尋引擎報告。
當這些垃圾索引被發現時,搜尋引擎可能會對那些被發現使用不道德的最佳化手段者採取行動。2006年2月,Google拿掉了BMW德國站和Ricoh德國站,因為他們用了這些方法[15]。
斗蓬法(cloaking)通常指的是網站站長用了兩版不同的網頁來達到最佳化的效果。一個版本只供給搜索引擎,另一個版本供給普通用戶。搜索引擎認爲此種做法是正規,如發現,該網站會永遠從搜索引擎名單中被剔除[16]。但是對於如AJAX所撰寫的動態網頁,Google也有提出名為HTML Snapshot的作法,以方便搜索引擎進行收錄[17]
關鍵字隱密字 (hidden text with keyword stuffing)是另外一欺騙搜索引擎的做法。通常是指設定關鍵字的顏色和網頁背景顏色一樣,或透過 css hidden attribute (隱密特性) 來達到最佳化效果。這種做法一旦被Google發現,遭遇也會是該網站從Google的資料庫中除名[18]。
橋頁(doorway pages)也叫門頁,是通常是用軟件自動生成大量包含關鍵詞的網頁,然後從這些網頁做自動轉向到主頁。目的是希望這些以不同關鍵詞為目標的橋頁在搜索引擎中得到好的排名。當用戶點擊搜索結果的時候,會自動轉到主頁。有的時候是在橋頁上放上一個通往主頁的鏈接,而不自動轉向主頁。
付費連結(paid link)是利用支付費用方式要求其他網站提供連結至自身網站,藉此偽裝高信任網站來欺騙搜尋引擎,付費連結類型多為錨點文字(Anchor Text)類型,Google的品質方針也明確指出以金錢交換的連結將可能對網站造成負面影響[19]。
連結農場(link farm) 是故意在一些低質素,內容跟自己內容無關的網站上取得大量連結,藉以提高排名。
法律案例
2002 年, 搜索引擎操作者SearchKing在俄克拉何馬法院提出了訴訟,反對搜索引擎Google。SearchKing的要求是, Google防止垃圾索引的手段形成了一條不公正的商業慣例。這也許可想像為垃圾電子郵件營銷者控告反垃圾電子郵件者,如同許多反對地圖以及其他DNS黑洞表(DNSBL)的案例。2003年1月,法院發布了一個Google勝訴的判決摘要[20]。
高品質網站通常可以獲得優秀的搜尋排名
對許多有心於最大化網站附加價值的網站管理員們,可閱讀由搜尋引擎出版的、以及W3C發行的編碼指南。如果遵循該指南,站點經常地更新,有用、原創的內容,和建立幾個實用、有意義的導入鏈接,獲得相當可觀數目的基本搜尋流量不是甚麼難事。
當站點擁有有用的內容,其它站點員自然而然會連結至該站,進而增加訪客它的網頁級別和訪客流。當訪客發現一個有用的網站,他們傾向於利用電子郵件或者及時訊息連結介紹給其它訪客。
總括來說,增進網站品質的搜尋引擎最佳化實現很可能比直接尋找操控搜尋排名手段的短期實現要活得長久。頂尖的搜尋引擎最佳化員們找尋的目標與搜尋引擎追求發揚光大的東西二者不约而同。他們是:相關性、對他們用戶有用的內容。換句話說,即向用戶提供優質有用,而且獨特的資料,以內容行銷的方法,軟性地吸引潛在的客戶,自自然然地找到你的網頁。
Google針對蓋版廣告進行演算法打擊
在2017年1月10日,Google正式加入新的演算法變化,將蓋版廣告(Pop-up, 又稱侵入性插頁式廣告)納入演算法因素之一。舉例來說,當網站使用了大篇幅的侵入性插頁式廣告,導致使用者在手機的使用者體驗非常不佳時,就會受到此演算法的影響,從而影響排名。 但 Google 也表示,並非所有的侵入性插頁式廣告都會遭到演算法的影響,只要合理的正當使用,就不會受到此演算法的懲罰。舉例來說,要求 Cookie 存取權限與年齡驗證的畫面就不會受到此演算法的影響。 Google 這次會針對侵入性插頁式廣告進行排名的打擊,主要是為了針對行動裝置的使用者體驗提升,促使採用大量侵入性插頁式廣告的網站從而調整廣告篇幅與方式,進而達到提升使用者體驗的目的。
参见
参考文献
引用
- ^ The Anatomy of a Large-Scale Hypertextual Web Search Engine. Db.stanford.edu. [2017-02-14]. (原始内容存档于2006-10-10).
- ^ Google Quietly Drops PageRank From Webmaster Tools. searchengineland. [2017-07-19]. (原始内容存档于2021-01-22).
- ^ Google has confirmed it is removing Toolbar PageRank. searchengineland. [2017-07-19]. (原始内容存档于2016-03-10).
- ^ Ranking Social Network Objects (US 20150339335). appft1.uspto.gov. [2017-02-14]. (原始内容存档于2021-02-14).
- ^ David Kesmodel. Sites Get Dropped by Search Engines After Trying to 'Optimize' Rankings. Wall Street Journal. 2005-09-22 [2008-07-30]. (原始内容存档于2013-08-15).
- ^ Legal Showdown in Search Fracas. Wired. 2007-01-16 [2017-02-14]. (原始内容存档于2007-01-16).
- ^ February 11, 2006. Confirming a penalty. mattcutts.com. 2006-02-11 [2017-02-14]. (原始内容存档于2012-06-26).
- ^ Google的站點最佳化資訊. Google.com. [2017-02-14]. (原始内容存档于2020-12-12).
- ^ Yahoo的站點最佳化資訊. Help.yahoo.com. [2017-02-14]. (原始内容存档于2008-10-07).
- ^ MSN的站點最佳化資訊. Search.msn.com.sg. [2017-02-14]. (原始内容存档于2008-03-18).
- ^ Google Sitemaps 程序. Google.com. [2017-02-14]. (原始内容存档于2006-06-13).
- ^ 雅虎Ambassador Program 互联网档案馆的存檔,存档日期2006-04-28.
- ^ Google Advertising Professionals. [2006-04-28]. (原始内容存档于2009-07-01).
- ^ Efficient Crawling Through URL Ordering. Stanford InfoLab. [2017-02-14]. (原始内容存档于2008-06-03).
- ^ February 4, 2006. Ramping up on international webspam. mattcutts.com. 2006-02-04 [2017-02-14]. (原始内容存档于2012-06-29).
- ^ The Definitive Guide to Cloaking. 2006-08-02. (原始内容存档于2007-09-21).
- ^ Getting Started. AJAX Crawling (Deprecated). Google Developers. 2015-10-14 [2017-02-14]. (原始内容存档于2016-10-26).
- ^ Hidden text and links. google.com. 1970-01-01 [2017-02-14]. (原始内容存档于2011-12-07).
- ^ Google品質方針. Support.google.com. 1970-01-01 [2017-02-14]. (原始内容存档于2013-05-23).
- ^ Search Results for: SearchKing. research.yale.edu. [2017-02-14]. (原始内容存档于2007-02-18).