站點地圖

站點地圖(英語:Sitemaps,舊稱Google Sitemaps,也寫為Sitemap;又稱網站地圖)是一種列有某個網站所有網址(URL)的XML文件,由Google最先發起。利用Sitemaps協議,網站管理員可以列出網站上可以供搜索引擎抓取的URL,並通知給後者。Sitemaps中包含有關每個URL的其他信息,如URL上次更新的時間、更新的頻率以及相對於網站其他URL的重要性。搜索引擎的爬蟲可以通過Sitemaps更有效地抓取網站內容,並找到可能與網站其他內容沒有相互鏈接的URL。Sitemaps協議是對robots.txt的補充。[1]

歷史

Google於2005年6月宣布正在進行一項名為Google Sitemaps的實驗,以知識共享許可協議發布了免費的Sitemaps 0.84,同時發布了一個Python的開源客戶端Sitemap Generator,用於生成常見的一些Sitemaps。Sitemaps發布後,即被包括維基媒體基金會下屬站點在內的許多網站採用。2006年11月,Google、雅虎微軟Live Search宣布支持Sitemaps 0.90,Sitemaps成為第一個改進搜索引擎爬網過程的聯合開放行動。[2][3]Ask.com於2007年4月加入支持Sitemaps的廠商行列[4]。之後,美國亞利桑那州猶他州弗吉尼亞州等州的政府陸續宣布將在其網站上使用Sitemaps[5]

後來,Sitemaps協議基於打造「對爬蟲友好的Web服務器」(Crawler-friendly Web Servers)這一想法進行了改進。[6][7]2012年5月,Google宣布,他們正嘗試在Sitemaps中添加rel="alternate"herflang英語Hreflang[8]Google表示,使用Sitemaps並不能保證Sitemap中的所有項目都會被抓取並編制索引,但在大多數情況下,站點設置Sitemap是有益的。[9]

文件格式

Sitemaps協議格式由XML標籤組成。文件本身必須為UTF-8編碼。Sitemaps也可以只是URL的純文本列表。[10]以下是僅包含一個URL並使用了所有可選標籤的示例。

<?xml version="1.0" encoding="utf-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
   xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
   xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd">
    <url>
        <loc>http://example.com/</loc>
        <lastmod>2006-11-18</lastmod>
        <changefreq>daily</changefreq>
        <priority>0.8</priority>
    </url>
</urlset>

一張站點地圖必須以<urlset>開始,並在其中引用命名空間(為協議規範)。以</urlset>結束。中間以<url>……</url>分別列出每個項目,並使用<loc>……</loc>列出URL。站點地圖的大小不得超過50MB、50,000個URL,若要列出超過50,000個URL,必須創建多個Sitemap文件,並在一個站點地圖索引文件中列出每個站點地圖文件。網站地圖索引文件不能列出超過50,000個站點地圖。[10]

文本文件

Sitemaps也可以是文本文件中的URL簡單列表,XML Sitemaps的文件規範基本適用於文本Sitemaps。該文件必須為UTF-8編碼,並且不能超過10MB,也不能包含超過50,000個URL,[11]但可以壓縮為gzip文件。[10]

其他站點地圖類型

Google支持Sitemaps協議範圍之外的許多其他XML站點地圖類型,以允許網站管理員提供有關其網站內容的其他數據。視頻和圖像的站點地圖,旨在提高網站在圖像和視頻搜索中的排名。[12][13]

視頻站點地圖(Video Sitemaps)標示在搜索結果中顯示的首選縮略圖、視頻發布日期、視頻時長和其他元數據。視頻站點地圖還用於允許搜索引擎索引嵌入在網站上、但在外部託管(例如VimeoYouTube)的視頻[13]圖像站點地圖(Image Sitemaps)用於標示圖像元數據,例如許可信息、地理位置和圖像標題。[12]Google新聞站點地圖(Google News Sitemaps)受Google支持,可以方便快速地索引新聞主題。[14][15]

參見

參考資料

  1. ^ Lotos. 使用Sitemap让搜索引擎更快更全面的收录网站. 黑客防線. 2007, (1). 
  2. ^ Google Blog. Webmaster-friendly. 2005-06-02 [2020-07-29]. (原始內容存檔於2005-06-08). 
  3. ^ Major Search Engines Unite to Support a Common Mechanism for Website Submission. Google News from Google. 2006-11-16 [2020-07-29]. (原始內容存檔於2019-04-17). 
  4. ^ Sitemaps Autodiscovery. Ask's Official Blog. 2007-04-11 [2020-07-29]. (原始內容存檔於2007-05-18). 
  5. ^ Information for Public Sector Organizations. Google. 2007 [2020-07-29]. (原始內容存檔於2007-04-30). 
  6. ^ M.L. Nelson; J.A. Smith; del Campo; H. Van de Sompel; X. Liu. Efficient, Automated Web Resource Harvesting (PDF). WIDM'06. 2006 [2020-07-29]. (原始內容存檔 (PDF)於2017-12-01). 
  7. ^ O. Brandman, J. Cho, Hector Garcia-Molina, and Narayanan Shivakumar. Crawler-friendly web servers. Proceedings of ACM SIGMETRICS Performance Evaluation Review, Volume 28, Issue 2. 2000. doi:10.1145/362883.362894. 
  8. ^ Multilingual and multinational site annotations in Sitemaps. Google Webmaster Central Blog. Pierre Far. 2012-05-24. (原始內容存檔於2016-03-06). 
  9. ^ About Google Sitemaps. 2016-12-01 [2016-12-01]. (原始內容存檔於2020-11-11). 
  10. ^ 10.0 10.1 10.2 Sitemaps XML format. Sitemaps.org. 2016-11-21 [2020-07-29]. (原始內容存檔於2020-06-20). 
  11. ^ Build and submit a sitemap - Search Console Help. Support.google.com. [2018-08-05]. (原始內容存檔於2013-05-17). 
  12. ^ 12.0 12.1 Image Sitemaps. Google Search Console. [2018-12-28]. (原始內容存檔於2019-06-23). 
  13. ^ 13.0 13.1 Video Sitemaps. Google Search Console. [2018-12-28]. (原始內容存檔於2019-06-23). 
  14. ^ Bigby, Garenne. Why You should be using a Google News Sitemap. Dyno Mapper. [2018-12-28]. (原始內容存檔於2018-12-28). 
  15. ^ Google News Sitemaps. Google Search Console. [2018-12-28]. (原始內容存檔於2019-06-23). 

外部連結