SAX
Simple API for XML(簡稱SAX)是個循序存取XML的解析器API。SAX提供一個機制從XML文件讀取資料。它是除了文檔對象模型(DOM)的另外一種流行選擇。
使用SAX處理XML
實現SAX了的解析器擁有事件驅動式的API,並像流讀取器那樣工作。由使用者定義回調函數,解析時,若發生事件的話會被調用。SAX事件包括:
- XML 文字 節點<!-- (Text nodes) -->
- XML 元素 節點<!-- (Element nodes) -->
- XML 處理指令<!-- (Processing Instructions) -->
- XML 注釋<!-- (Comments) -->
事件在遇到任一XML特性時觸發,以及遇到他們結尾時再次觸發。XML屬性也作為傳給元素事件資料的一部分。
SAX運行時是單向的;解析過的資料無法在不重新開始的情況下再次讀取。
定義
不像 DOM,對於SAX並沒有「正式的」規格。Java對於SAX的實現被認為是一種規範,在其他語言的實現嘗試遵循著該實現的程序,必要時根據語言差異而調整。
優點
SAX解析器在某些方面優於DOM風格解析器。SAX解析器的記憶體使用量一般遠低於DOM解析器使用量。DOM解析器在任何處理開始之前,必須把整棵樹放在記憶體,所以DOM解析器的記憶體使用量完全根據輸入資料的大小。相對來說,SAX解析器的記憶體內容,是只基於XML檔案的最大深度(XML樹的最大深度)和單一XML項目上XML屬性儲存的最大資料。這兩個總是比整顆解析樹本身還小。
因為SAX事件驅動的本質,處理文件通常會比DOM風格的解析器快。記憶體存取耗時,所以DOM較大的記憶體使用也是一個效能議題。
因為SAX的本質,從磁碟串流讀取是可行的。無法放入記憶體的XML文件只可能使用SAX解析器(或另外的串流XML解析器)來處理。
缺點
SAX事件驅動的模型對於XML解析很有用,但它確實有某些缺點。
某些種類的XML驗證需要存取整份文件。例如,一個DTD IDREF屬性需要文件內有項目使用指定字串當成DTD ID屬性。要在SAX解析器內驗證,必須追蹤每個之前遇過的ID和IDREF屬性,檢查是否有任何相符。更甚者,一個IDREF找不到對應的ID,使用者只會在整份文件都解析完後才發現,若這種連結對於建立有效輸出是重要的,那用在處理整份文件的時間只是浪費。
另外,某些XML處理能簡單的存取文件。舉例來說,XSLT及XPath需要能夠隨時存取已解析的XML樹中的任何節點。 編輯者和瀏覽器同樣也需要能夠隨時顯示,修改和重新驗證XML樹。雖然一開始可能會使用SAX解析器來編輯建構XML樹,但SAX整體上對於以上處理沒有任何優化。
參見
其他XML處理技術
- 文檔對象模型
- XSL Transformations (XSLT)
- Streaming Transformations for XML (STX)
- System Integrated Automation parser
支援SAX的解析器及API
參考
- David Brownell:SAX2, O'Reilly, ISBN 0-596-00237-8
- W. Scott Means,Michael A. Bodie:The Book of SAX, No Starch Press, ISBN 1-886411-77-8