BabelNet

多語語義網絡和百科詞典

BabelNet是一個多語詞彙語義網絡本體,由羅馬薩皮恩扎大學(羅馬大學)計算機科學系的計算語言學實驗室所創建。[1][2] BabelNet是自動構建的,其將最大的多語Web百科全書維基百科連結到最常用的英語計算詞典WordNet。這種連結整合,以自動映射的方式完成;對於資源匱乏的語言所存在的詞彙空缺,藉助於統計機器翻譯來補充。其結果是一個「百科詞典」,提供了多種語言的概念命名實體,並包含了它們之間的豐富的語義關係。通過與免費授權使用的OmegaWiki英語OmegaWiki、英語維基詞典維基數據FrameNet英語FrameNetVerbNet英語VerbNet等語義資源建立連結,BabelNet還補充了其它一些詞彙和定義。和WordNet類似,BabelNet將不同語言中的詞語以同義詞集的形式進行組織,稱之為Babel synset。對於每一個Babel synset英語Synonym_ring,BabelNet提供簡短的定義(稱為注釋),這些定義具有多種語言版本,主要來自於WordNet和維基百科。

BabelNet
當前版本BabelNet 3.7(August 2016)
作業系統
類型
許可協議Attribution-NonCommercial-ShareAlike 3.0 Unported
網站babelnet.org

BabelNet的數據統計

截至2016年8月,BabelNet(v3.7)已覆蓋了271種語言,包栝全部的歐洲語言、大多數亞洲語言及拉丁語。BabelNet 3.7包含了大約1400萬個同義詞集和7.46億個詞義(不論其語言)。在每種語言中,每個Babel synset(詞義)平均包含2個同義詞。BabelNet的語義網絡包含了豐富的詞彙語義關係。這些語義關係有兩個來源:一是,來自於WordNet的語義關係,如上下位關係、部分整體關係、反義同義關係等,總共大約36.4萬條關係;二是,來自於維基百科的非特定的相關關係,總共大約3.8億條關係。[1] BabelNet 3.7將大約1100萬張圖片與Babel synset建立了關聯,並為這些資源提供了Lemon RDF編碼[3],可通過SPARQL endpoint獲取。BabelNet 3.7為267萬個同義詞集指定了領域標籤。

應用

BabelNet可廣泛應用在多語自然語言處理中。BabelNet中的詞彙化知識可在以下任務中取得最佳效果:

 
Babelnet是一個多語語義網絡,由WordNet和維基百科整合而成。

獎勵榮譽

BabelNet是一個多語詞彙語義網絡和本體,因其在克服語言障礙和利用異構數據源方面做了巨大的開創性工作,BabelNet於2015年被授予META頁面存檔備份,存於網際網路檔案館)獎。

BabelNet是最新的詞彙知識資源庫,具有巨大創新性,《時代周刊》曾專題報道BabelNet的研究工作[9],認為BabelNet將在21世紀發揮引領作用。

參照

參考文獻

  1. ^ 1.0 1.1 R. Navigli and S. P Ponzetto. 2012. BabelNet: The Automatic Construction, Evaluation and Application of a Wide-Coverage Multilingual Semantic Network. Artificial Intelligence, 193, Elsevier, pp. 217-250.
  2. ^ R. Navigli, S. P. Ponzetto. BabelNet: Building a Very Large Multilingual Semantic Network頁面存檔備份,存於網際網路檔案館). Proc. of the 48th Annual Meeting of the Association for Computational Linguistics (ACL 2010), Uppsala, Sweden, July 11–16, 2010, pp. 216–225.
  3. ^ M. Ehrmann, F. Cecconi, D. Vannella, J. McCrae, P. Cimiano, R. Navigli. Representing Multilingual Data as Linked Data: the Case of BabelNet 2.0頁面存檔備份,存於網際網路檔案館). Proc. of the 9th Language Resources and Evaluation Conference (LREC 2014), Reykjavik, Iceland, 26–31 May 2014.
  4. ^ R. Navigli and S. Ponzetto. 2012. BabelRelate! A Joint Multilingual Approach to Computing Semantic Relatedness頁面存檔備份,存於網際網路檔案館). Proc. of the 26th AAAI Conference on Artificial Intelligence (AAAI 2012), Toronto, Canada, pp. 108-114.
  5. ^ J. Camacho-Collados, M. T. Pilehvar and R. Navigli. NASARI: a Novel Approach to a Semantically-Aware Representation of Items頁面存檔備份,存於網際網路檔案館). Proc. of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics (NAACL 2015), Denver, Colorado (US), 31 May-5 June 2015, pp. 567-577.
  6. ^ R. Navigli and S. Ponzetto. Joining Forces Pays Off: Multilingual Joint Word Sense Disambiguation頁面存檔備份,存於網際網路檔案館). Proc. of the 2012 Conference on Empirical Methods in Natural Language Processing (EMNLP 2012), Jeju, Korea, July 12–14, 2012, pp. 1399-1410.
  7. ^ A. Moro, A. Raganato, R. Navigli. Entity Linking meets Word Sense Disambiguation: a Unified Approach頁面存檔備份,存於網際網路檔案館). Transactions of the Association for Computational Linguistics (TACL), 2, pp. 231-244, 2014.
  8. ^ D. Jurgens, R. Navigli. It's All Fun and Games until Someone Annotates: Video Games with a Purpose for Linguistic Annotation頁面存檔備份,存於網際網路檔案館). Transactions of the Association for Computational Linguistics (TACL), 2, pp. 449-464, 2014.
  9. ^ Katy Steinmetz. Redefining the modern dictionary頁面存檔備份,存於網際網路檔案館), TIME magazine, vol. 187, 23 maggio 2016, pp. 20-21.

外部連結