BabelNet
BabelNet是一个多语词汇语义网络和本体,由罗马萨皮恩扎大学(罗马大学)计算机科学系的计算语言学实验室所创建。[1][2] BabelNet是自动构建的,其将最大的多语Web百科全书维基百科链接到最常用的英语计算词典WordNet。这种链接整合,以自动映射的方式完成;对于资源匮乏的语言所存在的词汇空缺,借助于统计机器翻译来补充。其结果是一个“百科词典”,提供了多种语言的概念和命名实体,并包含了它们之间的丰富的语义关系。通过与免费授权使用的OmegaWiki、英语维基词典、维基数据、FrameNet、VerbNet等语义资源建立链接,BabelNet还补充了其它一些词汇和定义。和WordNet类似,BabelNet将不同语言中的词语以同义词集的形式进行组织,称之为Babel synset。对于每一个Babel synset,BabelNet提供简短的定义(称为注释),这些定义具有多种语言版本,主要来自于WordNet和维基百科。
当前版本 | BabelNet 3.7(August 2016) |
---|---|
操作系统 | |
类型 | |
许可协议 | Attribution-NonCommercial-ShareAlike 3.0 Unported |
网站 | babelnet |
BabelNet的数据统计
截至2016年8月,BabelNet(v3.7)已覆盖了271种语言,包栝全部的欧洲语言、大多数亚洲语言及拉丁语。BabelNet 3.7包含了大约1400万个同义词集和7.46亿个词义(不论其语言)。在每种语言中,每个Babel synset(词义)平均包含2个同义词。BabelNet的语义网络包含了丰富的词汇语义关系。这些语义关系有两个来源:一是,来自于WordNet的语义关系,如上下位关系、部分整体关系、反义、同义关系等,总共大约36.4万条关系;二是,来自于维基百科的非特定的相关关系,总共大约3.8亿条关系。[1] BabelNet 3.7将大约1100万张图片与Babel synset建立了关联,并为这些资源提供了Lemon RDF编码[3],可通过SPARQL endpoint获取。BabelNet 3.7为267万个同义词集指定了领域标签。
应用
BabelNet可广泛应用在多语自然语言处理中。BabelNet中的词汇化知识可在以下任务中取得最佳效果:
奖励荣誉
BabelNet是一个多语词汇语义网络和本体,因其在克服语言障碍和利用异构数据源方面做了巨大的开创性工作,BabelNet于2015年被授予META(页面存档备份,存于互联网档案馆)奖。
BabelNet是最新的词汇知识资源库,具有巨大创新性,《时代周刊》曾专题报道BabelNet的研究工作[9],认为BabelNet将在21世纪发挥引领作用。
参照
参考文献
- ^ R. Navigli, S. P. Ponzetto. BabelNet: Building a Very Large Multilingual Semantic Network (页面存档备份,存于互联网档案馆). Proc. of the 48th Annual Meeting of the Association for Computational Linguistics (ACL 2010), Uppsala, Sweden, July 11–16, 2010, pp. 216–225.
- ^ M. Ehrmann, F. Cecconi, D. Vannella, J. McCrae, P. Cimiano, R. Navigli. Representing Multilingual Data as Linked Data: the Case of BabelNet 2.0 (页面存档备份,存于互联网档案馆). Proc. of the 9th Language Resources and Evaluation Conference (LREC 2014), Reykjavik, Iceland, 26–31 May 2014.
- ^ R. Navigli and S. Ponzetto. 2012. BabelRelate! A Joint Multilingual Approach to Computing Semantic Relatedness (页面存档备份,存于互联网档案馆). Proc. of the 26th AAAI Conference on Artificial Intelligence (AAAI 2012), Toronto, Canada, pp. 108-114.
- ^ J. Camacho-Collados, M. T. Pilehvar and R. Navigli. NASARI: a Novel Approach to a Semantically-Aware Representation of Items (页面存档备份,存于互联网档案馆). Proc. of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics (NAACL 2015), Denver, Colorado (US), 31 May-5 June 2015, pp. 567-577.
- ^ R. Navigli and S. Ponzetto. Joining Forces Pays Off: Multilingual Joint Word Sense Disambiguation (页面存档备份,存于互联网档案馆). Proc. of the 2012 Conference on Empirical Methods in Natural Language Processing (EMNLP 2012), Jeju, Korea, July 12–14, 2012, pp. 1399-1410.
- ^ A. Moro, A. Raganato, R. Navigli. Entity Linking meets Word Sense Disambiguation: a Unified Approach (页面存档备份,存于互联网档案馆). Transactions of the Association for Computational Linguistics (TACL), 2, pp. 231-244, 2014.
- ^ D. Jurgens, R. Navigli. It's All Fun and Games until Someone Annotates: Video Games with a Purpose for Linguistic Annotation (页面存档备份,存于互联网档案馆). Transactions of the Association for Computational Linguistics (TACL), 2, pp. 449-464, 2014.
- ^ Katy Steinmetz. Redefining the modern dictionary (页面存档备份,存于互联网档案馆), TIME magazine, vol. 187, 23 maggio 2016, pp. 20-21.