行间注释
在语言学和教育学中,行间注释是放置在行间的一系列简短解释(例如定义或发音),如在原文和其翻译之间的行间注释。进行注释后,每行原文都会有一行或多行相应的转录文本,称为行间注释文本(interlinear glossed text,IGT)—简称行间注释。这种注释帮助读者理解原文与其翻译之间的关系以及原语言的结构。行间注释最简单的形式是对原文的逐字翻译。
历史
行间注释在很长一段时间内被用于各种目的。其中一个常见用法是为双语教科书提供注释,以辅助语言教育。这种行间注释旨在明确原文的意义,而不尝试正式模拟原语言的结构特征。
这种注释偶尔也不是通过行间布局表达,而是通过目标语言和元语言中单词的编号表达。威廉·冯·洪堡对古典纳瓦特尔语的注释就是一个例子:[1]
1
ni-
1
ich
2
c-
3
mache
3
chihui
2
es
4
-lia
4
für
5
in
5
der
6
no-
6
mein
7
piltzin
7
Sohn
8
ce
8
ein
9
calli
9
Haus
这种“行内”风格允许示例在文本流中包含,并且目标语言的单词顺序可以以近似目标语言句法的顺序书写。(在这里的注释中,“mache es”从相应的源顺序重新排列,以更自然地近似德语句法。)即便如此,这种方法仍然要求读者“重新对齐”源形式和目标形式之间的对应关系。
19世纪和20世纪的现代方法采取了垂直注释的方式,将相同的逐词内容排列,使元语言词条垂直排列在源语言词条下方。在这种风格中,给定的示例可能如下呈现(这里是英文注释):
ni-
I
c-
it
chihui
make
-lia
for
in
to-the
no-
my
piltzin
son
ce
a
calli
house
"I made my son a house."
这里单词顺序由目标语言的句法决定。
最后,现代语言学家采用了使用简写语法类别标签的做法。2008年出版的一本书重述了这个例子,如下标注:[2]
ni-c-chihui-lia
1SG.SUBJ-3SG.OBJ-mach-APPL
in
DET
no-piltzin
1SG.POSS-Sohn
ce
ein
calli
Haus
这种写法更为紧凑,但阅读起来也更麻烦。不过这种方式较少依赖于元语言的语法结构来表达目标形式的语义。
在计算领域,Unicode特殊字符中提供了特殊文本标记,用于指示行间注释的开始和结束。
结构
尽管IGT格式没有正式规范,但莱比锡注释规则[3]是一套旨在尽可能标准化格式的指南。
用于语言学的行间文本通常包含以下部分的一些或全部,通常按从上到下的顺序排列:
以及
- 自由翻译,如果语言结构差异过大而无法逐行对应,则可以放在单独段落或相对页面上。
例如,以下台湾闽南语句子被转录成五行文本:
以及
- 5. 英文翻译:[4]
(1.)
(2.)
(3.)
(4.)
goá
goa1
goa2
I
iáu-boē
iau1-boe3
iau2-boe7
not-yet
koat-tēng
koat2-teng3
koat4-teng7
decide
tang-sî
tang7-si5
tang1-si5
when
boeh
boeh2
boeh4
want
tńg-khì
tng1-khi3.
tng2-khi3.
return.
(5.) "I have not yet decided when I shall return."
逐词对齐. 根据莱比锡注释规则,标准做法是将目标语言中的单词与元语言中的对应单词左对齐;这种对齐可以在(1-3行)和第(4行)之间看到。
逐词素对应. 在词内层面,可分割的词素在例子和注释中都用连字符分隔。在例子和注释中应该有相同数量的连字符,如下例所示:
Gila
now
ferma
farm
hamišaluǧ
forever
güǧüna
behind
'Now their farm will not stay behind forever.'
语法类别标签. 在amuqʼ-da-č中,词干(amuq)被翻译为对应的英语词根(stay),而屈折词缀(da)和(č)分别表示将来时和否定。这些屈折词缀被注释为FUT和NEG;莱比锡注释规则中可以找到广泛使用的语法类别标准缩写。
一对多对应关系. 当单个目标语言元素对应多个元语言元素时,用句点分隔它们。[3]例如:
çık-mak
come.out-INF
'to come out'
非显性元素. 如果逐词素注释(中间行)包含的元素在例子中没有显性元素对应,标准策略是在目标语言文本中包含一个显性的“ø”,[3]它像显性元素一样用连字符分隔:
puer-ø
boy-NOM
'boy'
重叠的处理类似于词缀,用波浪号(而不是标准连字符)将复制的元素连接到词干上:[3]
bi~bili
IPFV~buy
'is buying'
标点
在行间形态注释中,各种形式的标点用于分隔注释。通常情况下,单词与其注释对齐;在单词内部,当文本和其注释中都有边界时使用连字符,当边界仅出现在其中一方时使用句点。也就是说,文本和其注释中应有相同数量的单词由空格分隔,单词和其注释中也应有相同数量的连字符分隔词素。这是基本系统,可以普遍应用。例如:
'我迅速离开了房间。'
当源语言中的一个单词对应于注释语言中的一个短语时,可以使用下划线代替句点,如go_out-PFV,尽管在其他情况下仍然会使用句点,例如希腊语oikíais house.FEM.PL.DAT 'to the houses'。
然而,有时可能需要更细致的区分。例如,附着词可以用双连字符(或为了便于输入,用等号)而不是连字符分隔:
je⹀te⹀aime
I⹀you⹀love
'我爱你。'
导致不连续的词缀(中缀、环缀、插入词缀等)可以用尖括号分隔,重叠用波浪号分隔,而不是用连字符:
sulat
write
su~sulat
未然式~write
s⟨um⟩ulat
⟨施事触发.过去时⟩write
s⟨um⟩u~sulat
⟨施事 触发⟩未然式~write
(参见词缀了解其他例子。)
无法轻易分离出的词素,例如德语变音,可以用反斜杠而不是句点标记:
unser-n
our-DAT.PL
Väter-n
father\PL-DAT.PL
(德语)
'给我们的父亲们'(Väter '父亲们'的单数形式是Vater)
莱比锡注释规则中还展示了一些其他有时会使用的惯例。[3]
行间注释资源
目前已经有将世界上数百种语言的IGT数字化的资源。[5]
行间文本在线数据库
行间文本在线数据库 (ODIN) 是一个包含超过1500种语言的20多万个行间注释实例的数据库,这些实例是从学术语言研究中提取出来的。[6] 该数据库的构建分为两个阶段:自动构建和人工校正。自动构建阶段本身份为三个步骤完成:
- 首先,使用搜索引擎(如Google、Bing)检索可能包含行间注释的学术文献。查询包括与语言学研究相关的术语,例如语法词素(如"NOM"——主格的缩写;"3SG"——第三人称单数的缩写)。
- 其次,使用机器学习中的序列标注方法,对提取文档中的每一行进行标记,判断其是否属于行间注释行。
- 第三,给每个行间注释实例分配一个语言名称(如塔加洛语)和一个ISO 693-3语言ID。语言名称和ID是使用自然语言处理中的共指解析模型自动分配给行间注释的,这些行间注释实例被标记为从学术文献中提取时所使用的语言名称(和ID)。[6]
在人工校正阶段,数据库创建者手动校正自动构建阶段第二步中序列标注方法发现的行间注释实例的边界。然后,在数据的第二次和第三次遍历中,分别验证了语言名称和语言代码。
行间注释实例范围 | 语言数量 | 行间注释实例数量 | 行间注释实例比例 |
---|---|---|---|
>10,000 | 3 (1) | 36,691 (10,814) | 19.39 (6.88) |
1000-9999 | 37 (31) | 97,158 (81,218) | 51.34 (51.69) |
100-999 | 122 (139) | 40,260 (46,420) | 21.27 (29.55) |
10-99 | 326 (460) | 12,822 (15,560) | 6.78 (9.96) |
1-9 | 838 (862) | 2,313 (3,012) | 1.22 (1.92) |
总计 | 1,326 (1,493) | 189,244 (157,114) | 100 (100) |
行间注释实例的自动处理
现已有利用行间注释资源(如行间文本在线数据库)的自然语言处理模型。[7][8]
自动标注
例如,自然语言处理系统已经被开发出来自动产生语境标注。[7]
mi-s
你-GEN
ħumukuli
骆驼
elu-ab-ok'ek'-asi
我们.OBL-ERG.1.PL-偷-过去否定
anu
是.否定
'我们没有偷你的骆驼。'
给定单词分段线(上述第一行)和自由翻译线(上述第三行),任务是生成中间的标注线,包括词干翻译(例如,mi:你)和与词缀对应的语法类别标签(例如,a:ERG.1.PL)。自然语言处理中的序列预测模型已被用来执行此任务。[7] 这个任务的难度有两个因素贡献:
- 翻译不一定与单词分段线对齐(例如,骆驼是翻译中的最后一个词,但是在单词分段线中是第二个词)。
- 单词分段线中的一些词在标注中有多个对应(例如,anu:是.否定)。
从标注中自动发现形态结构
研究人员使用语境标注来获取客体语言(即被标注的语言)的形态范例。为了从语境标注中自动创建形态范例,研究人员为每个标注中的词干创建了表格,并为标注中的每个语法类别(例如,ERG)创建了一个(可能为空的)插槽。例如,给定下面的标注句子:[7]
将为词干pobeja创建一个范例,并为PFV.PST.SG.FEM和PFV.PST.SG.MASC的每个插槽创建一个(可能为空的)槽位:
插槽 | 屈折 |
---|---|
PFV.PST.SG.FEM | pobeja-la |
PFV.PST.SG.MASC | ? |
PFV.PST.SG.FEM的槽位将被填充(因为在语境标注数据中观察到了),但PFV.PST.SG.MASC的槽位将为空(假设没有其他语境标注实例包含按PFV.PST.SG.MASC语法类别屈折的pobeja)。可以使用统计机器学习模型来填补缺失的条目。[8][9][10][11][12]
参见
参考文献
- ^ Lehmann, Christian. 逐行形态翻译的指导. Geert Booij; Christian Lehmann; Joachim Mugdan; Stavros Skopeteas (编). 形态学。屈折与词构的国际手册. 语言与交际科学手册 2. 柏林: W. de Gruyter. 2004-01-23: 1834–1857.
- ^ Haspelmath, Martin. 语言类型学与语言普遍性:国际手册 . Walter de Gruyter. 2008: 715. ISBN 978-3-11-011423-2.
- ^ 3.0 3.1 3.2 3.3 3.4 Bickel, Balthasar; Bernard Comrie; Martin Haspelmath. 莱比锡标注规则。逐词形态标注的约定。. 语言学系 – 资源 – 标注规则. 2008年2月 [2010-06-30].
- ^ 例子来自高积焕和陈邦镇的《A Basic Vocabulary for a Beginner in Taiwanese》
- ^ Georgi, Ryan. 从Aari到Zulu:利用逐词标注文本进行大规模多语言语言工具的创建 (学位论文). 华盛顿大学. 2016.
- ^ 6.0 6.1 Xia, Fei; Lewis, William; Wayne, Michael; Slayden, Glenn; Georgi, Ryan; Crowgey, Joshua; Bender, Emily. 丰富逐词标注文本的大规模多语言数据库. 语言资源与评估. 2016, 50 (2): 321–349 [2021-12-15]. S2CID 2674996. doi:10.1007/s10579-015-9325-4.
- ^ 7.0 7.1 7.2 7.3 Xingyuan, Zhao; Satoru, Ozaki; Anastasopoulos, Antonios; Neubig, Graham; Levin, Lori. 利用翻译进行贫资源语言的自动逐词标注. COLING. 2020,. 第28届国际计算语言学会议论文集: 5397–5408 [2021-12-15]. S2CID 227231816. doi:10.18653/v1/2020.coling-main.471 .
- ^ 8.0 8.1 Moeller, Sarah; Liu, Ling; Yang, Changbing; Kann, Katharina; Hulden, Mans. IG2P:从逐词标注文本到范例. EMNLP. 2020,. 第2020届自然语言处理方法会议论文集(EMNLP): 5251–5262 [2021-12-15]. S2CID 226262296. doi:10.18653/v1/2020.emnlp-main.424 .
- ^ Silfverberg, Miikka; Hulden, Mans. An Encoder-Decoder Approach to the Paradigm Cell Filling Problem. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels, Belgium: Association for Computational Linguistics. 2018: 2883–2889. S2CID 53082616. doi:10.18653/v1/D18-1315 (英语).
- ^ Wu, Shijie; Cotterell, Ryan; Hulden, Mans. Applying the Transformer to Character-level Transduction. Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume. Online: Association for Computational Linguistics. 2021: 1901–1907. S2CID 218718982. arXiv:2005.10213 . doi:10.18653/v1/2021.eacl-main.163 (英语).
- ^ Nicolai, Garrett; Cherry, Colin; Kondrak, Grzegorz. Inflection Generation as Discriminative String Transduction. Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Denver, Colorado: Association for Computational Linguistics. 2015: 922–931. S2CID 14929030. doi:10.3115/v1/N15-1093 (英语).
- ^ Bhargava, Aditya; Kondrak, Grzegorz. Leveraging supplemental representations for sequential transduction. Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Montréal, Canada: Association for Computational Linguistics). 2012: 396–406.
外部链接
- The Leipzig Glossing Rules: Conventions for interlinear morpheme-by-morpheme glosses
- Interlinear Glossed Text Standards (E-MELD)
- Interlinear Glossed Text Levels (E-MELD)
- Towards a General Model of Interlinear Text (E-MELD)
- Interlinear Morphemic Glosses
- Glossing Ancient Languages and Texts. A forum for recommendations on the Interlinar Morphemic Glossing of ancient languages as attested in ancient manuscripts.
- Online Interlinear of Biblical Greek Scriptures (New Testament) text
- ODIN - The Online Database of INterlinear text
- Latinum Interlinear Method page Listing of older interlinear and construed texts, mostly from Latin or Ancient Greek and mostly to English
- Ernest Blum, "The New Old Way of Learning Languages", The American Scholar, Autumn 2008.