江西地名研究
关注我们,获取更多地名资讯
提要:本文统计Klue⁃ner和Kochet⁃ner两个命名实体语料库中的新闻、评论和文化遗产文本数据包含的不同类别朝鲜语命名实体。根据统计结果分析朝鲜语命名实体的音节长度特征分布和格词尾结合率。分析结果表明,音节长度和格词尾的使用在命名实体分类中具有一定的规律可循。本文的研究成果可用于命名实体分类工作,同时也可以为朝鲜语命名实体语料库构建提供分布结构建议。
关键词:朝鲜语;格词尾;命名实体识别;特征提取;名词分类
1 引言
随着信息化技术的加速发展,以数字化为媒介的语言数据成为各国之间交流的主要方式。因此,在这些海量语言数据中以自动化的形式抽取关键信息成为目前研究的热点。其中,命名实体识别(Named Entity Recognition,简称NER)技术作为信息抽取工作的重要方法,广泛应用于文本理解、信息检索、自动摘要、问答系统、机器翻译等自然语言处理的各项子任务中(Li et al.2020:50)。
命名实体(Named Entity,简称NE)一般是指文本内容中指代性较强且具有特定意义的名词和数词。它们通常包括人名、地名、机构名、日期、时间等多种不同的分类(刘浏等2018:329)。因此,命名实体自动识别任务可以理解为针对文章中所包含的名词和数词的细分类任务。命名实体识别是自然语言处理领域中的一个重要研究方向。它可以帮助我们更好地从文本内容中提取出核心实体,帮助读者短时间内在海量信息流中快速地定位高价值信息。例如,在新闻、金融、医疗等不同领域数据中我们可以通过命名实体识别技术快速地提取出这些数据中包含的人物、地点、事件、日期、时间等关键信息。
由于延边朝鲜族自治州的特殊地理位置,朝鲜语在这里成为与朝鲜、韩国进行学术文化交流的主要语言(崔仙2022:33)。作为黏着语的朝鲜语具有语言的普遍特征,也有其独有的语言学特点。从语言类型的角度来看,汉语和英语属于主谓宾(SVO)型语言,而朝鲜语属于主宾谓(SOV)型语言。这意味着朝鲜语的根节点位置出现的词类是相对固定的,而位于句子的末尾的多数是朝鲜语中的谓词(华英楠 毕玉德2022:55)。朝鲜语在构词方法上,实词通常与虚词进行拼接,形成一个语节;这些语节再次通过隔写(空格)形式按照规则顺序连接在一起,形成一个具有完整语义的句子(卢星华 金静2022:79)。实词是指能够独立表达意义的词,如名词、动词、形容词等,通常在句子中充当主语、谓语和宾语成分。虚词则是指不能独立表达意义,需要依附于实词的词,如助词、介词、连词等(宋官怀2022:27)。特别是在朝鲜语中,实词和虚词之间的拼接关系非常重要,它决定句子的句法结构和语义。
本文通过朝鲜语的这些语言学特点,结合命名实体语料库内容进行研究,有助于抽取朝鲜语命名实体在文章中的结构特点,能够更加明确命名实体和其他句子成分之间的上下文依赖关系,从而保证在命名实体自动抽取任务中的识别性能,让识别结果更接近人工标注的结果。这一成果能加强作为资源稀缺语言的朝鲜语语料的规模和质量,也能够推进朝鲜语信息化在国内的研究进程。
2 相关研究
命名实体识别任务最早提出于1995年举办的第六届MUC⁃6会议(Sundheim 1995:319)。目前,命名实体识别技术已经取得一定的发展。研究人员采用各种不同的方法来解决命名实体识别问题,包括基于规则的方法、基于统计学习的方法和基于深度学习的方法等。其中基于深度学习的方法是目前研究的热点方法。
深度学习是一种人工智能技术,它能够通过大量数据训练来自动学习数据中隐藏的规律和关系。在命名实体识别领域中,深度学习能够有效地提取文本中的特征,并通过多层神经网络来进行分类。但深度学习建模过程中对所需要的语料库质量和规模都具有较高的要求。因此,作为低资源语言的朝鲜语,如果直接使用现有的命名实体识别常用方法,则无法达到预期效果。针对这种语料资源不足的问题,通常使用的方法是利用已标注的较大规模的相关领域语料库,通过迁移方式来解决语料资源不足的问题(吴炳潮等2022:3776)。同时,为了提高命名实体识别效果在一般使用的词向量特征外,通常结合字符级别的特征、形态学特征、位置特征和词典等语言学特征作为识别系统输入的额外信息来提高识别效果(邓依依等2021:30)。特别是在低资源语言类研究中从语言学角度研究能够用于学习的结构特征来增强语料库,以解决训练语料不足的问题。刘嘉锡(2021:8)使用基于自举的规则方法获得基本词典,再结合依存句法进行数据分析获得能够输入至深度学习模型的标注数据,最终完成使用少量人工标注数据的深度学习方法,用于案件要素提取模型。Oh等(2017:317)分析韩国语命名实体语料库中组成实体的音节特征,构建了基于音节单位的命名实体词典用于命名实体识别任务。Park等(2021:556)为了解决更新较为频繁的命名实体未登录词问题,使用韩国语词汇语义网工具UWord⁃Map从词汇角度分析命名实体的上下文结构特点,为后续的命名实体抽取任务奠定了基础。
3 研究方法
目前在自然语言处理领域所使用的语料库多为开源语料库。开源语料库是一种面向公众和语言研究人员的可以免费访问和使用的语料库,包含大量结构化的可用于研究的不同领域或不同语种语言数据,可用于语言学研究和自然语言处理建模研究。在基于语料库的语言研究中通常使用字符数、音节长度等数据分析不同语言单位的分布特点。毕玉德等(2019:42),通过统计韩国语新闻语料库中汉字词的词类符数和音节长度等数据考察了汉字词的总体分布特点。本文使用公开的Klue⁃ner和Kochet⁃ner(Kim et al.2022:3496)两个命名实体语料库,统计组成命名实体的音节长度和助词数据,从总体分布和不同类别分布两个角度进行分布特征研究。Klue(Korean Language Understanding Evaluation)组织发布的语料库包含针对不同任务的8个语料库,其中Klue⁃ner是命名实体语料库,包含人名、地名、机构名、日期、时间、数字等共6个分类的命名实体。Kochet⁃ner是2022年发布的韩国文化遗产相关文本语料的命名实体标注语料库,主要有历史、文物、文化等内容相关的文本数据,包含文物、人名、术语、日期、文化、材料、动物、植物、事件、地名等共10个分类的命名实体。这两个语料库都是开源语料库,是由相关领域专家根据数据构建指南建议进行构建的。其中因命名实体分类数量没有明确的定义,所以本文使用的两个语料库分类也有所不同。
这两个语料库也在多个自然语言处理研究中获得较好的效果(例如,Nam et al.2017:147;Yu et al.2017:306;Jin et al. 2021:101)。因此,本文使用这两个语料库作为主要研究对象,对朝鲜语命名实体的音节长度、助词等两个方面进行统计,分析作为命名实体语料库的实体特征。同时,也为创建朝鲜语命名实体语料库建设提出结构化建议。
4 统计分析
4.1 音节长度分布特征
首先从Klue和Kochet两个语料库中,分析组成命名实体的音节长度。Klue语料库拆分为Wikitree新闻语料和Nsmc评论语料单独进行统计。组成命名实体的语节数大多为单个语节,因此音节长度分布统计单语节的命名实体。从表3的统计结果可以看出,命名实体大多数为单音节、双音节、三音节和四音节词。Wikitree新闻语料库中最长命名实体是16音节的‘(韩国互联网数字娱乐协会)’,实体标记为机构名。Nsmc评论语料库中最长命名实体是12音节的“Mrs. Robinsn”,实体标记为人名。Kochet文化遗产语料库中长命名实体是22音节的‘/孔夫子聖蹟圖續修五倫行實重刊淵源儒林鄕約本所,实体标记为地名。
从表3音节长度分布我们可以看出,3个语料库中命名实体音节长度总体分布是相近的。Nsmc评论语料和Kochet文化遗产语料中双音节词最多,而Wikitree新闻语料中三音节词是最多的。
4.2 分类音节长度
在本节中针对Klue语料库中的Wikitree(新闻)、Nsmc(评论)和Kochet语料库中不同分类命名实体的音节长度进行统计,试分析在不同领域语料库中的不同类别的命名实体音节长度分布规律。
4.2.1 Klue⁃Wikitree分布结果
Wikitree是新闻领域语料库。该语料库中不同分类命名实体音节长度分布,如所示。从的统计结果可以看出,地名、机构名和数字呈现出大致相近的分布特征,数量最多的是双音节词,随着音节数量的增加所占比例也随之递减。而人名、日期和时间分类命名实体的音节长度都具有较为独特的分布特征。
图1(a)中的人名实体的音节分布,数量最多的是三音节词和单音节词。三音节词占总体音节数的40%以上,这一特征符合人名的结构特征。
而单音节词也接近40%,主要是因为在新闻报道中提起人名时经常使用姓氏来指代某一个人。例如,‘[kimɕ'i]/金氏’‘/朴氏’‘[kimmo]/金某’‘[paŋmo]/朴某’等“姓+氏/某”形式的表达方式较多。
图1(b)中的地名分布主要由双音节和三音节词组成,其中双音节词占比超过50%以上。如,中国’‘/韩国’‘[shɯwishɯ]/瑞士’等词是最为常见的地名实体。除常见地名实体外也包含一部分较长的地名如‘[oshɯthɯreiʎʎia]/澳大利亚’‘/国际空间站’等。
图1(c)(f)中的机构名和数字实体分布相似,音节长度分布双音节词开始逐步递减。其主要原因是机构名和数字通常使用一个或以上的实体组合的频率较高。例如,地名‘[aɕiangeim dzodzigwiwʌnhwe]/亚运会组委会’‘/俄罗斯足球协会’等,数字‘13/人’‘26/岁’‘106000/10亿6000万元’等。
图1(d)中的日期实体主要由“数字+年/月/日”形式的数组组成,例如,‘2020 [itsʌhɲiɕimɲyʌn]/年’‘8[pha rwʌl]/月’‘12[ɕibiwʌl]/月’‘5[o il]/日’‘20[iɕi bil]/日’等,因此双音节和三音节的命名实体最多,其占比超过80%。图1(e)中的时间主要由“数字+时/分”形式的数组组成,例如,‘9/时’‘8[phal bun]/分’‘30/分’等,因此双音节命名实体最多,其占比超过60%。
4.2.2 Klue⁃Nsmc分布结果
Klue⁃nsmc是电影评论语料库。该语料库中不同分类命名实体音节长度分布,如图2所示。从图2的统计结果可以看出,人名、机构名和时间三种实体较为相近。而地名、日期和数字都具有独特的分布模式。
图2(a)中的人名实体的音节分布中数量最多的是双音节和三音节词,合计占总体音节数的80%以上,这一特征符合人名的结构特征。但与新闻语料库不同的是单音节词很少,更多是以完整姓名格式对人名进行描述。图2(b)中的地名分布主要由双音节词组成,占比超过70%以上。不同于新闻语料库,三音节及以上长度的实体较少。
图2(c)中的机构名主要分布在双音节和三音节长度,其中三音节词最多,占比50%以上。因为是电影评论数据,所以与影视相关的公司、媒体和其他机构名称居多。例如,‘/迪斯尼’‘SBS/SBS株式会社’‘[shorimsha]/少林寺’等。
图2(d)中的日期比较均匀地分布在2~5音节长度。相较于新闻语料库中的日期实体,像‘80[phalɕ'im ɲyʌndɛ]/80年代’‘15[ɕibo ɲyʌn tsʌn]/15年前’‘2004[itshʌnshaɲyʌn]/2004年’等相对时间和单一年份的使用的增多,四音节和五音节词的使用比例也随之增加。
图2(e)中的时间实体主要由“数字+时/分/秒”形式之外,还包括“数字+小时/分钟”等格式数据。例如‘2
[tu ɕik'an]/小时’‘20/分钟’‘[han ɕik'an]/1小时’等,因此三音节的时间实体最多,其占比超过60%。
图2(f)中的数字实体主要由电影相关的系列集数、评分、观看次数等数据组成。例如,‘2[ipu]/部’‘6/分’‘9[ku phyʌn]/篇’等,因此双音节数字实体最多,其占比超过60%。
4.2.3 Kochet语料分布结果
Kochet是文化遗产文本语料库,主要包含文化遗产相关历史人物、文物、历史事件等内容的文本描述数据。该语料库中不同分类命名实体音节长度分布,如图3所示。
人名、地名和机构名是本文使用的两个语料库中共同出现的相同分类。因此,首先从这3个分类观察音节长度分布的异同。图3(a)人名实体统计结果与Klue语料库里人名音节长度相近,主要分布在三音节长度,符合人名的结构特征。图3(b)地名实体统计结果与Klue语料库不同,包含更多的三音节长度的词。主要包含例如,[tsinnara]/秦国’‘[tshonara]/楚国’‘/鸭绿江’等,历史和地理相关的三音节地名实体。图3 (c)日期实体统计结果与Klue语料库也有一定的差异。其中五音节实体比与新闻语料中的日期实体更过,例如‘[tshʌŋdoŋgiɕidɛ]/青铜器时代’‘[kodzoŋ iɕibil ɲyʌn]/高宗21年’‘[ildzegaŋdzʌmgi]/日本帝国主义强占时期’等历史时期相关的日期实体。
图3中的(d)至(j)是Kochet语料库独有的分类。其音节长度分布特征大致相近,主要分布在双音节词。其中图4(d)术语实体具有更多的如‘[pulgɯnshɛk]/红色’‘[wʌnthoŋ⁃hyʌŋ]/圆柱形’等颜色和形状相关的三音节词。图4(g)动物实体具有更多的例如‘[mal]/马’‘/鹤’‘[p'ul]/角’等动物名和动物身体部位的单音节词。图3(i)植物实体中具有更多的例如‘/牡丹花’‘/不老草’‘/石草类’等植物的名称、部位和分类相关的三音节词。图3(j)事件实体具有更多的例如‘[kwagʌɕihʌm]/科举考试’‘[rʌildz⁃ʌndzɛŋ]/俄日战争’‘[toŋɲibun⁃doŋ]/独立运动’‘[tsʌnthoŋholl(y)e]/传统婚礼’‘/丧礼仪式’等历史和文化相关的四音节实体。
4.3 格词尾分布特征
在朝鲜语中,我们可以使用格词尾来表示主语、宾语、谓语等不同的句法关系。这些格词尾通常拼接在名词之后,形成一个完整的语节。通过这种方式,可以构建出复杂的句子结构,表达丰富的语义。而命名实体主要由名词和数词组成,因此格词尾的与命名实体结合频率较高,可以作为命名实体的一种特征来使用。在一个句子中主体词汇不变的前提下,仅替换助词就能改变原有句子的语义,如例句①和②所示。
例①是一个标准的主宾谓(SOV)格式句型,其中‘/哲洙’与主格词尾‘[ka]’相连构成句子的主语,‘[pab]/饭’与宾格词尾‘[ɯl]’相连构成句子的宾语,‘’是谓词。例②中把主格词尾‘[ka]’替换为同格词尾‘[wa]’,语义上产生变化。与此同时,从语义角度分析时,不同类别的名词对助词的使用是有所限制的。例如,与格词尾‘[ege]’主要连接在人名之后,位格词尾‘’多数使用在地名之后等。因此,本节主要统计Klue和Kochet两个语料库中的不同类别命名实体与助词的结合频率,尝试分析命名实体与助词的结合关系。本文分析所使用的格词尾分类和对应发音如表4所示。
表4中主格词尾‘’和‘’,宾格词尾,同格词尾是同一种助词的两种形态,使用方式仅与前一个音节发音形态有关。与开音节连接时使用,而与闭音节连接时使用。因此,本文在统计时将这类结果合并在一起进行分析。统计结果使用带有后缀的同一类别命名实体中格词尾的占比来表示。如公式(1)所示。
4.3.1语料统计结果
统计所使用语料库还是klue和Kochet两个命名实体语料库。klue料库由新闻和评论数据组成,其命名实体分类包含人名、地名、机构名等共计6个命名实体分类。Kochet语料库由文化遗产文本数据组成,其命名实体分类包含人名、地名、术语等10个类别。而两个语料库中同时出现的命名实体分类为人名、地名和日期3个分类。使用公式(1)统计的两个语料库中,3个领域数据的统计结果如表5、表6、表7所示。
从上述3个表的统计结果可以看出,不同领域中的不同类别命名实体与格词尾的结合规则也有着一定的规律。主格词尾中‘’在3个领域语料库中与人名的结合频率是最高的,分别是32.6%、37.1%和29.81%。‘’在Kochet语料库中仅在人名和文物实体之后少量出现,在Klue语料库中也是仅与人名一起出现。而‘’在3个语料库中均未出现。宾格词尾在Kochet语料库中事件实体中的占比和材料实体中的占比最高,分别为42.3%和39.6%。在Klue语料库中,日期实体和数字实体与宾格词尾结合的频率较好,分别是25.3%和29%,而在Kochet语料库中,日期实体与宾格词尾结合频率较少,只占2.7%。属格词尾‘’主要用于表示上下文对象的所属关系。根据统计结果可以看出,属格词尾在所观察的语料库中与人名、术语、地名、机构名都有较高的结合频率,均超过20%,其中Klue⁃nsmc评论语料库中与人名和地名结合频率超过40%。与格词尾‘’在Kochet语料库中的日期实体结合的概率达到73.15%,说明与日期的关联度较高,与地名和事件实体也有20%以上的结合率。在Klue语料库中也与日期、时间、地名实体有着较高的结合率。因此在区分这类命名实体时具有一定的作用。与‘’结合的命名实体主要集中在人名和文化实体,其他实体大多数都没有出现。其中‘’较为特殊,在新闻语料库中有少量与日期和时间实体结合的案例。只有在Klue⁃nsmc评论语料库的人名和机构名中少量出现。位格词尾在3个领域语料库中的结合相对比较集中。其中‘’在Kochet语料和Klue⁃wikitree新闻语料中主要与地名实体具有较高的结合率。除此之外,Klue⁃nsmc评论语料库中与机构名结合率达到40.9%。而在统计结果中‘’则只与少量人名有结合情况。用格词尾‘’和同格词尾‘’在全部实体分类中都有结合,但占比都较低。用格词尾‘’和同格词尾‘’的统计数据也较低,只有在人名、文物、术语实体之后有少量结合情况。比较格词尾统计结果也较少,与Klue语料库中的日期实体有一定的结合率。
5 结束语
命名实体通常在文章中充当主语、谓语、宾语或状语,是文章中主要语义表达单位。在自然语言处理过程中命名实体自动识别和自动分类工作是自然语言理解的基础工作。这一工作流程中需要构建大规模高质量的命名实体语料库。因此,本文以Klue⁃ner和Kochet⁃ner两个命名实体语料库作为研究对象,统计和分析了两个语料库中的新闻、评论和文化遗产等3个领域文本数据的不同类别朝鲜语命名实体的音节长度特征和格词尾结合率特征。
文章首先从音节长度分析了Klue⁃ner和Kochet⁃ner两个命名实体语料库。统计结果表明,总体音节长度在两个语料库中的分布相近,主要分布在1~6音节区间,其中分布最多的是双音节词。而对于每个命名实体类别都有着较为独特的音节分布特点。人名主要分布在三音节词这一特征可以作为朝鲜语命名实体语料库构建时的实体分布结构参考。
其次从命名实体与格词尾结合率的角度分析两个命名实体语料库。统计结果显示,不同类别的命名实体和格词尾都具有不同的结合频率。在主格词尾、宾格词尾、与格词尾等区分度较高,而且在与格词尾、位格词尾、用格词尾、同格词尾和比较格词尾等类型词尾中的一部分只在特定的命名实体类别之后出现,具有一定的区分度。这些实体和格词尾的结合方式可以作为命名实体分类时的一种依据。
总之,命名实体识别是自然语言处理领域中的一个重要研究方向。它可以帮助我们更好地理解文本内容,提取出有用的信息。因此,建设更准确的语料库和提取更多的特征是提高命名实体识别精度的最佳途径。这些特征可以加快自动化标记命名实体的准确率和效率,从而解决朝鲜语命名实体语料库规模的不足问题。
作者:黄政豪、金光洙
来源:《外语学刊》2025年第1期
选稿:江西地名研究小组
编辑:尧诗婷
校对:宋柄燃
审订:宋宇航
责编:刘 言
(由于版面有限,文章注释内容请参照原文)
微信扫码加入
中国地名研究交流群
QQ扫码加入
江西地名研究交流群
欢迎来稿!欢迎交流!
转载请注明来源:“江西地名研究”微信公众号