本文将《里耶秦简》作为实验语料,探索基于CRF(条件随机场)模型的里耶秦简自动断句与分词方法。结合简文的实际特点,通过设置不同的特征模板,面向不同的任务验证模型序列标注的泛化能力;通过设置断句、分词一体化的对比实验,以选取性能更优的处理方案;设计了深度学习方法与预训练模型的对比试验。结果表明,CRF模型一体化的标注方案在各任务中的整体性能均有所提升,且速度快用时少,更适用于里耶秦简。

出土文献是中华文化与文明的重要组成部分,对于史学研究具有特殊的价值。对出土文献进行深层次加工可便于对文献内容进行深度挖掘与知识发现,从而充分发挥出土文献的史料价值。

分词是中文信息处理中的重要研究方向,是对文本数据进行组织与挖掘的基础。古代汉语与现代汉语有显著差异,行文过程是连续书写,并无断句,因此,断句是古文信息处理中必不可少的环节。在传世文献领域,自动断句与分词任务已经取得了比较丰硕的研究成果,而在出土文献领域,相关研究却鲜少涉及。

里耶秦简具有出土文献封闭性更强、同质性更低的语料特点,已有的古文分词与断句方法不能完全适用于里耶秦简。因此,将里耶秦简作为实验语料进行自动断句与分词研究,不仅可以提高里耶秦简后3卷校释工作的效率,也可以为里耶秦简语料库的深入加工奠定基础,同时可以探索适用于出土文献的自动断句与分词方法。

1 古文断句与分词相关研究

在古文断句与分词领域开展的相关研究,早期主要采用基于规则的方法,但存在效果欠佳、泛化能力较差等问题。目前,这一方面的研究主要以基于统计与深度学习的方法为主。

基于深度学习的模型虽然可以通过训练语料自动学习特征,但同时也对训练语料的规模提出更高的需求。目前在已公布的里耶秦简中,大部分的简文内容并不完整。同时,里耶秦简在语料资源上呈现出更加匮乏的特点。因此,深度学习模型并不完全适用于里耶秦简。

CRF模型对所用语料的适应性更强,且对数据集规模的要求相对较小。将CRF模型应用于里耶秦简的自动断句与分词研究中,结合里耶秦简残断现象普遍的实际特点,设计了对称与不对称特征模板,并开展了断句、分词,以及断句分词一体化对比实验。同时加入了深度学习、预训练模型的对照实验,以寻找适合里耶秦简断句、分词的最佳方案,为里耶秦简后3卷的校释工作与语料库的深入加工提供可行的思路与方法。

2 CRF模型介绍

CRF模型可以综合考虑上下文信息,并通过全局归一化在分词、词性标注等任务中展现出良好的性能。CRF 在中文信息处理中的使用原理是将断句、分词等任务转化为字的序列标注问题。给定随机变量X={x1, x2, ⋯, xT}为观测序列,随机变量Y={y1, y2, ⋯, yT}是与之对应的标记序列。在给定X的条件下,Y的链式条件概率分布为:


其中,


CRF完全由特征函数tk、gl及其相应的权重λk与μl确定。

此外,为进行对比实验,增加BiLSTM-CRF、BERT-BiLSTM-CRF模型。其中,BiLSTM-CRF模型是双向 LSTM(long short-term memory)模型(bi⁃directional LSTM、biLSTM)与CRF模型的叠加。BERT-BiLSTM-CRF模型通过在BiLSTM-CRF模型上叠加BERT模型,能够结合上下文语境信息,捕捉句子中各个词之间的依赖关系,实现词的多义性表示。

3 实验语料与分词原则

3.1 语料简介

里耶秦简共约37000余枚,总计约20余万字。湖南省文物考古研究所按工作进度,已出版前两卷。武汉大学历史学院陈伟教授的研究团队,对应2卷《里耶秦简》分别同期出版了《里耶秦简牍校释》第1卷与第2卷(下简称校释),其中包含了大量的校订工作。本文使用的基础语料是湖南省文物考古研究所出版的2卷《里耶秦简》,同时为保证语料质量及完善程度,参照陈伟团队推出的校释,对简文内容进行校对,并采用其中新的校释及改释结果。

3.2 语料预处理

由于埋藏条件比较恶劣,甚至曾被进行过焚烧销毁处理,致使里耶秦简出土时存在严重的残断问题,如图2所示。在对简牍进行整理时,整理者为尽可能还原简文的实际面貌,在释文中做了诸多标注。但这些标注本身并不属于简文的内容,因此需要进行相应的处理才能作为最终的实验语料。根据实际情况,处理过程主要包括两个方面:简文内容处理和语料清洗。


图2 简牍8-461正

3.3 分词原则与词表

分词原则是分词工作的基础,现代汉语已经形成相对具有科学性、通用性较高的分词规范。但古汉语分词尚未形成统一的标准,而且古汉语与现代汉语差别较大,不能直接套用现代汉语的分词规范。为避免训练数据的处理过程出现前后文分词不一致的情况,以及确保评估结果的准确性,将《信息处理用现代汉语分词规范》《资讯处理用中文分词规范》《北京大学现代汉语语料库基本加工规范》作为参考,结合里耶秦简的实际情况,制定五条分词原则。

(1)分词单位主要是词,也包括里耶秦简中结合紧密、使用稳定的词组。

(2)分词时按照从长到短的顺序逐层切分。

(3)分词时遵循从宽原则,介于词与短语之间的词组,在不影响语义理解的情况下,不做切分处理。

(4)凡是收入《里耶秦简词表》的词条一般都视为一个切分单位,不再进行切分。

(5)由于简牍残断导致简文过于简短,致使内容难以理解,同时校释未给出相应的解释说明。结合里耶秦简作为上古汉语具有以单字词为主的特点,将这类简文按单字词进行切分处理。

《里耶秦简词表》的提取思路主要参考南京师范大学陈小荷团队对传世文献及其注疏的相关工作。注疏文献是相关学者人工分析的积累,可将其用于词汇收集,进而用于古文分词等信息处理工作。校释是陈伟教授的团队在释文的基础上进一步校订、断读的成果,其中汇集了大量的字词校释成果。因此,将校释中的注释内容进行提取并整理成《里耶秦简词表》,作为开展分词工作的重要基础。根据上述原则对训练语料进行人工处理,可最大程度上避免前后文分词不一致的问题,为模型提供质量较高的训练语料,同时可为模型评估提供可靠的标准。

4 实验设计与过程

4.1 实验设计

4.1.1 特征模板设计

CRF通过特征模板设置滑动窗口,以及添加二元同现等特征,对上下文进行表示。滑动窗口设置过小可能会导致信息丢失,若过大则可能会引起过拟合。为充分利用上下文信息,将滑动窗口设置为左右1~3个字,并引入二元同现特征进行对比实验。考虑到大部分简文内容不完整的特殊情况,增设了采用对称与不对称特征模板的对比实验。共设计了10个特征模板,前6个是对称模板,后4个为不对称模板。针对不同的处理任务,通过具体实验选取效果最好的特征模板。

4.1.2 标记集设计

CRF在中文信息处理中的使用原理是将断句、分词等任务转化为字的序列标注问题。针对断句、分词等不同任务,设计了不同的标记集合。

基于CRF模型进行自动断句,主要是判断文本序列中的某个字符是否位于断句处,若是就标记为Y,否则标为N。在分词任务中,因为里耶秦简词表中词汇的平均长度为1.80,并且存在3个字及3个字以上的词,因此本文选用4词位的标注集合:T={B,M,E,S},4个标记分别表示词首、词中、词尾字及单字词。对执行断句分词一体化任务时,需对词位与是否断句同时进行标注,因此需要3层标记符号。通过设置不同的标记集,可以便于利用CRF模型处理不同的任务。一体化实验的原理是同时面向断句与分词的多分类任务,将两层标记结合到一起,能够为模型同时执行两个任务提供便利。

4.1.3 语料划分与评估指标

为避免偶然性,使得到的实验结果更加可靠,在所有实验中均采用5-折交叉验证的方法。将语料平均分成5份,轮流取其中的4份为训练语料,剩余1份用于测试。将5次评估结果的均值作为判定模型效果的依据。参考中文信息处理中评估模型性能的常用指标,用人工校对后的断句、分词结果作为标准,将准确率P(precision)、召回率R(Recall)、F1值作为衡量模型效果的指标:


4.2 实验过程

4.2.1 自动断句实验

通过CRF模型将字面信息作为主要特征,分别利用上述10个特征模板进行实验,以筛选断句效果最好的特征模板,实验结果如表3所示。

表3 断句实验结果


通过对比模型在不同特征模板上的实验结果,可以得到三个结论:

1)滑动窗口对实验结果的影响。发现随着滑动窗口的增大,自动断句的F1值呈现增大的趋势。

2)添加二元特征的影响。增加二元特征可以有效提升模型在断句任务上的标注能力。

3)模板是否对称的影响。发现模型采用对称模板的性能均优于采用不对称模板的表现。在使用不对称模板的情况下,在当前窗口后面比在前面增加二元同现特征的效果相对好一些。

4.2.2 自动分词实验

里耶秦简的内容属于上古汉语,上古汉语的特点是以单字词为主,因此将语料按照单字词切分作为参照基线(baseline)。基于字面特征结合10个特征模板分别进行分词实验,结果见表4,得到以下结论:

表4 分词实验结果


1)滑动窗口对分词结果的影响。不同于自动断句,随着滑动窗口的扩大,分词的F1值反而呈现略微下降的趋势。

2)二元特征的影响。增加二元特征依然是提升分词性能的有效方案。

3)模板是否对称的影响。采用对称模板依然比不对称模板呈现出更好的分词性能,但是与断句任务不同的是,在当前窗口前面比在后面增加二元同现特征的效果相对好一些。

4)参照基数中的准确率为58.14%,召回率却达到75.89%,与先秦汉语以单字词为主的特点相契合。

4.2.3 参数c对模型性能的影响

使用CRF进行模型训练时,需要确定超参数f与c。f表示特征的最低频次,低于该阈值的特征将被舍弃。参数c可以调整欠拟合和过拟合之间的平衡度,数值越大对训练数据的拟合程度越高。通过对比实验结果可以发现,在自动断句与分词任务上,参数c对模型标注效果的影响非常微弱,基本没有差别。

4.2.4 断句分词一体化实验

进行古文分词时,一般是在断句的基础上,再进行自动分词处理,两步走的方法通常会存在错误扩散问题。因此,设置了断句、分词一体化实验,用于选取适合里耶秦简断句与分词任务的最佳方案。通过对比实验结果,发现采用一体化方式的整体效果优于分步处理的情况。因此,应用CRF模型对里耶秦简进行断句与分词,一体化的方式整体表现出更高的性能。

4.3 对照实验

通过上述实验可知,CRF模型在里耶秦简的断句与分词任务中具有较好的性能表现,为更加确定CRF模型对于里耶秦简的适用性,加入BiLSTM-CRF、BERT-BiLSTM-CRF模型进行对照试验,实验结果可知,BiLSTM-CRF与BERT-BiLSTM-CRF模型并没有显著提升模型的性能。同时,将“云梦睡虎地秦简”的内容融入原有语料,以探究语料规模、题材的变化对模型性能的影响。利用CRF模型开展自动断句与分词任务,两个任务的模型性能反而出现明显降低的趋势。

5 结论

以已公布的里耶秦简1卷和2卷为语料,对面向出土文献的古文自动断句与分词进行了探究。研究结果表明,一体化的标注方案整体表现出更高的性能。CRF模型在里耶秦简自动断句与分词任务中不仅性能上表现良好,而模型训练速度更快。研究成果可以有效地辅助后续3卷简文的校释工作与简文内容的深加工处理。CRF模型相较于深度学习,恰好适用于出土文献封闭性强、同质性低的语料特点。同时CRF 模型对数据量要求较小的特点,也更加匹配里耶秦简语料规模相对较小的实际情况,并在自动断句与分词任务中呈现出时间成本低、准确率高的优势。因此,针对特定的领域知识需要综合考虑模型的量级、训练成本与效率性能,以面向特定的任务需求选择更加适用的模型。

本文作者:冯慧敏、郭帅帅、刘铭

作者简介:冯慧敏,山东农业工程学院基础课教学部,西北大学科学史高等研究院,讲师,研究方向为数字人文。

论文全文发表于《科技导报》2024年第23期,原标题为《基于CRF模型的 <里耶秦简> 自动断句与分词研究 》,本文有删减,欢迎订阅查看。

内容为【科技导报】公众号原创,欢迎转载
白名单回复后台「转载」

《科技导报》创刊于1980年,中国科协学术会刊,主要刊登科学前沿和技术热点领域突破性的成果报道、权威性的科学评论、引领性的高端综述,发表促进经济社会发展、完善科技管理、优化科研环境、培育科学文化、促进科技创新和科技成果转化的决策咨询建议。常设栏目有院士卷首语、智库观点、科技评论、热点专题、综述、论文、学术聚焦、科学人文等。

ad1 webp
ad2 webp
ad1 webp
ad2 webp