在中国书法史上,有这样一个令人动容的故事:

唐朝的怀仁和尚,历经二十余载,搜集筛选,收集了“书圣”王羲之的1903个字,勾摹刻石。最终,精妙再现了王羲之书法的风采,成就了著名的《怀仁集王羲之书圣教序》。

“模仿羲之书,必自怀仁始。”

千百年来,《圣教序》碑刻,犹如羲之亲写,成了碑帖中的“百代楷模”。

如今,在北京大学王选计算机研究所和北大方正字库共建的北京大学中国文字字体设计与研究中心,有一群“当代怀仁”。他们破译科技创新的密码,研发自动生成的技术,利用人工智能的“想象力”充盈中文字库。他们带着敬字惜纸的谦卑与敬畏,埋首于堆满故纸的格子间,敲击键盘之间,再现汉字书写之美。

在他们的努力下,汉字和汉字书写的艺术,汇入新时代的信息之海,滔滔不绝、荧荧不灭。


连宙辉在进行中文字体智能化设计技术的研发与调试

传承之困

汉字,中华民族的文化图腾,世界上使用时间最长的文字。

“天雨粟,鬼夜哭。”仓颉造字的古老传说,浪漫地隐喻着文字的创造、文明的开端,如同神迹。

数千年间,汉字的应用从未出现断层,如同一条奔流的大河,承载着民族的文化,裹挟着记忆与情怀,从远古不息而至。

然而,流转至今时今世,在科学技术突飞猛进发展的现代,汉字的使用和传承,也曾面临重大的危机。北京大学王选计算机研究所副教授连宙辉介绍,1946年,世界上第一台计算机在美国诞生,当时汉字无法在计算机中显示。曾有国外专家在国际会议上表示,只有改用拼音文字,才能解决中国融入国际社会的困境。甚至有国内刊物悲观地认为:电子计算机是方块汉字的“掘墓人”。

要把汉字“装”进计算机,这是当时解决汉字传承燃眉之急的关键。

这条亘古而来的大河,是怎样汇入现代科技的广袤大海的?“这个故事还要从1974年8月讲起。”连宙辉娓娓道来。在计算机出现的早期,字形在计算机中以点阵形式进行显示和存储。“汉字的数量比英文多得多。要把每一个汉字一笔一划写下来,再人工转化成坐标参数输入计算机,不仅工作量巨大,当时的储存条件也不允许。”那时,国际上主流的个人计算机的存储空间只有几万字节,而要用点阵来“描绘”一个黑体或宋体的汉字字形,需要几十兆字节的内存。

如何化繁为简,让印刷体的汉字进入计算机,成了全世界专家都难以突破的瓶颈。

彼时,我国启动了汉字信息处理系统工程,也就是“748工程”。由北大计算机科学技术研究所的科学家伉俪王选、陈堃銶带领团队,夜以继日开展研究。最终发明了字形信息压缩和快速复原技术,成功研制出华光激光照排系统。每一个汉字都被编成特定的编码,存储到计算机。印刷时,用激光束直接扫描成字。

1979年7月,新闻出版印刷领域迎来了开辟鸿蒙的巨变——第一张由激光照排系统打印的完美报纸样张诞生。

汉字,自此融入了信息时代的大海。而激光照排的发明仅是开端,远未至终点。字体设计与制作技术的创新与发展,更是一片值得纵深探索的海域。

字体,就像是包裹着“电子汉字”的外衣,既体现着文字的风格,又传递着丰富的意蕴。经典的“宋黑仿楷”等标准字体,已经不能满足人们日益增长的使用需要,公众期待着更加个性化、更有文化内涵的字库。

过去,字体的设计依赖人工。设计团队人员利用设计工具软件,一笔一划地设计、修改……尤其是一款精品字库的开发,更是需要数年的艰苦努力。

“1980年,中国国家标准总局发布了最早的《信息交换用汉字编码字符集》,其中收录汉字6763个。去年11月更新的最新版本标准,收录的汉字已达97908个。”连宙辉介绍。

想让其中的每一个汉字都穿上精彩纷呈、各具韵味的美丽“外衣”,仅靠人工设计,备受掣肘。

辟路求存

“王选老师的精神和故事,深深地打动和激励着我。我希望为古老汉字重焕生机贡献一份自己的力量。”

2011年,连宙辉从海外归国,入职北京大学计算机科学技术研究所。自那时起,他就致力于解决字体设计的开发难题。他从零开始组建团队,通过将计算机图形学、计算机视觉、人工智能等技术与汉字紧密结合,探索让字库字体的设计从数字化走向智能化的道路。

连宙辉回忆,在他归国之初,人工智能内容生成技术的研究尚处于起步阶段。为实现“收集少量字形自动化生成大规模中文字库”的目标,连宙辉团队设计出拆分、重组汉字结构的首版方案。他们开发网站、收集数据、设计系统,通过对目标字体风格的少量“样本”汉字进行拆分,拆出来的偏旁部首拼装“复用”,自动组成设计师未曾设计或书写的、具备相同风格的其他所有汉字的字形,进而得到完整的汉字字库。

2015年,首版方案实现后,立竿见影地取得良好的应用效果。

方正字库技术开发总监蒋建斌回忆,“当时,面向企业和个人用字的场景,存在数量庞大、形状复杂、风格多变等不同需求,导致人工设计开发字体耗时费力、成本高昂。”

针对现状,方正字库结合连宙辉团队的技术,开发出小样本驱动的人机协同手写字体自动生成系统,高效地实现中文字体的智能化设计与生成。

一时间,琳琅满目、妙趣横生的新鲜字体在手机上、互联网即时通信软件上层出不穷,令人目不暇接。2016年,方正每个月都有近百款新的手写字体投入使用,“好看、好玩的字体在年轻人中备受欢迎。”蒋建斌说。

同一个汉字,在不同的终端,绽放出仪态万千的风采。然而,随着时代的发展,人们对汉字字体有了越来越高的审美追求。

汉字是结构的美学,书法艺术则被公认是无法复制的“艺中之艺”,难就难在一气呵成,计算机难以体会其中精微。基于拆分结构、自动拼合而成的字体,差之毫厘,就有可能荒腔走板。

如何精进功能,推动字形更加高效、高质量地建模呢?近几年,人工智能技术迎来了爆发式发展,计算机通过自动从数据中学习规律和模式,可以不断改善某一领域的性能。

连宙辉紧随浪潮,将之应用在字体生成的领域。他带领团队迭代开发出一种基于深度神经网络的手写体中文字库自动生成方法。“我们收集手写汉字的过程,进行字体特征的重建,建立字体风格的‘迁移网络’。”

他解释,这个字体风格的“迁移网络”可以通过收集到的用户书写或设计的少量汉字字形,利用深度神经网络提取出该用户的书写风格,并将其迁移到其他所有汉字字形上,最终自动生成出具备该用户书写风格的完整、高质量中文字库。该项目也获得了北京市技术发明奖二等奖、中国专利优秀奖等好成绩。

汉字之美,借着人工智能的风,氤氲在现代人的生活中。

“电子碑林”

技术突破实现了,应用普及成了更进一步的追求。

现在,练字已然是小众爱好,书写不再是人们生活工作的常态。如何利用新技术将书写文明的火种播撒到更广袤的地方,让美好的汉字在日常使用中得到生生不息的传承?

这一棒,传递给了方正字库。

2017年,中国文学艺术界联合会、国家语言文字工作委员会启动了中华精品字库工程,计划精选中国历代书法名家作品,开发成电脑字库。任务落在了方正字库的肩上。

方正字库将中文字体智能计算与自动生成关键技术完美应用在中华精品字库的开发中。

蒋建斌解释,针对碑帖、古籍、手写稿等不同来源字稿,方正字库研发字稿噪声高效去除、字形精准定位与自动识别等技术,显著提升字稿字形轮廓的保真度与生成效率。同时,方正字库应用中文字体智能计算与自动生成关键技术,实现从用户提供的指定的少量汉字字形样本,自动生成满足国标的矢量中文字库,再由设计师们逐字精细调整达到精品字库的水平。

方正字库位于北大方正公司办公楼的顶楼,是个十分幽静的所在。傍晚时分,夕阳的余晖斜照在写满不同字体的标识牌上,时间的流逝仿佛都变得缓慢。走进办公大厅,随处可见堆叠的出版物、字书、打印着字形的样纸,充满文化气息。

在这些普通的格子间里,一群“做字人”埋头于“故纸堆”,方正字库的设计总监汪文,正是其中一位。在中华精品字库中,多年研习颜体书法的汪文主导设计了颜真卿楷书字库。他将中华精品字库的开发流程总结为:收集字稿、字稿扫描、字形选择、精细设计、补字创写、字形检查、专家审核、封装成库8个步骤。


蒋建斌(左)与汪文(右)讨论精品字库字体设计

他以颜真卿楷书字库的设计为例进行解释:首先是把颜真卿原碑的拓片扫描进计算机里,剔除重字,选择出其中笔画饱满、线条清晰、结构气韵最符合颜真卿书法艺术特征的字。

不过,颜真卿的楷书原字一共只有657个,而要设计字库则需要9883个字,该怎么处理呢?这就到了人工智能技术发挥作用的时候。利用字体智能计算方法与自动生成关键技术,系统自动“想象”出了其余9000多字的繁体、简体两种不同的“模样”。

但要保证颜体字库原汁原味,让人“一看就知道是颜真卿的字”,“做字人”们还要下更大的功夫。

“书法需要一笔一划、千百遍地反复练习,我们在做字库的时候,也是一笔一划反复地精细调整。”汪文举例,比如同样一个“王”字,如果加一“点”放在口子框里,变成一个“国”字,就需要加粗横竖,变得更饱满些;如果放在左边,变成“王字旁”,则需要变最后一横为一提;如果放在上下结构的字里,则需要缩短三横之间的距离,变得“扁”一些。

除了笔划“精修”以外,要让字库里的字像书法作品一样,拥有整体韵律,那字里行间都有“讲究”。比如颜真卿的楷书,风格宽博大气、笔划饱满,在“精修”时,汪文会特意将字体调整得相对扩张些,彰显遒劲端伟的气势。

流程的最后一步,软件开发测试人员要将设计完成的字形封装成可以在电脑、手机等设备中使用的字库,测试字库在不同操作系统、应用软件里的兼容性、正确性,保证在不同环境下可以正常使用。

“为了最大程度精准还原颜体字的形象和风骨,我们将这近万字的字库,前后整整‘精修’了两遍。”汪文说,其实,修改调整是贯穿于字库开发的全流程的。

正是人工智能的先进技术与设计团队的深厚功底的完美融合,才建造出了这座既能原汁原味保留书法名家风骨,又能生动再现书法字体灵动的“电子碑林”。

2019年,“字载中华——中华精品字库工程成果展”作为向中华人民共和国成立70周年的献礼,亮相国家博物馆,展出了工程首批12款字体成果。颜真卿、赵孟頫、柳公权、苏轼、鲁迅……12位名家的电脑字库字体展出,给数十万观众带来美的享受。为满足观展需求,国博还特地将展览延期了半个月。

方正字库还启动了“字美中华——中华精品字库工程公益应用计划”,免费向公益组织、新闻出版单位、政府机构、学校、个人等提供工程的47款字体成果。

“在使用中留存,是汉字书法之美的一种归途。促进书法经典走进日常,也是我们‘做字人’的责任。”汪文说。

万树花开

以发展的眼光看待传承,“人工智能+汉字”孕育着一个正在茁壮成长的未来。

2021年9月17日,伴随着北京2022年冬奥会和冬残奥会主题口号——“一起向未来”的正式发布,冬奥会设计专用字体也首次亮相。简洁流畅、充满力量的专用汉字,传递着中国人自信、阳光的形象,也成了营造北京冬奥氛围的重要元素,是冬奥会最重要的视觉形象景观特征之一。

冬奥会专用汉字由北京大学中国文字字体设计与研究中心、方正字库和中央美院联手共同完成,选用行楷与魏碑相结合的风格。“行楷的飘逸流畅,魏碑的端庄敦厚,分别彰显着冬奥运动的速度与力量。”汪文介绍,该字体在设计过程中同样运用了人工智能和自动生成的技术,不过其中的每一个字都在领域内专家的联合指导下反复调整。

比如,开幕式入场引导牌上的字体,是在方正魏碑字体的基础上进行的再设计——由于引导牌是发光装置,所以要求字体笔划较传统的魏碑字减细。同时,每一个笔划的两条边线都微微外弯。“魏碑风格雄伟遒劲,微微外翘的笔划则看上去更有力量和弹性。这个设计寓意着中华民族的韧劲和风骨。”汪文说。

“一起向未来。”冬奥会专用字体让汉字书写的艺术以现代的容貌惊艳于世界民族之林。在现代科技的助力下,古老的文字重焕新生,成为人们沟通彼此、联系世界的桥梁。

一撇一捺,万树花开。

“人工智能等先进科学技术的运用,不仅使汉字在信息时代得以更好发展和传播,也取得了良好的社会效益。”连宙辉介绍,中文字体智能计算与自动生成关键技术显著提升各类中文字体的开发效率,与当前国际技术或现有生产工艺相比,手写体中文字库与特效艺术字形的制作效率最高提升100倍,矢量中文字库的字形建模质量提升2倍,中文字体存储大小降低了80%左右。移动端字形渲染速度提高2倍。该技术近3年来累计创造直接经济效益超1亿元,节约人工成本超1亿元。

“全国真正‘做字’的只有几百个人,但每个人都需要用字。”汪文说,虽然书法在人们的日常生活中已失去了常态的应用,但汉字的美永远流淌在中国人的血脉中。“我们日复一日、一笔一划所做的,正是将无数前人所积累的书写文明、中国文化的根与魂,更好地传承下去。”

回首千年,先贤将文字刻在石碑上。时光流转,“做字人”正用科技将文字写进计算机里。

“字载中华”在别样的薪火相传中美梦成真。

书写之美在时光的长河里流转生辉,让汉字生生不息。

来源:《北京日报》

记者:孙乐琪


ad1 webp
ad2 webp
ad1 webp
ad2 webp