来源:复旦大学
编辑整理:双一流高教
2月10日,复旦大学官微报道:日前,刘海涛教授加盟复旦大学,并受聘为复旦文科资深教授。新学期,他将参与主讲一门外文学院的AI大课,助力学校发展科学智能(注:AI4S,AI for Science)。
刘海涛是国际知名计量语言学和依存语法研究专家,教育部特聘教授,享受国务院政府特殊津贴专家,国家社科基金重大项目首席专家,连续10年入选爱思唯尔“中国高被引学者”和斯坦福大学全球2%顶尖科学家榜单。研究领域主要集中在计量语言学和数字人文,尤其在依存语法计量研究和语言复杂网络方面做出贡献,在国际语言学界享有盛誉。
刘海涛表示,“我非常高兴、非常荣幸能加入复旦大学外文学院这个大家庭,并获聘复旦大学文科资深教授,感谢学校对外文学科的支持以及对我个人的认可。”
不久前,刘海涛接受复旦大学的专访,畅谈与语言学研究和复旦大学的不解之缘。
外文与语言学让他结缘复旦
“我感到荣幸,能在这一特殊的时刻,成为一名复旦人,与大家一起面对数智时代的挑战,迎接千载难逢的机遇。”
为何选择复旦大学,加入复旦外文学院?刘海涛从“外文”与“语言学”两个关键词谈起。外文是复旦大学特有的基因之一,复旦也具有优良的语言学传统,复旦公学的创办人马相伯先生与中国第一部汉语语法《马氏文通》具有密切的关系,语言学家陈望道先生曾担任复旦校长25年,为中国语言学发展做出重要贡献。
1964年,陈望道针对中国语言学研究,提出建议:“把屁股坐在中国的今天,一只手向古代要东西,一只手向外国要东西。” 60年后,数智风暴席卷全球,数基AI破解了语言这一人类引以为傲的“软件系统”,也在改变人类的认知过程。这一切,史无前例。
语言是智能的窗口,也是数智革命的引爆点和AI破解人类软件系统的切入点。刘海涛说:“从这个意义上讲,包括外文学者在内的所有语文专业人员,理应站在数智风暴的最前沿去迎接挑战。对中国语言学家而言,这个时代,也许是中国语言学有可能引领世界语言学的机会。期待与各位老师、同学一起努力,再创复旦外文的辉煌。”
“我想在复旦能够结合所有的优势,开展好的研究,通过语言来研究人类的软件,进而能够和人工智能更好地和谐相处,让人工智能成为扩展脑力的工具,形成更高效的人机智能共同体。”刘海涛认为,复旦大学深厚的外文与语言学学科土壤、强大的大语言模型、大数据研究等多学科交叉研究实力、蓬勃盎然的学术氛围,将成为他开展以语言学为中心的跨学科研究的“天选之地”。
从高考英语8分到语言学研究领军人物
“我在中学学的英语,还没毕业,就还给老师了。”1979年,刘海涛考入西安一所大学,就读自动化专业。英语基础薄弱,刘海涛入学考试外语成绩仅有8分(百分制),看见其他会说英语的同学意气风发,歆羡不已。
刘海涛开始苦学英语,以提升阅读能力为重点,每天严格执行学习计划。从大二下学期开始,刘海涛就能阅读国外前沿技术的英文资料,增进专业所学。
之后,刘海涛又开始自学德语、法语、俄语和世界语,到1982年已可阅读使用四、五种外语的专业文献。“学了这么多种语言后,我感觉地球上的语言太多,有点学不过来。”他萌生出两个想法:一个是基于自己所学的自动化专业,尝试发明出一个自动翻译的机器,因此涉入机器翻译的全新领域,这一直是人工智能的核心部分;二是希望有一种全球通用的语言,发现人们已经发明了世界语。
刘海涛对机器翻译和世界语的兴趣逐渐加深,“没想到的是,国际语语言学和计算语言学会伴我一生,成了我终身研究的目标。对这些问题的进一步思考和探索,也让我从语言学习者变成了语言学研究者。”
1992年,三十岁的刘海涛发表人生第一篇学术论文——关于机器翻译的语篇连贯问题,当时他是一名工厂的工程师。次年,他发表第二篇文章,创新性地将国际语学与计算语言学结合起来。十年间,他发表了数十篇语言学研究文章,这位“热爱语言学的工程师”在学术界崭露头角。
出于对语言学研究的热爱,2002年,刘海涛放弃在企业还算不错的职位,来到北京,成为北京广播学院的一名语言学教师。这一年,是刘海涛的不惑之年。他转换了职业,满怀勇气与热爱,开始在新赛道上奔跑。
跨界专家、转型多面手,人们常常这样形容刘海涛。对此,他一笑置之。“大家说我从工科到文科,才转行20年,就如何如何,但是实际上我对语言学的兴趣已有40多年。在兴趣的驱动下,我自学了很多与语言有关的东西。当时转专业不那么容易,毕业我被分配到工厂,但业余时间一直坚持语言学的研习。”刘海涛话语温和有力,“这么多年初心不改,兴趣是主导,同时根据国家与社会的需要,调整研究方向,聚焦前沿。”
高被引学者,
让中国语言学研究走向世界
从工科转投文科,开始跨学科的语言学研究,刘海涛提出一种基于依存树库的语言类型学研究方法,被国际学界称之为 Liu-Directionalities(刘-有向性指标),在计量语言学和数字人文领域取得成就,有关句法计量和语言复杂网络等领域的研究处于国际领先水平。
依存语法是人工智能(自然语言处理)领域广泛使用的语法理论,目前已有168种语言、近三百个依存树库可供人工智能研究者使用。然而,语言学界长期缺乏对依存语法的系统研究,缺乏对依存树库的有效利用。刘海涛坦言,“这种理论与实践的脱节,是智能时代语言学家遇到的最大挑战之一”。
何为依存语法?刘海涛介绍,语言是一个系统,是人驱动的复杂适应系统,需要研究系统基本单元之间的关系。比如,人们日常交流中的一句话,通过词与词之间依存关系的分析,可以形成依存“句法树”,成千上万的这种树形结构便形成了“依存树库”,也许可为发现人类语言中关于句法的普遍规律,打开数基人工智能的“黑盒”提供一把“金钥匙”。
2006年,在构建并分析大规模依存句法树库时,刘海涛与提出基于大规模标注语料库的文本认知难度计算方法,即形成句法关系的两个词之间的线性距离——“依存距离”。两年后,他采用20种语言的真实语料,首次在世界上验证了依存距离最小化(DDM)是人类语言的普遍特征。这项发表于《认知科学学报》(Journal of Cognitive Science)的创新成果,目前是JCS所有被WOS核心集收录的文章中引用率最高的。
“语言学是基础学科,我们从中发现的普遍规律,对其他学科也有用。例如,医学方面对语言相关疾病诊断与治疗、外语教学研究、人机对话等方面,依存距离最小化等规律都在起作用、都能解决一些具体问题。”
2017年,生物学与生物物理学领域的高水平学术刊物《生命物理学评论》(Physics of Life Reviews)邀请刘海涛团队为该刊撰写题为《依存距离:自然语言句法模式的新视角》的综述。该文目前已被人文、社科、计算机科学、物理学、心理学、数学、神经科学、工程、经济学等21 个学科领域的文献引用,不仅展现了语言学家期盼已久的“语言学是一门领先科学”的场景,更显现了数据驱动句法普遍性研究的可行性和有效性。
早在十多年前,刘海涛提出中国语言学的两个目标:中国语言学的国际化与语言研究的科学化。他立志让全世界看见中国语言学的研究成果,以多语种在全世界各地的高水平学术期刊发表语言学研究论文,发出中国声音;探索语言学的科学化,在权威科学期刊发表语言学规律性成果,推动多学科交叉研究。
近十多年来,刘海涛发表了200多篇(部)语言学论著。在2017年出版的《中国人文社会科学国际学术影响力发展报告(2011-2015)》中,编者评价道:“(刘海涛)为语言学研究做出了突出的贡献,是内地语言学领域的‘旗帜性’的带头人。”
在数字人文领域,刘海涛用一整套科学的数字手段系统,考察中国的诗歌翻译、民歌特征与地理分布等一系列问题,在世界具有代表性的数字人文标志性刊物和民俗学的公认顶尖刊物上发表中国学者的原创性研究。该方向开辟了数字人文的研究疆土,有效联通了智能时代数字技术与人文研究。
开启新生涯,
乐于与多学科学者合作交流
漫步复旦校园,刘海涛感受宁静的氛围,体味复旦的文化特质。他喜欢摄影,期待未来用镜头记录复旦的四时光影。幽默风趣的他,交谈间妙语迭出。
这些日子里,刘海涛与40多位外文学院的教师一一交谈,从他们口中了解学校和学院,交流科研心得体会,尤其是科研过程中面临的困难、存在的问题。交谈中,他们不觉时光之流转,碰撞出不少新的想法。
2024-2025新学年,复旦大学推出100余门AI领域课程,刘海涛对“AI大课”关注许久。在他看来,通过一批AI领域课程的开设,促进不同学科的研究者了解人工智能、使用人工智能,推动相关研究,但“更重要的是有一批人去研究它,了解它,让它成为我们的一部分,而不是最终我们成为它的一部分。”
春季新学期,他将参与主讲外文学院开设的有关AI大课。“科幻小说写‘AI统治我们’,但是我们希望AI永远是我们的工具,来帮助我们增加脑力,就像过去的机器来增加我们的体力一样,因此我们需要更深入的研究,去更新迭代,回到数据,回到真实的文本之中。”
刘海涛认为,我们要学习与AI和谐共处,更多的是要了解它内部的机制。“因为不了解它,才会担心它、害怕它。今年两位诺贝尔物理奖的得主,都在获奖后的第一时间采访中表达了人工智能的担忧。为什么要担忧呢?因为我们对它的机理了解得还不是很清楚。”面对数智时代的挑战,刘海涛希望开展跨学科的语言学合作。