在人工智能兴起的今天,自然语言处理领域面临着大量的人才缺口。这对语言学来说似乎是前所未有的黄金时代,多少年来,看似“无用”的文科专业终于能够学有所用。
但“不幸”的是,目前国内语言学专业普遍的培养模式,其为学生提供的知识储备,恐怕不足以帮助他们应对这一新挑战。能够填补眼下这个人才缺口的,只有计算语言学方向的毕业生。
计算语言学与语言学,仅两字之差,前者似乎只是后者的一个分支,实则天壤之别。举个例子:诺姆·乔姆斯基的 《句法结构》 是一本语言学经典名著,可多数文科生在阅读时,都会被“有限状态自动机”和“马尔可夫过程”等名词唬住。哪怕对大部分语言学研究生来说,这些都显得艰深晦涩。可这些内容,本科二、三年级的理工科学生都有能力读懂,对计算语言学来说都算入门级的知识。
这一现象所折射的事实是:非计算方向的语言学专业学生,往往既没有在大学中接受过数学课程的训练,也没有在专业课中受过数学思想与方法的熏陶。目前经常出现的一则状况是,由所谓的“语言学家们”提出一些类似哲学思辨的想法,至于具体的、数学上的形式化或计算实现,都得依靠来自其他学科有数学背景的学者———双方之间存在着一种诡异的分工。故此,常有人戏谑语言学界还处于“前牛顿时代”。
说语言学还处于“前牛顿时代”,严格来讲是有失偏颇的。事实上,在语言学中使用数学方法早在半个世纪以前就有过一阵风潮。
1954年,现代语言类型学之父约瑟夫·格林伯格就已经使用定量方法定义了一些连续的指标,完善了语言分类方法。上世纪五六十年代,有大量探讨形式化语法理论的学者、文章和专著,将各种处于思想胚胎中的方案进行形式化,或者比较不同语法之间的强、弱生成能力。
可惜的是,在格林伯格之后的近半个世纪中,类型学界延续这个定量传统的学者非常少。遵循这条路的学者汇聚成了一个专门的学科———计量语言学,而这门学科之前只在德国盛行,一直未入“主流语言学界”的法眼。研究形式语法的传统同样在乔姆斯基早期著作之后的五十年中陷入了沉寂。
近三十年认知语言学和一些边缘学科的盛行,反映出大量文科出身的语言学学者在逃离形式化方面的倾向。以认知语言学为例,直到最近才有一些学者开始使用机器学习的手段,通过计算模拟的方法来研究认知,走上了正轨。
因此,当下高校语言学专业的培养模式,亟需进行两方面的改变:
首先,语言学基础学科,如音系学、句法学、语义学等应当加大形式化描述的比例,要让学生在语言学实例中感受数学模型的运用。以理论语言学的核心课程“句法学”为例,目前国内往往将其狭隘地等同于“生成语法”。“句法学”或“形式句法学”课程教授的内容通常都是生成语法中“原则与参数”版本的理论,但偏偏这一时期的理论鲜见形式化方案。换句话说,它没有对应的数学模型。
其次,要加大基础课程中数学学科的分量。对语言学来说,由于支撑核心的句法语义现象的数学主要是离散数学,因此有必要将这门学科作为重点。
夯实数学基础,告别“前牛顿时代”,这也是语言学学生在人工智能大潮中不被淘汰的生存之道。(作者:叶子 上海外国语大学语言研究院硕士生)