语料库语言学是20世纪80年代才崭露头角的一门交叉学科,它研究自然语言文本的采集、存储、加工和统计分析,目的是凭借大规模语料库提供的客观翔实的语言证据来从事语言学研究和指导自然语言信息处理系统的开发。语料库顾名思义就是放语言材料的仓库。现在人们谈起语料库,不言而喻是指存放在计算机里的原始文本或经过加工后带有语言学信息标注的语料文本。 现在世界上已经有了不少规模较大的语料库,有些是国家级的,有些由大学和词典出版商联合建设。另外,由于个人微机的迅猛发展和存贮数据的硬盘造价持续下降,研究者个人也开始建立适合于自己研究的小型语料库。 语料库语言学(英文corpuslinguistics)这个术语有两层主要含义。一是利用语料库对语言的某个方面进行研究,即“语料库语言学”不是一个新学科的名称,而仅仅反映了一个新的研究手段。二是依据语料库所反映出来的语言事实对现行语言学理论进行批判,提出新的观点或理论。只有在这个意义上“语料库语言学”才是一个新学科的名称。 从现有文献来看,属于后一类的研究还是极个别的。所以,严格地说,现在不能把语料库语言学跟语言学的分支,如社会语言学、心理语言学、语用学等相提并论。近年来,随着我国经济的发展,科研经费的增加,汉语语料库的建设得到了开展。1999年我院把建立汉语语料库列为院重大课题。目前语言所正在构建三个大规模的语料库:现场即席话语语料库,主要方言口语库和现代汉语文本语料库。 在世界范围内,我国的语料库建设在规模上还赶不上欧洲的一些发达国家,特别是英国。但在语料库语言学的研究上,以及语料库的实际运用上,我国已经进入世界前沿的行列。 20世纪语言研究的总特点可以用四个字概括——高度抽象。最近几十年来,语言研究的高度抽象倾向已经失去主导地位。这主要缘于两个方面的因素: 一是计算机技术,特别是基于计算机处理的多媒体技术的飞速发展; 二是社会语言学、语用学、会话分析、人类语言学、计算语言学、人机对话研究、语音识别与合成等研究取得令人瞩目的成就。先前难以抓住并进行有效处理的五花八门的实际语料,现在可以对其进行大规模地的、自动的或人机配合的处理。比如个人发音特征,先前认为这跟语言学毫无关系,现在成了侦破语音学的重要内容。侦破语音学家首先建立个人发音特征语料库,这个语料库可以用来鉴别嫌疑犯。 概言之,当今的语言研究由先前的高度抽象逐步走向最具体的语言的实际活动,其中包括神经元的运动。比如神经语言学就是要揭开人类大脑神经是如何处理语言这个秘密的学科。语料库和语料库语言学在当今语言研究由高度抽象转向语言的实际使用这个过渡中起着十分重要的作用:一是提供真实语料;二是提供统计数据;三是验证现行的理论;四是构建新的理论。这些可以说是语料库和语料库语言学的实用价值。 提供真实语料可以说是词典编纂的生命线。现在流行的英语词典几乎全部是基于大规模语料库编纂而成的。基于大规模语料库的英语语法书也已经问世。通过大规模语料库建立统计模型成为语言信息处理和加工的主流模式。先前基于规则的机器翻译、语音合成与识别、文语转换等如没有大规模语料库的数据支持,要取得好成果是不可能的。在理论建设上,基于英国国家语料库英语口语库的研究表明,基于真实英语口语语料的英语口语语法跟基于书面语的语法大不相同,甚至可以夸张地说,是不同的语法。在欧洲,语料库语言学已经成为语言学的主流分支。相信在注重语言实际的我国,语料库语言学也将受到越来越多的研究者的重视,取得丰硕的成果。 摘自《中国社会科学院院报》【江河水按】语料库在世界和我国都发展得很快。本人多年来也在研究一种与上述语料库类似的翻译数据库。目前已取得初步成效。这种语料库的特点为,可同时担任词库、句库、段库、甚至论文库和知识库等,可多语种并存,原文和译文互查;库容量特大,一般中等配置的计算机,只要可进行多线程处理和内存够大(我使用24g),建立个人用上千万词条级语料库均不成问题。如果能用它来代替所谓翻译记忆,便是译员的真正助手了。