这里的用于翻译的语料自然也包括句子和术语。笔者认为,最好用字符串。其理由得先从什么是匹配率谈起。在英语中叫Matchingrate.而匹配,一般指配合或搭配。“匹配”一词在不同的领域有着不同的意思,它既是数学语言,又是计算机方面的术语,含义复杂多变。在计算机辅助翻译中一个句子与另一个句子的匹配率是指两个句子间的相似程度。 采用句子匹配,这是一种比较原始的匹配方法。目前大多数计算机辅助翻译软件均用的是这种过时的方法。由于它们是基于句子的完全匹配,有下面三方面的问题:首先是这种TM句库无法包容所有的现实自然语言句子;另一方面由于句子的适应性不强,要使这种句库具有一定的语言现象覆盖面的话,势必会使句库非常庞大,并且细微差别不能够有效泛化,冗余度很大;最后是句库的译文构造基本局限在模式匹配的语言处理层次上,译文近似构造能力很低。CAT软件一般按不低于70%匹配率为计算机自动识别的条件,即超过30%不匹配,原来翻译过的句子不能自动识别。 大部分例句若要再次利用,只能改用其它的办法,如可用关键词模糊搜索或全文搜索,但结果很不理想,主要是搜索出的东西虽然多,但极凌乱,有用的少。不管用分级、并行或串行模式,其搜索速度都极其缓慢。 那么,为什么必须采用字符串匹配?因为它是采用单个字符串来描述、匹配一系列符合某个句法规则的字符串。 这是一种用数学方式描述神经网络的新方法,发明者创造性地将神经系统中的神经元描述成了小而简单的自动控制元。用字符串匹配首先要求采用正则表达式。要求作为数据库平台的CAT软件必须内建一个功能强大的正则表达式引擎。遗憾的是目前CAT软件不具备这个条件,或者说设计之初没有考虑到这个问题。 只有有了功能强大的正则表达式引擎,才能为数据库有效和快速搜索提供有力的保证。据此,说目前的CAT软件已经具备这样的能力,凡是译过的句子均不需要重复翻译第二遍这样的讲法,暂且不论其它,仅仅从纯技术角度考虑,也是完全站不住脚的。