翻译数据库问题

在Trados 上批量搜索数据可能存在的问题、应对措施及其对应用的影响

-  江河水  -

说明
SDL MultiTerm 8(即SDL MultiTerm 2009)原来只是一个术语库管理应用程序,用于帮助创建、管理和显示术语
笔者在此装入了其它数据库文件(包括句库、句型、动词、缩略语、人名地名、公司名、其它机构名),作用已发生了质变,构成了名符其实的翻译数据库,并能使用通配符和主题词搜索,又成了帮助译员克服不熟悉专业问题的知识库。为了探索它在Trados上应用时的潜能, 作了大量自动搜索术语测试。本测试工作先后在SDL Trados 2007和SDL Trados Stadio 2009上进行,结果表明,这两个软件都碰到了类似问题。现以在SDL Trados 2007上试验时碰到的问题为例说明如下:首先将全部(26个)数据库文件

(sdltb)装入Workbench的术语识别选项中。自动搜索识别出的术语上面用红线条表示出。在Workbench右侧术语识别窗口给出了正识别术语(粗红线处)在有关数据库文件(专业)中的解释。测试结果表明,识别率非常高。 在大量术语的自动识别测试中,绝大多数情况正常。但也偶尔会出现术语识别不完全或完全不识别的情况。笔者为了探索其原因,寻找应对措施,作了以下调查研究。由于不了解软件开发者编程时的意图,只能从外行的角度,就发现的问题,作出某种不一定正确的猜测。我认为这些术语都能够识别。未识别或未完全识别的原因不属于技术问题。如软件开发者今后能加以改进最好,就这样用也可以,有相应的措施能解决此问题,只不过麻烦点。

一.术语识别问题的现象和应对措施例

1.例1

现象:在本例中共有4个术语,只识别了1个术语,另一个由名词第二格组成的术语,只识别了第二格的一部分。

应对措施:将第1个术语和后面三个术语分开,如下图所示,所有术语均可完全识别。


2.例2

现象:在32个术语中有4个未识别。

应对措施:

1)去掉未识别的4个术语后,其余的完全能识别



2)去掉的4个术语在一起时只能 识别一个术语



3) 去掉已识别的那个术语,最后三个也可以识别

3.例3

现象:在22个术语中有5个未识别

应对措施:

1)去掉5个未识别的术语后全部识别



2)再识别去掉的这5个术语,发现只能识别其中1个术语



3)留下的4个术语在一起完全不能识别

4)再次去掉1个,余下的3个可完全识别



5)去掉的这个术语也可识别



4.例4

现象:在32个术语中有11个未识别和未完全识别

应对措施:

1)去掉11个术语后,再次识别时又出现1个未识别的术语

2)再次去掉1个术语后,留下的可完全识别

3)将刚去掉的术语加入前面的11个术语中一起识别,只能完全识别2个术语

4)将这12个术语按以下方式重新组合,这样一来又可全部识别

5.例5



现象:在44个术语中有43个未识别,即只识别了一个术语

应对措施:将上述所有术语,按每3个术语为一组排列,便可以识别全部术语,例如:








6.例6



现象:在33个术语中有21个未识别,即识别率约为1/3

应对措施:将这批术语重新分组,3个术语一组可全部识别,但有的也可识别6个术语。例如:






二.调查研究的结论

1.凡是本翻译数据库中存储有的术语,不管是在SDL Trados 2007,或者是在SDL Trados Stadio 2009上自动搜索时均可100%识别。实际上,除了碰到同义词和多义词外,没有真正不能识别或不能完全识别问题。本文前述的出现识别问题现象可能是软件研发者编程中的一点失误,在技术上是可以避免的。 而同义词和多义词的识别困难不仅仅在本软件存在,这也是一个具有共性的问题,既不能限制只采用一词一义,过多的同义词和多义词,按目前的水平,计算机还无能为力来彻底解决自动识别问题。
2.识别问题多出在复合词(组合词),尤其是组合名词。当前置名词字母数量较多时(一般大于7个字母),在一批识别术语中,不允许出现三个以上相同前置名词的术语。故若将术语每三个一组,便可100%识别。(如本文5.例5)

3.批量自动搜索术语的术语数量,只要满足在这批术语中没有三个以上前置名词相同的术语,便可以识别多达100个左右的术语。
4.从实际应用考虑,Trados在工作时均是以句为单位自动搜索术语的。统计结果告诉我们,一般在每个句子中很难出现5个以上的专业术语,更难出现三个以上且字母数量较多的相同前置名词的组合词。故对实际应用的影响不大。如碰上了,也可采用本文介绍的应对措施解决。即当只有少数术语未识别时,可按本文例2-例4的办法,将未识别的术语单独识别。当大多数术语未识别时,可按例5和例6办法重新分组来解决。