XBENCH在自编翻译数据库中的搜索功能


 
XBENCH组建翻译数据库的几个问题  

江河水  -
 

翻译数据库的必要性
现在建立翻译数据库是非常必要的事情。计算机辅助翻译(
CAT)应真正名符其实。计算机辅助翻译记忆(CATM)属于计算机辅助翻译(CAT)的一部分,是较次要的部分,绝非全部。道理很简单,没有严谨的、合格的翻译,何来可重复使用和供别人参考的翻译记忆。优选法中特别强调区分主要功能、次要功能和无用功能。而目前有些CAT软件, 过份强调翻译记忆,忽视了软件最大用户群体-译员迫切需求的句库、术语库和其它翻译资料库的建立,在功能定位方面本末倒置。
科技日新月异,新术语和专有词汇也与日剧增,尤其是科技翻译要求非常严谨,译员不能望文生义,只有靠勤查词典和资料才能满足要求。每个不清楚和不理解的专业术语都必须从一本一本词典中去查。字典上的字小,一天工作下来,相当劳累,尤其是眼睛吃不消。
翻译在日常工作中大多数的时间是用于查找专业术语,翻阅大量的词典和参考资料。而只留下较少的时间用于对原文的理解和译文的造句、表达和修饰。长此以往,不利于提高译文质量。尽管现在已经研发出了许多出色的像 SDL Trados Stadio 2009这样的翻译记忆软件,但是先进的翻译记忆功能却没有能从根本上改变和减轻译员每天需要大量时间,从事查阅词典的繁重体力劳动。这便是当前的实际情况。尽管 SDL MultiTerm 2009 具有杰出的查阅专业术语功能,若在其上加上句库也完全可以胜任翻译数据库的工作,但因目前还缺乏专业词库和句库 ,这些功能便成了摆设,发挥不了应有的作用。
所以CAT软件除了有先进的翻译记忆、重复率和字数统计、进度统计管理等功能外,还必须将研发工作重点放在建立翻译数据库上

XBENCH组建翻译数据库的基本条件 
1.
拥有数据库文件
  
本文所述的翻译数据库(TDB)是为计算机辅助翻译需要而建立起来的,针对特定原语言和目标语言,用于存储术语、句子、句型、缩略语、人名、地名、机构名等翻译参考数据的仓库。本数据库主要由Tab分隔文本文件 (*.txt)TMX 记忆库 (*.tmx)组成。这些数据按照数据结构来组织,按照专业不同(如机械、医学、冶金、姓名、新词、无线电、时事、汽车、科技、军事、经济、工程、纺织、动词、传动装置、成语、原子能、信息、心理学、物理、数学、石油、生物、轻工业、农业、贸易、矿山、建筑、化工、海洋、地质和地理)等分为42个数据库文件。主要为德汉和英汉双语文件。其中德汉部分条目有150万,英汉部分有50余万。有关建立数据库文件的细节,请参见:论主动建立专业词库问题 论主动建立专业翻译记忆库(句库)问题
 
2.有较高配置的计算机设备
  
我用于建库的计算机配置如下:主板:技嘉GA-880G-VD3HCPUAmdX6 1055T;内存:海盗船 1600 2G X 21600 4G X 2;硬盘:ST 1TB+ ST 2TB+固态硬盘60G,;电源:安钛克 VP450P;液晶显示屏:优派VA2232W 三只(采用三屏显示);显卡:蓝宝石 6850上述配置的特点是:主板、内存和电源性能稳定,CPU6核,适合多线程高速数据处理,显卡为,显卡为A卡,带有两只DVI,一只HDMI和一只DP接口,是组建多屏显示不可或缺的设备。内存总容量为12G。在固态硬盘上安装win7 64位操作系统。现在这样的配置只属于中等水平。为什么要使用多屏显示,可参见多屏显示技术在计算机辅助翻译中的应用
 3.
下载软件XBENCH.
 
正版的软件XBENCH3.0是需购买的(99欧元/年),我在试用期间使用的是我向官网下载的试用版。现已到期。不过网上下载的早期版本XBENCH2.9047却可免费长期使用。故此可以大大地节省组建翻译数据库的成本。

XBENCH组建翻译数据库的优点
为了寻求自建翻译数据库文件更充分的利用,笔者曾分别采用
SDL MultiTermXBENCH这两个软件,组建过翻译数据库。感觉它们各有优缺点。现从以下几方面进行简单的说明,重点谈使用XBENCH的优点,相比之下,这几点也是MT的缺点。
1.
MultiTerm(简称MT)原来是为术语库设计的,要在其中加入TM翻译记忆库比较困难。因为它们的文件格式不同,互不通用,相互转换麻烦。MT本身也只能先用转换器由excel双语文件、电子表格或数据库交换文件以及MT早期版本格式文件转换成xdtxml文件,再转换成可在MT上使用的sdltb。而TM的文件格式为sdltm,它又是由tmx文件转换过来的。早期版本(如Trados2007)TM文件的格式为tmw,不能在新版本上直接用,即每个版本不通用。XBENCH在组建翻译数据库上就简单得多,共有近三十多种双语格式文件均可直接使用,不受版本限制,也省去转换的麻烦。不管是术语库或者是翻译记忆库文件均可使用。
2.
XBENCH可组建真正意义的翻译数据库,你可按原文、译文或同时按原文和译文搜索术语、句子、句型、缩略语、人名、地名、机构名等翻译参考资料。翻译人员极易上手,可在很短时间内掌握操作方法。
3.XBENCH
组建的翻译数据库搜索速度比在MT上的快得多。笔者在同一台计算机上,装载相同数据库文件,采用相同的搜索方法(并行模式,全文搜索)作了数十次的针对相同对象搜索速度测试。结果都是前者胜出。 平均XBENCHMT20-50倍。
4.
XBENCH 设计的主要用途是供用户组建和搜索自己的翻译数据库,不需要考虑本地和服务器数据库的区别。数据库具有功能强大的搜索引擎。最主要的特点是能够利用合符行业标准的正则表达式语法和微软word通配符进行复杂项目搜索。正则表达式(regular expression)描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。正则表达式(regular expression)描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。正则表达式是由普通字符(例如字符 a z)以及特殊字符(称为元字符)组成的文字模式。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。使用正则表达式,可通过简单的办法来实现强大的功能。为了简单有效而又不失强大,造成了正则表达式代码的难度较大,不容易学习。但一旦掌握基本方法,使用起来还是比较简单有效的。正则表达式代码使用的例子如:^.+@.+\\..+$.