一,用XBENCH组建翻译数据库的基本条件 1.拥有数据库文件 本文所述的翻译数据库(TDB)是为计算机辅助翻译需要而建立起来的,针对特定原语言和目标语言,用于存储术语、句子、句型、缩略语、人名、地名、机构名等翻译参考数据的仓库。本数据库主要由Tab分隔文本文件(*.txt)和TMX 记忆库 (*.tmx)组成。这些数据按照数据结构来组织,按照专业不同(如机械、医学、冶金、姓名、新词、无线电、时事、汽车、科技、军事、经济、工程、纺织、动词、传动装置、成语、原子能、信息、心理学、物理、数学、石油、生物、轻工业、农业、贸易、矿山、建筑、化工、海洋、地质和地理)等分为42个数据库文件。主要为德汉和英汉双语文件。其中德汉部分条目有150万,英汉部分有50余万。笔者长期以来一直在思考的另一个问题是这种翻译数据库收录的数据的兼容性和易用性。兼容性指不仅包括各种专业术语,也同时包括各种句子,还包括含有许多句子的段,甚至短文。为试验,笔者还在数据库中增加了自编的近2000万字的中国现代时事,政治和经济论文库。将德汉,英汉,纯中文的论文库等五花八门,凡是翻译用得着的数据全都放在一个大数据库中。所谓易用性指在翻译时不需更换库文件,不需要手动输入所查找的术语,句子或段,只需轻移鼠标,按动鼠标上的四个多功能键,便可轻松地完成查找原文,查找译文,复制和粘贴。当然易用性还包括组建数据库文件非常简单。不像某些CAT软件那样繁烦琐。几乎各种CAT的数据库文件都可以通用。不需再进行转換。 2.有较高配置的计算机设备 大数据时代已经来临,它将在众多领域,也包括计算机辅助翻译领域,掀起变革的巨浪。CAT软件研发初期,受限于当时的计算机硬件落后,只能釆用分散建库的办法,给使用者带耒极大不便。现在完全有条件,用大数据的思路,使用高配置的设备。我用于建库的计算机配置如下:主板:技嘉GA-880G-VD3H;CPU:AmdX6 1055T;内存:海盗船16002GX2,8GX2;有三块机械硬盘(6TB)和一块60G固态硬盘;电源:安钛克VP450P;液晶显示屏:优派VA2232W三只;显卡:蓝宝石6850。 配置的特点是:主板、内存和电源性能稳定,CPU为6核,适合多线程高速数据处理,显卡为A卡,带有两只DVI,一只HDMI和一只DP接口,是组建多屏显示不可或缺的设备。内存总容量为24G。在固态硬盘上安装win7的64位操作系统。现在这样的配置只属于中等水平。 3.下载软件XBENCH. 正版的软件XBENCH3.0是需购买的(99欧元/年),我在试用期间使用的是我向官网下载的试用版。现已到期。不过网上下载的早期版本XBENCH2.9047却可免费长期使用。故此可以大大地节省组建翻译数据库的成本。二,用XBENCH组建翻译数据库的优点 为了寻求自建翻译数据库文件更充分的利用,笔者曾分别采用MultiTerm和XBENCH这两个软件,组建过翻译数据库。感觉它们各有优缺点。现从以下几点简单说明使用XBENCH的优点,相比之下,这些优点也是MT的缺点。 1.MultiTerm(简称MT)原来是为术语库设计的,要在其中加入TM翻译记忆库比较困难。因为它们的文件格式不同,互不通用,相互转换麻烦。MT本身也只能先用转换器由excel双语文件、电子表格或数据库交换文件以及MT早期版本格式文件转换成xdt和xml文件,再转换成可在MT上使用的sdltb。而TM的文件格式为sdltm,它又是由tmx文件转换过来的。早期版本(如Trados2007)的TM文件的格式为tmw,不能在新版本上直接用,即每个版本不通用。XBENCH在组建翻译数据库上就简单得多,共有近三十多种双语格式文件均可直接使用,不受版本限制,也省去转换的麻烦。不管是术语库或者是翻译记忆库文件均可使用。 2.用XBENCH可组建真正意义的翻译数据库,你可按原文、译文或同时按原文和译文搜索术语、句子、句型、缩略语、人名、地名、机构名等翻译参考资料。翻译人员极易上手,可在很短时间内掌握操作方法。 3.XBENCH组建的翻译数据库搜索速度比在MT上的快得多。笔者在同一台计算机上,装载相同数据库文件,采用相同的搜索方法(并行模式,全文搜索)作了数十次的针对相同对象搜索速度测试。结果都是前者胜出。XBENCH比MT快20-50倍。 4.XBENCH设计的主要用途是供用户组建和搜索自己的翻译数据库,不需要考虑本地和服务器数据库的区别。数据库具有功能强大的搜索引擎。最主要的特点是能够利用合符行业标准的正则表达式语法和微软word通配符进行复杂项目搜索。正则表达式描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。正则表达式是由普通字符(例如字符a到z)以及特殊字符(称为元字符)组成的文字模式。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。使用正则表达式,可通过简单的办法来实现强大的功能。为了简单有效而又不失强大,造成了正则表达式代码的难度较大,不容易学习。但一旦掌握基本方法,使用起来还是比较简单有效的。正则表达式代码使用的例子如:^.+@.+\\..+$.