欢迎访问发表云网!为您提供杂志订阅、期刊投稿咨询服务!

翻译器大全11篇

时间:2023-02-27 11:11:56

翻译器

翻译器篇(1)

机器翻译的研究历史可以追溯到 20 世纪三四十年代。进入20世纪40年代,计算机的出现,为人们利用计算机进行翻译揭开了新篇章。20世纪70年代,机器翻译被列为人工智能的一项重要研究课程。由于机器翻译具有潜在的社会效益和经济效益,一些西方国家及日本等国纷纷斥巨资对机器翻译系统进行研发,美国空军早在1970年便研制出Systran系统,旨在将当时的俄国军事技术文献译为英文;日本政府也于20世纪80年代末出资开发用于亚洲各国语言之间的中间语言系统,并与1987年举行了第一届机器翻译峰会。我国的机器翻译研究始于1956年,20世纪90年代初期至今,中国的机器翻译步入快速发展时期,在经过数十年的起落发展之后,已形成商品化的机器翻译产品,包括“雅信”、“传神”等。如今,随着世界经济高速发展,国际交流与合作增多,尤其是互联网的迅猛发展,给机器翻译的发展带来了新的机遇,机器翻译翻译速度快,操作简单,现已发展成为一门新兴的国际性竞争学科。

一、机器翻译基本原理

机器翻译的总任务可以描述为:将一种语言(源语言)文本输入计算机,通过计算机程序生成另一种语言(目标语言)文本, 且源语言文本与目标语言文本具有相同的含义。机器翻译系统的类型很多,采取的策略和技术也不尽相同,但基本工作过程大致相同。简单来说,机器翻译的第一步是在不同层次上分析源文本, 而后生成目标语文本。这两个步骤是机器翻译系统基本实现过程中的两个主要组成部分。

整个机器翻译的过程具体可以分为三个主要阶段:原文分析、原文译文转换和译文生成。在具体的机器翻译系统中,根据具体方案目的和要求,可以将原文译文转换阶段与原文分析阶段合二为一,而将译文生成阶段独立,建立相关分析独立生成系统。利用该系统进行翻译需注意:源语分析时要考虑译语的特点,而在译语生成时则无需考虑源语的特点。在进行多种语言对一种语言翻译时,适合采用此种相关分析独立生成系统;亦可将原文分析阶段独立,把原文译文转换阶段同译文生成阶段相结合,建立独立分析相关生成系统。使用该系统时源语分析时无需考虑译语的特点,而在译语生成时要考虑源语的特点,在进行一种语言对多种语言翻译时,适宜采用此种独立分析相关生成系统。此外还可以把原文分析、原文译文转换与译文生成进行区分,建立独立分析独立生成系统。这样,分析源语时无需考虑译语的特点,生成译语时也无需考虑源语的特点,源语译语的差异通过原文译文转换来解决。此种独立分析独立生成系统适用于多种语言对多种语言翻译。

二、国内机器翻译发展现状

国内机器翻译系统主要形式包括以下几种:

1.全自动翻译系统。提供简单的全自动翻译功能,带有简单的用户界面和译前译后的编辑工具, 以及用户词典管理。

2.全自动汉化工具。目前最为流行的一种机器翻译产品形式, 主要产品有金山公司的金山快译等,在市场上占据了相当大的份额。

3.计算机辅助翻译系统。此类产品采用的主要技术并非全自动机器翻译, 而是翻译记忆技术, 主要应用于要求精确翻译的领域, 提高翻译效率, 目前代表产品主要有德国的TRADOS系统和实达公司的雅信CAT辅助翻译软件,现已具备较大的市场规模。

目前市场上的机翻软件通常可针对特定领域或是专业提供客制化服务,通过将词汇范围缩小至该特定领域的专有名词,借此达到改进翻译的结果。此方法针对一些用语较正规或是陈述方式较制式化的领域尤为有效,如政府公文或法律文本等文件,与一般文句相比,此类型文本的文句通常更为正式,也更具制式化的特点,因此其采用机器翻译的结果往往比日常对话等非正式文件要更为理想。

三、机器翻译利弊

一般而言,大众使用机器翻译的目的,可能只是为了要得知原文句子或段落的要旨,而不是精确的翻译。总的说来,机器翻译还没有达到可以取代专人工翻译的程度,并且也尚无法成为正式的翻译。机器翻译的结果好坏,往往取决于译入跟译出语之间在词汇、文法结构、语系甚至文化上的差异,例如:英文与荷兰文同为印欧语系日耳曼语族,这两种语言间的机器翻译结果,通常便会比中英文互译结果要好很多。总而言之,机器翻译有利有弊。即:机译速度快、效率高;但译文生硬、机器味过浓,影响译文的可读性和准确性等。其实,机器翻译研究归根结底是一个知识处理问题。它涉及到有关语言内的知识、语言间的知识、以及语言外的世界知识,其中包括常识和相关领域的专门知识。

总之,自然语言是人类最伟大的发明创造之一,语言系统极其复杂,人们对语言机制的认识,对大脑处理自然语言的过程的掌握,以及对大脑的思维和判断能力的了解,尚处于初步阶段,因此,要让机器像人脑一样处理自然语言绝非易事,将机器翻译与人工翻译有效结合才是目前保证翻译品质的最好方法。总之,机器翻译取得了一定成果,也是时展的趋势,然而还存在很多问题和弊端。机器翻译走出困境尚需时日,只有在使用中不断调整、扩充、更新并注重语言对比研究,才能提高机器翻译的质量,才能使机器翻译受到人们的欢迎和广泛地应用。相信随着科学技术水平的进步和发展,在不断努力下,机器翻译的前景必定一片光明。

翻译器篇(2)

The jovial young Dutchman had apparently gathered that“shitloads” was a colourful synonym for the bland “lots”.3 He had mastered the syntax of English and a rather extensive vocabulary but lacked experience of the appropriateness of words to social contexts.4

This memory sprang to mind with the recent news that the Google Translate engine would move from a phrase-based system to a neural network. Both methods rely on training the machine with a “corpus”5 consisting of sentence pairs: an original and a translation. The computer then generates rules for inferring, based on the sequence6 of words in the original text, the most likely sequence of words from the target language.

The procedure is an exercise in pattern matching. Similar pattern-matching algorithms are used to interpret the syllables you utter when you ask your smartphone to “navigate to Brookline” or when a photo app tags your friend’s face.7 The machine doesn’t “understand” faces or destinations; it reduces them to vectors8 of numbers, and processes them.

I am a professional translator, having translated some 125 books from the French. One might therefore expect me to bristle9 at Google’s claim that its new translation engine is almost as good as a human translator, scoring 5.0 on a scale of 0 to 6, whereas humans average 5.1. But I’m also a PhD in mathematics who has developed software that “reads” European newspapers in four languages and categorises the results by topic. So, rather than be defensive about the possibility of being replaced by a machine translator, I am aware of the remarkable feats of which machines are capable, and full of admiration for the technical complexity and virtuosity of Google’s work.10

My admiration does not blind me to the shortcomings of machine translation, however. Think of the young Dutch traveler who knew “shitloads” of English. The young man’s fluency demonstrated that his “wetware”―a living neural network, if you will―had been trained well enough to intuit the subtle rules (and exceptions) that make language natural.11 Computer languages, on the other hand, have context-free grammars. The young Dutchman, however, lacked the social experience with English to grasp the subtler rules that shape the native speaker’s diction, tone and structure. The native speaker might also choose to break those rules to achieve certain effects. If I were to say “shitloads of places”rather than “lots of places” to a pair of nuns, I would mean something by it. The Dutchman blundered into inadvertent comedy.12

Google’s translation engine is “trained” on corpora ranging from news sources to Wikipedia. The bare description of each corpus is the only indication of the context from which it arises. From such scanty13 information it would be difficult to infer the appropriateness or inappropriateness of a word such as “shitloads”. If translating into French, the machine might predict a good match to beaucoup or plusieurs. This would render the meaning of the utterance but not the comedy,14 which depends on the socially marked“shitloads” in contrast to the neutral plusieurs. No matter how sophisticated the algorithm, it must rely on the information provided, and clues as to context, in particular social context, are devilishly15 hard to convey in code.

The problem, as with all previous attempts to create artificial intelligence (AI)16 going back to my student days at MIT, is that intelligence is incredibly complex. To be intelligent is not merely to be capable of inferring logically from rules or statistically from regularities. Before that, one has to know which rules are applicable, an art requiring awareness of sensitivity to situation. Programmers are very clever, but they are not yet clever enough to anticipate the vast variety of contexts from which meaning emerges. Hence even the best algorithms will miss things―and as Henry James put it, the ideal translator must be a person “on whom nothing is lost”.

This is not to say that mechanical translation is not useful. Much translation work is routine. At times, machines can do an adequate job. Don’t expect miracles, however, or felicitous literary translations, or aptly rendered political zingers.17 Overconfident claims have dogged18 AI research from its earliest days. I don’t say this out of fear for my job: I’ve retired from translating and am devoting part of my time nowadays to…writing code.

亨利・詹姆斯f,理想的译者应该是“一无所失”之人。或者,是一无所失之机器。但是,机器可不会教你不能在修女面前爆粗口。

几年前,我从阿姆斯特丹乘机前往波士顿,两位美国修女坐在我右边,听一个正要去探索美国的荷兰小伙子侃侃而谈。他问修女从哪儿来。啊,马萨诸塞州的弗雷明汉,可惜不在他的行程计划之内。但是他说,他有“贼他妈多的时间,可以去贼他妈多的其他地方”。

这个热情友好的荷兰小伙子显然知道,“贼他妈多”跟普普通通的“很多”比起来,有趣得多。他掌握了英语的句法,有相当丰富的词汇量,却缺乏交际经验,来判断用词是否合乎语境。

想起这件事,是因为有新闻说,谷歌翻译引擎将从一个基于短语的系统,变成一个神经网络系统。两种方法都以语料库为基础,训练计算机掌握多个由原文和译文搭配组合的句子。计算机由此总结出一套规则,可以根据原句的词语排列,推导出目标语言最有可能的词语排序。

整个过程属于模式匹配的训练。当智能手机识别你的语音提问“导航到布鲁克莱恩”,或者当拍照软件识别你朋友的面部时,运用的也是类似的模式匹配算法。计算机并不能“理解”人脸或者目的地,而是把它们变成向量,再进行处理。

我是专业译者,译了差不多有125本法语书。有人因此可能会觉得,我看到谷歌的下述言论会很生气:谷歌新的翻译引擎跟人工译者一样好;若满分6分,谷歌可以打到5分,而人类的平均水平也只有5.1分。但我同样也是数学博士,我开发出来的软件可以“阅读”欧洲四种语言的报纸,再按主题将它们归类。所以,我对机器翻译取代人工翻译并没有多大戒心,反而非常清楚机器所取得的非凡成就,相当佩服谷歌复杂而精湛的技术。

佩服归佩服,我也不会对机器翻译的缺陷视而不见。想想那个会说“贼他妈多”的荷兰年轻人,他流利的英语显示他的“湿件”―― 一个活生生的神经网络系统――已经训练得足以感觉出一些细微规则(和例外),从而使语言自然流畅。相反,计算机语言则是纯粹脱离语境的语法。然而,那位年轻的荷兰人因缺乏英语社会经验而无法掌握母语使用者在措辞、语气和句子结构方面更微妙的规则。当然,母语使用者也可能有意打破这些规则,以达到某种效果。如果我对两个修女说“贼他妈多地方”,而不是“很多地方”,我可能是话里有话。那个荷兰人在误打误撞中造成了一种喜剧效果。

谷歌翻译引擎所用的语料库来自各种新闻资源和维基百科。对每个语料库仅有的描述也就成了关于语境的唯一线索。从这少得可怜的信息当中,很难推断像“贼他妈多”这样的词用着合不合适。如果译成法语,机器可能会认为beaucoup或者plusiers都是很好的选择。这些词也许可以达意,但却丧失了喜剧效果,而这种效果更依赖于带有社会效应的“贼他妈多”一词,而非中性的plusiers。不管算法有多复杂,它也得依赖于已有的信息和线索,至于语境,尤其是交际语境,则很难通过编码来传达。

人脑实在是太复杂了。我在麻省理工学院读书时,这个问题就横亘在创造人工智能的各种努力之前。要想和人类一样智能,不仅仅是能够根据规则进行逻辑推理,或是根据规律进行数据演算。在此之前,得知道哪些规则是可用的,这得具有一种能敏锐觉察当时情况的艺术能力才行。程序员都很聪明,但是还没有聪明到可以预估意义赖以产生的庞大语境。所以即使是最好的算法,也会有所缺失――所以正如亨利・詹姆斯所说,理想的译者应该“一无所失”。

这并不是说机器翻译毫无用处。很多翻译工作都只是例行公事而已。有时,机器完全可以胜任。但可别指望多大的奇迹,比如贴切的文学翻译,或者恰当的政治妙语。人工智能的研究从一开始就太过自信。我这么说并不是因为担心失业:我已经不搞翻译了,最近正抽空写代码呢。

1. voluble: 健谈的。

2. itinerary: 旅行计划,预定行程;shitload: 许多,大量。

3. jovial: 热情友好的,天性快活的;synonym: 同义词,近义词;bland:平和的,温和的。

4. syntax: 语法,句法;appropriateness:合适,得体。

5. corpus: 语料库。

6. sequence: 顺序,先后次序。

7. algorithm: 算法;syllable: 音节;navigate: 导航。

8. vector: 向量。

9. bristle: 显得愤怒。

10. feat: 业绩,功绩;virtuosity: 精湛技巧。

11. wetware: 湿件,计算机专用术语,指软件、硬件以外的其他“件”,即人脑、大脑神经系统;intuit: 凭直觉知道。

12. blunder: 跌跌撞撞,出漏子;inadvertent: 无意的,非故意的。

13. scanty: 不足的,勉强够的。

14. render:(用不同的语言)表达,翻译;utterance: 表达,表述。

15. devilishly: 非常,极其。

翻译器篇(3)

在中国的民俗生活以及《易经》中,偶数和奇数所代表的意义是不太一样的,本文并不讨论具体偶数和奇数各代表什么意义,仅只知道它们不一样就行了。这也是毋庸置疑的,因为世界是有分别的,每一个事物都与其他事物不同,曾有西方谚语云:人不能同时踏进同一条河流中。信然!

下面暂举数例,说明这种差别:

譬如,在中文中,我们说:“它是一条狗。”和“它是一狗。”所表达的意思是不一样的,前者是说明的语气,而后者却表达惊奇的意思,仅仅少了一个“条”字,强调的重点就变了。又如,“它们是一群狗。”和“它们是一群的狗”,强调的重点也不一样。前者含有贬斥意思,后者却是说明的语气。可以再举个例子,如,“他们是一群人。”和“他们是一群的人。”和上例一样,前者含有贬斥,而后者却是说明。再如,“如果你不来,我就去你家。”和“如果你不来,我就去你的家。”前者是说明,而后者却是威胁。再回到第一个例子,“它是一条狗。”“它就是一条狗。”前者说明,后者贬斥。再如,“他们就是一群人。”“他们是一群的人。”两者的意义相当。据此我们可以看出,凡是具有偶数字数的句子的意思都是说明,奇数字数的句子的意思都带有贬斥。而著名的不食嗟来之食的故事,也符合这种规律。“嗟!来食!”包含标点符号在内,含有五个字数,而五是奇数。上面所说的句子的字数都把标点符号统计在内了。人们不会在表达不满的时候只说一句“他妈的。”就没下文了,如果有这种情况,那么他表达的其实是一种爱意。人们在表达不满时都是在说了“他妈的,”之后再说一些东西。

至于双引号,书名号,括号等会中间有字的标点符号,应算做两个。因为他们在排版时会占用两个字的位置。比如,“所谓“国学大师”的名号,实在不是他可以担当的。”如果把双引号算做一个字,则此句为偶数,是说明的意思,而现在这句子表达的是一种贬斥,所以为奇数,所以双引号应算做两个字。再比如,“所谓的“国学大师”的名号,实在不是他可以担当的。”这句话显然说的是反语,意思是他绝对可以担当得起“国学大师”的称号。偶数和奇数的分析同上,如果双引号算做偶数,则意义不变,否则就变了。

翻译器篇(4)

曾经的风云变幻

机器翻译(machine translation),又称机译(MT),是利用计算机把一种自然语言转变成另一种自然语言的过程。用以完成这一过程的软件叫做机器翻译系统。早在1946年,电子计算机问世不久,美国人沃伦・韦弗、英国人A・D布思就提出了机器翻译的设想,此后各国开始进行机器翻译的研究和开发。从1956年开始,我国也开始了机器翻译的研究,在“六五”、“七五”、“八五”和高技术研究发展计划(863计划)期间国家均把机器翻译列入重点发展项目。早期机器翻译主要以研究机构的学术开发为主,到了1992年,我国迈出了机器翻译软件商品化的步伐。中国软件与技术服务股份有限公司(以下简称“中软公司”)在JFYⅢ翻译系统之上成功推出了“译星”1号软件产品,从而带动我国机器翻译进入了一个发展热潮期。

继中软之后,国内众多的软件公司相继涌进这一领域。国内的机器翻译软件一时达到百种之多,根据这些软件的翻译特点,大致可以分为三大类:词典翻译类、汉化翻译类和专业翻译类。

词典类翻译软件有金山软件公司的《金山词霸》。这类软件相当于一种电子词典,它可以迅速查询英文单词或词组的词义,并提供单词的发音,为用户了解单词或词组含义提供了便利。

汉化翻译软件的代表之一是北京实达铭泰公司开发的《东方快车2000》,这类软件主要满足用户汉化英文软件、英文网页,实现对屏幕英文信息的了解和文章的初步翻译等,对信息获取、了解文章大意有实际作用。

专业翻译系统,则以译星为代表,是面对专业或行业用户的翻译软件。这类软件具有传统语法规则的翻译内核,追求自动翻译的可读性效果。

当时机器翻译软件市场的繁荣与互联网刚刚在国内兴起的大环境密切相关。由于互联网上中文信息还很少,用户迫切需要翻译软件来辅助他们快速阅读英文信息,另外,一些外来的软件在国内还没有中文版,也需要通过第三方途径将其汉化才能正常使用。一时爆发的需求使得人们以为机器翻译软件充满了希望。

然而,现实并不是看上去的那么美好。语言专家回忆当时的情况总结说,一方面,互联网使当时的用户经受着层出不穷的新事物新方式所带来的冲击,认为计算机什么都能做到,机器翻译软件完全可以代替人的工作的心理在当时也不足为奇。而另一方面,机器翻译软件最高潮的时期,各厂家为了争夺市场,采用一些过分的宣传误导了用户,有的甚至说自己的翻译准确性达到了90%以上,这导致了用户对翻译软件期望过高,而实际使用时又失望过大,用户对机器翻译软件产生了不信任感,导致整体市场口碑下降,由此就有了后来机器翻译软件在市场上的销声匿迹。

这一段由盛迅速转衰的历史其实表明,机器翻译技术本身存在的问题,即翻译准确度低、错误率高等等是阻碍其发展的硬伤。另外,表面看来机器翻译的市场需求很大,但如果理性一些,就会发现这种市场需求的旺盛之上泛着泡沫。对此,我国著名计算语言学与机器翻译专家董振东说:“人尚且做不到什么都能翻译,何况机器。专业翻译人员,包括一些有名的翻译家都会在翻译上犯错误,只是人类会掩盖,即使翻译出来的东西是错误的,他也会保持语句的通顺,给人正确的感觉。而机器不会这么做,有什么错误都会直接显示出来,这也是机器翻译让人感觉错误百出的原因之一。”总之,无论是从用户心理还是技术本身来看,机器翻译软件市场还远未成熟。

复兴契机

从繁荣之巅到谷底,机器翻译软件沉寂了,许多软件厂商撒手而去,这个市场几近销声匿迹。不过,依然有一批人坚守这片天空一直到今天,比如中软公司的机器翻译事业部。

作为第一个将机器翻译软件商品化的软件产品,当年中软机器翻译事业部推出的“译星”可谓是取到了里程碑的作用。机器翻译软件的一度繁荣结束后,中软并没有放弃这块业务,而是继续投入进行了进一步的技术创新和市场拓展。如今,中软又以敏锐的眼光看到了移动设备广泛普及的前景,将“译星”推进了嵌入式领域。

据中软机器翻译事业部负责人刘杰介绍,从2004年,中软“译星”就从以前单一的个人电脑方向,转而同时向嵌入式领域进军。“我们在原有PC系统下,一方面对系统进行优化,另一方面去适应嵌入式系统的需求,最终是要提供给厂商一个纯软件的产品形态。”

刘杰说,“译星”进入嵌入式领域一个重要的目标(同时也是挑战)就是要实现与嵌入式平台之上各种应用软件的集成。她认为,机器翻译技术、印刷体及手写体文字识别技术、语音输入和输出技术、全文校对技术等,同是处于智能应用领域中的技术,都具有很高的实用价值。但是在很长一段时间内,这些技术都“各自为政”,而硬件设备的生产厂商往往把注意力放在集成电路技术的升级和革新,对这些软件技术并不太在意。中软经过多年的努力,不断与其他应用技术提供商和硬件制造商进行沟通,寻求合作和创新。最终,将众多技术结合在一起,组成集成的软件产品面向用户。这样,一方面为用户带来了更多的应用,最大限度地满足了用户的需求,从而体现出智能应用技术的价值;另一方面,集成的产品进一步降低了用户的整体拥有成本(TCO)。

在集成目标的指引下,目前,译星智能翻译软件家族已经完成了基于大多数平台的开发,除Windows、Linux以外,Unix、Cosix、Mac OS X、Windows CE、Mobile、 Symbian等平台上均有译星的产品。译星智能全文翻译(整句翻译)引擎还应用在电子词典产品、学习机产品、手机等PDA产品,并在学习机领域完成了Mips、Epson、Arm、三星等平台的移植。此外,译星智能全文翻译(整句翻译)引擎对软件开发商提供翻译引擎功能接口,可以集成在其他应用软件中,使这些应用软件具有翻译功能。

这些都为译星出击移动设备市场做好了准备。近几年,中国移动通讯市场增长迅速,中国手机用户已经超过3亿,这为移动应用提供了丰富的用户基础。而中软针对这个蓬勃发展的市场已经能够提供包括国际短信翻译网关及其平台、翻译引擎、全文翻译器、电子词典、移动应用软件开发、移动产品测试等在内的翻译产品及服务。中软公司国际软件开发部总经理于世国说:“中软译星目前的工作重点是嵌入式领域的应用创新,特别是移动设备方面,因为市场的需求在这里。”

除嵌入式市场外,在线翻译服务在这几年开始兴盛起来。这类翻译服务主要是互联网搜索类公司创建的,在中国雅虎网站上,用户可以实现英汉、汉英、日汉、汉日的150词以内的快速的文句翻译;Google、百度也可以提供类似的翻译服务。另外,也有部分翻译专业公司提供这种在线的服务。比如如金山公司从“词霸在线”发展到了今天的“爱词霸”,金桥在线翻译等等。这些在线翻译服务暂时都是免费的,主要针对网民用户,与大型的翻译软件有较大区别。

苦练硬功

回顾那一段兴衰史,软件厂商已经认识到应该吸取教训苦练硬功,也就是抓技术创新,提高翻译的准确率和可读性才是最根本的。中软译星继续加大技术创新的投入,据刘杰介绍,如今中软译星已经实现了基于实例、基于模板、基于规则三种翻译方法混合集成的技术创新。这样,目前“译星”的翻译质量得到了较大提高。据介绍,对于一般复杂程度的文章,“译星”英汉翻译系统的翻译准确率在85%以上,“译星”汉英、汉日翻译系统的翻译准确率在75%以上。

众所周知的是,用意译代替字面翻译,可以避免译文的误解,提高译文的可读性。所以,一直以来意译成为机器翻译的不懈追求,如今取得了显著进展。赛迪翻译推出的基于Web词库和混合引擎的新一代“赛迪环宇通”英汉双向翻译系统即是意译技术产品的代表。该软件采用了基于模板匹配、规则与统计相结合的机器翻译方法,以及基于Web词库和可比语料库的新词抽取技术,从而使翻译的可读性大于85%。最新消息显示,赛迪翻译已被北京2008年奥运翻译平台工程选中,将利用自动翻译系统为奥运会做笔译工作。

反思

翻译器篇(5)

1.引言

《圣经.创世纪》中第十一章巴别塔:“耶和华说:看哪,他们成为一样的人民,都是一样的言语,如今既作起这事来,以后他们所要作的事就没有不成就的了。我们下去,在那里变乱他们的口音,使他们的言语彼此不通。于是耶和华使他们从那里分散在全地上;他们就停工,不造那城了。因为耶和华在那里变乱天下人的言语,使众人分散在全地上,所以那城名叫巴别(就是变乱的意思)[1]。”这只是圣经故事,但告诉我们语言的不同确实是人们交流的极大障碍,因此人们一直在寻找打破语言障碍的途径和办法。翻译则能克服语言障碍,使得不同语言人们之间能相互交流。谭载喜在他的《西方翻译简史》一书中提到我国的翻译史时说:孔子周游列国,在各地言语发音不尽相同,彼此交流甚少的当时,也不得不通过象寄之才(即翻译人员)以“达其意,通其欲”。随着互联网的日益发展,网络信息的激增,国际社会交流愈加频繁,机器翻译已成为克服交流时所产生的语言障碍的重要手段之一。

2.机器翻译的定义

计算机翻译通常叫机器翻译(MachineTranslation或MT),即全自动高质量机器翻译(FullyAutomaticHighQualityMachineTranslation,简称FAHQMT或MT),就是人类利用计算机进行自然语言间的相互翻译,利用软件实现从一种自然语言文本到另一种自然语言文本的翻译[2]。

3.机器翻译的历史与现状

在古希腊时代就有人提出利用机械装置来进行语言翻译的想法,其中之一是如何用机械手段来分析自然语言。17世纪,人们首次提出使用机械字典克服语言障碍的设想。1903年,古图拉特(Couturat)和洛(Leau)在《通用语言的历史》一书中指出,德国学者里格(W.Rieger)首次使用了“机器翻译”(MachineTranslation)这个术语。1952年在美国麻省理工学院(MIT)召开了第一届国际机器翻译会议,标志着机器翻译正式迈出了第一步。1978年在中科院计算机所的一台64K容量的计算机上成功地进行了20个标题的机器翻译测试。1987年在日本箱根举行了第一届机器翻译峰会(MTSummit),并决定以后每两年轮流在亚、欧、美定期举行。20世纪90年代后,随着微机的普及,相继出现了多种翻译软件,例如金山公司的词霸系列,实达铭泰的东方快车系列,Trados翻译软件等。到目前为止,由于计算机科学、语言学研究的发展,特别是计算机硬件技术的大幅度提高以及人工智能在自然语言处理上的应用,机器翻译已经取得了相当大的进步,不过,机器翻译的水平距理想的“全自动高质量(FAHQ)”的目标还有很远的距离[3]。

4.机器翻译面临的问题

4.1影响机器翻译质量的核心是歧义的处理。在词汇的层面上,词汇的歧义主要是一词多义,如英语单词“note”可以指“笔记”、“短信”、“注释”、“纸币”等。以下是词汇歧义的例子:

原文:Thank-younotesareheart-warming.

机器译文:感谢笔记温暖人心。人工译文:感谢信温暖人心。

在结构层面上,常见的结构歧义有and(和)结构,如nicegirlsandboys,它既可表示“好女孩和男孩”,也可表示“好女孩和好男孩”,这种歧义只有人工翻译才能消除,计算机无法识别此歧义,可见歧义的处理是影响机器翻译质量的关键。

4.2人类翻译目标集中于目标语言,如果有必要的话,译者会采用灵活的方式以使翻译传情达意,有的时候会使用意译的方法,这是机器翻译所无法达到的。

以文学翻译为例,文学翻译是“传达作者的全部意图,即作者对在读者思想感情上产生艺术作用的全部意图……”。即使对于专业翻译工作者来说,文学翻译也不是件容易的事,更何况是对于没有任何认知能力的机器。笔者曾让机器翻译了下面几句:以下是美国19世纪著名作家爱默森长篇散文Beauty中的原句。超级秘书网:

原文:"ButthisbeautyofNaturewhichisseenandfeltasbeauty,istheleastpart."

—BeautyRalphWaldoEmerson

机器译文:但是这哪个看见并且作为美丽感到的自然的美丽,是最小部分。

夏济安译文:可是凡是耳目所能辨认出来的美,只是自然之美的最低部分。

以下是美国著名作家马克.吐温早期创作的一则优秀短篇小说《竞选州长》中的原句。原文:"Ihauleddownmycolorsandsurrendered."

—RunningForGovernorMarkTwain机器译文:我沿着我的颜色拖并且投降。

张有松译文:我偃旗息鼓,甘拜下风。

以上机器译文荒唐可笑。由于机器没有思维、推理、判断能力,缺乏人工译者的综合知识和长期积淀下来的文化知识等,无法对原文产生全面的了解,做的只是机械转码,无法突破思维障碍。要获得地道完整的译文,必须对机器译文进行人工修改、加工。

5.机器翻译的发展趋势

机器翻译的质量虽然不能和人工翻译相提并论,但有许多优势是人工翻译所不具备的。我国著名计算语言学与机器翻译专家董振东说:“美国要开发一种口语翻译机,专门用来审讯与美国人语言不通的俘虏。如果用人来做翻译,由于语言不通,即使翻译被收买,对美国人信口胡说,美国人也不会知道,而机器就不可能出现这种情况。这机器现在有没有发明出来,能到什么翻译水平还不得而知,但这至少是一个相当好的发展领域。”因此,发挥机器翻译的自身优势是决定机器翻译发展趋势的重要因素之一。机器翻译的发展趋势是解决人工智能的技术问题。“假设要从人工智能上有所突破,那只能在神经网络和模糊计算上寻找出路。”为了探索人工智能,使电脑模仿人脑,进行更多的智力劳动,模糊计算便应运而生。神经网络和模糊计算都是通过对人脑的结构和推理方式的模拟来实现计算机的智能化。“只有人脑才能和人脑相比”——这看似废话,对于机器翻译来说,却是技术上真正意义上的突破口。

6.结语

目前,机器翻译的水平较50年前有了很大的提升,但要彻底克服语言障碍,使MT投入实际应用,还需数学家、计算机专家、人工智能专家、语言学家、心理学家、认知学家、逻辑学家等通力合作,共同努力,从理论研究和应用开发上有所突破,相信机器翻译会到达光明的彼岸。

参考文献

[1]李娟,《圣经旧约名篇精选(英汉对照)》[M].天津人民出版社,2002

翻译器篇(6)

“十五”期间,中国科学院计算机研究所对我国现有的机器翻译系统进行了测评,结合机器翻译系统对诗歌、散文、小说、剧本和受限语言等不同体裁、不同风格的文本翻译,在对译文进行具体分析、对比和综合评价的基础上,确定了英汉机器翻译在受限语言处理中取得了最高的5级适用级别和85%以上的可翻译度[6]131162。机器翻译取得的成就与受限语言的五大基本特征密切相关,其常用性、有限性、简明性、单义性和规范性[1]10可以大大简化基于某一受限语言范畴的机器翻译规则的制定。由此可见要提高机器翻译的译文质量,在受限语言范畴内展开机器翻译研究应该是行之有效的方法。二、 机器译文句法错译研究的方法和目的

基于对机器翻译适用范畴的研究成果,《机器翻译后译文编辑模式研究》项目选择了同济大学汽车学院的“汽车技术文献翻译语料库”中某一知名品牌汽车操作手册作为研究对象,在这一限定专业范围内,由人工对英语原语、其机器译文和人工译文十万句对展开了句子一级的平行对比研究。语料中的机器译文由“华建机器翻译系统”(中国科学院计算机语言信息工程研究中心研发)生成获取,人工译文来源于同济大学汽车学院资料翻译研究所专业技术人员。

本文将对机器译文中出现的句法错误加以描述和分析,从纷繁复杂的语言现象中寻找和归纳出机器在汽车技术文献这一受限专业领域内进行翻译处理时表现出的句法错误特征,为翻译系统补充建立形式化的句法规则提供语言基础,最终提高机器翻译的质量。罗季美:机器翻译句法错误分析三、 机器译文句法错误的统计和主要表现形式

《机器翻译后译文编辑模式研究》课题组在完成1000句抽样对比基础上归类设定了机器在词序、名词短语、动词短语、介词短语、被动语态、不定式短语和分词短语翻译处理上可能出现的七类句法错误[4]。在对句法错误进行标注和统计中发现,词序错译表现最为复杂,错译率在各类句法错译中高居榜首,达到29.35%[5]。但因词序错译与机器对名词短语、动词短语、介词短语、被动态、不定式短语和分词短语等的错误处理存在很大的交错,以下不再将词序错译作为单独的错误形式进行讨论。此次译文对比也发现,机器对被动语态的翻译处理达到了很高的准确性,对被动语态的错译主要表现在机器对动词不定式中被动语态的处理上,以下将在不定式短语错译中讨论被动语态错译。撇开词序错译和被动语态错译,我们得到了表1所示的机器译文五类句法错译发生率。错译率为出现某类句法翻译错误的机器译文总句数/机器译文的总句数×100%。对同一句子中多次出现的同一类型句法翻译错误进行一次标注和统计;对同一句子中出现的不同类型句法错误分别加以标注和统计。

表1机器译文五类句法错译发生率

以下将根据机器译文句法错误的分类,结合统计结果,举例对语料对比中出现的机器译文典型句法错误加以描述、归纳和分析。在所举各例中,A句为机器译文,B句为人工译文。另外,为了使译文的对比更方便清晰,在所给例句中,每次只对所述的单一句法错译类型进行比较,并用下划线以示区分。

1. 名词短语错译

为了追求语言的简练,科技英语中大量使用名词短语,名词短语错译在整个语料中达到695%。错译主要发生在对结构比较复杂的名词短语进行翻译时,如以下两例。

Install the new service hole cover.

A:安装洞包括的新服务。

B:安装新的检修孔盖。

此例中的名词短语 “the new service hole cover”由形容词“new”+起修饰作用的名词短语“service hole”+名词“cover”构成,人工译文表现出了与原英语词序完全相同的顺序,将其译为“新的检修孔盖”。机器对“cover”词性的错误判断,对其前起定语作用的形容词“new”和名词短语“service hole”的错误切割,使得整个译文词序呈现出颠三倒四的乱象。

Remove the 4 bolts and engine moving control rod.

A:除去移动操纵杆的4个螺栓和发动机。

B:拆下 4 个螺栓和发动机移动控制杆。

对比人工译文可以发现,此例中“and”连接了两个名词短语“the 4 bolts”和“engine moving control rod”。机器将这两个并列名词短语错误判断为由现在分词短语“moving control rod”修饰的两个并列名词“the 4 bolts”和“engine”,由此产生错误译文。以上两例充分体现了对结构复杂的名词短语进行翻译时机器对词序处理的随意性。

2. 动词短语错译

出现动词短语错译的句子在整个十万句的机器译文中占3.7%。错译率本身似乎并不高,而事实是并非每句句子都会使用动词短语。因动词本身在句子中的重要性,出现错译往往会使原句语义大打折扣。对比发现动词短语错译的表现形式主要有以下四种类型:

(1) 由“动词+副词”构成的动词短语误译为由“动词+介词”构成的动词短语

Using SST and a hammer,tap in the oil seal.

A:使用SST和一把铁锤,在这个油封条内轻拍。

B:使用 SST 和锤子,敲入油封。

对比两句译文可以看到A句中机器误将原句中由“动词+副词”构成的动词词组“tap in”和宾语“the oil seal”分析成了动词“tap” 和由“介词+宾语”构成的地点状语“in the oil seal”,使译文与原句表示的意义不相符。

(2)由“动词+介词”构成的动词短语中介词与动词的分离

Align the thermostat jiggle valve with the upper stud bolt, and insert the thermostat in the water inlet housing.

A:调整好这台恒温器轻摇有这上面双头螺栓的阀门,并且把恒温器插入这进水口住房中。

B:将节温器跳阀与上双头螺栓对正,并将节温器插入进水口壳内。

对比两句译文可以看到在此例中机器没有识别“align X with Y”(将X与Y对正)这一固定动词词组,误将介词短语“with the upper stud bolt”当作名词“valve”的定语,造成错译。

When disconnecting the fuel line,cover it with a shop rag or a piece of cloth to prevent fuel from spraying or coming out.

A:拆开这条燃料线时,与一块商店碎布或者一块布包括它防止燃料喷或者出来。

B:断开燃油管路时,用棉丝抹布或一块布盖住,以防燃油喷出或涌出。

在此例中,机器没有识别“cover X with Y”(用Y盖住X)这一固定动词词组,误将表示方式的介词短语“with a shop rag or a piece of cloth”解释为表示伴随状态的状语“与一块商店碎布或者一块布(一起)”。

(3)对动词短语的翻译不符合汉语表达语序

Install a new gasket to the No. 1 oil cooler bracket.

A:对1号油更凉爽的方括号安装一个新垫片。

B:将新衬垫安装到 1 号机油冷却器支架上。

此例中机器将动词短语“install X to Y”译为“对X安装Y”。对比人工译文“将Y安装到X上”,A句的译文显然不符合汉语的表达习惯。

Install the exhaust front pipe to the exhaust manifolds with the 2 nuts and 2 bolts.

A:安装对排气歧管用2颗螺母和2个螺栓的排气前面管。

B:用 2 个螺母和 2 个螺栓将前排气管安装到排气歧管上。

对比此例中的两句译文会发现,译员将动词短语“install X to Y with Z” 译为“用Z将X安装到Y上”,汉语句义清晰明了;而机器没有按照汉语表达习惯解释动词短语,使得译文中由动词词组串联起来的三组名词短语关系混乱,严重影响译文的可理解性。

(4)“动词短语+多个并列宾语”的错译

The automatic headlight beam level control system mainly consists of the AFS ECU, rear height control sensor, and two headlight leveling motors.

A:自动前灯梁水平控制系统主要由AFS ECU组成,后高度控制传感器并且两盏前灯使电动机成水平。

B:前大灯光束高度自动控制系统主要包括 AFS ECU、后高度控制传感器和两个前大灯光束高度调整电动机。

在此例中,动词短语“consists of”后接三个作宾语的并列名词短语“the AFS ECU”、“rear height control sensor”和“two headlight leveling motors”,但机器译文表明机器未能准确识别动词短语后三个宾语的并列关系。

3.介词短语错译

英语中的介词总数并不多,但一些常用介词如“in”、“on”、“for”、“with”和“as”等使用的频率却非常高,其构成的介词短语在句子中可以表示多种句法功能。介词短语的使用频率也充分体现在介词短语机器译文13.3%的错误率上,这一比例在五类句法错译中位列第一。本次语料对比发现介词短语错译主要发生在介词短语在句子中作定语和状语时。

(1)介词短语作定语

机器对作定语的介词短语的错误处理主要表现在以下两方面:一是介词短语作定语时序位处理不当;二是作定语的介词短语误译为状语。

Only for models without the intelligent AFS.

A:只为模型没有聪明的AFS。

B:只用于不带智能 AFS 的车型。

在英语中作定语的介词短语后置于被修饰词,但汉语中的定语通常置于被修饰词前。在此例的机器译文中,作定语的介词短语 “without the intelligent AFS”没有调整到被修饰词“models”之前,翻译处理时完全遵照原文词序,导致译文错误。

Calculate changes in the vehicle posture based on the signals from the height control sensor and each ECU.

When person carrying electrical key enters detection area, door will enter unlock standby mode and front map light will illuminate.

A:传播电钥匙的人加入察觉地区什么时候,门将进入开锁备用方式和前面地图光将亮。

B:当有人携带电子钥匙进入检测区域,车门将进入解锁待命模式并且前阅读灯将亮起。

The AFS ECU performs the medium-to-high speed control when all the following conditions are fulfilled.

A:这AFS ECU 执行这种媒介给高速度控制到那时全部下列状况都被履行。

B:当符合所有下列条件时,AFS ECU 执行中高速控制。

在以上两例中,机器将两句状语从句的引导词“when”分别处理成了 “什么时候”和“到那时候”,与从句中的主谓结构完全分离,造成译文的重大错误。另外,机器译文也表现出对状语从句引导词“when”在句子中语序处理的不稳定性。

本次语料所涉及的条件状语从句主要由 “if”引导,错译主要发生在对 “if”序位的不当处理上,错误形式基本相同,即机器将从句的引导词“if”错误置于整个从句的句尾,如下例A句所示。

If there is a problem in this intercommunication, the active control engine mount ECU sets a DTC.

A:有在这相互联系内的一问题如果,积极控制器骑在马上ECU 确定DTC。

B:如果互相通信有故障,则主动控制发动机支座 ECU 设置一个 DTC。

(3)宾语从句错译

语料中涉及的宾语从句主要为由“that”、“if”和“whether”引导的宾语从句,错译占所有宾语从句的56.41%。机器对宾语从句的错误处理主要表现在其对“that”引导的宾语从句的处理上,包括以“that”为引导词的宾语从句错译为定语从句及宾语从句引导词“that”的词义错译。

Check that the striker can engage with the hood lock smoothly.

A:罢工者能顺利与罩锁接合的检查。

B:检查并确认锁扣能够与发动机盖锁顺利接合。

“that”既可以用作定语从句的引导词,也可用作宾语从句的引导词,显然机器在此处将两者混淆,错译应该与机器无法准确判断从句前“check”的动词词性有关。

Check that all functions in the smart entry and start system cannot be operated.

A:检查那全部在这聪明进入内的功能并且启动系统不能被经营。

B:检查并确认智能上车和起动系统中的所有功能都不能操作。

翻译器篇(7)

【中图分类号】H315.9 【文献标识码】A 【文章编号】1006-9682(2012)07-0016-02

随着经济全球化进程的加速发展,世界上不同国家之间的交流越来越频繁,但是不同的语言给人们的沟通带来了极大的不便,人工翻译的低效率远远不能满足发展需要,因此机器翻译(Machine Translation简称MT)的研究越来越引起学者的重视。

一、机器翻译的必要性

同人工翻译相比,机器翻译有许多得天独厚的优势。首先,存储容量大,存储100万个词条对计算机来说是一件很容易的事,这是人类无法企及的。其次,翻译速度快,机器的翻译速度是人工翻译速度的几十倍。再次,机器不易疲劳,它可以连续不间断地进行翻译工作,而人类与之相比就要逊色很多。在一些只需要粗略翻译的场合,如从网络中获得信息,机器翻译可以让我们在较短的时间内了解目标语的大体内容。机器翻译还特别适合那些翻译工作量大又需要快速更新的领域,如天气预报、财经新闻、航空旅行查询以及旅店推荐等方面的翻译。因此,随着对信息获取速度要求的不断提高和国际间交流的日益频繁,人工翻译的低效率远远不能满足需要,机器翻译将毋庸置疑地成为信息社会中重要的辅助翻译工具。

二、机器翻译存在的问题

机器翻译的最大弊端在于译文质量不高,基于某些词性变换、一词多义、文化差异等造成译文产生歧义、词序不当、可读性差。歧义(ambiguity)是自然语言中普遍存在的现象,其实质是同一语言形式可能具有不同的意义,这也是自然语言与人工语言的不同之一,所以,MT所面对的难题之一就是语言消歧(disambiguition)。自然语言在词汇、句法、语义、语用等各个层面都充满歧义。还有中国和西方国家在生存条件和环境、历史和传统、思想方式等方面都存在很大差异,这种差异必然反映在中西语言上。机器的工作原理是建立在串行二值逻辑的基础上的,即“非此即彼”,二者必居其一,它没有思维、判断、推理能力,只能是在限定的范围内进行一对一的选择。机器不存在意识,没有心理平衡问题,无法建立主体价值观,不能对所有的感受进行自动过滤以便处理有用和必要的事情。结构如此简单的电脑绝对不可能实现人脑的思维,它所支撑的软件即“意识”也是极其有限的,因此就不可避免地会出现令人费解的译文。

三、解决策略

1.对原文进行修改

汉语表达力求形式美,语言文化特征色彩浓厚,行文略有中国传统民族的习惯特征,如讲究工整对仗、结构整齐划一、重渲染情感气氛、多修饰语等。如果照直译出,势必导致译文文字堆砌,语义传达失真,因此,对原文作适当的修改是十分必要的。如:他的武断是他多年来不动脑筋思考问题的结果。His arbitrariness and obstinacy is the result of years of not thinking.英译句中省略汉语原句的“动脑筋”,因为“思考”就是“动脑筋”。

2.对原文进行适当的删减

汉语的行文习惯不惜重复,多用四字格,讲究词藻优美。如果将此类源文本直接利用机器翻译软件,势必会造成译文赘述信息过多,影响主要信息的传达。汉语表达过度修饰、同义反复、华丽溢美的表达。如阿坝州风光秀丽,山河壮美。座座雪峰耸入云霄,原始森林遮天盖地,莽莽草原花团锦簇,叠溪遗迹神秘奥妙,瀑布溪流蜿蜒跌宕,高山湖泊灿若明珠,藏羌村寨别具一格,肥沃河谷瓜果飘香。The beautiful landscapes of Aba Prefecture feature towering snowclad mountains, crisscrossing rivers, and boundless forests and grassland. On this fertile land are peculiar geological ruins, fantastic streams and waterfalls, alpine lakes, and Tibetan and Qiang villages. 原文多四字结构,是如今时兴的表达方式。汉语工整对仗、抑扬顿挫,气势磅礴,英语却长短不一,参差不齐,直观简洁。译文首先将整个段落分成两部分,第一部分从大处着眼,“阿坝州风光秀丽,山河壮美”总领“雪峰”、“森林”和“草原”;第二部分为细节描述,其形容词四字结构基本未译,省略了“灿若明珠”、“别具一格”和“瓜果飘香”。

3.对原文进行适当的增加

鉴于英汉表达差异,英语中介词可以说在一定程度上与汉语中的虚词的语法功能相似,而汉语表达为避免啰嗦或表意更加明确,虚词往往省略。并且过多使用虚词反而会导致表意不明。所以,较英语中的介词的使用,汉语中虚词的使用不如前者广泛。机器翻译之前,如果对源文本中进行预处理时增加虚词会不会相对提高译文质量呢?现以一例来进行验证和说明。

源文本:

翻译器篇(8)

中图分类号:TP391.2 文献标志码:A 文章编号:1007-0125(2016)12-0270-02

机器翻译是利用计算机技术智能化地把一种语言转换成另一种语言的过程。1954年IBM公司首次完成了俄英双语机器翻译的实验。随后,很多国家,如前苏联、英国、日本、中国等也相继进行了机器翻译试验。如今,市场上已出现了多种基于不同原理的机器翻译软件。

很多学者都对机器翻译的技术原理进行了分类,总体可以将机器翻译系统从方法上大致分为四类:基于规则的机器翻译、基于实例的机器翻译、基于统计的机器翻译和混合式机器翻译。基于不同原理的翻译软件各有所长,译者可根据不同的翻译需求合理选取这些机器翻译软件。

基于规则是通过语法、语义等语言习惯约定一种规则,通过对源语言语句的此法、语义、语法和句法进行判断分析,按照一定的规则重新排列组合,生成目标语言。基于规则的机器翻译系统擅长于翻译符合规则的内容,翻译的质量较高,然而有效规则的形成过程通常具有很高难度。而基于实例的机器翻译的本质是“以翻译实例为基础,基于相似原理的机器翻译”,这种实例既可以是不加修饰的翻译原型,也可以是一种经过加工的翻译实例。基于统计的机器翻译技术本质上也是一种基于语料库的翻译技术,它可以将语料库中的实例抽象成一种统计模型,翻译过程即为对这种统计模型的重新解码。基于统计的机器翻译系统具有通用性,自动从语料库中学习语言知识,这种翻译技术通过概率统计的理论建立包含各种句型的双语对照资料库,并在翻译过程中不断完善、优化、修改这个资料数据库,在翻译时,软件自动从这个数据库中提取相似的例句、短语等,并模仿该句型实现源语言和目标语言的转换。

目前的商业化机器翻译软件,多数采用了多种翻译技术混合的模式。从最初的简单规则,到如今千变万化的复杂规则,依靠长期翻译训练中积累的大量语料库和在长期翻译实践中通过译者的反馈和测试不断优化的语料库,很多翻译软件已具有较高的翻译成功率,被广泛应用于文件浏览、信息查阅、数据检索等方面。

一、机器翻译译文质量及错误模式分析

机器翻译系统的评价主要有七大因素:译文的质量、应用效率、工作方式、使用环境、维护性和扩展性、机器翻译系统性能价格比、鲁棒性(robustness)。其中译文的质量是最主要的考量因素。

在科技文翻译中,罗季美等人以汽车技术科技文献的翻译为例,统计得出各种句法错译发生的概率,如图1所示。事实上,半个世纪以来的机器翻译研究在句法处理上已经取得了很大的成就,机器对被动语态、大部分主要时态及某些特殊句型等的处理都达到了相当高的准确率(10.3%)。而该统计的错误率也从侧面反映出语言的千变万化对机器翻译的巨大考验,在机器翻译软件中为每一种语句应用的特例都制定规则是不现实的,而长期的机器翻译应用和人工比对修改也是机器翻译不断进步的必不可少阶段,从而逐步更合理限定词汇处理范畴,提高机器翻译的准确率和效率。

二、机器翻译软件的适用性与局限性

机器翻译软件的优势在于翻译速度快、运用范围广、成本低和无需专业译员等;局限性在于机器翻译的译文比较粗糙、文体风格难以掌控以及语言表达不够地道等。翻译标准的差异及机器翻译软件的原理决定了机器翻译非文学材料的适用性比文学材料要强。一般情况下,翻译界都认为科技翻译易于文学翻译。理论上,若输入计算机中的规则和语言材料越多,翻译的质量就越高。如果把人类所有的语言规则和语言现象都输入计算机中,那么机器翻译完全可以取代人工翻译。但是语言的应用千变万化,尤其在文学作品中,语言的多样性使得语义规则多到无法估量,而即使建立了非常庞大的语料库,也不可能完全涵盖语言的所有用法,更别提语言中的文采、多义化表达等文学作品特有的性质,使得机器翻译软件在有较高需求的文学翻译中几乎不可能代替人工翻译。

而在翻译要求相对较低的其他场合,有效的机器翻译可节省大量的资料阅读时间,极大地提高了工作效率。然而,如何建立一个有效的翻译规则,并逐步完善翻译语料库,是翻译工作者和计算机软件开发者面临的共同难题。

根据日常生活中大量浏览性阅读需求,机器翻译软件在多个层面开发了相应的应用功能,如在线翻译、网页自动翻译、图片翻译、语音翻译等。从使用者的角度来看,用户在打开外语网页时,可以选择“翻译该网页”功能,直接将原网页文字翻译成另一种文字,这种功能的实现并非来自于原网站服务器中的数据,而是一种基于网页应用层面的机器翻译技术。当今,机器翻译软件还可以借助OCR(屏幕识别技术)翻译出非文本格式的图片文件,甚至还可以借助于语音识别技术,识别出用户所讲的内容,并迅速翻译成另一种语言。

可以预见的是,机器翻译技术将来还会与更多技术相结合,进一步丰富其在日常生活、工作中的需求。同时,机器翻译技术也将这种理念运用在了更复杂的未知语言探索中。

三、结论与展望

机器翻译经过长达半个世纪的发展,如今已成为人们日常工作生活中不可或缺的翻译技术工具。语言既是一种建立在一定规则基础上的表达方式,也具有千变万化无法捉摸的特点,这使得机器翻译软件不仅需要制定一定的规则,也需要在投入运用的过程中,不断改善技术,并和语言学知识相结合,提高机器翻译的译文的准确性和翻译效率,降低人工译员译后编辑的劳动量。如今的商业化机器翻译软件经过几十年的发展,已经在很多场合证明了其适用性。同时,由于语言的多样性和随机性,目前的机器翻译软件尚无法完全替代人工翻译,具有一定的局限性,尤其在要求较高的翻译场合,仍非常依赖于人工翻译。

随着大数据技术在各行各业的不断渗透,以及人工智能技术的起步,未来机器翻译软件势必会更加智能,借助于各种现代化应用型技术,一方面可以更轻松完成日常翻译工作;另一方面,甚至可以通过人工智能技术,进行自我学习和感知,逐步涉足更复杂、更多变的翻译工作。

参考文献:

[1]罗季美,李梅.机器翻译译文错误分析[J].中国翻译,2012(5).

[2]王内.文学材料与非文学材料机器翻译适用性比较研究[D].湖南师范大学,2012.

[3]冯志伟,徐波,孙茂松.机器翻译的现状和问题[M].北京:科学出版社,2003.

[4]胡清平.机器翻译中的受控语言[J].中国科技翻译, 2005(8).

[5]Arnold D. & Lee H Machine Translation: Special Issue on Evaluation of MT system[A]. In Arnold D. & Louisa S. Evaluation: An Assessment[C]. Dordrehct: Kluwer Academic Publishers, 1993.

翻译器篇(9)

一、引言

随着信息化的到来,越来越多的人开始学习英语,为了方便用户随时学习英语,,提高学习效率,简化操作方式,需要一个即指即译的翻译器,以实现英文的即时汉化。因此,设计一个英语翻译器,方便用户学习英语,提高了学习的效率,改善用户学习体验[1]。

二、课题关键技术

屏幕取词,也叫做鼠标取词、鼠标抓词,顾名思义就是把屏幕上显示出来的字符取到(在某些情况下也能取到屏幕上看不到的字符)。屏幕取词广泛的应用在电子字典上,也可以用在其它方面[1]。

按照取词范围来分,一般可以分为点、线、面取词三种。

点取词,就是取屏幕上某一点处的字符。这个点可以用鼠标来确定,也可以给定一个坐标。

线取词,就是取屏幕上某一行的所有字符。

面取词,就是取一个区域范围中的所有字符。

目前有两种实现方式:

第一种:采用截获对部分gdi的api调用来实现,如textout,textouta等。

第二种:对每个设备上下文(dc)做一分copy,并跟踪所有修改上下文(dc)的操作。

三、需求分析

即指即译翻译器,作为一个工具类软件,其最主要的需求便是实现即指即译的功能。

通过对用户需求定位,可以得出本系统需要包含以下具体功能模块:单词查询模块、屏幕取词模块、词库管理模块。

各模块主要功能分析如下:

(一)单词查询模块:

单词查询模块是整个系统最重要的功能模块之一,主要实现英汉单词之间的互译,用户可以根据自己的需要查询单词的含义,从数据库中得到单词的基本信息[2]。

(二)屏幕取词模块:

屏幕取词模块是本系统同的精髓,一切的功能都是围绕其展开的,主要实现从屏幕上获取文字信息,匹配单词,将结果传递给查询模块。屏幕取词的性能要求主要为:稳定、准确、快速。

四、系统设计

(一)系统总体设计

整个系统为用户提供最简便的操作方式,以满足用户需求。具体操作流程为:用户打开软件,启动屏幕取词功能,用鼠标选择在屏幕上的字符,系统自动获取相关字符,并在词库中进行匹配查询,然后将查询结果展示给用户。

(二)系统详细设计

本系统分为三个子模块,屏幕取词模块主要功能是将从屏幕上获取的词汇信息传递给单词查询模块,单词查询模块的主要功能是负责将词汇进行匹配查询。

屏幕取词模块详细设计

屏幕取词模块为用户从计算机显示屏幕上扫面并获取字符串信息,并将字符串传递至查询模块,完成屏幕取词的活动。

屏幕取词具体流程为:

鼠标指向所需要查询单词的位置,系统开始从鼠标位置所在点,对字符串进行扫描,直到遇上第一个空格位置。再对系统所扫描过的矩形区域内的字符串长度进行计算,然后对比坐标,判定鼠标是否在此区域内,如果判定结果为Y,则存储字符串,并将鼠标信息发送给取词函数,取词活动结束;如果判定结果为N,则找到下一个空格所在位置,并计算出该空格与前一个空格之间的矩形区域内的字符串大小,然后再次对鼠标是否处在此区域内进行第二次判定,如果判定结果为Y,存储字符串,并将鼠标信息发送给取词函数,取词活动结束;判定结果为N,则返回GetCursorPos函数,对字符串重新进行扫面,直到成功进行取词活动为止。

(三)屏幕取词技术解决方案的设计

实现屏幕取词需要做两件事情:第一件事情是截获系统对ExtTextOutW 等API 函数的调用;第二件事情就是分析所截获函数的入口参数,得到所要取的词[3]。

截获系统对API 函数的调用有两种方法,通过直接改写API 在内存中的映像,嵌入汇编代码,使之被调用时跳转到指定的地址运行来截获;或者改写IAT(import address table输入地址表),重定向API函数的调用来实现对API 的截获。

这里主要采取第一种方法。

1.截获系统API原理分析设计

通过设计一个动态链接库,在DLL 的入出口函数(DLLMain)中对ExtTextOutW 等函数进行拦截和恢复。dwReason 等于DLL_PROCESS_ATTACH(DLL 被映像到进程的地址空间)时拦截API 调用;dwReason 等于DLL_PROCESS_DETACH(DLL从进程的地址空间中解除映像)时恢复API 调用。DLL 中的导出函数有若干个,其中主要有设置挂钩、返回当前所取的字等函数。设置挂钩函数调用SetWindowsHookEx 安装一个系统鼠标挂钩。

2.API 的入口参数设计

ExtTextOutW的入口参数hdc,x,y ,IpString,cbString ,根据这些具体参数的含义进行相关的分布和利用,提取信息,如果设备上下文(hdc)不在任何窗口,很可能在内存兼容对象中。这时就不能准确计算出鼠标出的汉字,以为当系统调ExtTextOutW等函数时还没有确定输出的位置。通过简单的把内存兼容对象区域的右上角作为视口原点,可以解决绝大部分问题。对于在网页中取词,需要根据IE的版本和操作系统的版本做特别的处理。这些特别处理也和内存兼容位图有关。

五、总结

本文所阐述的系统主要是针对广大用户在日常生活中翻译词汇的一个便捷功能的实现。从需求分析、开发工具和开发平台的选择、系统总体功能设计、系统详细功能设计、数据库设计、界面设计、代码实现,始终依据软件工程的基本思想及管理信息系统的开发流程,实现了预期的开发目标,满足了用户需求,基本上实现了本次论文的设计目的。但是有一些可以需要改进的地方,比如操作界面的友好度,如果加上在所选择的地方显示出来所查词汇的释义,用户体验将会更加完美。

参考文献:

[1]侯俊杰.深入浅出MFC(第二版)[M]. 华中科技大学出版社, 2001

[2]孙鑫.vc++深入详解 [M]. 电子工业出版,2006

翻译器篇(10)

1.引言

《圣经.创世纪》中第十一章巴别塔:“耶和华说:看哪,他们成为一样的人民,都是一样的言语,如今既作起这事来,以后他们所要作的事就没有不成就的了。我们下去,在那里变乱他们的口音,使他们的言语彼此不通。于是耶和华使他们从那里分散在全地上;他们就停工,不造那城了。因为耶和华在那里变乱天下人的言语,使众人分散在全地上,所以那城名叫巴别(就是变乱的意思)[1]。”这只是圣经故事,但告诉我们语言的不同确实是人们交流的极大障碍,因此人们一直在寻找打破语言障碍的途径和办法。翻译则能克服语言障碍,使得不同语言人们之间能相互交流。谭载喜在他的《西方翻译简史》一书中提到我国的翻译史时说:孔子周游列国,在各地言语发音不尽相同,彼此交流甚少的当时,也不得不通过象寄之才(即翻译人员)以“达其意,通其欲”。随着互联网的日益发展,网络信息的激增,国际社会交流愈加频繁,机器翻译已成为克服交流时所产生的语言障碍的重要手段之一。

2.机器翻译的定义

计算机翻译通常叫机器翻译(machine translation或mt),即全自动高质量机器翻译(fully automatic high quality machine translation,简称fahqmt或mt),就是人类利用计算机进行自然语言间的相互翻译,利用软件实现从一种自然语言文本到另一种自然语言文本的翻译[2]。

3.机器翻译的历史与现状

在古希腊时代就有人提出利用机械装置来进行语言翻译的想法,其中之一是如何用机械手段来分析自然语言。17世纪,人们首次提出使用机械字典克服语言障碍的设想。1903年,古图拉特(couturat)和洛(leau)在《通用语言的历史》一书中指出,德国学者里格(w.rieger)首次使用了“机器翻译”(machine translation)这个术语。1952年在美国麻省理工学院(mit)召开了第一届国际机器翻译会议,标志着机器翻译正式迈出了第一步。1978年在中科院计算机所的一台64k容量的计算机上成功地进行了20个标题的机器翻译测试。1987年在日本箱根举行了第一届机器翻译峰会(mt summit),并决定以后每两年轮流在亚、欧、美定期举行。20世纪90年代后,随着微机的普及,相继出现了多种翻译软件,例如金山公司的词霸系列,实达铭泰的东方快车系列,trados 翻译软件等。到目前为止,由于计算机科学、语言学研究的发展,特别是计算机硬件技术的大幅度提高以及人工智能在自然语言处理上的应用,机器翻译已经取得了相当大的进步,不过,机器翻译的水平距理想的“全自动高质量(fahq)”的目标还有很远的距离[3]。

4.机器翻译面临的问题

4.1影响机器翻译质量的核心是歧义的处理。在词汇的层面上,词汇的歧义主要是一词多义,如英语单词“note”可以指“笔记”、“短信”、“注释”、“纸币”等。以下是词汇歧义的例子:

原文:thank-you notes are heart-warming.

机器译文:感谢笔记温暖人心。人工译文:感谢信温暖人心。

在结构层面上,常见的结构歧义有 and(和)结构,如 nice girls and boys, 它既可表示“好女孩和男孩”,也可表示“好女孩和好男孩”,这种歧义只有人工翻译才能消除,计算机无法识别此歧义,可见歧义的处理是影响机器翻译质量的关键。

4.2人类翻译目标集中于目标语言,如果有必要的话,译者会采用灵活的方式以使翻译传情达意,有的时候会使用意译的方法,这是机器翻译所无法达到的。

以文学翻译为例,文学翻译是“传达作者的全部意图,即作者对在读者思想感情上产生艺术作用的全部意图……”。即使对于专业翻译工作者来说,文学翻译也不是件容易的事,更何况是对于没有任何认知能力的机器。笔者曾让机器翻译了下面几句:以下是美国19世纪著名作家爱默森长篇散文beauty中的原句。

原文:"but this beauty of nature which is seen and felt as beauty, is the least part."

—beauty ralph waldo emerson

机器译文:但是这哪个看见并且作为美丽感到的自然的美丽,是最小部分。

夏济安译文:可是凡是耳目所能辨认出来的美,只是自然之美的最低部分。

以下是美国著名作家马克.吐温早期创作的一则优秀短篇小说《竞选州长》中的原句。 原文:"i hauled down my colors and surrendered."

—running for governor mark twain 机器译文:我沿着我的颜色拖并且投降。

张有松译文:我偃旗息鼓,甘拜下风。

以上机器译文荒唐可笑。由于机器没有思维、推理、判断能力,缺乏人工译者的综合知识和长期积淀下来的文化知识等,无法对原文产生全面的了解,做的只是机械转码,无法突破思维障碍。要获得地道完整的译文,必须对机器译文进行人工修改、加工。

5.机器翻译的发展趋势

机器翻译的质量虽然不能和人工翻译相提并论,但有许多优势是人工翻译所不具备的。我国著名计算语言学与机器翻译专家董振东说:“美国要开发一种口语翻译机,专门用来审讯与美国人语言不通的俘虏。如果用人来做翻译,由于语言不通,即使翻译被收买,对美国人信口胡说,美国人也不会知道,而机器就不可能出现这种情况。这机器现在有没有发明出来,能到什么翻译水平还不得而知,但这至少是一个相当好的发展领域。” 因此,发挥机器翻译的自身优势是决定机器翻译发展趋势的重要因素之一。机器翻译的发展趋势是解决人工智能的技术问题。“假设要从人工智能上有所突破,那只能在神经网络和模糊计算上寻找出路。”为了探索人工智能,使电脑模仿人脑,进行更多的智力劳动,模糊计算便应运而生。神经网络和模糊计算都是通过对人脑的结构和推理方式的模拟来实现计算机的智能化。“只有人脑才能和人脑相比”——这看似废话,对于机器翻译来说,却是技术上真正意义上的突破口。

6.结语

目前,机器翻译的水平较50年前有了很大的提升,但要彻底克服语言障碍,使mt投入实际应用,还需数学家、计算机专家、人工智能专家、语言学家、心理学家、认知学家、逻辑学家等通力合作,共同努力,从理论研究和应用开发上有所突破,相信机器翻译会到达光明的彼岸。

参考文献

翻译器篇(11)

中图分类号:TP18文献标识码:A文章编号:1009-3044(2008)25-1525-02

The Study of Multi-engine Machine Translate in Automatic

YANG Yu, LIN Jin guo, WU Zhen xin

(NanJing University of Technology, Nanjing 210009, China)

Abstract: When we build a Parallel Corpora about automatic' literature, we analyse the characteristic of automatic' literature. We design a multi-engine MT system about automatic' literature base on the characteristic. We design a model about the system, introduce the structure and function of any model, discuss the handle course of multi-engine MT system, and how to do with it in every module. We also introduce the method of the templet' producement in templet translate engine, and the NN technology to the self-training and the extension of the system.

Key words: parallel corpora; automatic; multi-engine

1 引言

在机器翻译方法的发展中,从早期的直接翻译法,到后来的基于转换的方法及基于中间语言的方法,直至基于统计的方法和基于实例的方法,机器翻译方法在不断发展。但是一个明显现象是,仅靠一种机器翻译方法难以使机器翻译系统达到所期望的水平。二十世纪九十年代以来,综合多种机器翻译方法的基于混合策略的机器翻译实现策略得到了很多机器翻译研究者的赞同。研究如何使所集成的机器翻译方法更好地发挥作用,并使系统整体性能得到提高,就成为了一个值得研究及尝试的研究课题。

2 多引擎机器翻译系统建立原则

策略的制订对于任何一个机器翻译系统的研发都具有全局性的意义。因此,我们设计的汉英机器翻译系统在策略选择上遵循如下的原则:

2.1 先理解,后翻译

对于理解有各种各样的标准,如著名的图灵标准,以生成句法树为目标的句法分析标准,以及各种各样的植根于Chomsky语法的句法语义分析标准。

2.2 先“信”后“达”不唯“雅”

机器翻译60多年的曲折发展历史使人们逐渐认识到冀望用机器完全取代人来消除人类的语言交流障碍原来是一个浪漫的、不切实际的幻想。对翻译目标和翻译方法要有一个清醒的定位,那就是:“信”为基础,“达”为追求;“异化”为主,“同化”为辅。考虑到现阶段以及可预见的将来机器翻译理论和技术的发展水平,“雅”属于有所不为的方面。但这样说并不意味着“雅”的实现是一个“无法完成的任务”,在现存的各翻译策略中EBMT策略的应用有助于部分实现“雅”的翻译目标。

2.3 多种策略,综合运用

采用混合策略的机器翻译方法,也源于对语言本质的认识。语言是人类思维的反映。通过语言的研究,可以帮助人类认识智能的本质。乔姆斯基认为人的语言能力具有遗传性的观点反映了语言知识具有规律性的一面,这方面可以通过语言规则加以描述。同时也应该看到,语言也有不规则的一面,语言的使用比较灵活,许多语言现象的分析需要大量的个性知识才可能描述清楚,这时采用基于实例的方法就显出了优越性。同时,语言使用中还存在很多介于规则和不规则现象之间的语言现象,这时采用基于翻译模板的方法来描述比较合适。

2.4 翻译记忆,自主学习

近十几年来,随着人们对机器翻译的重新认识和重新定位,人机交互的思想深入人心,以塔多思(TRADOS)和雅信CAT为代表的具有自学能力的机助翻译系统异军突起,受到业界的广泛关注。无论是MAHT系统还是HAMT系统,其核心都是翻译存储或翻译记忆(Translation Memory)技术的运用。TM技术以双语(或多语)对齐语料库为基础,通过人机交互实现翻译实例的记忆积累,再通过类比匹配的方法建立基于记忆的目标译文。TM技术的运用,可以使机器翻译系统通过人机交互接受专家的帮助,修正错误,不断提高智能水平。

3 自动化专业文献多引擎策略机器翻译系统结构设计

在实用型机器翻译系统的研制中,研制的一个主要目标是使系统输出的翻译结果质量比较高,从而更好地满足用户的需求。因为单一的机器翻译方法很难达到预期的效果,所以采用几种机器翻译方法有机地结合起来的混合策略成为了许多机器翻译研究者的共识。在汉英双向机器翻译系统的研制中,我们采用了将基于统计方法、基于模板方法、基于实例方法以及基于规则方法相结合、将浅层分析方法和完全分析方法相结合的混合策略。

3.1 自动化专业文献混合策略机器翻译系统结构设计

将不同的机器翻译方法集成在一起时,需要设计合理的组织方式。本文提出的自动化专业文献汉英双向机器翻译系统,采用了如图1所示的处理流程。

为了克服单一机器翻译处理策略的弊端,实现多种策略相互间优缺点互补的翻译机制,本文所设计的多引擎翻译策略综合运用了基于规则、基于范例、基于模板、基于统计四种翻译技术。模型中还有一个重要的组成部分即控制系统,控制系统是根据语言经过不同处理阶段所得结果的特点有选择的调用相应的引擎进行进一步的处理,并且控制系统还负责在翻译模式和系统扩充模式中进行切换。

虽然每个引擎的翻译策略方法不同,但引擎的总体结构希望保持一致,这样既有利于系统一致性也有利于未来系统的改进。至于微引擎的系统结构和翻译算法设计我们以刘群在《基于微引擎流水线的机器翻译系统结构》一文中提出的设计为基础,希望能对其进行一定的改进,并在未来的应用中加以实现,这里就不论述了。

3.2 具体翻译流程

在通过以上对自动化专业文献多引擎翻译系统总体结构的设计的基础上,这里具体实践一下自动化专业文献多引擎机器翻译系统的翻译流程,根据自动化专业文献汉英平行语料库中语料的特点(句型上相对简单固定、词语的歧义多解问题也相对较少),我们制定了以模板微引擎、统计微引擎为主,而规则微引擎、实例微引擎为辅进行语言间的转换的翻译策略模式。语句翻译的总体流程如下:

首先,通过人机界面输入待翻译语句,对所输入的原文进行分析之前对其进行初步的句型结构的处理即进入基于EBMT匹配分析阶段,若匹配成功则直接参考译文输出翻译结果。若无相应匹配译文则进入下一层次――TBMT翻译引擎。这里需要指出的是我们对未来实例库的设想是尽可能的将待翻译语句由长句变换成短句,对于本身的短句而言结合E-Chunk理论转换成为更细小的句子进而一步步进行翻译。

例如:随着计算机时代的来临,语料库技术的应用将会获得更大的成功。

针对这个语句的翻译,当进入到EBMT引擎后,我们将此句子以逗点为界线划分为两个部分。对每个部分再进行匹配分析,如果前一个部分得到了较好的匹配而后一个部分没有得到较好的匹配,则把有较好匹配的部分进行翻译,翻译后的结果直接送入目标语生成模块“等待”。而将剩余部分传送到下一个引擎进行下一步的翻译处理。

当经过第一个层次的翻译后,没有得到完整的译文,则系统通过控制程序启动相应的规则引擎对待翻译语句进行词一级别的处理,主要是分词、词性标注和对齐等处理(词性的标注我们将采用共性规则、个性规则及统计相结合的消兼方法来判定句中各词的词性)。接下来对源语进行浅层句法分析,分析出基本名词短语、动词短语、形容词短语等短语语块,判断出语块的边界及类型,这里采用的是基于规则和统计相结合的方法。在浅层句法分析的基础上,对原语进行深层句法分析,若成功分析出一个合格的句法树,则认为分析成功,进入深层转换规则处理模块;否则认为深层分析失败,进入翻译模板处理模块。

深层分析失败情况下对源语进行语言模式分析转换,得到所输入待翻译语句的语言特征集(包括句型、类型、语气、时态等)。然后根据TBMT的类比模糊匹配策略对模式库进行模板检索,建立起与输入原文语言特征相似的实例集合。通过计算相似度来获得最优匹配的模板。在这里引入了相似度阈值的概念。如果当前翻译句子与语料库中已有的句子相的相似程度达到或者高于我们预先设定的一个计算公式所得出的结果则认为匹配较好,则按照模板进行翻译,给出相应译文。如果没有达到设定阈值则将整理过的语句传递给再下一个翻译层次启动统计引擎进行翻译。

最后,当以上所有引擎翻译结果都不甚理想得情况下我们对经过各层次处理后的待翻译语句运用统计策略的翻译方法进行翻译并辅之以规则的方法对所得译文进行整理得到目标译文。

4 结束语

从整体来看,自动化专业文献多引擎翻译策略虽然具有众多的优势,但是只是在词语或短语层面进行翻译,各翻译引擎在实际的运作过程中的具体效用、引擎彼此之间隐含的问题(如兼容问题)、每个微引擎的进一步优化问题还有待在未来的实际运行中进一步验证,不过多引擎的理念现在已得到了认可,也是一个可行方向,相信通过不断的实践会有更实用的系统出现。

参考文献:

[1] 刘群. 机器翻译技术综述及面向新闻领域的汉英机器翻译系统[R]. 北京大学,2002.

[2] 李沐,吕学强,姚天顺.一种基于E-Chunk的机器翻译模型[J]. 软件学报,2002,13(4):669-675.