电脑翻译的今昔与展望

人气 12
标签:

【大纪元6月15日讯】(大纪元记者安莉莉,石玲编译报导) 当人类社会在70年代中期大踏步地迈进了资讯时代之际,“资讯爆炸”使人类的相互交流急剧增长,人们对翻译匮缺的呼声日益强烈,于是,机器翻译技术被列为21世纪世界十大科技难题的第一位。眼下,一个位于加州马林那德尔雷(Marina del Rey, Calif.)的小公司正在研发一种技术,希望能够为现实世界带来“通用的翻译家”。

电脑翻译使用的新方法

语言编织公司(Language Weaver)是两名南加州大学电脑科学家于2002年创办,他们发展出一些方法,通过强行向电脑灌输大量文字内容来教电脑如何翻译。该项目的早期投资者包括美国中央情报局。

自1954年电脑翻译诞生以来,数十年使用的方法皆为向电脑输入翻译字典的字汇及它们在另一种语言的相应字、同时也输入文法、以及句子结构的各种规则。这个以规则为基础的方法随着时间的推移而变得更为复杂,也因为语言规则的不连贯和许多字汇的多重涵义而倍受打击。

二十世纪八十年代,IBM研究一种方法,即电脑不去理睬字典或者规则,而是分析文章内容和人对这些内容的翻译。这样,当电脑得到一份需要翻译的文字时,它就会搜查它的数据库,找出文章中每个字汇都是如何被使用的,再以统计分析为依据做出选择。

“这并非传统意义上的翻译,”语言编织公司总裁布里斯•本杰明(Bryce Benjamin)说,他的公司取得了IBM的技术许可并已经进一步发展了该技术。“我们所创造的是一种可能性预测法,其基础是为一个字汇而查看数百万条该字汇的翻译,然后选择最可能正确的那个翻译。”IBM取得了这个统计学方法的专利权,但是该方法仍然缓慢而吃力。更重要的是,查询足够的已翻译资料并将其数字化是一项十分巨大的工作。

语言编织公司的创始人丹尼尔•马库(Daniel Marcu) 和凯文•耐特(Kevin Knight)已发现一些方法提高IBM的技术。希望自己有朝一日能上市的语言编织公司说,它是提供纯粹统计式翻译产品的唯一公司。

在学术界,针对以规则为基础的方法和统计学方法的相对优点的争论十分激烈。许多研究人员认为若将以规则为基础的翻译法针对某个专有行业或者题材而予以修剪,就能够提供更高品质。另外许多人认为统计学方法在处理一般文章上是较为优越的。多数主要研究者说,最终,最好的语言软件将结合以规则为基础的方法和统计学技术。

目前发展状况

尽管轻便式翻译设备是一个长远的目标,语言编织公司的技术已被使用,亦即与声音辨认软件公司的产品,一起被用于电视节目的即时翻译。如果成功,这类项目可以帮助该公司赢得世界翻译行业的一杯羹。本杰明说:“这仍然处于早期阶段。”确实,专家们说,电脑要和人类翻译竞争还有很多年的路要走。

但是语言编织公司及其竞争者们,例如为Goggle、时代华纳美国在线、和雅虎提供多语种翻译技术的巴黎Systran公司,其翻译的精确度已经达到了多方面实用的水平。

语言编织公司的每种语言翻译软件的价格从2万元到10万元不等,取决于语言的晦涩程度──这比以规则为基础的传统翻译程式要贵了很多。公司创始人之一耐特说:“我们的优势是在文字上的高精确度。”

1968年创立的Systran公司现在提供40多种语言的产品,是最有名的以规则为基础的提供者。其首席执行长沙巴塔克(Dimitris Sabatakakis)说,在它的产品中,正在结合统计学方法。但是他说这些是该公司已在做的事情的延伸。“有所更新的是电子内容的有效性。我们现在有网路蜘蛛(crawlers)在网上寻找各种使用一个动词或者一个名词的不同方法。但那不是突破。”

本杰明说语言编织公司会发挥其最大实力继续在老字号电脑翻译公司没有重视的语言上做出努力。至于什么时候该技术会产生可以把讲话翻译成任何语言的手提工具,他则没有提供任何预测。但是“这是每个人都正在努力的目标。”

Google公司的机器翻译系统

不久前Google公司举行记者会除了演示他们使用卫星照片的地图搜索新服务外,也介绍了他们的机器翻译系统,并用一句阿拉伯句子为例将其翻为英文,显示了Google翻译的优秀品质。

Google公司利用互联网中已有的多语种并列的文档──例如联合国的网站中,就有许多把一个内容翻译成多种语言的文档,或是欧盟的文件。── Google把这样的文档群数据库化后进行解析,开发出了新型自动翻译系统,使用的也是统计学的方法。Google的优势在于该类文档的庞大数量,其总字数约为两万亿,相当于一百万本书籍。

尚未公开发行的Google自动翻译系统预计将有许多用途﹕将来消费者可以使用自己的母语搜索外国网站;毫无困难的浏览国外网站;也能在其搜索结果中发现非母语的网页已被翻译成自己的母语;发到国外的电子邮件已被翻译成当地语言;上网聊天也无语言隔阂;而最终预计将发展出Google的巴别鱼(Google Babelfish)。那应该是像MP3那样的小玩艺儿,可经由声音辨认功能将语言转化成文字档再翻译成特定语种播放出来。因此只要将耳机塞到耳中,就可跟任何外国人沟通了。到那时只要有了它,又何愁“天下谁人不识君”?

电脑翻译的瓶颈

“为广泛内容的各种资料提供优质的电脑化翻译就类似于完成人工智能一样,”位于匹兹保的卡内基•梅隆大学(Carnegie Mellon University)语言技术学院的资深系统科学家罗伯特•福莱德金(Robert Frederking)说,“语言从本质上讲是和我们人的行为联系在一起的。为解决语言上的大问题,你必须解决人工智能问题。”

设想一下,任何一个人,哪怕他把一本《英汉词典》背得滚瓜烂熟也当不成翻译,关键在于理解所翻译文章的意思,还要掌握各种相关知识。然而担任电脑翻译的机器并不理解所翻译的任何词句。因此让电脑“理解”人类语言应该是电脑翻译需要突破的焦点。所以需要通过“人工智能”的研究,让机器增加智能,像人那样学会用人类语言“思维”。如今这方面的发展还不很成熟,因此电脑翻译仍然远远赶不上优秀翻译家的功底。此外电脑翻译也会遇上许多拦路虎,如新字与冷僻字等。

不想再学习第二语言了吗?对不起,还需再等一段不算短的时日。

资料来源﹕ Los Angeles Times, The Christian Science Monitor, Corante。
(http://www.dajiyuan.com)

相关新闻
7月4日独立日 在哪看南加州壮观的烟花
社区座谈 杭市长与议员答争议性市规
南加州小西贡夜市 每周末欢庆到9月
美攻击直升机在印太首射新型导弹 击沉船舰
如果您有新闻线索或资料给大纪元,请进入安全投稿爆料平台
评论