1. 跳转至内容
  2. 跳转至主菜单
  3. 跳转到更多DW网站

秒胜谷歌翻译 德国初创公司有绝招

Natalia Smolentceva
2018年12月16日

一家德国初创企业推出的翻译软件DeepL在翻译水平上让不少用户惊艳。与之相比,市场上其它通用翻译软件相形见绌。德国人做了什么与众不同的事?

https://p.dw.com/p/39t2C
Langenscheidt Wörterbücher | Spanisch
权威的德国朗氏字典已经成为“老黄历”?图像来源: Imago/J. Huebner

(德国之声中文网)涉足翻译软件的IT巨头如谷歌和微软面对的这个竞争对手虽小,但实力不输。与谷歌翻译等相比,来自德国科隆的初创企业DeepL的软件翻出的文字语句流畅自然得多。这家由一名前谷歌员工创建的公司与其它竞争对手比起来,有一个明显的优势。

这一产品运用了以人工神经网络为基础的所谓深度学习(Deep Learning)技术。为此,DeepL的研发者利用了一个现有的在线服务数据库。

从字典到翻译器

2009年,这家公司的在线双语词典Linguee.com上线。它的不同之处在于,除了列出词汇的各种翻译选项,还给用户提供大量来自现有原文的双语对照例句。

这些例句是由一种叫网络爬虫(Web-Crawler)的特殊网络机器人从互联网上搜集来的。许多例句来自欧盟等多边国际机构的官方文件。

一种经人工训练的学习算法对搜集来的文句的结构和含义进行分析计算,以期掌握特定的概念在外语中如何表达。此外用户还可以在Linguee字典应用中留下自己的反馈,并对翻译结果作评估。过去9年中,通过数量不断增加的高质量翻译文库,Linguee应用一直在得到完善。这也逐渐成为新的翻译工具DeepL的基础。

DeepL--深度学习

DeepL是deep learning的缩写,意思是深度学习。这是人工智能的一个方面,即模仿人类学习的方式。从前,编程员给每项任务编写单独的指令,由计算机去完成。现在,人们则打造一个人工神经网络,通过输入现有的范例可以对它进行训练。范例越多,电脑就能学得越好。对大量数据进行处理的技术可能,让这一机器学习的潜力得到进一步拓展。

Screenshot deepl Translator
DeepL上的英德互译图像来源: deepl

从技术上看,深度学习是一种结合运用多个层面信息处理的算法。"深度"指的是数据穿越的层级的数量。这一技术如今已运用于无人驾驶汽车、虚拟实境视听装置和人脸识别系统。现在它也被运用到了自动翻译中。

不光是学习

过去两年中在这一领域中,DeepL不是唯一运用深度学习技术的企业。互联网巨头谷歌、微软和Yandex也在尝试。不过DeepL与它们有所不同。

首先,人工神经网络的运行能力的基础是训练所使用的原始资料的质量。在此,DeepL得益于"大哥"Linguee,后者提供了数以十亿计的高质量翻译例句范文。

"Linguee的数据是高质量的训练素材",DeepL公司的发言人科达(Lee Turner Kodak)介绍说。他强调,DeepL成功的背后还不仅仅是数据的质量,"我们的研究人员熟悉这一领域的最新发展,开发了独一无二的神经网络架构。"

这一技术到底具体是如何构成的,是这家企业的秘密。DeepL可不想失去市场领先地位。

比谷歌翻译不止强一倍

为了检验翻译的质量,公司定期进行随机盲测,以保证应用软件的高水准。2017年8月进行的一次盲测的结果验证了DeepL自己设立的目标,即成为"世界上最好的翻译机器"。测试比较了DeepL、谷歌、微软和脸书的翻译功能。

人们分别给这几款翻译软件输入100个英文句子,让其翻译成德、法、西班牙语,同时也让它们将这三种文字的例句译成英语。然后由专业翻译对译文的质量进行评估。结果是,DeepL的答案被选为最佳译文的频率是谷歌的三倍,因为它们听起来更自然。

来自硅谷的投资

2018年12月初,DeepL宣布迎来了新的投资人--来自硅谷的风投公司Benchmark。发言人科达表示,DeepL计划建立一支25人的团队,在一年内将研发投入翻一番。

他说:"这个伙伴关系不仅意味着资金,还有人脉。我们将从投资人和其它创业公司的商业智能(BI)中学习到东西,他们在研发进程中走得比我们远。"

100种语言对9种

2018年12月5日,DeepL新推出了俄语和葡萄牙语的翻译服务。现在这一翻译软件已支持9种欧洲语言互译,共有72种组合可能。谷歌翻译则已覆盖100种语言。不过作为初创企业,DeepL更注重翻译的高质量,它的创立者相信,质量比数量更重要。

公司发言人科达说:"我们要成为最好的机器翻译系统。我们也希望能为每一种语言提供翻译。但不是一下子抛出好几百种,为了有而有。我们会先训练我们的网络,让它们能始终提供高质量的翻译。这也是我们创出名气的原因所在。"