机器翻译都比人强了,为什么我还在复制粘贴查单词?

特别策划“这是全宇宙最奇特的生物。”

40年前,英国科幻作家Douglas Adams在他的《银河系漫游指南》中这样描述巴别鱼(bable fish):迷你黄色生物,水蛭状,以声音中的语言概念为食,消化后排出跟寄主同频的脑波。只要塞到耳朵里去,就可以听懂各种语言。

而在这个充满嬉皮风格的科幻作品中,来自地球的Arthur Dent也因为这条丑陋的鱼,能够完美地理解并与他遇到的各种外星种族交流。

机器翻译都比人强了,为什么我还在复制粘贴查单词?

自小说诞生,巴别鱼便成为了即时语音翻译的代名词。但在当时,人类的翻译技术距离这一目标仍遥不可及。

直到2014年,加拿大蒙特利尔大学的Kyunghyun Cho、Yoshua Bengio等人发布了一篇在机器翻译领域应用神经网络的论文——Neural Machine Translation by Jointly Learning to Align and Translate。

神经网络的出现,让优质高效的机器翻译不再遥遥无期。

机器翻译能力是如何赶超人类的?

神经网络迅速成为了近代机器翻译领域最有活力的“鲶鱼”。

短短两年,基于神经网络的机器翻译便已取代统计学派成为翻译领域的主流研究方法。谷歌、微软等公司也纷纷宣布将这个新的技术应用到其翻译等产品之中。两年来,神经网络翻译能力超过了翻译界过去几十年的成绩。神经网络翻译出现后,机器翻译的单词错误率降低了50%,词汇错误和语法错误率也都分别降低了15%以上。

而除神经网络的应用之外,机器翻译错误率的大幅度降低,还基于另一个条件——大规模精准平行语料数据集的积累。

决定机器翻译质量的因素中数据占据绝对的主导地位。数据量的大小和精准程度决定了机器翻译引擎的效果。