小编温馨提示
本周是《百面机器学习》人工智能领域热门应用相关章节连载的最后一期啦????
首先,让我们掌声恭喜在上一期的连载中获得福利的小伙伴 @魏雍Desmond,请留言或后台联系我们~
⚠️【最后一期重磅福利】本期连载我们将继续选取留言的幸运同学两位,送上有主创团队“签名开光”的《百面机器学习》书籍。最后一次发放福利啦,福利翻倍,大家走过路过,不要错过????
AI热门应用之“机器翻译”
机器翻译是什么?
机器翻译计算语言学的一个分支,也是人工智能领域的一个重要应用,最早的相关研究可以追溯到20世纪50年代。随着互联网的飞速发展,人们对语言翻译的需求与日俱增。根据维基百科的数据,目前在互联网上存在数百种不同的语言,其中英语内容占互联网全部内容的一半左右,而英语母语的互联网用户只占全部互联网用户的四分之一 。跨越语言屏障,获取互联网上的更多内容是持续增长的需求。
机器翻译,即通过计算机将一种语言的文本翻译成另一种语言的技术,是目前解决语言屏障的重要方法之一。早在2013年,谷歌翻译每天提供翻译服务就达十亿次之多,相当于全球一年的人工翻译量,处理的文字数量相当于一百万册图书。
机器翻译技术发展
机器翻译的研究经历了三个阶段:
基于规则的方法
基于统计的方法
基于神经网络的方法
在机器翻译研究的早期,主要使用基于规则的方法。机器翻译系统根据由语言专家编写的翻译规则来进行翻译,是一个机械式的过程。基于规则的方法受限于人工编写的规则的质量和数量,编写规则非常费时费力,且翻译规则无法用于不同的语言对之间。同时,规则数量增多,互相冲突的规则也随之增多,难以覆盖人类语言的全部情况,成为了机器翻译系统的瓶颈。
20世纪90年代,基于统计的机器翻译方法被提出,随后迅速成为了机器翻译研究的主流方法。统计机器翻译使用双语平行语料库(即同时包含源语言和与其互为译文的目标语言文本的语料库)作为训练数据。世人熟知的罗塞塔石碑(如图1所示)可以认为是古老的平行语料库,石碑上用圣书体、世俗体、古希腊语三种文字记录了相同的内容。正是罗塞塔石碑的发现才使得语言学家们获得了破译圣书体的钥匙。
图1:罗塞塔石碑
统计机器翻译模型从平行语料中挖掘出不同语言的词语间的对齐关系,基于对齐关系自动抽取翻译规则。一个经典的统计机器翻译模型通常包含翻译模型、调序模型和语言模型三部分。翻译模型负责估算单词、短语间互相翻译的概率,调序模型对翻译后的语言片段的排序进行建模,而语言模型则用于计算生成的译文是否符合目标语言的表达习惯。统计翻译模型减少了人工参与,模型本身和训练过程具有语言无关性,大大提升了机器翻译的性能和使用范围。
近年来随着基于神经网络的方法被引入这一领域,机器翻译的性能得到了大幅提高。据谷歌机器翻译团队披露,谷歌翻译于 2016 年 9 月上线中英神经网络模型,截至 2017 年 5 月,已经支持 41 对双语翻译模块,超过 50% 的翻译流量已经由神经网络模型提供。
神经网络模型同样需要使用平行语料库作为训练数据,但和统计机器翻译将模型拆解成多个部分不同,神经网络模型通常是一个整体的序列到序列模型。以常见的RNN为例(如图2所示),神经网络模型首先需要将源语言和目标语言的词语转化为向量表达,随后用RNN来对翻译过程进行建模。通常会先使用一个RNN作为编码器,将输入序列(源语言句子的词序列)编码成为一个向量表示,然后再使用一个RNN作为解码器,从编码器得到的向量表示里解码得到输出序列(目标语言句子的词序列)。
图2:RNN模型
神经网络模型近年来已经成为机器翻译领域研究和应用的热点,对于神经网络翻译模型有很多新的改进,例如LSTM、注意力机制、训练目标改进、无平行语料训练等等。机器翻译系统的性能正如日方升,一步步接近着人类水平。
机器翻译应用
目前来说机器翻译的效果还难以达到人类翻译的最高水平,但是随着机器翻译性能的提升,其应用场景也越来越多样化。谷歌2006年推出的谷歌翻译(Google Translate)已经走过十几个年头,目前已经支持上百种不同语言,提供了网页、手机客户端、程序API等多种访问方式。2017年5月的数据显示,谷歌翻译每天为5亿人次提供翻译服务。微软、百度、搜狗、网易等国内外公司也不断优化着自己的机器翻译服务,供大众使用。各种类型的机器翻译服务虽然暂时还无法完美用于书面翻译,但人们理解其他语言的壁垒已经大大降低,在很多场景下机器翻译都起到了很好的辅助作用。
出国旅游语言不通是很多人的一大痛点。
如左图的谷歌拍图翻译,各种手机APP的拍图翻译为人们提供了方便、快捷地看懂异国他乡的路标或菜单的方式。
国内百度、网易等公司将机器翻译成果用于旅游领域,推出专门的便携式翻译机(如右图所示),只要对着翻译机说出中文,就能自动帮用户翻译成其他语言,可谓是出国旅游神器。
伴随着机器翻译性能的提升,各大公司的目标也逐渐放到了同传领域。16年的乌镇互联网大会上,搜狗CEO在演讲中使用了实时机器翻译技术,能够实时地将演讲语音转换成文字并同步翻译成英文。18年的博鳌论坛引入了腾讯提供的机器翻译同传技术,然而实际效果并不尽如人意。可见,目前的机器翻译模型虽然已有长足的进步,但距离替代人类,在同传领域大展拳脚还有很长的一段路要走。
蒸蒸日上的机器翻译领域吸引着越来越多关注的同时,也面临着巨大的挑战。如何克服现有的缺陷(例如神经网络模型可解释性差的问题),实现翻译性能的进一步提高仍是一个待解决的问题。现阶段机器翻译的应用仍处于简单理解其他语言,辅助翻译等方面,离大规模替代人工翻译还有不小的差距。但随着业界的广泛关注,人才的不断涌入,机器翻译领域将持续蓬勃发展,人类世界的巴别塔也终会得以重建。
从下周开始,针对《百面机器学习》人工智能领域热门应用相关章节的连载也即将告一段落啦,相信各位同学从过往的文章中收获颇丰,欢迎大家持续学习书籍中的知识前沿,真正做到举一反三、知己知彼????
Never stop learning ????
《百面机器学习》业已上市
首日荣登京东计算机新书榜第1名
15位一线算法工程师的鼎力佳作
124道基于真实场景的原创面试题
内容丰富,讲解详实
无论是求职面试还是在职学习
这都是一本值得珍藏的技术宝典
现在入手,赢在起跑线
点击原文链接了解书籍详细情况及购买方式
现在下单还可以领券优惠~
点击阅读原文,直达现场了解更多