侵权投诉
焊接机器人 喷涂机器人 搬运机器人 装配机器人 切割机器人 其它机器人
订阅
纠错
加入自媒体

【专访】机器之心独家对话百度 NLP:先解决语义理解,再谈机器翻译取代人类

2016-12-05 16:08
kumsing
关注

  机器之心:那么百度是否有相关的研究?

  答:百度在这方面的研究起步很早,成果也非常多。而且,我们的神经网络翻译系统早在2015年5月就正式上线发布了。

  我们从2014年开始便尝试做基于神经网络的翻译系统,2015年发布在线翻译系统的时,BLEU(Bilingual Evaluation Understudy)指标已经比传统的SMT(统计机器翻译)系统高六、七个点。我们同时还开发了离线版本,可以在手机上使用,

  当时学术界对于深度学习的翻译方法到底是否实用还有一番争论,我们很早就发现基于Attention机制的Seq2Seq深度学习模型是有用的,经过多次实验验证,在很多集合上超过了传统方法。同时,针对NMT本身存在的一些问题,进行了技术攻关,短短3个月的时间便完成了开发和上线。当大家还在讨论Attention机制时,我们已经结合了原有的统计方法上线。可以说,百度翻译是全球首个互联网神经网络翻译系统。

  机器之心:NMT(基于神经网络的翻译系统)效果就真的好于SMT(基于统计的翻译系统)吗?或者说他会在哪个方面会好于SMT呢?

  答:机器翻译目前是两大流派,一大流派是统计翻译模型(SMT),在整个业界已经持续了20多年的研究。另一个就是基于神经网络的翻译模型(NMT),过去的两年发展比较迅速。

  从很多公开的评测上能看出,基于神经网络的翻译系统已经取得了比以前系统更好的成绩。这两大翻译系统我们一直在向前推进研究。总体上来说,基于神经网络的翻译系统,在长句翻译上有明显优势。

  机器之心:可以从技术角度具体解释下吗?

  答:从整体看,在数据训练比较充分,比如有大数据集的时候,NMT效果是好于SMT的。一句英文翻译成一句中文,这算一个句对。如果中文和英文之间的双语语料对有很多,那么NMT整体上好于SMT。

  原因就在于,SMT以前用的都是局部信息,处理单位是句子切开以后的短语,最后解码时将几个短语联系在一起,并没有充分利用全局信息。NMT则利用全局信息,整个句子的信息解码后,才生成结果。这就是它的优势,也是其在流畅性上更胜一筹的原因。

  再进一步,翻译有一个很重要部分是「语序调整」。比如中文会把所有的定语都放在中心词前面,英文则会把修饰中心词的介词短语放在后面,机器常混淆这个顺序。NMT在语序学习上的优势也带来了它翻译的流畅性。

  而SMT在短句或者数据较小的情况下,优势较为明显。以成语翻译为例,实际上不是意译而是直译,必须在语料库中有对应内容才能翻译出来。NMT的翻译过程决定了其有时不能很好的处理这类问题。

  如今互联网用户的需求是多种多样的。翻译涉及口语、简历、新闻等多领域,一种方法很难满足所有的需求。因此现在百度的翻译系统中包含了SMT、NMT,甚至还有传统的EBMT。所以,一个线上服务的翻译系统,其实是综合的系统。

  不过从整个大趋势看,随着神经网络技术的进一步发展,它会越来越成为主流。目前在我们的中、英、日、韩等多个系统中,它就是主流。

  机器之心:那么能否通过不断增加网络层数来提升NMT效果?

  答:在网络层数的增加过程中,成本、复杂度也随之提升。并不是线性地增加网络层数,收益比就更高,我们会去继续研究,但并不代表不断增加层数就一定是好方法。

  就翻译本身这个任务,现在有两大问题造成翻译效果不好。一是在于,训练语料本身是有噪音的,我们花费了大量时间和精力研究怎样找到更好的训练语料,怎样清洗出更好的语料。第二个是模型本身的不完美性,我们会不断优化。这两大方面的工作都是我们的重点。

  获取数据与解决语料稀疏问题

  机器之心:刚才有提到NMT是非常依赖数据规模的,以及训练语料中的噪音问题,如何获得高质量的训练数据?

  答:我们能获取的语料很多,比如网络上存在的大量翻译句对,但这些数据存在三个问题。

  第一个在于它们可能是机器翻译产生的语料。因为机器翻译技术已经比较普及,尤其是医疗方面有大量的机器翻译产生的语料。由于国外的医疗研究比国内先进,很多人会借助机器翻译技术来看文档。而这种语料若进入语料库,翻译系统学出来的还是机器翻译的句子。

  第二种噪声是来自于恶搞。比如我们最早的时候看到「howoldareyou」,翻译成「怎么老是你」。因为语料里面「howoldareyou」,全是「怎么老是你」,出现频次非常高。

  第三种是翻译得不地道的。互联网上翻译内容的人不一定是翻译水平很高的人,他们在翻译文章时会自己加入一些内容。这种是比较难识别的,因为很零散。

  针对每一类噪声,我们都会建立一个不同的质量检测模型,结合了翻译自身的技术以及互联网技术。机器翻译的语料是不能用机器翻译的概率特征过滤的,比如「howoldareyou」每个对齐,怎么(how)老(old)是(are)你(you),翻译得特别完美肯定无法过滤。所以我们一般从网站本身的权威性着手,对于权威性低的,相应高置信度就要打低。此外,我们还通过识别翻译特征判断其是否为机器翻译语料,比如:流畅性不好、语序不对等等。

<上一页  1  2  3  下一页>  
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号