G G. JeRRy 翻译中文翻译日文

相关词典网站:&&&&医生难言的事实-治疗与研究的抉择-中文翻译版&Jerry&Menikoff、E...
邀请好友参加吧
版 次:1页 数:241字 数:270000印刷时间:开 本:16开纸 张:胶版纸包 装:平装是否套装:否国际标准书号ISBN:8所属分类:&&&
下载免费当当读书APP
品味海量优质电子书,尊享优雅的阅读体验,只差手机下载一个当当读书APP
本商品暂无详情。
当当价:为商品的销售价,具体的成交价可能因会员使用优惠券、积分等发生变化,最终以订单结算页价格为准。
划线价:划线价格可能是图书封底定价、商品吊牌价、品牌专柜价或由品牌供应商提供的正品零售价(如厂商指导价、建议零售价等)或该商品曾经展示过的销售价等,由于地区、时间的差异化和市场行情波动,商品吊牌价、品牌专柜价等可能会与您购物时展示的不一致,该价格仅供您参考。
折扣:折扣指在划线价(图书定价、商品吊牌价、品牌专柜价、厂商指导价等)某一价格基础上计算出的优惠比例或优惠金额。如有疑问,您可在购买前联系客服咨询。
异常问题:如您发现活动商品销售价或促销信息有异常,请立即联系我们补正,以便您能顺利购物。
当当购物客户端手机端1元秒
当当读书客户端万本电子书免费读随笔 - 1536, 文章 - 0, 评论 - 0, 引用 - 0
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.NET/xbinworld。
技术交流QQ群:,欢迎对算法、技术感兴趣的同学加入。
上一篇博文描述了基本的Encoder-Decoder模型,在作为翻译模型的时候,这种基本的Encoder-Decoder模型有较大缺点,就是Encoder部分每一个输入对Decoder部分每一个输出的贡献都是一样的。下面先看一个例子[1],
输入的是英文句子:Tom chase Jerry,Encoder-Decoder生成:“汤姆”,“追逐”,“杰瑞”。
在基本模型中,每一个英文单词对杰瑞都是一样的贡献,这似乎是不太合理的;也就是说
没有引入注意力的模型在输入句子比较短的时候估计问题不大,但是如果输入句子比较长,此时所有语义完全通过一个中间语义向量来表示,单词自身的信息已经消失,可想而知会丢失很多细节信息,这也是为何要引入注意力模型的重要原因。如果引入AM模型的话,应该在翻译“杰瑞”的时候,体现出英文单词对于翻译当前中文单词不同的影响程度,比如给出类似下面一个概率分布值:
(Tom,0.3)(Chase,0.2)(Jerry,0.5)
即生成目标句子单词的过程成了下面的形式:
而每个Ci可能对应着不同的源语句子单词的注意力分配概率分布,比如对于上面的英汉翻译来说,其对应的信息可能如下:
其中,f2函数代表Encoder对输入英文单词的某种变换函数,比如如果Encoder是用的RNN模型的话,这个f2函数的结果往往是某个时刻输入xi后隐层节点的状态值(经过激活函数);g代表Encoder根据单词的中间表示合成整个句子中间语义表示的变换函数,一般的做法中,g函数就是对构成元素加权求和,也就是常常在论文里看到的下列公式:
假设Ci中那个i就是上面的“汤姆”,那么Tx就是3,代表输入句子的长度,h1=f2(“Tom”),h2=f2(“Chase”),h3=f2(“Jerry”),对应的注意力模型权值分别是0.6,0.2,0.2,所以g函数就是个加权求和函数。如果形象表示的话,翻译中文单词“汤姆”的时候,数学公式对应的中间语义表示Ci的形成过程类似下图:
这里还有一个问题:生成目标句子某个单词,比如“汤姆”的时候,你怎么知道AM模型所需要的输入句子单词注意力分配概率分布值呢?就是说“汤姆”对应的概率分布:
(Tom,0.6)(Chase,0.2)(Jerry,0.2)
是如何得到的呢?
为了便于说明,我们假设对图1的非AM模型的Encoder-Decoder框架进行细化,Encoder采用RNN模型,Decoder也采用RNN模型,这是比较常见的一种模型配置,则图1的图转换为下图:
注意力分配概率分布值的通用计算过程:
相当于在原来的模型上,又加了一个单层DNN网络,当前输出词Yi针对某一个输入词j的注意力权重由当前的隐层Hi,以及输入词j的隐层状态(hj)共同决定;然后再接一个sofrmax得到0-1的概率值。
写成公式[2]:
也就是说,si-1先跟每个h分别计算得到一个数值,然后使用softmax得到i时刻的输出在Tx个输入隐藏状态中的注意力分配向量。这个分配向量也就是计算ci的权重。我们现在再把公式按照执行顺序汇总一下[3]:
[3]作者还给了一个示意图:
上面主要在讨论解码,相比于上面解码的创新,编码就比较普通了,只是传统的单向的RNN中,数据是按顺序输入的,因此第j个隐藏状态h→j只能携带第j个单词本身以及之前的一些信息;而如果逆序输入,则h←j包含第j个单词及之后的一些信息。如果把这两个结合起来,hj=[h→j,h←j]就包含了第j个输入和前后的信息。
Attention机制的一个主要优势是它让我们能够解释并可视化整个模型。举个例子,通过对attention权重矩阵a的可视化,我们能够理解模型翻译的过程(相关词的关注点)。
当从法语译为英语时,网络模型顺序地关注每个输入状态,但有时输出一个词语时会关注两个原文的词语,比如将“la Syrie”翻译为“Syria”。
下面讨论一些RNN+NLP之外的AM的问题,这些参考[4]
Attention的成本
如果再仔细观察attention的等式,我们会发现attention机制有一定的成本。我们需要为每个输入输出组合分别计算attention值。50个单词的输入序列和50个单词的输出序列需要计算2500个attention值。这还不算太糟糕,但如果你做字符级别的计算,而且字符序列长达几百个字符,那么attention机制将会变得代价昂贵。
其实它和我们的直觉恰恰相反。人类的注意力是节省计算资源的。当专注于一件事时,我们能忽略其它事情。但这并不是我们上一个模型的作法。我们在决定专注于某个方面之前先仔细观察每件事。直观地说,这相当于输出一个翻译后的词语,然后遍历记忆里所有文本再决定下一个输出什么。这似乎是一种浪费,而且没人会这么干。事实上,它更类似于内存访问,不是attention,在我看来有点儿用词不当(下文会继续讨论)。不过,这并没有阻碍attention机制的流行传播。
attention的另一种替代方法是用强化学习(Reinforcement Learning)来预测关注点的大概位置。这听起来更像是人的注意力,这也是Recurrent Models of Visual Attention文中的作法。然而,强化学习模型不能用反向传播算法端到端训练,因此它在NLP的应用不是很广泛(我本人反而觉得这里有突破点,数学上的不可求解必然会得到优化,attention model在RL领域的应用确实非常有趣)。
机器翻译之外领域的Attention机制
到目前为止,我们已经见识了attention在机器翻译领域的应用。但上述的attention机制同样也能应用于递归模型。让我们再来看几个例子。
在Show,Attend and Tell一文中,作者将attention机制应用于生成图片的描述。他们用卷积神经网络来“编码”图片,并用一个递归神经网络模型和attention机制来生成描述。通过对attention权重值的可视化(就如之前机器翻译的例子一样),在生成词语的同时我们能解释模型正在关注哪个部分。
在Grammar as a Foreign Language论文中,作者用递归神经网络模型和attention机制的来生成语法分析树。可视化的attention矩阵让人深入地了解网络模型如何生成这些树:
在Teaching Machines to Read and Comprehend论文里,作者利用RNN模型读入文本,先读入一个(合成的)问题,然后产生一个答案。通过将attention可视化,我们可以看到网络模型在试图寻找问题答案的时候关注哪些方面:
ATTENTION = (FUZZY) MEMORY?
attention机制解决的根本问题是允许网络返回到输入序列,而不是把所有信息编码成固定长度的向量。正如我在上面提到,我认为使用attention有点儿用词不当。换句话说,attention机制只是简单地让网络模型访问它的内部存储器,也就是编码器的隐藏状态。在这种解释中,网络选择从记忆中检索东西,而不是选择“注意”什么。不同于典型的内存,这里的内存访问机制是弹性的,也就是说模型检索到的是所有内存位置的加权组合,而不是某个独立离散位置的值。弹性的内存访问机制好处在于我们可以很容易地用反向传播算法端到端地训练网络模型(虽然有non-fuzzy的方法,其中的梯度使用抽样方法计算,而不是反向传播)。
记忆机制本身的历史更久远。标准递归网络模型的隐藏状态本身就是一种内部记忆。RNN由于存在梯度消失问题而无法从长距离依赖学习。LSTM通过门控机制对此做了改善,它允许显式的记忆删除和更新。
更复杂的内存结构的趋势还在延续。End-To-End Memory Networks一文中的方法允许网络在输出内容前多次读入相同的序列,每一步都更新记忆内容。举个例子,输入一个故事,在经过多步推理之后回答一个问题。然而,当网络参数的权重以某种特定方式被绑定,端到端记忆网络的记忆机制就和这里所介绍的attention机制一样了,只是它是多跳的记忆(因为它试图整合多个句子信息)。
神经图灵机器使用类似的记忆机制,但有一个更复杂的解决方案,它同时基于内容(如在这里)和位置,使网络模型通过学习模式来执行简单的计算机程序,比如排序算法。
在将来,我们很可能看到记忆机制和attention机制之间有更清晰的区别,也许是沿着Reinforcement Learning Neural Turing Machines,它尝试学习访问模式来处理外部接口。
本文实际上是对网络上的一些很棒的博文的整理,便于自己以后回忆理解,实际上网上写的东西一般都比较浅显易懂,但是真正要理解还是建议看一下相关论文,基本的两篇推荐[2][6],更多论文可以参考网页[7][8]的参考文献;最后再推荐一个网页文章[5],介绍了RNN模型在Attention以及Memory方向的一些变化,总结的很不错,后面有时间我再用自己的理解来记录一下,看完本文的同学可以看看:)
[2] NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE
[6] Sequence to Sequence Learning with Neural Networks, 2014, Google英文名Jerry是什么意思_英文名_911查询
输入中文名字定制英文名字,输入英文名字查询解释
Jerry Jerry的意思 Jerry是什么意思 Jerry什么意思 Jerry的中文名 Jerry的音译 Jerry的中文翻译 Jerry的解释 Jerry的中文姓名
英文名Jerry ['d?eri]
中文名杰丽
来 源美式英语、英语
寓 意神圣的
名 人言承旭、李晨、罗百吉、袁成杰
| 英文名首字母:
英文名为您提供Jerry,Jerry的意思,Jerry是什么意思,Jerry什么意思,Jerry的中文名,Jerry的音译,Jerry的中文翻译,Jerry的解释,Jerry的中文姓名
Jerry 相关英文名
英文名中文性别来源寓意法语英语坚强的拉丁语;德语西班牙语;英语猎犬法语;英语苏格兰语;古英语优雅的拉丁语;以色列语神圣的名字古英语德语;意大利勇敢的俄语持矛者英语奥里吉纳尔奥里吉纳尔亲爱的希腊语;乌克兰语拉丁语凯尔特语非洲语印度语俄语梵语;印度语
别人正在查
911查询 全部查询 网址:
(共20个)占卜求签
(共17个)民俗文化
(共16个)交通出行
(共10个)学习应用
(共26个)休闲娱乐
(共10个)站长工具
(共8个)身体健康
&2017  京ICP备号-6 京公网安备30 【G+】柏木由纪Google+翻译 _柏木由纪吧_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名:今日本吧第个签到,本吧因你更精彩,明天继续来努力!
本吧签到人数:0成为超级会员,使用一键签到本月漏签0次!成为超级会员,赠送8张补签卡连续签到:天&&累计签到:天超级会员单次开通12个月以上,赠送连续签到卡3张
关注:298,319贴子:
【G+】柏木由纪Google+翻译 收藏
今天的唱片大赏和明天的红白其实还有CDTV,今天妹纸们最后的3个舞台,让我们为她们加油到最后吧!!PS:1、31日还有明年的1月1日和2日伪饭我因为要出远门,可能不方便更新大小姐的博客和G+,所以请假3天。
2、司酱是萌妹纸
大皇帝页游新区入口,三国SLG战争页游,点击领取礼包,新服送首冲高返利!
CDTV的彩排顺利结束啦...现在到家啦!今年还剩下2天了!开开心心地过哦-。
期待红白~ ps:司酱是萌妹子
期待红白PS:司酱是个萌妹子
同期待ps:司酱是个萌妹纸
开心过完年yukirin
yukirin加油!PS:司酱真是萌妹子
这货的G+越来越简洁了ps:司酱是个萌妹纸
翡翠原石:购买、加盟、批发-高货翡翠原石尽在鑫劦飞翡翠年代翡翠原石集团
那杰瑞哥哥回来的时候会补上吗?
深夜更新啊,真是辛苦啦
吧里日语达人很多的,我想到时候会有人及时翻译的
jerry这么早起来更新辛苦了~~好期待红白啊~~
同期待红白。。。PS:司酱是个萌妹纸
yukirin要开心哟~好期待红白~杰瑞辛苦啦~
这能睡多久啊
大小姐和大家都要开心PS:司酱是谁
yukirin加油~~~PS:虽然不太明白,但是司酱是个萌妹纸。
3天 玩开心点
加油啦~~PS:司酱是个萌妹纸
哦,那你好好去玩吧@
好好出行吧
好好办事吧PS:司酱是个萌妹子
期待红白啊~~!
登录百度帐号推荐应用}

我要回帖

更多关于 绝地求生界面中文翻译 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信