苹果手机pock苹果x放大框怎么去掉掉

Chambolle-Pock框架下图像重建的TV算法研究--《中北大学》2017年硕士论文
Chambolle-Pock框架下图像重建的TV算法研究
【摘要】:计算机断层成像(Computed Tomography,CT)是通过从物体外部检测到的数据来重建物体内部横截面信息,作为最先进的无损检测手段,目前已广泛应用于医疗和工业等领域。在保证重建图像精度的基础上,尽量减少对病患的辐射剂量是目前该领域所面临的主要问题。但是在传统的奈奎斯特采样定理限制下,要进行稀疏重建是很难实现的。压缩感知(Compressive Sensing,CS)理论的提出为以上问题的解决提出了新思路,可以在远低于奈奎斯特采样频率的情况下高精度重建出目标信号,从而用于稀疏数据的CT图像重建中。TV(Total Variation,全变差)最小算法是一种经典的基于CS的图像重建算法。ASD-POCS算法是一种求解TV最小化重建模型的有效算法,但因为它是根据最优化理论设计出来的,算法参数较多,调试困难。鉴于此,本文研究基于Chambolle-Pock(CP)算法框架的TV算法。本文实现了三种CP算法:l_2~2-TV算法、l_1-TV算法以及约束的l_2-TV算法,分析了l_2~2-TV算及l_1-TV算法中平衡因子对重建精度的影响,讨论了算法对噪声的敏感性;与滤波反投影(FBP)算法做了精度比较;最后比较了参数预处理算法与普通算法的收敛速度。仿真实验表明,以上三种基于CP框架的算法均能实现高精度稀疏重建,其中l_1-TV算法相比较而言具有较高的抗噪性。
【学位授予单位】:中北大学【学位级别】:硕士【学位授予年份】:2017【分类号】:TP391.41
欢迎:、、)
支持CAJ、PDF文件格式
【参考文献】
中国期刊全文数据库
李鹏;王建新;;[J];传感器与微系统;2016年05期
张成;杨海蓉;程鸿;韦穗;;[J];光电子.激光;2013年04期
焦鹏飞;李亮;赵骥;;[J];CT理论与应用研究;2012年01期
焦李成;杨淑媛;刘芳;侯彪;;[J];电子学报;2011年07期
孙林慧;杨震;;[J];信号处理;2010年06期
刘丹华;石光明;周佳社;高大化;吴家骥;;[J];红外与毫米波学报;2009年04期
刘长红;杨扬;陈勇;;[J];计算机应用;2009年08期
石光明;刘丹华;高大化;刘哲;林杰;王良君;;[J];电子学报;2009年05期
张顺利;张定华;王凯;黄魁东;李卫斌;;[J];核电子学与探测技术;2007年03期
张顺利;张定华;赵歆波;;[J];计算机应用研究;2007年05期
【共引文献】
中国期刊全文数据库
戴光智;;[J];科技通报;2017年07期
黄勇其;史文博;周志勇;庞树茂;佟宝同;赵凌霄;戴亚康;;[J];计算机与数字工程;2017年07期
刘厦;刘石;;[J];动力工程学报;2017年07期
胡行华;史明洁;;[J];传感器与微系统;2017年07期
裴志军;王雅欣;;[J];天津职业技术师范大学学报;2017年02期
程涛;;[J];探测与控制学报;2017年03期
吕伟杰;张飞;胡晨辉;;[J];控制与决策;2017年08期
刘尚;安效峰;陈明;;[J];舰船电子工程;2017年06期
王蓉蓉;李平;曾毓敏;韦怡;;[J];南京师范大学学报(工程技术版);2017年02期
程玉虎;乔雪;王雪松;;[J];电子学报;2017年06期
【二级参考文献】
中国期刊全文数据库
陈岩;谭婷;高峰;王克栋;郭宏;;[J];传感器与微系统;2015年10期
文春武;宋杰;姚家振;;[J];传感器与微系统;2014年12期
张波;刘郁林;王开;王娇;;[J];电子与信息学报;2014年04期
蒋畅江;石为人;唐贤伦;王平;向敏;;[J];软件学报;2012年05期
王芳;;[J];光电子.激光;2012年01期
张成;杨海蓉;沈川;韦穗;;[J];光电子.激光;2012年01期
杨海蓉;方红;张成;韦穗;;[J];自动化学报;2011年03期
刘哲;杨扬;;[J];光电子.激光;2011年02期
杨海蓉;张成;丁大为;韦穗;;[J];电子学报;2011年01期
李树涛;魏丹;;[J];自动化学报;2009年11期
【相似文献】
中国期刊全文数据库
郭海峰,杨康;[J];仪器仪表学报;2001年S2期
潘晋孝,韩焱,缪丽娜;[J];测试技术学报;2001年04期
夏平;[J];电气电子教学学报;2001年03期
张连顺,张春平,王新宇,祁胜文,田建国;[J];激光与光电子学进展;2002年04期
梁淼林;[J];卫生职业教育;2003年08期
海鹰,姜红军,平子良;[J];内蒙古师范大学学报(自然科学汉文版);2003年04期
肖斌;[J];计量技术;2004年09期
张兆田,张朋;[J];电子与信息学报;2004年10期
任变青,潘晋孝;[J];华北工学院学报;2004年06期
潘晋孝,韩焱,刘清珺;[J];中国体视学与图像分析;2005年03期
中国重要会议论文全文数据库
张海南;汤日杰;张书旭;蔡霜;彭俊琴;张爱芳;;[A];2010中华医学会影像技术分会第十八次全国学术大会论文集[C];2010年
程玉雄;曹良志;吴宏春;郑友琦;张宏博;;[A];第五届反应堆物理与核材料学术研讨会、第二届核能软件自主化研讨会会议摘要集[C];2011年
康克军;王石;;[A];第7届全国核电子学与核探测技术学术年会论文集(三)[C];1994年
王春海;肖斌;;[A];《制造业自动化与网络化制造》学术交流会论文集[C];2004年
王春海;肖斌;;[A];先进制造技术论坛暨第三届制造业自动化与信息化技术交流会论文集[C];2004年
孙朝明;汤光平;王增勇;李强;;[A];全国射线数字成像与CT新技术研讨会论文集[C];2012年
张勇;何彬;张全虎;冯朝;;[A];中国核科学技术进展报告——中国核学会2009年学术年会论文集(第一卷·第5册)[C];2009年
张挺;朱双华;;[A];第十五届全国图象图形学学术会议论文集[C];2010年
印胤;刘力;孙功星;;[A];第11届全国计算机在现代科学技术领域应用学术会议论文集[C];2003年
王得水;常宇;高斌;轩艳娇;马鑫蕊;张娅;;[A];第十届全国生物力学学术会议暨第十二届全国生物流变学学术会议论文摘要汇编[C];2012年
中国重要报纸全文数据库
沈小平;[N];医药经济报;2001年
中国博士学位论文全文数据库
张砚;[D];复旦大学;2014年
侯庆锋;[D];南方医科大学;2015年
赵佳;[D];天津大学;2015年
谭梧浩;[D];浙江大学;2016年
易茜;[D];天津大学;2015年
袁则循;[D];中国矿业大学(北京);2016年
王斯琪;[D];西安电子科技大学;2015年
谢维斯;[D];湖南大学;2015年
彭亚丽;[D];西安电子科技大学;2013年
郭敏;[D];浙江大学;2016年
中国硕士学位论文全文数据库
胡玉叶;[D];中南民族大学;2014年
苏渤力;[D];西南交通大学;2015年
胡自强;[D];曲阜师范大学;2015年
白静;[D];浙江大学;2015年
陈智;[D];浙江大学;2015年
任晓辰;[D];华北电力大学;2015年
魏夏平;[D];南方医科大学;2015年
崔阳;[D];北京化工大学;2015年
薛玉艳;[D];大连理工大学;2015年
袁媛;[D];南方医科大学;2015年
&快捷付款方式
&订购知网充值卡
400-819-9993拒绝访问 | www.ooqiu.com | 百度云加速
请打开cookies.
此网站 (www.ooqiu.com) 的管理员禁止了您的访问。原因是您的访问包含了非浏览器特征(34cc0-ua98).
重新安装浏览器,或使用别的浏览器&figure&&img src=&https://pic1.zhimg.com/v2-1bd780e24b483b4e26dd7_b.jpg& data-rawwidth=&744& data-rawheight=&459& class=&origin_image zh-lightbox-thumb& width=&744& data-original=&https://pic1.zhimg.com/v2-1bd780e24b483b4e26dd7_r.jpg&&&/figure&文丨Rubberso&br&&p&「信息大爆炸」常常用来形容我们面对信息过载时的焦虑心情。其实我认为用「消息大爆炸」来描述这种互联网时代手足无措的感觉,可能会更贴合一些。&br&&/p&&p&「消息」和「信息」两个词只差了一个字,我相信很多人并不清楚它们之间的差别。实际上在通信领域,两者还是有着比较明显的区分。&/p&&p&「通信的目的是传输&b&消息&/b&。&b&消息&/b&具有不同的形式,例如文字、图片和音乐等等。而&b&信息&/b&可被理解为&b&消息&/b&中包含的有意义的内容。不同形式的&b&消息&/b&,可以包含相同的&b&信息&/b&。」&/p&&p&互联网改变了消息的流通方式,但信息的价值其实并没有被成比例的提升。很多时候我们把时间、精力浪费在了对消息的追逐上,而消息是转瞬即逝的。当你感觉到「信息大爆炸」时,有没有想过其实你缺少的是高效获取信息的手段,这才是爆炸的中心。&br&&/p&&p&作为一个互联网媒体的文字工作者,我每天都需要和大量的消息打交道。如何更高效地从消息中获取信息,并产出更有价值的内容,就成为了非常重要的一项「生存技能」。&br&&/p&&p&通信领域「消息——信息」的转换思维深刻地影响着我的工作。作为一名比特世界的「信息猎手」,我很愿意分享一些自己在信息获取上的思考。&/p&&h2&信息获取:重新掌握主动权&/h2&&p&通信中还有这样一个定义:&b&消息的价值是由它的接受者来定义的,跟消息的重要程度或形式无关。&/b&放到实际情况来说&b&,&/b&如果想要从消息中得到更多的信息,就需要根据自己的情况(目的)制定一套独一无二的阅读方案。&/p&&p&举例来说,微信公众平台已经成为很多人首要(甚至是唯一)的阅读渠道。必须承认的是,微信公众平台是一个伟大的产品,它极大地简化了消息产出、阅读和分享的成本,但它的局限性也是很明显的。&br&&/p&&p&虽然关注一个公众号是主观上的决定,但在这之后你接受到的消息实际上是公众号管理者安排好的。换句话说,阅读上的主动权并不掌握在你的手里。大多资讯聚合类 app 也会存在类似的问题,随着 AI 推荐算法的引入,阅读会渐渐变成一个机器给你「投喂消息」的过程。&/p&&p&作为一个「信息猎手」,首先要避免单一的信息获取渠道。接下来要做的就是阅读倾向上从「获取消息」向「获取信息」转变,即尽可能去减少人工筛选消息的步骤。对于我个人来说,我将需要获取的信息按照时间纬度划分成了 3 个层级:&/p&&ul&&li&需要第一时间知道的信息&/li&&li&需要及时知道的信息&/li&&li&可能对以后会有帮助的信息&/li&&/ul&&p&&b&「需要第一时间知道的信息」&/b&包括一些大公司的动态,重磅产品的发布信息等, 需要比较高的时效性。这个层级我使用的工具是即刻 app 和 Google Alert 服务,两者均拥有非常定制化的提醒方式。&/p&&p&&a href=&https://link.zhihu.com/?target=https%3A//www.ruguoapp.com/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&即刻 app&/a& 吸引人的地方在于它并不是按照领域去区分消息,取而代之的是设置类似「NASA 又搞大新闻了」、「Nintendo Switch 新动向」这种目的性很强的「提醒」,而通过手机的通知机制可以第一时间告知用户。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-f998a318b5bb7efe05aea8_b.jpg& data-rawwidth=&744& data-rawheight=&425& class=&origin_image zh-lightbox-thumb& width=&744& data-original=&https://pic1.zhimg.com/v2-f998a318b5bb7efe05aea8_r.jpg&&&/figure&&p&即刻 app 主要用于移动平台,网页端我使用 &a href=&https://link.zhihu.com/?target=https%3A//www.google.com/alerts%3Fhl%3Dzh-CN& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Google Alert&/a& 服务作为补充。它可以按照关键字去追踪一些信息,一旦出现新内容便通过邮件或 RSS 的方式进行提醒。另外,&a href=&https://link.zhihu.com/?target=http%3A//www.techmeme.com/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Techmeme&/a& 网站的「Top News」也可以作为获得重要信息的一个补充渠道。&/p&&p&&b&「需要及时知道的信息」&/b&指那些有一定的时效性,但需要进一步思考、处理的信息。这个层级的信息我会尽量安排固定的获取时间(每天早中晚三次),使用的工具是 Reeder、微博和 Twitter。&/p&&p&Reeder 是一款聚合类的 RSS 阅读工具,它能将各大中外网站、社区和博客的内容聚集在一起,避免了反复切换窗口去获取不同平台的信息。在 Reeder 内还可以对信息源进一步分类(甚至可以按照 GTD 的思路去整理),增加阅读时的目的性。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-1b7d897acbe3fe58d6b44b_b.jpg& data-rawwidth=&744& data-rawheight=&396& class=&origin_image zh-lightbox-thumb& width=&744& data-original=&https://pic1.zhimg.com/v2-1b7d897acbe3fe58d6b44b_r.jpg&&&/figure&&p&微博、Twitter 上我关注了一些互联网领域的官微(官推)、专业机构等,并为他们设置了特别的分组,利用碎片化时间可以随时了解大家的动态。不过微博、Twitter 对于我来说起到的作用更多是「提醒平台」,当看到有价值的信息时我会通过搜索引擎检索信息源,并不会长时间停留在平台上阅读。&/p&&p&&b&「&b& 可能对以后会有帮助的信息&/b&」&/b&则可以划分到深度阅读的范畴,这部分信息不具备时效性,经过了一定的沉淀,需要花更整块的时间(例如每天睡前)进行阅读和思考。这个层级信息我会通过 Instapaper 和 Kindle 获取。&/p&&p&&a href=&https://link.zhihu.com/?target=https%3A//www.instapaper.com/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Instapaper&/a& 是一款著名的「稍后读」应用,它可以对网页的内容进行「二次加工」,帮助我们去除那些影响阅读的元素(广告、推荐信息等)。当我进行这个层级的阅读时,我会通过 Chrome 的拓展程序将待读的文章发送到 Instapaper 内,最后再回到 Instapaper 中进行统一阅读。&br&&/p&&figure&&img src=&https://pic3.zhimg.com/v2-b9d1a7eb32bc3f994cbc593c10be3b03_b.jpg& data-rawwidth=&744& data-rawheight=&476& class=&origin_image zh-lightbox-thumb& width=&744& data-original=&https://pic3.zhimg.com/v2-b9d1a7eb32bc3f994cbc593c10be3b03_r.jpg&&&/figure&&p&Kindle 用于阅读购买的书籍,也会订阅一些诸如知乎周刊之类的电子杂志。跟很多人不太一样,我会尽量避免使用「Send to Kindle」将一些碎片化的内容推送到 Kindle 上阅读。&/p&&p&在这套阅读体系中,微信公众平台并不是任何一个层级的必要元素,但可以把它作为一个灵活的、碎片化阅读的一种补充。当然,每个人的阅读习惯是不同的,使用的工具也是千差万别的。你完全可以按照阅读的深浅或阅读的种类去进行分级,建立属于自己的信息获取体系。&/p&&p&重新掌握获取信息的主动权,绝对是一项「磨刀不误砍柴工」的工作。在建立信息获取体系时,我有以下的经验:&/p&&ul&&li&尽可能地利用软件、工具本身的特性进行「消息——信息」的转换,增加到达手上的信息比例。&/li&&li&当你的阅读中心为资讯类平台时,最好选择可定制化强的平台(例如&a href=&https://link.zhihu.com/?target=http%3A//qingmang.me/reading/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&轻芒阅读&/a&)。&/li&&li&不要吝啬为一些优质的工具付费,它们带来的效率提升是「值回票价」的。&/li&&li&请理性对待 RSS 源,并不加的越多读的越多。&/li&&/ul&&h2&信息存储:建立自己的「信息仓库」&/h2&&p&拥有一个高效的信息获取方式,对于「信息猎手」来说并不是终点。&/p&&p&信息的另一个特点是「可存储性」,当一条信息能够被妥善地分类存储,并能够方便地回看时,才能最大化地发挥出它们的价值。实际上,我们每天都在做信息储存的工作:微博、微信上看到好玩的内容点个收藏,网站上看到不错的文章存个书签……&/p&&p&但当我们的信息存储在不同的平台时,检索信息时需要先回忆信息的来源,信息越多这项工作将越复杂。作为「信息猎手」可以进一步完善的地方就在于,如何通过一个平台管理不同渠道的内容。我理想中的「信息仓库」要具备以下特质:&/p&&ul&&li&支持跨平台使用,PC、手机之间可以无缝切换。&/li&&li&兼容主流的资讯、社交 app,添加内容方便(例如支持 Share Sheet)。&/li&&li&服务器稳定,同步速度快。&/li&&/ul&&p&信息存储的核心是「信息整理」,这方面有着不同的流派:有些人喜欢使用稍后读类的工具(Instapaper、Pocket)进行信息整理,特点是简单方便,使用上逻辑清晰;还有些人喜欢围绕&a href=&https://link.zhihu.com/?target=https%3A//www.baidu.com/link%3Furl%3Dtvw_TUNtmlhyAJ_WQOsDMWxau7JWu88N2v36ct-uHbVH4iH_i9eoeRB2xurtq4by%26wd%3D%26eqid%3Dc321a04efe0& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&印象笔记&/a&、&a href=&https://link.zhihu.com/?target=http%3A//note.youdao.com/noteintro.html%3Fvendor%3Dunsilent19& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&有道云笔记&/a&进行信息整理,方便增补自己的想法。&/p&&p&我个人属于「链接派」,因为日常需要存储的信息(文章)都是以链接为导向的。我目前使用的工具是 &a href=&https://link.zhihu.com/?target=https%3A//linnk.net/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Linnk&/a&,这是一个国内团队做的云端书签收藏夹,可以把各个渠道的链接(微信、网页)汇聚在一起,并能方便进行分类整理和回看。另外 Linnk 本身也提供了稍后读的功能,也可以将它作为一个阅读工具去使用。&/p&&figure&&img src=&https://pic2.zhimg.com/v2-8d0c8ac5f502c9c37aca2370caae867e_b.jpg& data-rawwidth=&744& data-rawheight=&455& class=&origin_image zh-lightbox-thumb& width=&744& data-original=&https://pic2.zhimg.com/v2-8d0c8ac5f502c9c37aca2370caae867e_r.jpg&&&/figure&&p&另外我也会使用 &a href=&https://link.zhihu.com/?target=https%3A//www.ulyssesapp.com/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Ulysses&/a& 进行信息存储。虽然 Ulysses 是一款 Markdown 语言的写作工具,官方并没有定义它的其他功能。但是我利用它兼容 iCloud 同步的特性,把一些零碎的想法,看到的观点记录其中,这样在不同的平台都能随时写几笔。&/p&&p&上面已经提到了,信息存储的核心是「整理」而不是「存储」这个动作本身。避免让你的「信息仓库」变成有去无回的黑洞,如果你发现自己储存了很多信息但后来并没有用上,停下来想想是不是你需要更加明确的存储目标,或者是需要更换一个工具了。&/p&&p&虽然看起来,「信息猎手」对于互联网行业来说更有价值一些。但其实在各行各业,能够高效地获取信息都是一种优势,也许只是获取的信息方式和信息种类有所差别——哪怕最近你在追一部电视剧,拥有完善的信息获取体系也能帮助你获得比别人更多的「谈资」。&br&&/p&&p&将上面的文字整理一下,所呈现的效果大概就是下面图中的样子:&/p&&figure&&img src=&https://pic1.zhimg.com/v2-0a1016480aebcb59c41955cdf1ad3a0b_b.jpg& data-rawwidth=&744& data-rawheight=&340& class=&origin_image zh-lightbox-thumb& width=&744& data-original=&https://pic1.zhimg.com/v2-0a1016480aebcb59c41955cdf1ad3a0b_r.jpg&&&/figure&&p&当然,以上更多是通过一些具体的案列分享我在信息获取上的思考,至于信息流在不同工具间的传播方式,那又可以另写一篇文章了。如果你在获取信息上有什么独到的见解,也欢迎和我交流。&/p&&p&头图来源:&a href=&https://link.zhihu.com/?target=https%3A//www.vcg.com/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&视觉中国&/a&&/p&&p&原文链接→&a href=&https://link.zhihu.com/?target=http%3A//www.geekpark.net/topics/218836& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&如何在比特世界做一个合格的「信息猎手」?&/a&&/p&
文丨Rubberso 「信息大爆炸」常常用来形容我们面对信息过载时的焦虑心情。其实我认为用「消息大爆炸」来描述这种互联网时代手足无措的感觉,可能会更贴合一些。 「消息」和「信息」两个词只差了一个字,我相信很多人并不清楚它们之间的差别。实际上在通信领…
&figure&&img src=&https://pic1.zhimg.com/v2-f673ec4d41b45f389898_b.jpg& data-rawwidth=&640& data-rawheight=&356& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic1.zhimg.com/v2-f673ec4d41b45f389898_r.jpg&&&/figure&&p&&strong&什么是基于结构化数据的文本生成&/strong&&/p&
&p&美联社机器人撰写财经报道,微软机器人自动生成对联,谷歌机器人自动写诗,一时间,机器人自动写作成为学术界和产业界关注和讨论的热门话题【1,2】。&/p&
&p&&strong&机器人写作又称文本生成&/strong&。从广义上讲,一些传统的自然语言处理任务,例如机器翻译、文本摘要、对联生成、诗词生成等都属于文本生成的范畴。这些任务的共同点是用户输入非结构化的文本,机器根据任务目标输出相应的文本。&/p&
&p&不同于这些任务,本文主要与大家分享的是&strong&基于结构化数据的文本生成,即用户输入结构化的数据,机器输出描述和解释结构化数据的文本。&/strong&(注:为了简便,下文中的文本生成均指基于结构化数据的文本生成。)该任务的特点是基于数据和事实说话。文本生成的典型商业应用包括财经和体育类新闻报道的生成、产品描述的生成、商业数据的分析和解释、物联网(Internet
of Things)数据的分析和解释。图1给出了天气预报自动生成的例子。其中,图1a是各种感知器采集到的结构化的天气数据,机器将图1a中的数据作为输入,输出图1b中的天气预报。&/p&&br&&figure&&img src=&https://pic3.zhimg.com/v2-69d4bb23fda058b181d5cec5eb3b1246_b.jpg& data-rawwidth=&688& data-rawheight=&317& class=&origin_image zh-lightbox-thumb& width=&688& data-original=&https://pic3.zhimg.com/v2-69d4bb23fda058b181d5cec5eb3b1246_r.jpg&&&/figure&&p&接下来,本文尝试从&strong&商业应用&/strong&和&strong&技术发展&/strong&两个方面来总结文本生成的领域现状。&/p&
&p&&strong&文本生成的商业前景&/strong&&/p&
&p&近些年,随着文本生成技术的发展,工业界也诞生了一些专注于文本生成的明星创业公司,例如Narrative
Science(前5轮共融资2950万美元),Automated Insights(前3轮共融资1080万美金,并于2015年被美国私募股权基金
Vista Equity Partners以8000万美金的价格收购),Arria
NLG(第一轮获得了4027万美金融资)等。这几家明星初创企业的产品也涵盖了文本生成在不同商业领域的应用。&/p&
&p&Narrative
Science的主要产品是Quill,该产品可以帮助第三方公司分析和解释商业数据。其客户多为金融服务和咨询公司。此外,Narrative
Science还特别开发了Quill for Google Analytics,该工具可以实时的将Google Analytics所统计的各种复杂的用户访问数据转化成简单的文字说明,帮助Google
Analytics的用户免去阅读各种复杂图表的痛苦,让用户能够快速理解其站点的流量数据,为优化站点提供建议。&/p&
&p&Automated
Insights的主要产品是WordSmith,该产品已经在美国联合通讯社(The
Associated Press)和雅虎得到成功应用,用于撰写财新和体育类报道。让人惊叹的是,美联社在采用Automated
Insights的文本生成技术后,每季度可以撰写的财报新闻数量从300篇增加到了4300篇,生产力得到了极大的提高【2】。&/p&
NLG则主要与英国国家气象服务局Met Office合作,自动生成天气预报。这是文本生成技术在物联网领域的一个典型应用。如图1所示,各种感知器每天可以采集到大量的结构化数据。但解读这些数据的困难在于:一方面感知器采集的数据量非常大,另一方面数据的解读需要专业知识。基于结构化数据的文本生成技术首先需要从大量的数据中筛选出重要信息,然后生成易于阅读和理解的天气预报文本内容。&/p&
&p&&strong&文本生成的技术发展&/strong&&/p&
&p&&b&&&&&&/b&&/p&
&p&&b&挑战&/b&&/p&
&p&基于结构化数据的文本生成任务主要包括两个挑战【4】:&/p&
&p&第一,&strong&说什么&/strong&(What to say)&/p&
&p&第二,&strong&怎么说&/strong&(How to say)&/p&
&p&如图1所示,机器首先需要决定说什么,这就意味着机器需要从输入的若干数据记录中选择要描述的记录(图1a中被高亮的数据记录);然后决定怎么说。简单的来说就是机器需&strong&对选定的数据记录,用自然语言描述出来&/strong&(图1b)。&/p&
&p&&b&&&&&&/b&&/p&
&p&&b&评测&/b&&/p&
&p&Dimitra
Gkatzia等人【5】对文本生成任务的评测方法进行了总结。不一样的是Dimitra
Gkatzia等人【5】分析了近10年发表在自然语言处理领域相关会议和期刊(ACL、EMNLP、NAACL等)上关于文本生成的论文,并将相关工作所采用的评测方法归为两大类:&strong&内在(&/strong&&strong&Intrinsic)评测&/strong&和&strong&外在(&/strong&&strong&Extrinsic)评测&/strong&。&/p&
&p&&strong&内在评测关注系统生成文本的正确性、流畅性和可理解性等&/strong&。内在评测方法又可分为两类:(1)通过采用&strong&自动化&/strong&的评测方法(如BLEU, NIST和ROUGE等)对比系统生成的文本和人工写作的文本之间的&strong&相似度&/strong&,以此来衡量系统生成文本的质量;(2)通过调查问卷等方式,由&strong&人们&/strong&从&strong&正确性、流畅性等角度&/strong&出发直接对系统生成的文本进行打分,来评价系统生成文本的质量。&/p&
&p&&strong&外在评测关注于评价系统生成文本的可用性&/strong&,即评价系统生成的文本对于用户完成&strong&特定任务&/strong&是否有帮助。&/p&&br&&figure&&img src=&https://pic3.zhimg.com/v2-a36b4350cfcc9cef4d1ed23_b.jpg& data-rawwidth=&624& data-rawheight=&347& class=&origin_image zh-lightbox-thumb& width=&624& data-original=&https://pic3.zhimg.com/v2-a36b4350cfcc9cef4d1ed23_r.jpg&&&/figure&&p&Dimitra
Gkatzia等人【5】的分析表明,现阶段文本生成的相关工作多采用自动化的内在评测方法——即利用计算机对比系统生成文本和人工写作文本之间的相似度,原因是此类评价方法更加便捷、成本较低。而外在的评测方法成本较高,采用此类评测方法的论文较少,但是此类评测方法能更好的标示出系统的&strong&可用性&/strong&。&/p&
&p&&b&&&&&&/b&&/p&
&p&&b&方法&/b&&/p&
&p&早期的文本生成系统多是基于规则的,Reiter等对规则系统进行了归纳总结【4】,认为文本生成系统可以分为三个较为独立的模块:(1)&strong&内容规划(&/strong&&strong&Content planning)&/strong&,即选择描述哪些数据记录或数据域;(2)&strong&句子规划(&/strong&&strong&Sentence
planning)&/strong&,即决定所选择的数据记录或数据域在句子中的顺序;(3)&strong&句子实现(&/strong&&strong&Surface
realization)&/strong&,即基于句子规划的结果生成实际的文本。可以认为,&strong&内容规划主要是解决“说什么”&/strong&,&strong&而句子规划和句子实现主要是解决“怎么说”&/strong&。&/p&
&p&在该框架下,针对不同模块,若干基于统计的模型被提出。Barzilay等提出先将数据记录和句子进行对齐,然后学习模型解决内容选择【6】。Percy
Liang等提出了一个概率图模型同时解决内容规划和句子实现【7】。具体来说就是该生成模型首先选择生成哪些&strong&数据记录&/strong&,然后选择生成数据记录中的哪些&strong&数据域&/strong&,最后生成描述数据域的&strong&文本&/strong&。&/p&
&p&近几年,随着深度学习方法在自然语言处理领域取得突破,研究人员也尝试将神经网络的方法应用于文本生成。基于神经网络的方法又分为&strong&基于神经语言模型(&/strong&&strong&Neural Language Model)&/strong&的方法和&strong&基于神经机器翻译(&/strong&&strong&Neural Machine
Translation)&/strong&的方法。&/p&
&p&其中,Wen等提出了&strong&Semantic
Controlled LSTM(Long Short-term Memory)模型&/strong&用于对话系统中的文本生成【8】。该模型在标准LSTM的基础上引入了一个&strong&控制门读取结构化数据信息&/strong&,并控制结构化数据信息在语言模型中的输出。该论文获得了2015年EMNLP会议的最佳论文。Kiddon等提出了&strong&神经清单模型(&/strong&&strong&Neural Checklist Model)&/strong&,用于解决RNN(Recurrent neural networks)模型对结构化数据中的&strong&信息重复生成的问题&/strong&【9】。Kiddon等将该模型应用于菜谱的生成,即输入菜名以及食材清单,机器输出相应的菜谱。基于结构化数据的文本生成存在&strong&数据稀疏的问题&/strong&,即结构化数据中的许多数据值(实体名、数值等)出现次数非常少,使得模型的学习变的困难。Lebret等将&strong&拷贝动作(&/strong&&strong&copy-action)&/strong&引入神经语言模型,用于解决数据稀疏的问题【10】。Lebret等将该模型应用于维基百科的人物传记生成,即输入人物的信息框(Infobox),机器根据信息框中的人物信息,输出人物的文本描述。&/p&&br&&figure&&img src=&https://pic1.zhimg.com/v2-343fa9b6a2a1bc9e70b9f_b.jpg& data-rawwidth=&624& data-rawheight=&347& class=&origin_image zh-lightbox-thumb& width=&624& data-original=&https://pic1.zhimg.com/v2-343fa9b6a2a1bc9e70b9f_r.jpg&&&/figure&&br&&p&受神经机器翻译模型【11】的启发,Mei等将基于结构化数据的文本生成任务视为一个&strong&翻译任务&/strong&,即输入的源语言是结构化数据,输出的目标语言是文本【3】。很自然的,神经机器翻译模型可以解决怎么说的问题。为了进一步解决说什么的问题,Mei等在神经机器翻译模型的基础上引入了对&strong&数据记录的重要性进行建模的机制&/strong&,即越重要的数据,其先验概率越大,越有可能在文本中被表达出来。&/p&
&p&基于神经语言模型的方法和基于神经机器翻译的方法在特定数据集上都取得了较大的进步,其本质仍然是&strong&Sequence-to-sequence&/strong&方法的胜利。&/p&
&p&&b&&&&&&/b&&/p&
&p&&b&数据&/b&&/p&
&p&为了推动文本生成技术的发展,研究人员们将相关数据集共享给学术界研究使用。本文对部分数据集进行了收集和整理:&/p&
&p&(1)斯坦福大学的Percy Liang教授共享了一份天气预报数据集【7】。这份数据集包括了美国3753个城市(人口大于10000)连续三天的天气预报。&/p&
&p&数据集下载地址为:&a href=&https://link.zhihu.com/?target=https%3A//cs.stanford.edu/%7Epliang/data/weather-data.zip& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&cs.stanford.edu/~pliang&/span&&span class=&invisible&&/data/weather-data.zip&/span&&span class=&ellipsis&&&/span&&/a&&/p&
&p&(2)德克萨斯大学奥斯汀分校的Raymond J. Mooney教授共享了机器人足球赛的数据集【12】。这份数据集包括了2036场机器人足球赛的数据统计和评论。&/p&
&p&数据集下载地址为:&a href=&https://link.zhihu.com/?target=http%3A//www.cs.utexas.edu/%7Eml/clamp/sportscasting/data.tar.gz& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&cs.utexas.edu/~ml/clamp&/span&&span class=&invisible&&/sportscasting/data.tar.gz&/span&&span class=&ellipsis&&&/span&&/a&&/p&
&p&(3)Facebook共享了维基百科人物传记的数据集【10】。这份数据集包括了728,321篇从维基百科获取的人物传记。&/p&
&p&数据集下载地址为:&a href=&https://link.zhihu.com/?target=https%3A//github.com/DavidGrangier/wikipedia-biography-dataset& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&DavidGrangier/wikipedia-biography-dataset&/a&&/p&
&p&(4)剑桥大学的Tsung-Hsien Wen共享了基于服务的人机对话数据集【8】。这份数据集包括了248轮餐馆领域的对话和164轮酒店领域的对话。&/p&
&p&数据集下载地址为:&a href=&https://link.zhihu.com/?target=https%3A//github.com/shawnwun/RNNLG/tree/master/data/original& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&shawnwun/RNNLG&/a&&/p&
&p&&strong&总结和展望&/strong&&/p&
&p&综上,基于结构化数据的文本生成技术已经在商业领域获得了初步的成功,深度学习技术的发展和大数据的积累也推动着相关技术的进步。相信该领域会在技术、数据和商业的三重驱动下取得更大的突破。&/p&&br&&figure&&img src=&https://pic4.zhimg.com/v2-15c242cbdc8cfdd8fc5b942fa7007118_b.jpg& data-rawwidth=&624& data-rawheight=&347& class=&origin_image zh-lightbox-thumb& width=&624& data-original=&https://pic4.zhimg.com/v2-15c242cbdc8cfdd8fc5b942fa7007118_r.jpg&&&/figure&&br&&p&&strong&参考文献&/strong&&/p&
&p&【1】刘挺,机器人来了,记者去哪儿,&a href=&https://link.zhihu.com/?target=http%3A//wenting.baijia.baidu.com/article/165162& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&机器人来了,记者去哪儿--百度百家&/a&&/p&
&p&【2】徐曼,国外机器人新闻写手的发展与思考,&a href=&https://link.zhihu.com/?target=http%3A//media.people.com.cn/n1//c14693.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&国外机器人新闻写手的发展与思考--传媒--人民网&/a&&/p&
&p&【3】Mei, Hongyuan, T. T. I. UChicago,
Mohit Bansal, and Matthew R. Walter. 2016. What to talk about and how?
Selective Generation using LSTMs with Coarse-to-Fine Alignment. In Proceedings
of NAACL-HLT.&/p&
&p&【4】Reiter, Ehud. 2007. An architecture
for data-to-text systems. In Proceedings of ENLG.&/p&
&p&【5】Gkatzia, Dimitra, and Saad Mahamood.
2015. A Snapshot of NLG Evaluation Practices . In Proceedings of ENLG.&/p&
&p&【6】Barzilay, Regina, and Mirella Lapata.
2005. Collective content selection for concept-to-text generation. In
Proceedings of EMNLP.&/p&
&p&【7】Liang, Percy, Michael I. Jordan, and
Dan Klein. 2009. Learning semantic correspondences with less supervision. In
Proceedings of ACL.&/p&
&p&【8】Wen, Tsung-Hsien, Milica Gasic, Nikola
Mrksic, Pei-Hao Su, David Vandyke, and Steve Young. 2015. Semantically
conditioned LSTM-based natural language generation for spoken dialogue systems.
In Proceedings of EMNLP.&/p&
&p&【9】Kiddon, Chloé,
Luke Zettlemoyer, and Yejin Choi. 2016. Globally coherent text generation with
neural checklist models. In Proceedings of EMNLP.&/p&
&p&【10】Lebret, Rémi,
David Grangier, and Michael Auli. 2016. Neural text generation from structured
data with application to the biography domain.
In Proceedings of EMNLP.&/p&
&p&【11】Bahdanau, Dzmitry, KyungHyun Cho,
Yoshua Bengio, and Roee Aharoni. 2014. Neural Machine Translation by Jointly
Learning to Align and Translate. In Proceedings of NIPS.&/p&
&p&【12】Chen, David L., and Raymond J.
Mooney. 2008. Learning to sportscast: a test of grounded language acquisition.
In Proceedings of ICML.&/p&&br&&br&&p&&b&【作者简介】&/b&&/p&
&figure&&img src=&https://pic3.zhimg.com/v2-ecb7bc0c1_b.jpg& data-rawwidth=&624& data-rawheight=&415& class=&origin_image zh-lightbox-thumb& width=&624& data-original=&https://pic3.zhimg.com/v2-ecb7bc0c1_r.jpg&&&/figure&&p&刘璟博士,微软亚洲研究院副研究员。他的研究兴趣包括信息抽取、文本生成和社会计算。至今为止,他在这些领域的顶级会议上发表了10余篇论文,如ACL、SIGIR、WSDM、EMNLP、CIKM等,并已获得两项国际专利。刘璟博士还曾任ACL、EMNLP、NAACL、EACL等国际会议和TOIS、TWEB等国际期刊的评审委员。&/p&&br&&p&&b&【知识计算组简介】&/b&&/p&
&p&知识计算组致力于通过知识发现、数据挖掘与计算来理解和服务这个世界。研究组聚集了包括数据挖掘与计算、机器学习、自然语言处理、信息检索和社会计算等领域的多学科研究员,主要从事如下研究方向:实体链接、搜索和知识挖掘与计算,基于结构化数据的文本生成,服务于真实世界的语义计算框架应用,基于大规模行为数据的用户理解。十年来,该组成员的研究成果对微软的重要产品产生了影响,包括必应搜索、微软学术搜索、微软认知服务等。&/p&
&p&知识计算组现招聘实习生,工作内容涉及机器学习和自然语言处理等领域,工程和研究均可,根据个人兴趣和能力确定工作内容。要求编程能力较强;有一定的沟通能力,有责任心;对机器学习、自然语言处理、人工智能有热情和兴趣;高质量的完成工作;半年以上实习期。&/p&
&p&感兴趣的同学可以下载并填写申请表(申请表链接:
&a href=&https://link.zhihu.com/?target=http%3A//www.msra.cn/zh-cn/jobs/interns/intern_application_form_2014.xls& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&msra.cn/zh-cn/jobs/inte&/span&&span class=&invisible&&rns/intern_application_form_2014.xls&/span&&span class=&ellipsis&&&/span&&/a& 点击&strong&阅读原文&/strong&即可查看)并将其与完整的中英文简历(PDF/Word/Txt/Html形式)一同发送至:&/p&&br&&br&&figure&&img src=&https://pic3.zhimg.com/v2-18a55df3ca2ba198d9e211_b.jpg& data-rawwidth=&685& data-rawheight=&13& class=&origin_image zh-lightbox-thumb& width=&685& data-original=&https://pic3.zhimg.com/v2-18a55df3ca2ba198d9e211_r.jpg&&&/figure&&br&&p&感谢大家的阅读。&/p&
&p&本账号为微软亚洲研究院的官方知乎账号。本账号立足于计算机领域,特别是人工智能相关的前沿研究,旨在为人工智能的相关研究提供范例,从专业的角度促进公众对人工智能的理解,并为研究人员提供讨论和参与的开放平台,从而共建计算机领域的未来。&/p&
&p&微软亚洲研究院的每一位专家都是我们的智囊团,你在这个账号可以阅读到来自计算机科学领域各个不同方向的专家们的见解。请大家不要吝惜手里的“邀请”,让我们在分享中共同进步。&/p&
&p&也欢迎大家关注我们的&a href=&https://link.zhihu.com/?target=http%3A//t.sina.com.cn/msra& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&微博&/a&和微信账号,了解更多我们研究。&/p&
什么是基于结构化数据的文本生成
美联社机器人撰写财经报道,微软机器人自动生成对联,谷歌机器人自动写诗,一时间,机器人自动写作成为学术界和产业界关注和讨论的热门话题【1,2】。
机器人写作又称文本生成。从广义上讲,一些传统的自然语言处理任…
&p&前途便是,关注底层数学模型,其次算法,最后才是调参数,讲真如果关注最后一点,譬如Deep Learning,神经网络,那么变成本末倒置,只能称作工程而不是科研。&/p&&p&下面链接乃计算机视觉领军人物之一加州大学洛杉矶分校UCLA统计学和计算机科学教授Song-Chun Zhu的访谈录,非常有指导意义。&/p&&p&&a href=&//link.zhihu.com/?target=http%3A//mp.weixin.qq.com/s%3F__biz%3DMzI3MTM5ODA0Nw%3D%3D%26mid%3Didx%3D2%26sn%3D32face7f1acb17e07f3c38dde41d880e& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&初探计算机视觉的三个源头、兼谈人工智能|正本清源&/a&&/p&&p&&br&&/p&&p&下面转自我其他地方的一个回答。&/p&&p&&a href=&https://www.zhihu.com/question//answer/& class=&internal&&图像处理专业的哪些方向就业比较好(硕士),主要去哪些公司? - 知乎&/a&&/p&&p&&br&&/p&&p&楼主本科硕士应用数学+运筹学,博士海德堡交叉学科计算中心和图像处理中心,组合优化+图像处理的thesis topic,算是半正式地进军这个领域。&/p&&p&&br&&/p&&p&先说方向,最好当然是计算机视觉里面各个方向都有所了解,这样才能融会贯通。&/p&&p&下面主要回答以后就业去向,同时我也会穿插它们所要求的方向。&/p&&p&&br&&/p&&p&1,Google, MS, Facebook, Apple,华为,阿里,腾讯,百度等世界一流科技公司,无一没有建立自己的AI实验室,AI里面,计算机视觉或图像处理是非常重要的一块,当然它们研究方向就多了,几乎会涵盖所有方向。&/p&&p&2,世界各大汽车公司,如特斯拉,宝马。汽车公司开始发力自动驾驶,而自动驾驶里面最核心的技术就是“教”汽车里的电脑如何通过摄像头实时产生的图片和视频自动驾驶。因此视觉和图像处理便是核心技术所在,如行人探测,道路识别,模式识别。&/p&&p&3,Adobe,美图秀秀等照片、winrar、real player等视频处理、压缩软件。这个不多说,最最直观的应用,比如降噪,图像分割、图像压缩、视频压缩。&/p&&p&4,AR(增强现实)最近由于Pockman GO的风靡全球又被推到第一线,而google class或者三星Gear眼镜等等,也无不和图像处理、计算机视觉的科研有关。预测这将是未来几年主推的东西。&/p&&p&5,迪士尼等各大电影制片公司。3-D电影,以及各种炫酷的电影特效,当然里面不光有图像处理,还有计算机图形学的东西在里面。&/p&&p&6,索尼,华为,蔡司等照相机、摄像头生产商。大家可知道相机或手机的照片拍出来,一般不是raw格式,jepg等格式已经是被内置的图像处理软件处理过后的照片了,另外相机里的人脸追踪,快速对焦等等,无一不和图像处理有关;再引申点,相机的灵魂CMOS & CCD Sensor,当然这个更多的和物理光学有关了。&/p&&p&7,地平线,大疆无人机等机器人公司。和自动驾驶一个道理,机器人要通过摄像头“判断”并躲开前方障碍物,核心技术都在视觉和图像处理。&/p&&p&8,医疗器械设备公司。医学图像处理,核磁共振,断层扫描等等,众所周知医疗行业都是暴利阿。&/p&&p&9,工业级摄像头;包括高速路上的摄像头,机场火车站安检摄像头,工业流水线上的摄像头,嵌入了人脸或次品识别的芯片,智能地识别罪犯、次品,等等。&/p&&p&10,未完待续,有时间回来再码。&/p&&p&&br&&/p&&p&最后插一句,想必大家也都听说北美计算机TOP4出来的深度学习的Ph.D.,基本都是被Google,FB,Apple等以150w美元年薪疯抢的状态(貌似是李开复老师的笔误);国内名师出来的硕士,基本也是被年薪50w人民币收割。这是一个大数据、计算机视觉最好的时代,因为入行即代表高薪;但也是最坏的时代,正如我开头所说,学术界的风气在被这个公司的功利性所引导,导致现在教授不做深度学习就拿不到funding..本人估计深度学习热5年内会见顶,因为入坑的太多太多。&/p&&p&&br&&/p&&p&最后的最后亮观点:计算机视觉绝对可以入,但是请从运筹优化和统计分析的角度入,深度学习俩年后慎入。&/p&&p&&br&&/p&&p&最好按照惯例广告一波:&/p&&p&&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&欧洲、北美、全球留学及数据科学深度私人定制咨询,从此DIY - 知乎专栏&/a&&/p&
前途便是,关注底层数学模型,其次算法,最后才是调参数,讲真如果关注最后一点,譬如Deep Learning,神经网络,那么变成本末倒置,只能称作工程而不是科研。下面链接乃计算机视觉领军人物之一加州大学洛杉矶分校UCLA统计学和计算机科学教授Song-Chun Zhu的…
&p&谢邀。&/p&&p&针对这个问题,我们邀请了微软亚洲研究院&b&机器学习组&/b&的主管研究员秦涛博士与大家分享他的观点。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-c314c816ca881c91efcb3344_b.png& data-rawwidth=&283& data-rawheight=&283& class=&content_image& width=&283&&&/figure&&p&&b&微软亚洲研究院机器学习组&/b&包含机器学习的各个主要方向,在理论、算法、应用等不同层面推动机器学习领域的学术前沿。该组目前的研究重点为深度学习、增强学习、分布式机器学习和图学习。其研究课题还包括排序学习、计算广告和云定价。在过去的十几年间,该组在顶级国际会议和期刊上发表了大量高质量论文,帮助微软的产品部门解决了很多复杂问题,并向开源社区贡献了&a href=&//link.zhihu.com/?target=https%3A//mp.weixin.qq.com/s%3F__biz%3DMzAwMTA3MzM4Nw%3D%3D%26mid%3Didx%3D1%26sn%3Def1ba087cf42db81f0a0de%23rd& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&微软分布式机器学习工具包(DMTK)&/a&和&a href=&//link.zhihu.com/?target=http%3A//mp.weixin.qq.com/s%3F__biz%3DMzAwMTA3MzM4Nw%3D%3D%26mid%3D%26idx%3D1%26sn%3Dee9d6ee5fabf1%26chksm%3D82c0a988b5bd86ca2b7ce2cb7c895dadd6173c7bdfffbb14f%23rd& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&微软图引擎(Graph Engine)&/a&,LightLDA、&a href=&//link.zhihu.com/?target=http%3A//mp.weixin.qq.com/s%3F__biz%3DMzAwMTA3MzM4Nw%3D%3D%26mid%3D%26idx%3D1%26sn%3D615217bcdb0b642ebadc96%26chksm%3D82c0d6adb5b75fbbd8c4eef92aabd297f7d2f1e4b0dd86a65a3d8be6%23rd& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&LightGBM等&/a&,并受到广泛关注。该组正在招贤纳士,诚邀各路英雄好汉加盟,共同逐鹿AI天下。&a href=&//link.zhihu.com/?target=https%3A//www.microsoft.com/en-us/research/people/tyliu/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&联系我们。&/a&&/p&&br&&p&————这里是正式回答的分割线————&/p&&br&&p&要回答这个问题,先要从&b&人工智能近年的进展&/b&开始说起。&/p&&p&从1956年达特茅斯会议上人工智能的诞生开始,到如今人工智能已经发展了61年,这期间人工智能历经风雨,经历了数次高潮也有数次低谷,每次高潮都是因为核心技术的提出引起了人们极大的兴趣,吸引了大量的资金的投入。但同时由于大家的期望值远远超过了技术所能够达到的高度,因此当人们发现巨大的资金和人才的投入不能达到预期成果的时候,人工智能的冬天也随之而来。幸运的是,现在我们正处于人工智能的第三次浪潮,并且目前看来,距离下一个冬天还是挺远的。从媒体的报道,大家可能都能了解到,人工智能在各个方向都取得了非常大的进展,不管是研究上、实践上,还是应用上。下面我们简单回顾一下人工智能近年来在各个方向取得的进展。&/p&&p&早在2012年,微软就在“21世纪的计算”大会上展示了一个同声传译的系统,这个系统其实相当复杂:当微软研究院创始人Rick Rashid用英文演讲的时候,这个系统首先需要将英文的语音识别成英文的文本,然后通过一个翻译系统把英文翻译成中文,然后再把中文文本合成成为中文的语音。整个复杂的过程都是通过深度学习的技术来支撑的。&/p&&p&在2015年底,发生了一件对计算机视觉领域而言非常重要的事情,就是微软亚洲研究院的研究员提出了一个新的基于CNN的深度模型叫做残差网络,这个残差网络深度高达152层,取得了当时图象识别比赛上面最好的成绩。到现在为止,深度残差网络在计算机视觉的研究中被广泛使用,并且被集成到微软还有其他大公司的产品中。&/p&&p&再到后来,2016年初,可能大家都知道,AlphaGo这个系统打败了围棋世界冠军李世石,这非常出乎人们的预料,特别是AI专家的预料,因为大家普遍认为,机器要在围棋上战胜人类可能还需要20年。在2016年下半年,微软宣布了另外一项AI上的进展,就是在日常对话的语音识别中,微软的技术已经达到了人类的水平,这也是非常了不起的,因为如果大家关注一下我们日常的讲话,就会发现,其中有很多停顿,并且带一些语气词,与朗诵或者新闻播音相差很大,这种日常对话识别要达到人类的水平是很不容易的。&/p&&p&从以上的简单回顾可以看出,&b&人工智能的第三波浪潮和深度学习是分不开的。&/b&深度学习里最经典的模型是全连接的神经网络,就是每相临的两层之间节点之间是通过边全连接;再就是卷积神经网络,这个在计算机视觉里面用得非常多;再就是循环神经网络RNN,这个在对系列进行建模,例如自然语言处理或者语音信号里面用得很多,这些都是非常成功的深度神经网络的模型。还有一个非常重要的技术就是深度强化学习技术,这是深度学习和强化学习的结合,也是AlphaGo系统所采用的技术。&/p&&p&深度学习的成功主要归功于三大因素——&b&大数据、大模型、大计算&/b&。现在可以利用的数据特别是人工标注的数据非常多,使得我们能够从数据中学到以前没法学习的东西。另外技术上的发展使得训练大模型成为了可能,例如上千层的深度神经网络,这个在四年以前都觉得不能想象的事情,现在都已经发展成为现实,并且在产品中都有了很广泛的使用。再就是大计算,从CPU到GPU,可获取的计算资源越来越丰富。&/p&&p&大数据、大模型、大计算是深度学习的三大支柱,因此这三个方向都是当前研究的热点,例如如何从更多更大的数据里面进行学习,如何训练更大更深的模型。非常深的模型,当前更成功的例子是在计算机视觉里面,但如何把这种更深的模型引入到自然语言处理里面,还需要研究,例如当前几个大公司的神经机器翻译模型,都是利用较深的RNN,但是还是远远达不到残差网络的深度。从大计算这个方面来讲,整个演变过程是从CPU到GPU到FPGA,再发展到现在有些公司定制自己专有芯片,国内的有一些创业公司,也都在做一些AI芯片,专门为AI来设计一些硬件。大计算另外一个角度就是深度学习的平台和系统,这个可以说是各大AI或者是互联网公司的着重发力的地方,例如微软的CNTK、DMTK,再比如TensorFlow、Torch,以及学术界的开源平台包括Theano、Caffe、MxNet等等。可以预计,在短期内,各大公司还会在这个领域做非常激烈的竞争,希望能够吸引第三方公司使用他们的平台和系统。&/p&&br&&p&&b&俗话说成也萧何败也萧何,大数据、大模型、大计算是深度学习成功的三大支柱因素,但他们同时也为深度学习的进一步发展和普及带来了一些制约因素。接下来,我会为大家介绍目前深度学习的五大挑战及其解决方案。&/b&&/p&&br&&p&&b&挑战1:标注数据代价昂贵&/b&&/p&&p&&b&前沿1:从无标注的数据里学习&/b&&/p&&p&大家都知道,深度学习训练一个模型需要很多的人工标注的数据。例如在图象识别里面,经常我们可能需要上百万的人工标注的数据,在语音识别里面,我们可能需要成千上万小时的人工标注的数据,机器翻译更是需要数千万的双语句对做训练,在围棋里面DeepMind当初训练这个模型也用了数千万围棋高手走子的记录,这些都是大数据的体现。&/p&&p&但是,很多时候找专家来标注数据是非常昂贵的,并且对一些应用而言,很难找到大规模的标注的数据,例如一些疑难杂症,或者是一些比较稀有的应用场景。这里我们做一个粗略的分析,看看标注数据的代价有多高。比如说对机器翻译而言,现在如果我们请人工来翻译,一个单词的费用差不多是5—10美分之间,一个句子平均长度差不多是30个单词,如果我们需要标注一千万个双语句对,也就是我们需要找专家翻译一千万句话,这个标注的费用差不多是2200万美元。&/p&&p&大家可以看到数据标注的费用是非常非常高的,让一个创业公司或者一些刚刚涉足人工智能的公司拿这么大一笔资金来标注数据是很难或者是不太可行的。因此当前深度学习的一个前沿就是如何从无标注的数据里面进行学习。现在已经有相关的研究工作,包括最近比较火的生成式对抗网络,以及我们自己提出的对偶学习。&/p&&figure&&img src=&https://pic2.zhimg.com/v2-5ab02d4c6bcff9_b.png& data-rawwidth=&703& data-rawheight=&346& class=&origin_image zh-lightbox-thumb& width=&703& data-original=&https://pic2.zhimg.com/v2-5ab02d4c6bcff9_r.png&&&/figure&&p&生成式对抗网络的主要目的是学到一个生成模型,这样它可以生成很多图像,这种图像看起来就像真实的自然图像一样。它解决这个问题的思路跟以前的方法不太一样,它是同时学习两个神经网络:一个神经网络生成图像,另外一个神经网络给图像进行分类,区分真实的图像和生成的图像。在生成式对抗网络里面,第一个神经网络也就是生成式神经网络,它的目的是希望生成的图像非常像自然界的真实图像,这样的话,那后面的第二个网络,也就是那个分类器没办法区分真实世界的图像和生成的图像;而第二个神经网络,也就是分类器,它的目的是希望能够正确的把生成的图像也就是假的图像和真实的自然界图像能够区分开。大家可以看到,这两个神经网络的目的其实是不一样的,他们一起进行训练,就可以得到一个很好的生成式神经网络。生成式对抗网络最初提出的时候,主要是对于图像的生成,现在很多人把他应用到各个不同的问题上,包括自然语言理解,比如说最近我们有一个工作,就是把这种思想应用到机器翻译里面,能够很大幅度的提高机器翻译的准确度。&/p&&p&针对如何从无标注的数据进行学习,我们组里面提出了一个新思路,叫做对偶学习。对偶学习的思路和前面生成式对抗学习会非常不一样。对偶学习的提出是受到一个现象的启发:我们发现很多人工智能的任务在结构上有对偶属性。比如说在机器翻译里面,我们把中文翻译成英文,这是一个任务,但是我们同样也需要把英文翻译成中文,这是一个对偶的任务。这种原任务和对偶任务之间,他们的输入和输出正好是反着来的。在语音处理里面,语音识别是把语音转化成文字,语音合成是把文字转化成语音,也是互为对偶的两个任务。在图像理解里面,看图说话,也就是给一张图生成一句描述性的语句,它的对偶任务是给一句话生成一张图,这两个任务一个是从图像到文本,另外一个是从文本到图像。在对话系统里面,回答问题和问题生成也是互为对偶的两个问题,前者是给定问题生成答案,后者是给定答案生成问题。在搜索引擎里面,给定检索词返回相关文档和给定文档或者广告返回关键词也是互为对偶的问题:搜索引擎最主要的任务是针对用户提交的检索词匹配一些文档,返回最相关的文档;当广告商提交一个广告之后,广告平台需要给他推荐一些关健词使得他的广告在用户搜索这些词能够展现出来被用户点击。&/p&&figure&&img src=&https://pic3.zhimg.com/v2-ee_b.jpg& data-rawwidth=&759& data-rawheight=&381& class=&origin_image zh-lightbox-thumb& width=&759& data-original=&https://pic3.zhimg.com/v2-ee_r.jpg&&&/figure&&p&对偶学习试图把这种结构的对偶属性应用在机器学习里。其基本思想比较简单,我们以机器翻译为例子来说明。我们想把一个中文句子翻译成英文,我们可以先用一个中文到英文的翻译模型,把这个句子翻译成英文的句子,因为我们没有英文的标注,所以不知道这个英文的翻译是好还是坏以及有多好多坏。我们再利用从英文到中文的翻译模型,把这个英文的句子翻译成中文的句子,这样一来,我们就得到了一个新的中文句子。整个过程包含了正向翻译和反向翻译互为对偶的两个步骤。然后我们比较原始中文的句子和后来得到的中文句子,如果两个翻译模型都很好的话,这两个中文的句子应该比较相似,如果两个模型不好或者有一个模型不好的话,得到的两个中文句子就不相似。因此我们可以通过这种对偶过程从无标注的数据获得反馈信息,知道我们的模型工作的好还是不好,进而根据这些反馈信息来训练更新正向反向模型,从而达到从无标注数据学习的目的。&/p&&p&我们在机器翻译里面做了一些实验,发现通过对偶学习的过程,我们只需要用10%标注的数据(大概100万英法双语句对),再加上很多没有标注的数据,达到用100%标注数据(1200万英法双语句对)训练的模型的准确度。大家回想一下,我们前面有个粗略的估计,一千万个训练语料标注的费用差不多2200万美元,如果我们能把标注的人工费用从2200万美元降到200万美元,这会是一个非常好的结果,能够大大降低公司运营成本提高运营效率。&/p&&p&最近我们在对偶学习的研究上有一些新的进展,把对偶学习这种基本思想应用到其他的问题里面,像图像分类、图像生成,以及对自然语言的情感分析。我们发现这种结构的对偶属性可以从不同角度帮助机器学习,提高学习算法的准确度。&/p&&p&从无标注的数据进行学习,我们预计在未来三到五年还是非常重要的一个问题,并且对我们实际的应用也会有很大的帮助。很多问题以前是因为受限于没有标注的数据,没有办法用深度学习技术,如果我们能够从无标注的数据进行学习,那么很多应用很多问题里面都可以应用深度学习技术。&/p&&br&&p&&b&挑战2:大模型不方便在移动设备上使用&/b&&/p&&p&&b&前沿2:降低模型大小&/b&&/p&&p&现在常见的模型,像图像分类里面,微软设计的深度残差网络,模型大小差不多都在500M以上。自然语言处理的一些模型,例如语言模型(language modeling)随着词表的增长而变大,可以有几G、几十G的大小,机器翻译的模型也都是500兆以上。当然500M的大小大家可能觉得没有多大,一个CPU服务器很容易就把这个模型给load进去使用。但是大家要注意到,很多时候深度学习的模型需要在一些移动设备上使用。比如说手机输入法,还有各种对图像做变换做处理做艺术效果的app,如果使用深度学习的话效果会非常好,但是这种模型由于它们的size太大,就不太适合在手机上应用。大家可以设想一下,如果一个手机的app需要加载一个500M甚至1G以上的模型恐怕不太容易被用户接受。&/p&&p&因此当前深度学习面临的第二个挑战就是如何把大模型变成小模型,这样可以在各种移动设备上使用。因为移动设备不仅仅是内存或者存储空间的限制,更多是因为能耗的限制,不允许我们用太大的模型。近两年来,有一些相应的工作,今天我主要介绍两种:第一种是针对计算机视觉里面的CNN模型,也就是卷积神经网络,做模型压缩;第二种是我们去年做的,针对一些序列模型或者类似自然语言处理的RNN模型如何做一个更巧妙的算法,使得它模型变小,并且同时精度没有损失。&/p&&ul&&li&&b&通过模型压缩的技术缩减模型的大小&/b&&/li&&/ul&&p&对卷积神经网络而言,近一两年有一些项目,主要是采用模型压缩的技术缩减模型的大小。模型压缩的技术,可以分为四类:&/p&&figure&&img src=&https://pic2.zhimg.com/v2-cd935aed80a9_b.jpg& data-rawwidth=&790& data-rawheight=&390& class=&origin_image zh-lightbox-thumb& width=&790& data-original=&https://pic2.zhimg.com/v2-cd935aed80a9_r.jpg&&&/figure&&p&一个是叫&b&剪枝&/b&,大家知道,神经网络主要是由一层一层的节点通过边连接,每个边上有些权重。剪枝的意思很简单,如果我们发现某些边上的权重很小,这样的边可能不重要,这些边就可以去掉。我们在把大模型训练完之后,看看哪些边的权重比较小,把这些边去掉,然后在保留的边上重新训练模型;&/p&&p&模型压缩的另外一种做法就是通过&b&权值共享&/b&。假设相邻两层之间是全连接,每层有一千个节点,那么这两层之间有一千乘一千也就是一百万个权值(参数)。我们可以对一百万个权值做个聚类,看看哪些权值很接近,我们可以用每个类的均值来代替这些属于这一类的权值,这样很多边(如果他们聚在同一类)共享相同的权值。如果我们把一百万个数聚成一千类,就可以把参数的个数从一百万降到一千个,这也是一个非常重要的一个压缩模型大小的技术。&/p&&p&还有一个技术可以认为是权值共享的更进一步,叫&b&量化&/b&。深度神经网络模型的参数都是用的浮点型的数表达,32bit长度的浮点型数。实际上没必要保留那么高的精度,我们可以通过量化,比如说就用0到255表达原来32个bit所表达的精度,通过牺牲精度来降低每一个权值所需要占用的空间。&/p&&p&这种量化的更极致的做法就是第四类的技术,叫&b&二制神经网络&/b&。所谓二制神经网络,就是所有的权值不用浮点数表达了,就是一个二进制的数,要么是+1要么是-1,用二进制的方式来表达,这样原来一个32 bit权值现在只需要一个bit来表达,从而大大降低这个模型的尺寸。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-8c079c64a528_b.png& data-rawwidth=&865& data-rawheight=&389& class=&origin_image zh-lightbox-thumb& width=&865& data-original=&https://pic1.zhimg.com/v2-8c079c64a528_r.png&&&/figure&&p&上面这张图显示了多种模型压缩的技术在不同卷积神经网络上的结果。我们可以看到,随着原始网络大小的不同,得到的压缩比是不一样的,特别是VGGNet,一个非常重要的卷积神经网络,能够把大小从原来的550M压缩到11M,并且让人惊奇的是,压缩后分类的准确率没有下降,反而略微有一点提高,这是非常了不起的。&/p&&ul&&li&&b&通过设计更精巧的算法来降低模型大小&/b&&/li&&/ul&&p&下面简单提一下我们组是如何对一些序列模型进行压缩,也就是对循环神经网络RNN做压缩,我们提了一种新的循环神经网络叫做LightRNN,它不是通过模型压缩的方式降低模型的大小,而是通过设计一种更精巧的算法来达到降低模型大小。&/p&&p&自然语言相关的应用中,模型之所以大,是因为我们需要把每一个词要做词嵌入(word embedding),把每一个单词表达成向量空间的一个向量。词嵌入的基本思想是,语义相似或相近的词在向量空间里面的向量也比较接近,这样就可以通过向量空间表达词之间的语义信息或者是相似性。因为通常我们的词表会很大,比如说在输入法里面,可能词表需要说上百万。如果我们词表有上百万的词,每个词如果是用一千维的一个向量来表达,这个大小就是差不多是一百万乘以一千再乘以4 Byte(用32位的浮点数来表达),词嵌入向量的总体大小差不多就有4G左右,所以整个RNN模型是非常大的。搜索引擎的词表有上千万的词,仅仅词嵌入向量这部分大小就有40G左右,考虑到输入的词嵌入和输出的词嵌入,整个词嵌入的大小有80G左右了,这么大的模型很难加载到GPU上训练模型和使用,更不用说放在移动设备上使用。&/p&&figure&&img src=&https://pic2.zhimg.com/v2-c74b119e9bf_b.png& data-rawwidth=&865& data-rawheight=&487& class=&origin_image zh-lightbox-thumb& width=&865& data-original=&https://pic2.zhimg.com/v2-c74b119e9bf_r.png&&&/figure&&p&我们的算法的基本思想是:不是用一个向量来表达一个词,而是用两个向量表达一个词,一个行向量+一个列向量,不同的词之间共享行或列向量。我们用一个二维的表格来表达整个词表,假设这个二维的表格有一千行一千列,这个表格可以表达一百万个词;这个表格的每一行有一个行向量,每一列有一个列向量,这样整个二维表格只需要两千个向量。如果一个词(January)在第一行第一列的话,它就由行向量X1和列向量Y1来联合表达。考虑一个有一百万个词的词表,原来需要一百万个嵌入向量,通过这样一个二维或者是两个component的表格词嵌入,现在我们只需要一千个行向量和一千个列向量来进行表达,这样大大降低词嵌入向量模型的大小。&/p&&p&我们在很多公共的数据集上做测试,结果表明我们提出的LightRNN算法极大的减小了模型的尺寸,可以把原来语言模型的大小从4G降到40M左右,当这个模型只有40兆的时候,很容易使得我们在移动设备或者是GPU上使用。我们的方法使得深度模型在各种能耗比较低或者内存比较小的设备上的使用成为了可能。并且我们还发现,通过这样一种共享的二维词表的嵌入,我们得到的循环神经网络模型的精度并没有受到很大的影响,实际上LightRNN的精度反而略微有上升,和前面的卷积神经网络压缩的结果比较类似。&/p&&br&&p&&b&挑战3:大计算需要昂贵的物质、时间成本&/b&&/p&&p&&b&前沿3:全新的硬件设计、算法设计、系统设计&/b&&/p&&p&大计算说起来容易,其实做起来非常不容易,非常不简单。我们微软亚洲研究院研究员提出深度残差网络,这种网络如果在ImageNet这样一个上百万的数据上进行训练的话,用四块现在最先进的GPU卡K80学习训练时间大概要三周。最近百度做的神经机器翻译系统,他们用了32块K40的GPU用了十天做训练,谷歌的机器翻译系统用了更多,用了96块K80的GPU训练了六天。大家可能都知道AlphaGo, 它也需要非常大量的计算资源。AlphaGo的模型包含一个策略神经网络,还有一个值网络,这两个都是卷积神经网络。它的策略网络用了50块GPU做训练,训练了3个周,值网络也是用了50块GPU,训练了一周,因此它整个的训练过程用了50块CPU四周时间,差不多一个月。大家可以想一想,如果训练一个模型就要等一个月,并且我们经常要调各种超参数,一组超参数得到的结果不好,换另外一组超参数,可能要尝试很多组超参数,如果我们没有大量的计算资源,一等就是一个月,这从产品的更新换代还有技术创新的角度而言,都不能接受。刚才说了只是AlphaGo训练的复杂度,其实它的测试,比如说比赛的时候,复杂度也非常高, AlphaGo的单机版和人下棋的时候,每次下棋需要用48块CPU 8块GPU,它的分布式版本就用的更多,每次需要用1200块CPU再加上176块GPU。大家可以想一想,地球上有几个公司能承受这么高昂的代价来做深度学习。&/p&&p&因此我们认为,深度学习所面临的第三个挑战是如何设计一些更高级的算法,更快的算法,更有效的算法。手段可能是通过一些全新的硬件设计或者是全新的算法设计,或者是全新的系统设计,使得这种训练能够大大的加速。如果我们还是这种训练动不动就要几十块GPU或者几百块GPU,要等几个星期或者是几个月的话,对工业界和学术界而言都不是好事,我们需要更快速更有效的训练方法。&/p&&br&&p&&b&挑战4:如何像人一样从小样本进行有效学习?&/b&&/p&&p&&b&前沿4:数据+知识,深度学习与知识图谱、逻辑推理、符号学习相结合&/b&&/p&&p&现在的深度学习主要是从大数据进行学习,就是我给你很多标注的数据,使用深度学习算法学习得到一些模型。这种学习方式和人的智能是非常不一样的,人往往是从小样本进行学习。人对图像进行分类,如果人想知道一个图像是不是苹果,只需要很少几个样本就可以做到准确分类。两三岁小孩,开始认识世界的时候,他如果想知道什么样的动物是狗,我们给他看几张狗的图片,并且告诉他狗有什么特征,和其他动物像猫或者羊有什么区别的话,小孩可以很快很准确的识别狗。但是在ImageNet比赛里,像深度残差神经网络,一般来说一个类别大概需要上千张图片才能进行比较充分的训练,得到比较准确的结果。还有一个例子就是汽车驾驶,一般来说,通过在驾校的培训,也就是几十个小时的学习,几百公里的练习,大多数人就可以开车上路了,但是像现在的无人车可能已经行驶了上百万公里,还是达不到人的全自动驾驶的水平。原因在于,人经过有限的训练,结合规则和知识能够应付各种复杂的路况,但是当前的AI还没有逻辑思考、联想和推理的能力,必须靠大数据来覆盖各种可能的路况,但是各种可能的路况几乎是无穷的。&/p&&p&前面提到的小孩子认识世界的过程,很多时候,大人可以把一些经验或者是知识传授给他们,比如说苹果是圆形的,有红色的或者青的苹果,狗和猫的区别在什么地方。这种知识很容易通过语言进行传授,但是对于一个AI或者对于一个深度学习算法而言,如何把这种知识转化成实际模型的一部分,怎么把数据和知识结合起来,提高模型的训练的速度或者是识别的精度,这是一个很复杂的问题。&/p&&p&现在我们组有同事正在做这方面的尝试和努力,我们希望把深度学习、知识图谱、逻辑推理、符号学习等等结合起来,希望能够进一步推动人工智能的发展,使人工智能更接近人的智能。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-eac83b9a101a1cd7189a0_b.png& data-rawwidth=&865& data-rawheight=&419& class=&origin_image zh-lightbox-thumb& width=&865& data-original=&https://pic1.zhimg.com/v2-eac83b9a101a1cd7189a0_r.png&&&/figure&&p&今年的人工智能国际顶级会议AAAI 2017的最佳论文奖,颁给了一个利用物理或者是一些领域的专业知识来帮助深度神经网络做无标注数据学习的项目。论文里的具体例子是上面这张图里面一个人扔枕头的过程,论文想解决的问题是从视频里检测这个枕头,并且跟踪这个枕头的运动轨迹。如果我们没有一些领域的知识,就需要大量的人工标注的数据,比如说把枕头标注出来,每帧图像的哪块区域是枕头,它的轨迹是什么样子的。实际上因为我们知道,枕头的运动轨迹应该是抛物线,二次型,结合这种物理知识,我们就不需要标注的数据,能够把这个枕头给检测出来,并且把它的轨迹准确的预测出来。这篇论文之所以获得了最佳论文奖,也是因为它把知识和数据结合起来,实现了从无标注数据进行学习的可能。&/p&&br&&p&&b&挑战5:如何从认知性的任务扩展到决策性任务?&/b&&/p&&p&&b&前沿5:博弈机器学习&/b&&/p&&p&人的智能包含了很多方面,最基本的阶段是认知性智能,也就是对整个世界的认知。我们看到一幅图能知道里面有什么,我们听到一句话知道在说文字。现在对于图象识别、语音识别,AI已经差不多能达到人类的水平,当然可能是在某些特定的约束条件下,能够达到人类的水平。但是其实这种认知性的任务,对人类而言都是非常简单的,比如说一个三五岁的小孩子已经能做得很好了,现在AI所能做的这种事情或者能达到的水平,人其实也很容易做到,只是AI可能在速度上更快,并且规模上去之后成本更低,并且24小时都不需要休息。更有挑战的问题是,人工智能能不能做一些人类做不了或者是很难做好的事情。&/p&&p&像图象识别、语音识别这类认知性的任务,AI之所以做得好,是因为这些任务是静态的,所谓静态就是给定输入,预测结果不会随着时间改变。但是决策性问题,往往和环境有很复杂的交互,在某些场景里面,如何做最优决策,这些最优决策往往是动态的,会随着时间改变。&/p&&p&现在有人尝试把AI用到金融市场,例如如何用AI技术来分析股票,预测股票涨跌,对股票交易给出建议,甚至是代替人来进行股票交易,这类问题就是动态决策性问题。同样一支股票同样的价格,在一周前可能是值得买入,但是一周之后可能就要卖出了,同样一个事件或者是政治新闻比如说是在总统大选之前发生还是之后发生,对股票市场的影响也完全不一样。所以决策问题的一个难点就在于时变性。&/p&&p&决策性问题的第二个难点在于各种因素相互影响,牵一发而动全身。一支股票的涨跌会对其他股票产生影响,一个人的投资决策,特别是大的机构的投资决策,可能会对整个市场产生影响,这就和静态的认知性任务不一样的。在静态认知性任务我们的预测结果不会对问题(例如其他的图像或者语音)产生任何影响,但是在股票市场,任何一个决定,特别是大的机构的投资策略会对整个市场产生影响,对别的投资者产生影响,对将来会产生影响。无人驾驶某种程度上也是比较类似的,一辆无人车在路上怎么行驶,是由环境和很多车辆共同决定的,当我们通过AI来控制一辆车的时候,我们需要关注周围的车辆,因为我们要考虑到周围的车辆对于当前这个无人车的影响,以及我们无人车(如左转右转或者并线)对周围车辆的影响。&/p&&p&当前深度学习已经在静态任务里面取得了很大的成功,如何把这种成功延续和扩展到这种复杂的动态决策问题中,也是当前一个深度学习的挑战之一。我们认为,一个可能的思路是博弈机器学习。在博弈机器学习里,通过观察环境和其他个体的行为,对每个个体构建不同的个性化行为模型,AI就可以三思而后行,选择一个最优策略,该策略会自适应环境的变化和其他个体的行为的改变。&/p&&br&&p&最后,我们做一个简单的总结,在我们看来,当前深度学习的前沿(也是面临的挑战)有以下几个方面,&b&一个是如何从大量的无标注的数据进行学习,二是如何得到一些比较小的模型使得深度学习技术能够在移动设备和各种场所里面得到更广泛的应用,三是如何设计更快更高效的深度学习算法,四是如何把数据和知识结合起来,五是如何把深度学习的成功从一些静态的任务扩展到复杂的动态决策性任务上去。&/b&实际上深度学习还有其他一些前沿研究方向,例如如何自主学习(自主学习超参数、网络结构等)以及如何实现通用人工智能等等,限于时间,不能一一介绍。感兴趣的知友们可以自行查阅相关论文。&/p&&br&&p&————更新的分割线————&/p&&br&&p&&b& 21:23更新&/b&&/p&&p&看到知友@ &a href=&https://www.zhihu.com/people/marisa.moe& class=&internal&&雾雨魔理沙&/a&
的提问“ &b&你好,请问Dual Network跟Auto Encoder有什么相似/不同点?&/b& ”,秦涛博士刚刚做出了补充回答。&/p&&br&&p&回复较长,请包涵。&/p&&p&简而言之,Autoencoder的做法和对偶学习很类似。Autoencoder的encoder可以看作对偶学习里的正向模型,decoder可以看作对偶学习里的反向模型。在我们看来,对偶学习的思想更广泛一些(可能大多数做研究的人喜欢拔高自己的工作^_^),autoencoder可以看作对偶学习的一个special case:&/p&&ul&&li&1.对偶学习中的两个任务可以是实际的物理世界的AI任务例如语音识vs语音合成以及中翻英vs英翻中,也可以是虚拟的任务如Autoencoder里的encoder和decoder。autoencoder学习完成后实际有用的是encoder,这个encoder可以用来降维,它的输出也可以其他分类器的输入;而decoder一般在学习完成后一般没有实际用处。如果两个task都是物理世界的任务,那么对偶学习到的两个模型都是实际用处,例如中翻英的模型和英翻中的模型。&/li&&li&2.对偶学习可以推广到多于两个任务,例如中翻英+英翻法+法翻中,图像转文本+文本转语音+语音转图像,只要这些任务能够形成闭环提供反馈,对偶学习就可以应用。&/li&&li&3.对偶学习可以从无标注数据学习也可以从标注数据学习,其基本思想在于联合概率P(x,y)有两种计算方式,分别涉及到了正向和反向模型,这样两个计算方式的结果应该相等&img src=&//www.zhihu.com/equation?tex=+P%28x%2Cy%29%3DP%28x%29P%28y%7Cx%3Bf%29%3DP%28y%29P%28x%7Cy%3Bg%29& alt=& P(x,y)=P(x)P(y|x;f)=P(y)P(x|y;g)& eeimg=&1&& 我们可以利用这个概率等式正则化从标注数据学习的过程,具体如下图所示,我们把这种做法叫做对偶监督学习 (dual supervised learning)。&/li&&/ul&&figure&&img src=&https://pic2.zhimg.com/v2-7ae1ed156e_b.png& data-rawwidth=&1387& data-rawheight=&779& class=&origin_image zh-lightbox-thumb& width=&1387& data-original=&https://pic2.zhimg.com/v2-7ae1ed156e_r.png&&&/figure&&ul&&li&4.对偶学习可以用来在训练过程中提高两个模型,也可以用在测试过程中。举个例子,给定一个中文的句子x, 神经机器翻译中标准的测试是找的一个能最大化概率P(y|x;f)的英文句子y做为x的翻译。当我们有了正向和反向两个模型后,我们可以找一个能同时最大化两个概率, P(y|x;f)和P(x|y;g)P(y)/P(x), 或者这两个概率的线性组合的英文句子y作为x的翻译。在这里,我们只是利用结构对偶属性改进测试的过程,并没有影响模型的训练,我们把这种做法就做对偶测试(dual inference)。&/li&&/ul&&figure&&img src=&https://pic4.zhimg.com/v2-fddbd8c2f25c_b.png& data-rawwidth=&1389& data-rawheight=&780& class=&origin_image zh-lightbox-thumb& width=&1389& data-original=&https://pic4.zhimg.com/v2-fddbd8c2f25c_r.png&&&/figure&&br&&p&&b& 22:00更新&/b&&/p&&p&&b&回复:@彭也 &请问模型压缩之后,Accuracy反倒有提高应该如何解释?可否认为压缩的过程减少了模型本身的“噪音”,类似数据前处理?&&/b&&/p&&p&模型压缩后accuracy反而提高,正如你所说,一个可能的解释是降噪,就是把模型里的噪声去除。对于LightRNN,我在另外一篇文章“&a href=&//link.zhihu.com/?target=http%3A//mp.weixin.qq.com/s%3F__biz%3DMzAwMTA3MzM4Nw%3D%3D%26mid%3D%26idx%3D1%26sn%3D6e83874cfcf9f586b0ed5d5bb18df6e6%26chksm%3D82c0d731b5b75e27ad302e4cabce6e949fa73fe1b4de3ba99d97bf43bbfc46dc8d80f13ab1ce%26mpshare%3D1%26scene%3D1%26srcid%3D12276r3iqa5F57u0G6s4cNQY%23rd& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&LightRNN:深度学习之以小见大&/a&”里做了一些解释,摘抄如下:&/p&&p&有读者可能会好奇,为什么在减小模型的同时,LightRNN还能达到更好的精度。原因在于共享嵌入。标准RNN假设每个词都有一个独立的向量表达;LightRNN中很多词会共享行或者列向量,二维词表的行列向量都是从数据里学习得到的,并且哪些词在同一行或同一列也是学习得到的,因此LightRNN能够发现词表中的一些语义。如下表所示,通过训练,LightRNN把很多有语义关联的词放在同一行,如832行都是地名,852行都是数字,861行都是数字+单位,872行都是被动分词,877行都是动词第三人称单数形式,等等。也就是说,LightRNN的二维词表的共享行列向量比标准RNN的独立向量更能发现词之间的语义关联。其次,通过让有语义关联的词共享行或列向量,可以使低频的词的向量表达得到更充分的训练。例如44kg这个词在语料库里出现的次数较少,在标准RNN里它的嵌入向量学习不充分,而在LightRNN里,这个词的行向量由同一行的所有词共同训练,它的列向量也由同一列的所有词共同训练,相当于增加了这个词的训练数据,因此能够提高语言模型的精度。&/p&&figure&&img src=&https://pic4.zhimg.com/v2-d739c4c0eea_b.png& data-rawwidth=&975& data-rawheight=&306& class=&origin_image zh-lightbox-thumb& width=&975& data-original=&https://pic4.zhimg.com/v2-d739c4c0eea_r.png&&&/figure&&br&&p&&b&回复:@M Troy
“您好,个人的一点愚见:对偶学习可以应用在机器翻译中的一点原因是两个语言互相翻译的任务,信息量基本是对等的。那么如果应用在“图像识别vs图像生成”中,如何解决信息量不对等的问题?”&/b&&/p&&p&总结得很对,目前对偶无监督学习更适合信息(语义)几乎无损的正反任务,因为如果某个方向的映射有信息损失(如图像识别),那么反向就很难重建原始的输入(如图像生成)。对偶监督学习则没有这个问题,对信息有损的正反向任务也能使用,我们有一个这样的工作已完成,过一段时间会放到网上。我们正在研究如何把对偶无监督学习应用到有损的任务上,如“图像识别vs图像生成”,现在只有一些初步的不成熟的想法。&/p&&br&&p&&b&回复:刘飞 “一些主要文献”&/b&&/p&&p&Goodfellow, Ian, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio, &a href=&//link.zhihu.com/?target=http%3A//papers.nips.cc/paper/5423-generative-adversarial-nets.pdf& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Generative adversarial nets&/a&, NIPS 2014.&/p&&p&Xiang Li, Tao Qin, Jian Yang, and Tie-Yan Liu, &a href=&//link.zhihu.com/?target=https%3A//arxiv.org/abs/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&LightRNN: Memory and Computation-Efficient Recurrent Neural Networks&/a&, NIPS 2016.&/p&&p&Han, Song, Huizi Mao, and William J. Dally, &a href=&//link.zhihu.com/?target=https%3A//arxiv.org/pdf/.pdf& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Deep compression: Compressing deep neural networks with pruning, trained quantization and huffman coding&/a&, ICLR 2016.
Di He, Yingce Xia, Tao Qin, Liwei Wang, Nenghai Yu, Tie-Yan Liu, and Wei-Ying Ma, &a href=&//link.zhihu.com/?target=https%3A//arxiv.org/abs/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Dual Learning for Machine Translation&/a&, NIPS 2016.&/p&&p&Stewart, Russell, and Stefano Ermon, &a href=&//link.zhihu.com/?target=https%3A//arxiv.org/pdf/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Label-free supervision of neural networks with physics and domain knowledge&/a&, AAAI 2017.&/p&&br&&br&&p&————这里是回答结束的分割线————&/p&&p&感谢大家的阅读。&/p&&p&本账号为微软亚洲研究院的官方知乎账号。本账号立足于计算机领域,特别是人工智能相关的前沿研究,旨在为人工智能的相关研究提供范例,从专业的角度促进公众对人工智能的理解,并为研究人员提供讨论和参与的开放平台,从而共建计算机领域的未来。&/p&&p&微软亚洲研究院的每一位专家都是我们的智囊团,你在这个账号可以阅读到来自计算机科学领域各个不同方向的专家们的见解。请大家不要吝惜手里的“邀请”,让我们在分享中共同进步。&/p&&p&也欢迎大家关注我们的&a href=&//link.zhihu.com/?target=http%3A//t.sina.com.cn/msra& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&微博&/a&和微信账号,了解更多我们研究。&/p&&p&&a href=&//link.zhihu.com/?target=http%3A//weixin.qq.com/r/PUliejrEzWeyrX4Z9xwv& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&weixin.qq.com/r/PUliejr&/span&&span class=&invisible&&EzWeyrX4Z9xwv&/span&&span class=&ellipsis&&&/span&&/a& (二维码自动识别)&/p&
谢邀。针对这个问题,我们邀请了微软亚洲研究院机器学习组的主管研究员秦涛博士与大家分享他的观点。微软亚洲研究院机器学习组包含机器学习的各个主要方向,在理论、算法、应用等不同层面推动机器学习领域的学术前沿。该组目前的研究重点为深度学习、增强学…
&p&之前安利过你们的,房屋价格和个人收入的比例,全球各大城市排行。每个城市都有一个指数,比如深圳的指数是44.36,表示深圳市90平方米的公寓价格,是家庭可支配年收入(这里以1.5*人均收入来计算)的44.36倍。&/p&&br&数据来源:&a href=&http://link.zhihu.com/?target=https%3A//www.numbeo.com/property-investment/rankings.jsp& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Property Prices Index 2017&/a&&br&&figure&&img src=&https://pic3.zhimg.com/v2-900ca0ed19bd2_b.png& data-rawwidth=&1186& data-rawheight=&8334& class=&origin_image zh-lightbox-thumb& width=&1186& data-original=&https://pic3.zhimg.com/v2-900ca0ed19bd2_r.jpg&&&/figure&&p&大概分析一}

我要回帖

更多关于 苹果手机出现蓝色方框 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信