二概率出号不可改变规律与概率全包破解是不太现实的

各位以价值为锚的小伙伴大家恏。今天我们来看一家技术领先的锂化工企业赣锋锂业。

这家企业19年的净利润预计只有5亿元左右但最近三个月,它的股票被各路资金瘋狂追捧目前的市值已超过700亿,涨幅接近两倍究竟是何原因,让市场资金愿意在如此高估值的情况下仍在继续买入呢?

我认为主要嘚原因是锂行业是新能源汽车产业中,具有较高确定性且具有较大发展空间的行业。而赣锋锂业是几家锂行业巨头中最能抓住行业發展机遇的企业。

下面我们来思考一个问题为什么新能源汽车产业和锂行业值得我们重点关注呢?

展望未来十年也许房地产的黄金时玳已经过去,但新能源汽车的豆蔻年华才刚开始抛开补贴退坡的短期影响,新能源汽车产业的发展趋势是不断向好的譬如年销量已经突破了100万辆大关。这意味着新事物的导入期已经结束马上会进入快速放量的成长期阶段。

根据我国的《汽车产业中长期发展规划》2020年噺能源汽车的产量目标为200万辆,保有量达到500万辆;2025年我国的新能源汽车占比超过20%产量目标为700万辆;至2030年新能源汽车占比超过40%。

除了中国全球的主要国家基本都明确了向电动车转型的目标,未来将陆续停止内燃机汽车的生产可见,新能源汽车行业朝气十足目前正处于夶爆发的前期阶段。

巴菲特早在2008年就认准了这个方向并以8块钱每股的价格,投入18亿入股比亚迪回顾过去十年的投资历程,巴菲特在8元買入后股价继续下跌至6元,随后在一年内翻了十倍然后又回到解放前。由于股票的价格长期看会围绕着价值波动巴菲特选择慢慢地變富,至今依然一股没卖

从新能源汽车的销量突破百万开始,这个产业的大爆发已经具备了很高的确定性整个产业链的产值都会迎来巨大的发展空间,产业链内很容易蕴含重大的投资机遇那么,我为什么特别青睐锂行业呢

一个具有吸引力的公司,必然有长期创造现金利润的能力先看下游的整车环节。整车制造是重资产行业目前各大自主品牌的整车厂、造车新势力都在造势,口号喊得很响但实際上许多厂商要么兑现不了PPT造车的诺言,要么没有志向、认为300公里续航就足够、造出一堆垃圾车用于短期套利这些不争气的企业未来还需面对特斯拉和外资品牌的竞争。随着补贴退坡的落地整车厂会受到较大的短期影响,补贴的下降部分很可能需要整车厂自掏腰包来补貼消费者否则易造成库存积压。

再看中游的制造环节只有电机、电池和电控具备有较大的附加价值。特别在电池制造环节目前我国嘚宁德时代已具备与日韩企业同台竞争的实力。虽然宁德时代的技术水平仍落后日韩企业一年多的水平但在能量密度、衰减率、稳定性等方面正在快速追赶。既然如此为什么我仍然没有选择电池厂作为投资对象呢?一方面是估值的问题但最主要的担忧还是该行业的技術革新问题。

短期看在特斯拉的引领下,高镍化的电池路线已经脱颖而出但几年之后,市场对技术路线的选择仍然是个问题科力远當初压注镍氢电池,惨痛失败;沃特玛押注磷酸铁锂电池频临倒闭;比亚迪坚持磷酸铁锂路线,结果将老大的位置拱手让出;宁德时代洇为提早布局三元而后来居上几年之后的技术路线不会产生一个定局。富锂锰基材料的技术突破、固态电池技术路线的选择、新负极材料的技术突破这些都是极大的变量。

当新技术出现时过去的龙头即使已经建立起基于旧技术的规模照应,无奈船大难调头要想自己革自己的命实在不容易。再者即使愿意掉头,届时又需要大量的资本开支未来会不会又出现一些因提早布局新技术而坐上铁王座的优秀企业?行业的历史告诉我们这个可能性是不能忽视的。

此外电机电控环节的情况更不容乐观。由于稀土、硅钢、铜等原材料价格上漲、行业产能过剩导致议价能力下降等因素的影响2018年全行业的利润出现暴跌,相关上市公司的业绩惨不忍睹大洋电机、双林股份、江特电机、信质电机、英威腾、正海磁材、方正电机、云意电气、蓝海华腾这几家主流企业中,有过半数的利润降幅超过100%业内的200多家企业,或有过半将会被淘汰

最后再看产业链的上游。各种材料大多数是同质化的生产技术也比较公开透明,相关企业可以在较短时间内加夶产能从而导致剧烈的竞争。在这种情况下相关企业的利润率将会被极大压缩,抗风险能力也较弱

同时,技术路线的变革也可能造荿颠覆性的影响例如负极材料目前以石墨为主,但未来的方向是硅碳材料再久远的技术路线很可能是金属锂材料。再如电解液这个行業几年之后一旦固态电池的技术成熟,就不需要再使用电解液了相对而言,在产业链上游中用于制造电池正极材料的钴和锂比较值得偅视

由于钴是铜的伴生矿,产量的大幅提升有一定难度较难满足日益增长的需求,导致价格弹性较大虽然钴生产商的股价容易在短期内出现较大涨幅,但从长期看下游的客户必然会想方设法摆脱这种供应上的牵制,要么寻找替代材料要么降低钴的使用含量。

由于鈷的作用是稳定三元正极材料的分子结构防止锂电子脱嵌时插层结构的坍塌,技术人员只需寻找到有效的替代方案即可降低钴的使用量目前特斯拉电池的钴含量已低至3%,未来将下降至0%的水平宝马集团也宣布将在年推出第五代电动汽车,届时将不再采购钴

另一方面,基于元素的特性锂是电池材料中不可或缺的核心元素。在元素周期表的同一族中能对锂元素构成替代威胁的主要是氢元素和钠元素。

鈳惜的是氢元素利用和开发的各环节都面临着严峻的技术问题,有太多的不容易比如要无污染又经济地制氢不容易。从石化提炼还是囿污染电解水的耗能又太高。氢的运输不容易需要面临易燃易爆的问题。加氢站、加氢管道的建设不容易国内去年只有9座在运营。電堆的增效降本不容易需要以昂贵的铂金材料作为催化剂。消费者心理因素的改变不容易开着氢能源汽车就像放了个“氢弹”在车里,心理上会害怕爆炸等等

氢能产业链的建设也远未形成气候,更适合作为电动汽车在某些地区或领域的补充例如长距离的定点物流运輸、极寒地区等。大概率而言氢能汽车未来十年内都难以对电动汽车构成威胁。

至于钠离子电池如果锂元素在地球上不是那么不稀缺嘚话,倒有可能具备替代利用的价值然而随着全球锂矿山及盐湖被加大力度开发,产业链的经济性和成熟度的提升使得钠离子电池不足為惧

纵观整个新能源产业链,个人认为锂行业是最有吸引力、且兼备确定性和成长性的朝阳行业无论下游的技术路线怎么变化,元素周期表已决定了锂元素在未来相当长一段时期内将处于不可替代的地位,因而有望随着新能源汽车产业的爆发而创造出巨大价值

明白叻锂行业的吸引力后,我们为何要关注赣锋锂业呢下面一起来了解一下,赣锋的基本经营情况

公司的主要业务有三块,分别是锂系列產品、锂电池系列产品和其他业务其中,锂系列产品的营收占比超过80%,并贡献了超过90%的毛利润公司的锂盐产品主要是金属锂、碳酸鋰和氢氧化锂这三个品类,它们在18年所带来的营收占比分别为19%、26%和29%

简单地说,赣锋锂业就是一个锂盐加工厂加工出来的锂盐产品,主要被用于满足动力电池、3C电子产品和传统工业领域的需求。目前3C电子产品和传统工业的需求已经进入了低速、平稳增长的阶段但新能源汽車产业的蓬勃发展,会极大地拉动动力电池的需求从而导致锂盐需求的爆发式增长。

业内普遍预计到2025年,全球的锂盐需求量将达到100万噸的水平然而目前雅宝、SQM、赣锋等行业巨头的产能,均只有区区几万吨未来的增长潜力显而易见。

也许你会想既然整个行业都面临那么好的发展机会,为何只有赣锋的股价能展现出如此凌厉的霸气

答案是,产业链的瓶颈已从锂矿产能转移至能满足顶级汽车厂商供應链需求的氢氧化锂产能。基于多年累积起来的技术优势在未来一段时期内,赣锋锂业将会是最能把握住行业发展机遇的赢家

曾经的鋰矿市场,是澳洲泰利森锂业一家独大的局面由于新能源汽车产业的快速崛起,下游对锂精矿的需求突然暴增严重的供需矛盾使锂矿苼产商尝到了暴利的滋味。

可是哪里有暴利的机会,哪里就会被各路资本盯上新进入者不管自己有没有靠谱的生产技术和经验,先冲進去干了再说随着西澳另外六大锂矿的陆续投产,锂精矿市场已经进入了七大锂矿时代

2019年,由于锂精矿的供需逆转锂价持续下跌,澳洲的高成本锂矿企业开始出清比如阿丽塔由于债务违约不得不实施破产重组、雅宝收购Wodgina后宣布暂停项目的运营、Mt Cattlin宣布从2020年起减产40%、Altura不嘚不配股来维持经营等等。

尽管如此锂精矿的产能依然远远大于市场的需求。根据中信证券的预测2020年至2022 年,全球锂原料的供应量为 51万噸、58.6万吨和61.9 万吨对应锂化合物的需求量为 40.8万吨、46.3万吨和52.6 万吨,供过于求的局面仍将持续

目前,锂精矿的价格被死死压在主流矿商的成夲线位置在供需状况扭转之前,锂精矿的价格大概率会保持稳定锂矿企业很难再获得可观的利润。因此锂矿的产能瓶颈已不复存在。作为锂矿企业下游的锂盐生产商终于可以扬眉吐气地笑了。

可惜的是有些锂盐生产商没笑多久,就开始哭了国内市场的锂盐需求主要是碳酸锂,然而碳酸锂的供应依然过剩激烈的竞争导致现在生产一吨碳酸锂,龙头企业也只能有几千块的毛利更不用说没有竞争優势的小厂了。

锂行业虽然处于艰难时期但有一个细分领域除外,那就是海外的高镍锂市场对于那些没多大续航要求的电动汽车,使鼡用碳酸锂制造的正极材料即可但对于有高续航要求的电动车,就需要用到高镍三元的正极材料

顾名思义,高镍三元中的镍含量比较高镍含量高则对烧灼的温度有要求,超过700度镍就会板结温度控制不好,生产出来的正极材料就会成为废品此时,碳酸锂的熔化温度昰达不到要求的只能使用活性温度只有400度的氢氧化锂。

这时候拥有氢氧化锂核心技术的赣锋锂业,可以放声大笑了其实从去年开始,赣锋的基本面就已经在不断变得更好特别是以下几个方面。

第一赣锋通过不断的对外投资,已明显补齐锂资源的短板未来可通过包销的形式,实现锂原料的充足供应不但原料供应有了保障,而且原料成本的优势正在扩大

这张图片整理了赣锋目前拥有的上游资源。其中特别值得期待的是位于阿根廷的裤衩里盐湖项目,目前建设的进展比较顺利有望在明年投产。一起来看个视频感受一下

裤衩裏项目投产后,现金成本只有3500美元一吨非常具有竞争力。预计可以拉低公司生产碳酸锂25%的成本

Sonora项目投产后,成本也只有4000美元一吨同樣具有明显的竞争力。

无论是阿根廷项目还是Sonora项目都是由赣锋的技术团队亲自操刀。赣锋拥有的技术实力大大地提升了在境外合作的议價能力而且得益于晓申总强大的人脉关系,合作方对赣锋的态度往往都是很友好的

第二,除了原料成本的优势在增强赣锋的另一大煷点是资本开支效率高。基于多年累积起来的技术优势赣锋在锂盐加工环节具有明显的成本优势,并且未来还有优化的空间

在资本开支方面,和友商一对比就明白了想象自己在一栋办公楼前经营烧饼生意,隔壁的齐天大圣花了37万元装修店面超级豪华的店面,还让智能机器人去自动摊烧饼结果捣鼓了一年,才发现原来自己不会烧饼压根就摊不出来。即使猴年马月能够摊出来烧饼的价格也只能卖仈块多一张。

张三锋笑了笑自己也开个烧饼店吧。花了5万块钱租个店面,自己做了五个炉子挂个招牌就开始营业了,一个烧饼也是賣八、九块钱厉害的是,刚开业就跟办公楼里最大的几个集团签订了长期早餐供应合同今年大概率能卖出超过三万张烧饼,以后还有能力每年卖出五万张

隔壁就像个慈善家,开个店巨额投资卖的产品却没有溢价,项目回收期竟然要十年试问人生有多少个十年?未來是行业发展的黄金十年别人卖烧饼是掰着手指盼望能早日赚回本金,而自己赚钱赚到睡觉都会笑醒这就是差别。

在成本优化方面鼡卤水生产碳酸锂,用锂精矿生产氢氧化锂这种搭配是最优的,未来随着阿根廷项目的投产赣锋会进行生产原料的调整,从而进一步提升成本的优势

第三,赣锋用左手在资源端画了个龙然后用右手走客户端画了道彩虹。

对于行业集中度较高的电池行业来说无论对仩游锂盐供应商,还是下游汽车厂电池厂商的议价能力还是比较高的。俗话说敌人的敌人就是朋友。为了防止受制于议价能力较高的電池厂赣锋很早就提出了绑定汽车厂的铁三角战略。

具体做法是让汽车厂指定电池厂使用赣锋的锂盐进行电池生产。在这种合作框架丅汽车厂可以拥有稳定的原料供应,防止被电池厂要挟而赣锋可以保障自己的加工毛利率,只要行业需求量如期释放赣锋的利润便鈳以较稳定地水涨船高。

同时赣锋还在研发固态电池,由于实行了铁三角战略有效解决了进军电池领域与下游客户左右互搏的问题,罙谋远虑一举两得。

打铁还需自身硬如果没有两把刷子,高傲的汽车厂又怎么会愿意加入铁三角的合作框架赣锋的产品质量如何,還得客户说了算18年8月,LG化学向赣锋订购了9.26万吨电池级锂产品同年9月,特斯拉拿下了赣锋未来几年20%的产能19年4月,德国大众宣布未来十姩将采购赣锋的锂化工产品同年12月,德国宝马与公司签订了长期供货协议

目前的状况是,赣锋的氢氧化锂供不应求今年只能生产3万哆吨的货,公司的氢氧化锂市占率大概30%今年特斯拉国产化的进展非常顺利、加上大众MEB平台投产、以及众多汽车厂陆续投放新车型,下游對氢氧化锂的需求将会迅速增长

同时,友商的巨额投资已经暴雷无法形成有效产能,可以预见的是今年下半年氢氧化锂有望进入涨價的周期。股价是提前反应基本面的因此赣锋锂业展现出来的霸气也就不难理解了。

第四除了短期在氢氧化锂市场呼风唤雨,未来还囿一个大饼如果2025实现了100万吨的锂需求,届时赣锋的目标市场份额是20%也就是20万吨的供应量。可以想象一下那时候的利润和市值水平

当嘫,画大饼谁都会能够不断实现的人才值得敬佩。友商已经说话不算话了但赣锋却一步一个脚印地修复了自己的短板。而且从公司的資源储备以及客户储备情况来看这个远期目标是有机会实现的。我们可以一步步去印证

综上所述,赣锋锂业的投资逻辑比较清晰产業链的瓶颈已经转移至,能满足顶级汽车厂供应链需求的氢氧化锂产能而赣锋恰好能够凭借自身的技术优势,紧紧抓住氢氧化锂的发展機遇原创-刺猬偷腥

}

当一个高尔夫球员刚开始学习打高尔夫时他们通常会在挥杆的练习上花费大多数时间。慢慢地他们才会在基本的挥杆上通过变化发展其他的击球方式学习低飞球、左曲球和右曲球。类似的我们现在仍然聚焦在反向传播算法的理解上。这就是我们的“基本挥杆”——神经网络中大部分工作学习和研究嘚基础本章,我会解释若干技术能够用来提升我们关于反向传播的初级的实现最终改进网络学习的方式。

本章涉及的技术包括:更好嘚代价函数的选择—— 代价函数;四中规范化方法(L1 和 L2 规范化dropout 和训练数据的人工扩展),这会让我们的网络在训练集之外的数据上更好哋泛化;更好的;还有同样我也会再给出一些简要的。这些讨论之间的独立性比较大所有你们可以随自己的意愿挑着看。另外我还会茬代码中实现这些技术使用他们来提高在第一章中的分类问题上的性能。

当然我们仅仅覆盖了大量已经在神经网络中研究发展出的技術的一点点内容。此处我们学习深度学习的观点是想要在一些已有的技术上入门的最佳策略其实是深入研究一小部分最重要那些的技术点掌握了这些关键技术不仅仅对这些技术本身的理解很有用,而且会深化你对使用神经网络时会遇到哪些问题的理解这会让你们做好在需要时快速掌握其他技术的充分准备。


我们大多数人觉得错了就很不爽在开始学习弹奏钢琴不久后,我在一个听众前做叻处女秀我很紧张,开始时将八度音阶的曲段演奏得很低我很困惑,因为不能继续演奏下去了直到有个人指出了其中的错误。当时我非常尴尬。不过尽管不开心,我们却能够因为明显的犯错快速地学习到正确的东西你应该相信下次我再演奏肯定会是正确的!相反,在我们的错误不是很好的定义的时候学习的过程会变得更加缓慢。

理想地我们希望和期待神经网络可以从错误中快速地学习。在實践中这种情况经常出现么?为了回答这个问题让我们看看一个小例子。这个例子包含一个只有一个输入的神经元:

我们会训练这个鉮经元来做一件非常简单的事:让输入$$1$$转化为 $$0$$当然,这很简单了手工找到合适的权重和偏差就可以了,不需要什么学习算法然而,看起来使用梯度下降的方式来学习权重和偏差是很有启发的所以,我们来看看神经元如何学习

我们讨论了作为一种减轻过匹配和提高汾类准确度的方式的规范化技术。实际上这不是仅有的好处。实践表明在使用不同的(随机)权重初始化进行多次 MNIST 网络训练的时候,峩发现无规范化的网络会偶然被限制住明显困在了代价函数的局部最优值处。结果就是不同的运行会给出相差很大的结果对比看来,規范化的网络能够提供更容易复制的结果

为何会这样子?从经验上看如果代价函数是无规范化的,那么权重向量的长度可能会增长洏其他的东西都保持一样。随着时间的推移这个会导致权重向量变得非常大。所以会使得权重向困在差不多方向上因为由于梯度下降嘚改变当长度很大的时候仅仅会在那个方向发生微小的变化。我相信这个现象让学习算法更难有效地探索权重空间最终导致很难找到代價函数的最优值。

为何规范化可以帮助减轻过匹配

我们已经看到了规范化在实践中能够减少过匹配了这昰令人振奋的,不过这背后的原因还不得而知!通常的说法是:小的权重在某种程度上,意味着更低的复杂性也就给出了一种更简单卻更强大的数据解释,因此应该优先选择这虽然很简短,不过暗藏了一些可能看起来会令人困惑的因素让我们将这个解释细化,认真哋研究一下现在给一个简单的数据集,我们为其建立模型:

这里我们其实在研究某种真实的现象$$x$$ 和 $$y$$ 表示真实的数据。我们的目标是训練一个模型来预测 $$y$$ 关于 $$x$$ 的函数我们可以使用神经网络来构建这个模型,但是我们先来个简单的:用一个多项式来拟合数据这样做的原洇其实是多项式相比神经网络能够让事情变得更加清楚。一旦我们理解了多项式的场景对于神经网络可以如法炮制。现在图中有十个點,我们就可以找到唯一的

这给出了一个完美的拟合但是我们同样也能够使用线性模型 $$y=2x$$ 得到一个好的拟合效果:

哪个是更好的模型?哪個更可能是真的还有哪个模型更可能泛化到其他的拥有同样现象的样本上?

这些都是很难回答的问题实际上,我们如果没有关于现象褙后的信息的话并不能确定给出上面任何一个问题的答案。但是让我们考虑两种可能的情况:(1)$$9$$ 阶多项式实际上是完全描述了真实情況的模型最终它能够很好地泛化;(2)正确的模型是 $$y=2x$$,但是存在着由于测量误差导致的额外的噪声使得模型不能够准确拟合。

先验假設无法说出哪个是正确的(或者如果还有其他的情况出现)。逻辑上讲这些都可能出现。并且这不是易见的差异在给出的数据上,兩个模型的表现其实是差不多的但是假设我们想要预测对应于某个超过了图中所有的 $$x$$ 的 $$y$$ 的值,在两个模型给出的结果之间肯定有一个极夶的差距因为 $$9$$ 阶多项式模型肯定会被 $$x^9$$ 主导,而线性模型只是线性的增长

在科学中,一种观点是我们除非不得已应该追随更简单的解释当我们找到一个简单模型似乎能够解释很多数据样本的时候,我们都会激动地认为发现了规律与概率!总之这看起来简单的解决仅仅會是偶然出现的不大可能。我们怀疑模型必须表达出某些关于现象的内在的真理如上面的例子,线性模型加噪声肯定比多项式更加可能所以如果简单性是偶然出现的话就很令人诧异。因此我们会认为线性模型加噪声表达除了一些潜在的真理从这个角度看,多项式模型僅仅是学习到了局部噪声的影响效果所以尽管多是对于这些特定的数据点表现得很好。模型最终会在未知数据上的泛化上出现问题所鉯噪声线性模型具有更强大的预测能力。

让我们从这个观点来看神经网络假设神经网络大多数有很小的权重,这最可能出现在规范化的網络中更小的权重意味着网络的行为不会因为我们随便改变了一个输入而改变太大。这会让规范化网络学习局部噪声的影响更加困难將它看做是一种让单个的证据不会影响网络输出太多的方式。相对的规范化网络学习去对整个训练集中经常出现的证据进行反应。对比看大权重的网络可能会因为输入的微小改变而产生比较大的行为改变。所以一个无规范化的网络可以使用大的权重来学习包含训练数据Φ的噪声的大量信息的复杂模型简言之,规范化网络受限于根据训练数据中常见的模式来构造相对简单的模型而能够抵抗训练数据中嘚噪声的特性影响。我们的想法就是这可以让我们的网络对看到的现象进行真实的学习并能够根据已经学到的知识更好地进行泛化。

所鉯倾向于更简单的解释的想法其实会让我们觉得紧张。人们有时候将这个想法称为“奥卡姆剃刀原则”然后就会热情地将其当成某种科学原理来应用这个法则。但是这就不是一个一般的科学原理。也没有任何先验的逻辑原因来说明简单的解释就比更为负责的解释要好实际上,有时候更加复杂的解释其实是正确的

让我介绍两个说明复杂正确的例子。在 $$1940$$ 年代物理学家 Marcel Schein 发布了一个发现新粒子的声明。洏他工作的公司GE,非常欢喜就广泛地推广这个发现。但是物理学及 Hans Bethe 就有怀疑Bethe 访问了 Schein,看着那些展示 Schein 的新粒子的轨迹的盘子但是在烸个 plate 上,Bethe 都发现了某个说明数据需要被去除的问题最后 Schein 展示给 Bethe 一个看起来很好的 plate。Bethe 说这可能就是一个统计上的侥幸Schein 说,“使得但是這个可能就是统计学,甚至是根据你自己的公式也就是 $$1/5$$ 的概率。” Bethe 说:“但我们已经看过了这 $$5$$ 个plate 了”最终,Schein 说:“但是在我的plate中每個好的plate,每个好的场景你使用了不同的理论(说它们是新的粒子)进行解释,而我只有一种假设来解释所有的 plate” Bethe 回答说,“在你和我嘚解释之间的唯一差别就是你的是错的而我所有的观点是正确的。你单一的解释是错误的我的多重解释所有都是正确的。”后续的工莋证实了Bethe 的想法是正确的而 Schein 粒子不再正确。

注意:这一段翻译得很不好请参考原文

第二个例子,在 $$1859$$ 年天文学家 Urbain Le Verrier 观察到水星并没有按照牛顿万有引力给出的轨迹进行运转。与牛顿力学只有很小的偏差那时候一些解释就是牛顿力学需要一些微小的改动了。在 $$1916$$ 年爱因斯坦證明偏差用他的广义相对论可以解释得更好这是一种和牛顿重力体系相差很大的理论,基于更复杂的数学尽管引入了更多的复杂性,現如今爱因斯坦的解释其实是正确的而牛顿力学即使加入一些调整,仍旧是错误的这部分因为我们知道爱因斯坦的理论不仅仅解释了這个问题,还有很多其他牛顿力学无法解释的问题也能够完美解释另外,令人印象深刻的是爱因斯坦的理论准确地给出了一些牛顿力學没能够预测到的显现。但是这些令人印象深刻的现象其实在先前的时代是观测不到的如果一个人仅仅通过简单性作为判断合理模型的基础,那么一些牛顿力学的改进理论可能会看起来更加合理一些

从这些故事中可以读出三点。第一确定两种解释中哪个“更加简单”其实是一件相当微妙的工作。第二即使我们可以做出这样一个判断,简单性也是一个使用时需要相当小心的指导!第三对模型真正的測试不是简单性,而是它在新场景中对新的活动中的预测能力

所以,我们应当时时记住这一点规范化的神经网络常常能够比非规范化嘚泛化能力更强,这只是一种实验事实(empirical fact)所以,本书剩下的内容我们也会频繁地使用规范化技术。我已经在上面讲过了为何现在还沒有一个人能够发展出一整套具有说服力的关于规范化可以帮助网络泛化的理论解释实际上,研究者们不断地在写自己尝试不同的规范囮方法然后看看哪种表现更好,尝试理解为何不同的观点表现的更好所以你可以将规范化看做某种任意整合的技术。尽管其效果不错但我们并没有一套完整的关于所发生情况的理解,仅仅是一些不完备的启发式规则或者经验

这里也有更深的问题,这个问题也是有关科学的关键问题——我们如何泛化规范化能够给我们一种计算上的魔力帮助神经网络更好地泛化,但是并不会带来原理上理解的指导甚至不会告诉我们什么样的观点才是最好的。

这个问题要追溯到最先由苏格兰哲学家大卫 休谟在 (1748)

这实在是令人困扰,因为在日常生活中我们人类在泛化上表现很好。给一个儿童几幅大象的图片他就能快速地学会认识其他的大象。当然他们偶尔也会搞错,很可能将一呮犀牛误认为大象但是一般说来,这个过程会相当准确所以我们有个系统——人的大脑——拥有超大量的自由变量。在受到仅仅少量嘚训练图像后系统学会了在其他图像的推广。某种程度上我们的大脑的规范化做得特别好!怎么做的?现在还不得而知我期望若干姩后,我们能够发展出更加强大的技术来规范化神经网络最终这些技术会让神经网络甚至在小的训练集上也能够学到强大的泛化能力。

實际上我们的网络已经比我们预先期望的要好一些了。拥有 $$100$$ 个隐藏元的网络会有接近 $$80,000$$ 个参数我们的训练集仅仅有 $$50,000$$ 幅图像。这好像是用┅个 $$80,000$$ 阶的多项式来拟合 $$50,000$$ 个数据点我们的网络肯定会过匹配得很严重。但是这样的网络实际上却泛化得很好。为什么这一点并没有很恏滴理解。这里有个猜想:梯度下降学习的动态有一种自规范化的效应这真是一个意料之外的巧合,但也带来了对于这种现象本质无知嘚不安不过,我们还是会在后面依照这种实践的观点来应用规范化技术的 神经网络也是由于这点表现才更好一些。

现在我们回到前面留下来的一个细节:L2 规范化没有限制偏差以此作为本节的结论。当然了对规范化的过程稍作调整就可以对偏差进行规范了。实践看来做出这样的调整并不会对结果改变太多,所以在某种程度上,对不对偏差进行规范化其实就是一种习惯了然而,需要注意的是有┅个大的偏差并不会像大的权重那样会让神经元对输入太过敏感。所以我们不需要对大的偏差所带来的学习训练数据的噪声太过担心同時,允许大的偏差能够让网络更加灵活——因为大的偏差让神经元更加容易饱和,这有时候是我们所要达到的效果所以,我们通常不會对偏差进行规范化

除了 L2 外还有很多规范化技术。实际上正是由于数量众多,我这里也不回将所有的都列举出来茬本节,我简要地给出三种减轻过匹配的其他的方法:L1 规范化、dropout 和人工增加训练样本我们不会像上面介绍得那么深入。其实目的只是想让读者熟悉这些主要的思想,然后来体会一下规范化技术的多样性

L1 规范化:这个方法其实是在代价函数上加上一个权重绝对值的和:

矗觉上看,这和 L2 规范化相似惩罚大的权重,倾向于让网络的权重变小当然,L1 规范化和 L2 规范化并不相同所以我们不应该期望 L1 规范化是進行同样的行为。让我们来看看试着理解使用 L1 规范化和 L2 规范化所不同的地方

首先,我们会研究一下代价函数的偏导数对(95)求导我们有:

其中 $$sgn(w)$$ 就是 $$w$$ 的正负号。使用这个表达式我们可以轻易地对反向传播进行修改从而使用基于 L1 规范化的随机梯度下降进行学习。对 L1 规范化的网絡进行更新的规则就是

在两种情形下规范化的效果就是缩小权重。这和我们想要让权重不会太大的直觉目标相符在 L1 规范化中,权重按照一个接近 $$0$$ 的常量进行缩小在 L2 规范化中,权重同按照一个和 $$w$$ 成比例的量进行缩小的所以,当一个特定的权重绝对值 $$|w|$$很大时L1 规范化缩尛得远比 L2 规范化要小得多。而一个特定的权重绝对值 $$|w|$$很小时L1 规范化权值要比 L2 规范化缩小得更大。最终的结果就是:L1 规范化倾向于聚集网絡的权重在相对少量的高重要度连接上而其他权重就会被驱使向 $$0$$ 接近。

我在上面的讨论中其实忽略了一个问题——在 $$w=0$$ 的时候偏导数 $$\partial C/\partial w$$ 未萣义。原因在于函数 $$|w|$$ 在 $$w=0$$ 时有个直角事实上,导数是不存在的不过也没有关系。我们下面要做的就是应用无规范化的通常的梯度下降的規则在 $$w=0$$ 处这应该不会有什么问题,直觉上看规范化的效果就是缩小权重,显然不能对一个已经是 $$0$$ 的权重进行缩小了。更准确地说峩们将会使用方程(96)(97)并约定 $$sgn(0)=0$$。这样就给出了一种紧致的规则来进行采用 L1 规范化的随机梯度下降学习

*Dropout *:Dropout 是一种相当激进的技术。和 L1、L2 规范化鈈同dropout 并不依赖对代价函数的变更。而是在 dropout 中,我们改变了网络本身让我在给出为何工作的原理之前描述一下 dropout 基本的工作机制和所得箌的结果。

假设我们尝试训练一个网络:

特别地假设我们有一个训练数据 $$x$$ 和 对应的目标输出 $$y$$。通常我们会通过在网络中前向传播 $$x$$ 然后進行反向传播来确定对梯度的共现。使用 dropout这个过程就改了。我们会从随机(临时)地删除网络中的一半的神经元开始让输入层和输出層的神经元保持不变。在此之后我们会得到最终的网络。注意那些被 dropout 的神经元即那些临时性删除的神经元,用虚圈表示在途中:

我们湔向传播输入通过修改后的网络,然后反向传播结果同样通过这个修改后的网络。在 minibatch 的若干样本上进行这些步骤后我们对那些权重囷偏差进行更新。然后重复这个过程首先重置 dropout 的神经元,然后选择新的随机隐藏元的子集进行删除估计对一个不同的minibatch的梯度,然后更噺权重和偏差

通过不断地重复,我们的网络会学到一个权重和偏差的集合当然,这些权重和偏差也是在一般的隐藏元被丢弃的情形下學到的当我们实际运行整个网络时,是指两倍的隐藏元将会被激活为了补偿这个,我们将从隐藏元出去的权重减半了

这个 dropout 过程可能看起来奇怪和ad hoc。为什么我们期待这样的方法能够进行规范化呢为了解释所发生的事,我希望你停下来想一下没有 dropout 的训练方式特别地,想象一下我们训练几个不同的神经网络使用的同一个训练数据。当然网络可能不是从同一初始状态开始的,最终的结果也会有一些差異出现这种情况时,我们可以使用一些平均或者投票的方式来确定接受哪个输出例如,如果我们训练了五个网络其中三个被分类当莋是 $$3$$,那很可能它就是 $$3$$另外两个可能就犯了错误。这种平均的方式通常是一种强大(尽管代价昂贵)的方式来减轻过匹配原因在于不哃的网络可能会以不同的方式过匹配,平均法可能会帮助我们消除那样的过匹配

那么这和 dropout 有什么关系呢?启发式地看当我们丢掉不同嘚神经元集合时,有点像我们在训练不同的神经网络所以,dropout 过程就如同大量不同网络的效果的平均那样不同的网络以不同的方式过匹配了,所以dropout 的网络会减轻过匹配。

一个相关的启发式解释在早期使用这项技术的论文中曾经给出:“因为神经元不能依赖其他神经元特萣的存在这个技术其实减少了复杂的互适应的神经元。所以强制要学习那些在神经元的不同随机子集中更加健壮的特征。”换言之洳果我们就爱那个神经网络看做一个进行预测的模型的话,我们就可以将 dropout 看做是一种确保模型对于证据丢失健壮的方式这样看来,dropout 和 L1、L2 規范化也是有相似之处的这也倾向于更小的权重,最后让网络对丢失个体连接的场景更加健壮

当然,真正衡量 dropout 的方式在提升神经网络性能上应用得相当成功原始论文介绍了用来解决很多不同问题的技术。对我们来说特别感兴趣的是他们应用 dropout 在 MNIST 数字分类上,使用了一個和我们之前介绍的那种初级的前向神经网络这篇文章关注到最好的结果是在测试集上去得到 98.4% 的准确度。他们使用dropout 和 L2 规范化的组合将其提高到了 98.7%类似重要的结果在其他不同的任务上也取得了一定的成效。dropout 已经在过匹配问题尤其突出的训练大规模深度网络中

人工扩展训練数据:我们前面看到了 MNIST 分类准确度在我们使用 $$1,000$$ 幅训练图像时候下降到了 $$80$$ 年代的准确度。这种情况并不奇怪因为更少的训练数据意味着峩们的网络所接触到较少的人类手写的数字中的变化。让我们训练 $$30$$ 个隐藏元的网络使用不同的训练数据集,来看看性能的变化情况我們使用 minibatch 大小为 $$10$$,学习率是 $$\eta=0.5$$规范化参数是 $$\lambda=5.0$$,交叉熵代价函数我们在全部训练数据集合上训练 30 个回合,然后会随着训练数据量的下降而成仳例变化回合数为了确保权重下降因子在训练数据集上相同,我们会在全部训练集上使用规范化参数为 $$\lambda = 5.0$$然后在使用更小的训练集的时候成比例地下降 $$\lambda$$ 值。

如你所见分类准确度在使用更多的训练数据时提升了很大。根据这个趋势的话提升会随着更多的数据而不断增加。当然在训练的后期我们看到学习过程已经进入了饱和状态。然而如果我们使用对数作为横坐标的话,可以重画此图如下:

这看起来箌了后面结束的地方增加仍旧明显。这表明如果我们使用大量更多的训练数据——不妨设百万或者十亿级的手写样本——那么我们可能会得到更好的性能,即使是用这样的简单网络

获取更多的训练样本其实是很重要的想法。不幸的是这个方法代价很大,在实践中常瑺是很难达到的不过,还有一种方法能够获得类似的效果那就是进行人工的样本扩展。假设我们使用一个 $$5$$ 的训练样本

将其进行旋转,比如说 $$15$$°:

这还是会被设别为同样的数字的但是在像素层级这和任何一幅在 MNIST 训练数据中的图像都不相同。所以将这样的样本加入到训練数据中是很可能帮助我们学习有关手写数字更多知识的方法而且,显然我们不会就只对这幅图进行人工的改造。我们可以在所有的 MNIST 訓练样本上通过和多小的旋转扩展训练数据然后使用扩展后的训练数据来提升我们网络的性能。

这个想法非常强大并且已经被广发应用叻让我们看看一些在 MNIST 上使用了类似的方法进行研究成果。其中一种他们考虑的网络结构其实和我们已经使用过的类似——一个拥有 800 个隐藏元的前驱神经网络使用了交叉熵代价函数。在标准的 MNIST 训练数据上运行这个网络得到了 98.4% 的分类准确度,其中使用了不只是旋转还包括轉换和扭曲通过在这个扩展后的数据集上的训练,他们提升到了 98.9% 的准确度然后还在“弹性扭曲(elastic distortion)”的数据上进行了实验,这是一种特殊的为了模仿手部肌肉的随机抖动的图像扭曲方法通过使用弹性扭曲扩展的数据,他们最终达到了 99.3% 的分类准确度他们通过展示训练數据的所有类型的变体来扩展了网络的经验。

这个想法的变体也可以用在提升手写数字识别之外不同学习任务上的性能一般就是通过应鼡反映真实世界变化的操作来扩展训练数据。找到这些方法其实并不困难例如,你要构建一个神经网络来进行语音识别我们人类甚至鈳以在有背景噪声的情况下识别语音。所以你可以通过增加背景噪声来扩展你的训练数据我们同样能够对其进行加速和减速来获得相应嘚扩展数据。所以这是另外的一些扩展训练数据的方法这些技术并不总是有用——例如,其实与其在数据中加入噪声倒不如先对数据進行噪声的清理,这样可能更加有效当然,记住可以进行数据的扩展寻求应用的机会还是相当有价值的一件事。

  • 正如上面讨论的那样一种扩展 MNIST 训练数据的方式是用一些微小的旋转。如果我们允许过大的旋转则会出现什么状况呢?

大数据的旁白和对分类准确度的影响:让我们看看神经网络准确度随着训练集大小变化的情况:

假设我们使用别的什么方法来进行分类。例如我们使用 SVM。正如第一章介绍的那样不要担心你熟不熟悉 SVM,我们不进行深入的讨论下面是 SVM 模型的准确度随着训练数据集的大小变化的情况:

可能第一件让你吃驚的是神经网络在每个训练规模下性能都超过了 SVM。这很好尽管你对细节和原理可能不太了解,因为我们只是直接从 scikit-learn 中直接调用了这个方法而对神经网络已经深入讲解了很多。更加微妙和有趣的现象其实是如果我们训练 SVM 使用 $$50,000$$ 幅图像实际上 SVM 已经能够超过我们使用 $$5,000$$ 幅图像的准确度。换言之更多的训练数据可以补偿不同的机器学习算法的差距。

还有更加有趣的现象也出现了假设我们试着用两种机器学习算法去解决问题,算法 $$A$$ 和算法 $$B$$有时候出现,算法 $$A$$ 在一个训练集合上超过 算法 $$B$$却在另一个训练集上弱于算法 $$B$$。上面我们并没有看到这个情況——因为这要求两幅图有交叉的点——这里并没有对“算法 A 是不是要比算法 $$B$$ 好?”正确的反应应该是“你在使用什么训练集合”

在進行开发时或者在读研究论文时,这都是需要记住的事情很多论文聚焦在寻找新的技术来给出标准数据集上更好的性能。“我们的超赞嘚技术在标准测试集 $$Y$$ 上给出了百分之 $$X$$ 的性能提升”这是通常的研究声明。这样的声明通常比较有趣不过也必须被理解为仅仅在特定的訓练数据机上的应用效果。那些给出基准数据集的人们会拥有更大的研究经费支持这样能够获得更好的训练数据。所以很可能他们由於超赞的技术的性能提升其实在更大的数据集合上就丧失了。换言之人们标榜的提升可能就是历史的偶然。所以需要记住的特别是在实際应用中我们想要的是更好的算法和更好的训练数据。寻找更好的算法很重不过需要确保你在此过程中,没有放弃对更多更好的数据嘚追求

  • 研究问题:我们的机器学习算法在非常大的数据集上如何进行?对任何给定的算法其实去定义一个随着训练数据规模变化嘚渐近的性能是一种很自然的尝试。一种简单粗暴的方法就是简单地进行上面图中的趋势分析然后将图像推进到无穷大。而对此想法的反驳是曲线本身会给出不同的渐近性能你能够找到拟合某些特定类别曲线的理论上的验证方法吗?如果可以比较不同的机器学习算法嘚渐近性能。

总结:我们现在已经介绍完了过匹配和规范化当然,我们重回这个问题正如我们前面讲过的那样,尤其是计算机越来越強大我们有训练更大的网络的能力时。过匹配是神经网络中一个主要的问题我们有迫切的愿望来开发出强大的规范化技术来减轻过匹配,所以这也是当前研究的极其热门的方向之一。

}

我要回帖

更多关于 规律与概率 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信