函数的求导过程导

93被浏览13,137分享邀请回答3611 条评论分享收藏感谢收起www2.imm.dtu.dk/pubdb/views/edoc_download.php/3274/pdf/imm3274.pdf说说个人的想法1。矩阵求导比较麻烦,所以尽量不要使用最基本的公式,要找公式就找具体的,形式完全一致的公式,直接带入(比如cookbook中就有各种具体形式的求导公式),除非你熟悉从头开始的各种的推倒原理以及各种符号意义。2。d(UV) = d(U)V + Ud(V),这种公式不是没有用,只是相对来讲在矩阵代数中,更重要的是看清对谁求导,所以 或者 这一类的公式更实用,而且不容易带入出错,若是要用d(UV) = d(U)V + Ud(V)的也必须要带着dx啊。另外,这里之所以说要明确分母部分的内容,不光是为了确定这个变量是x,而不是y,更重要的是明确求导的变量的类型,因为各种情况差别巨大对标量求导1)向量对标量求导,结果是个向量事实上就是向量的每一个元素对标量求导。举个例子,对于 ,其中是个标量, .2)矩阵对标量求导,结果是个矩阵事实上也就是矩阵的每一个元素对标量求导。对于矩阵 ,对向量求导1) 标量对向量求导,结果是向量事实上这就是所谓的Gradient,即对于一般标量函数 ,其中 , ,有时候也记为为 .2) 向量对向量求导,结果是矩阵这个当然也是gradient,当然这准确的说应该叫matrix gradient. 即对于向量值函数 ,其中 , 另外在实际运算中还会出现 ,这个也被叫做是f的Jacobian.3) 矩阵对向量求导,结果是个三维的object,先来个gradient,然后其中每个元素都是个matrix.对矩阵求导1) 标量对矩阵求导,结果还是矩阵。事实上这一类,主要是考虑一类标量函数对矩阵的导数,一般是det,trace,log(det)等等回到题主的问题哈,其实已经有不少人有了解答,这里就不重复了。这里就举个广为使用的例子,就是linear least square的多维情况,所考虑的最优化问题的对应函数,事实上其实也就是题主那个式子,只不过变量看的不一样,其中y是n*1的向量,X是n*m的矩阵,b是m*1的参数向量, 则这里需要用到的是上面说的cookbook中的公式:这里观察这个size,我们可以发现最后求导的结果是(m*n) *(n*1) + (m*n)*(n*m)*(m*1)还是 m*1的哦!但是倘若对此再求一次导数,则相当于一个向量对向量求导数,即结果是一个矩阵,观察size,(m*n)*(n*m) = m*m,即这是一个矩阵。254 条评论分享收藏感谢收起维基教科书,自由的教学读本
{\displaystyle y=f(x)\,\!}
{\displaystyle \;x_{0}\;}
的某个内有定义,当自变量
{\displaystyle \;x\;}
{\displaystyle \;x_{0}\;}
处取得增量
{\displaystyle \Delta }
{\displaystyle \;x\;}
{\displaystyle \;x_{0}+\Delta }
{\displaystyle \;x\;}
仍在该邻域内)时,相应地函数
{\displaystyle \;y\;}
{\displaystyle \Delta }
{\displaystyle y=f(x_{0}+\Delta x)-f(x_{0})\,\!}
{\displaystyle \Delta }
{\displaystyle \;y\;}
{\displaystyle \Delta }
{\displaystyle \;x\;}
{\displaystyle \Delta }
{\displaystyle x\to 0}
时的极限存在,则称函数
{\displaystyle y=f(x)\,\!}
{\displaystyle \;x_{0}\;}
处,并称这个极限为函数
{\displaystyle y=f(x)\,\!}
{\displaystyle \;x_{0}\;}
处的导数,记为
{\displaystyle f'(x_{0})\;\!}
{\displaystyle f'(x_{0})=\lim _{\Delta x\to 0}{\frac {\Delta y}{\Delta x}}=\lim _{\Delta x\to 0}{\frac {f(x_{0}+\Delta x)-f(x_{0})}{\Delta x}}}
{\displaystyle \left.y^{\prime }\right|_{x=x_{0}}}
{\displaystyle \left.{\frac {dy}{dx}}\right|_{x=x_{0}}}
{\displaystyle \left.{\frac {df(x)}{dx}}\right|_{x=x_{0}}}
若将一点扩展成函数
{\displaystyle f(x)}
在其定义域包含的某
{\displaystyle I}
内每一个点,那么函数
{\displaystyle f(x)}
{\displaystyle \;I\;}
内可导,这时对于
{\displaystyle \;I\;}
内每一个确定的
{\displaystyle \;x\;}
值,都对应着
{\displaystyle f(x)}
的一个确定的导数,如此一来每一个导数就构成了一个新的函数,这个函数称作
{\displaystyle f(x)}
的导函数,记作:
{\displaystyle y'}
{\displaystyle f'(x)\;\!}
{\displaystyle {\frac {df(x)}{dx}}}
导函数的定义表达式为:
{\displaystyle f'(x)=\lim _{\Delta x\to 0}{\frac {f(x+\Delta x)-f(x)}{\Delta x}}}
值得注意的是,导数是一个数,是指函数
{\displaystyle f(x)}
{\displaystyle x_{0}}
处导函数的函数值。但通常也可以说导函数为导数,其区别仅在于一个点还是连续的点。
如右图所示,设
{\displaystyle P_{0}}
为曲线上的一个定点,
{\displaystyle P}
为曲线上的一个动点。当
{\displaystyle P}
沿曲线逐渐趋向于点
{\displaystyle P_{0}}
时,并且割线
{\displaystyle PP_{0}}
的极限位置
{\displaystyle P_{0}T}
存在,则称
{\displaystyle P_{0}T}
{\displaystyle P_{0}}
处的切线。
若曲线为一函数
{\displaystyle y=f(x)}
的图像,那么割线
{\displaystyle PP_{0}}
的斜率为:
{\displaystyle \tan \varphi ={\frac {\Delta y}{\Delta x}}={\frac {f(x_{0}+\Delta x)-f(x_{0})}{\Delta x}}}
{\displaystyle P_{0}}
{\displaystyle P_{0}T}
{\displaystyle PP_{0}}
的极限位置存在时,此时
{\displaystyle \Delta x\to 0}
{\displaystyle \varphi \to \alpha }
{\displaystyle P_{0}T}
{\displaystyle \tan \alpha }
{\displaystyle \tan \alpha =\lim _{\Delta x\to 0}\tan \varphi =\lim _{\Delta x\to 0}{\frac {f(x_{0}+\Delta x)-f(x_{0})}{\Delta x}}}
上式与一般定义中的导数定义是完全相同,则
{\displaystyle f'(x_{0})=\tan \alpha }
,故导数的几何意义即曲线
{\displaystyle y=f(x)}
{\displaystyle P_{0}(x_{0},f(x_{0}))}
处切线的斜率。
如果一个的为全体,即函数在
{\displaystyle (-\infty ,+\infty )}
上都有定义,那么该函数是不是在定义域上处处可导呢?答案是否定的。函数在定义域中一点可导需要一定的条件是:函数在该点的左右两侧导数都存在且相等。这实际上是按照极限存在的一个(存在,它的左右极限存在且相等)推导而来:
{\displaystyle \lim _{\Delta x\to 0}{\frac {f(x_{0}+\Delta x)-f(x_{0})}{\Delta x}}=\lim _{\Delta x\to 0^{-}}{\frac {f(x_{0}+\Delta x)-f(x_{0})}{\Delta x}}=\lim _{\Delta x\to 0^{+}}{\frac {f(x_{0}+\Delta x)-f(x_{0})}{\Delta x}}}
上式中,后两个式子可以定义为函数在
{\displaystyle x_{0}}
处的左右导数:
{\displaystyle f'_{-}(x_{0})=\lim _{\Delta x\to 0^{-}}{\frac {f(x_{0}+\Delta x)-f(x_{0})}{\Delta x}}}
{\displaystyle f'_{+}(x_{0})=\lim _{\Delta x\to 0^{+}}{\frac {f(x_{0}+\Delta x)-f(x_{0})}{\Delta x}}}
用两个函数的例子来说明函数可导的条件。
sgn函数,符号函数
1.上面这个符号函数在
{\displaystyle x=0}
处可导吗?
绝对值函数
2.上面这个函数在
{\displaystyle x=0}
处可导吗?
以上两个函数都是在定义域内连续的函数,由此就可以得出一个结论:连续的函数不一定处处可导。
但处处可导的函数一定处处连续。
{\displaystyle \lim _{\Delta x\to 0}\Delta y=\lim _{\Delta x\to 0}\left({\frac {\Delta y}{\Delta x}}\cdot \Delta x\right)=\lim _{\Delta x\to 0}{\frac {\Delta y}{\Delta x}}\cdot \lim _{\Delta x\to 0}\Delta x=0}
{\displaystyle f(x)}
{\displaystyle x_{0}}
在解决函数的导数问题上,利用定义是在过于麻烦。故利用定义来引申出几个基本的求导法则,以利于更好地解决各类求导的问题。
{\displaystyle [u(x)\pm v(x)]'=u'(x)\pm v'(x)}
{\displaystyle [u(x)v(x)]'=u'(x)v(x)+u(x)v'(x)}
{\displaystyle \left[{\frac {u(x)}{v(x)}}\right]'={\frac {u'(x)v(x)-u(x)v'(x)}{v^{2}(x)}}}
特别地,对于常数
{\displaystyle C}
{\displaystyle [Cv(x)]'=Cv'(x)}
{\displaystyle \left[{\frac {C}{v(x)}}\right]'={\frac {-Cv'(x)}{v^{2}(x)}}}
以上法则的证明中,对于1,可以利用极限的运算法则验证;对于2,可以直接使用导数定义证明,证明如下:
{\displaystyle [u(x)v(x)]'=u'(x)v(x)+u(x)v'(x)}
{\displaystyle [u(v(x))]'=u'(v)v'(x)}
{\displaystyle y=f(x)}
{\displaystyle x}
的某个邻域内连续,严格单调,且在
{\displaystyle x}
{\displaystyle f'(x)\neq 0}
成立。则它的反函数
{\displaystyle x=f^{-1}(y)}
{\displaystyle y}
可导,且有:
{\displaystyle [f^{-1}(y)]'={\frac {1}{f'(x)}}}
{\displaystyle {\frac {dy}{dx}}={\frac {1}{\frac {dx}{dy}}}}
我们可以用一个例子来说明:试求函数
{\displaystyle y=\arcsin x(|x|&1)}
的导函数。
{\displaystyle y=\arcsin x(|x|&1)}
{\displaystyle x=\sin y(\left|y\right|&{\frac {\pi }{2}})}
的反函数,且
{\displaystyle x=\sin y}
{\displaystyle I_{y}=\left(-{\frac {\pi }{2}},{\frac {\pi }{2}}\right)}
开区间上严格单调、可导,且
{\displaystyle (\sin y)'=\cos y&0}
因此由反函数求导法则可得:在对应区间
{\displaystyle I_{y}=(-1,1)}
{\displaystyle (\arcsin x)'={\frac {1}{(\sin y)'}}={\frac {1}{\cos y}}={\frac {1}{\sqrt {1-\sin ^{2}y}}}={\frac {1}{\sqrt {1-x^{2}}}}}
{\displaystyle {\begin{cases}x=\psi (t)\\y=\phi (t)\end{cases}}(\alpha \leq t\leq \beta )}
{\displaystyle \phi (t)}
{\displaystyle \psi (t)}
{\displaystyle x=\psi (t)}
严格单调(?),
{\displaystyle \psi '(t)\neq 0}
,根据复合函数求导法则和反函数求导法则可得参数方程的导数为:
{\displaystyle {\frac {dy}{dx}}={\frac {dy}{dt}}\cdot {\frac {dt}{dx}}={\frac {dy}{dt}}\cdot {\frac {1}{\frac {dx}{dt}}}={\frac {\phi '(t)}{\psi '(t)}}}
{\displaystyle {\begin{cases}x=\rho (\theta )\cos \theta \\y=\rho (\theta )\sin \theta \end{cases}}}
,根据参数方程的求导法则可得极坐标方程的导数为:
{\displaystyle {\frac {dy}{dx}}={\frac {\left[\rho (\theta )\sin \theta \right]'}{\left[\rho (\theta )\cos \theta \right]'}}={\frac {\rho _{\theta }^{'}\sin \theta +\rho \cos \theta }{\rho _{\theta }^{'}\cos \theta -\rho \sin \theta }}}
有关隐函数的定义,参见。
隐函数的求导方法的基本思想是要把
{\displaystyle F(x,y)=0}
{\displaystyle x}
{\displaystyle y(x)}
,方程两端对
{\displaystyle x}
求导,然后再解出隐函数的导数
{\displaystyle {\frac {dy}{dx}}}
给出一个例子来进一步说明:
试求由方程
{\displaystyle {\sqrt {x}}+{\sqrt {y}}={\sqrt {a}}}
{\displaystyle y}
{\displaystyle x}
的隐函数的导数
{\displaystyle {\frac {dy}{dx}}}
{\displaystyle (x,y&0)}
方程的两边同时对
{\displaystyle x}
{\displaystyle {\frac {d(x^{\frac {1}{2}}+y^{\frac {1}{2}})}{dx}}={\frac {d{\sqrt {a}}}{dx}}}
{\displaystyle {\frac {1}{2}}x^{-{\frac {1}{2}}}+{\frac {1}{2}}y^{-{\frac {1}{2}}}\cdot {\frac {dy}{dx}}=0}
{\displaystyle {\frac {dy}{dx}}=-{\sqrt {\frac {y}{x}}}(x,y&0)}
通过例题,应当注意方程两边求导的对象是
{\displaystyle x}
{\displaystyle y}
{\displaystyle x}
表示的,相当于一个
{\displaystyle x}
的复合函数,故根据复合函数的求导法则:
{\displaystyle [f(y)]'=f'(y)\cdot y_{x}^{'}}
{\displaystyle f(y)={\sqrt {y}},f'(y)={\frac {1}{2}}y^{-{\frac {1}{2}}},y_{x}^{'}={\frac {dy}{dx}}}
参数方程的高阶求导
{\displaystyle {\begin{cases}x=\psi (t)\\y=\phi (t)\end{cases}}}
{\displaystyle \phi (t)}
{\displaystyle \psi (t)}
二阶可导,且
{\displaystyle \psi '(t)\neq 0}
{\displaystyle {\frac {dy}{dx}}={\frac {\phi '(t)}{\psi '(t)}}}
{\displaystyle {\frac {{{\rm {d}}^{2}}y}{{\rm {d}}{x^{2}}}}}
{\displaystyle ={\frac {\rm {d}}{{\rm {d}}x}}\left({\frac {{\rm {d}}y}{{\rm {d}}x}}\right)}
{\displaystyle ={\frac {\rm {d}}{{\rm {d}}x}}\left({\frac {\phi '(t)}{\psi '(t)}}\right)}
{\displaystyle ={\frac {\rm {d}}{{\rm {d}}t}}\left({\frac {\phi '(t)}{\psi '(t)}}\right)\cdot {\frac {{\rm {d}}t}{{\rm {d}}x}}}
{\displaystyle ={\frac {\phi ''(t)\psi '(t)-\phi '(t)\psi ''(t)}{{[\psi '(t)]}^{2}}}\cdot {\frac {1}{\psi '(t)}}}
基本导数公式
{\displaystyle C'=0}
{\displaystyle (x^{n})'=nx^{n-1}}
{\displaystyle (\sin x)'=\cos x}
{\displaystyle (\cos x)'=-\sin x}
{\displaystyle (\tan x)'={\frac {1}{{\cos ^{2}}x}}={\sec ^{2}}x}
{\displaystyle (\cot x)'=-{\frac {1}{{\sin ^{2}}x}}=-{\csc ^{2}}x}
{\displaystyle (\sec x)'={\sec x}{\tan x}}
{\displaystyle (\csc x)'=-{\csc x}{\cot x}}
{\displaystyle (\ln |x|)'={\frac {1}{x}}}
{\displaystyle (\log _{a}x)'={\frac {1}{x\ln a}}}
{\displaystyle (e^{x})'=e^{x}}
{\displaystyle (a^{x})'=a^{x}\ln a}
{\displaystyle a&0,a\neq 1}
{\displaystyle (\arcsin x)'={\frac {1}{\sqrt {1-x^{2}}}}}
{\displaystyle (\arccos x)'=-{\frac {1}{\sqrt {1-x^{2}}}}}
{\displaystyle (\arctan x)'={\frac {1}{1+x^{2}}}}
{\displaystyle (\operatorname {arccot} x)'=-{\frac {1}{1+x^{2}}}}
、、等学科中的一些重要概念都可以用导数来表示。例如,在物理学中,速度被定义为位置函数的导数,即:
{\displaystyle v(t)={ds \over dt}}
;而加速度被定义为速度函数的导数,即:
{\displaystyle a(t)={dv \over dt}}
。另外,导数还可以表示曲线在一点的,以及经济学中的和。
中的相关条目:登录网易通行证
使用网易通行证(含网易邮箱)帐号登录
提交您的投诉或建议
视频画面花屏
视/音频不同步
播放不流畅
分享给朋友:
扫描分享给微信好友和朋友圈
扫一扫分享给微信好友和朋友圈
通过代码可以让这个视频在其它地方上播放!
复制FLASH代码
复制HTML代码
复制页面地址
使用公开课APP下载视频
扫描二维码 手机继续看
扫描二维码在手机上继续观看,
还可分享给您的好友。
没有公开课客户端?
登录后才能查看我的笔记
暂时没有笔记!
确定删除笔记?
即将播放下一集,请您保存当前的笔记哦!
对字幕纠错要登录哦!
内容不能少于3个字
微积分总览
极值和二阶导数
这一讲主要探讨的对象是“振动函数”sinx和cosx,它们的导数性质非常奇妙(sinx)'=cosx,(cosx)'=-sinx。斯特朗教授通过将三角函数和圆周联系起来,巧解(sinx)/x在x→0时趋近于1这一极限,系统地推导了这两个三角函数的导数性质。注意看斯特朗教授是如何处理(sinx)/x和(1-cosx)/x这两个最重要的0/0极限的。
乘法法则和除法法则是导数应用中最基础的法则,斯特朗教授通过对这两个法则通俗易懂的推导,系统性地解决了幂函数f(x)=xⁿ的导数问题。注意看乘法法则和矩形面积的奇妙类比
复合函数f(g(x))可以看作由内函数g和外函数f嵌套组成的函数链,其可以导数通过链式法则求出。将内函数g(x)记作y,外函数f(y)记作z。复合函数的导数由链式法则dz/dx=(dz/dy)(dy/dx)给出,可以理解为分子分母同时乘以了一个dy。很多函数都能通过这种形式求导,比如sin(3x)、正态分布相关函数e^(-x²/2)均可以通过链式法则转化为两个简单函数,轻松求导。链式法则是微积分中最重要的法则之一。
这一讲用“窄带”(narrow band)的说法通俗地讲解了极限和连续的概念。所谓极限存在,就是不管取多窄的窄带,数列足够靠后的数字,都会落在窄带(A+ε,A-ε)之内。所谓函数连续,就是只要x足够接近a,就能保证f(x)足够接近f(a)。详细解释请参阅视频
这一讲通俗地解释是什么是逆函数,并解释了逆函数的图像不过是原函数沿y=x(45°直线)翻转得到的图像。在摄氏度华氏度转换等几个实例之后,又系统地通过逆函数的概念,从指数函数延伸出了对数函数的概念,并着重强调了对数的性质,为之后引入求导做准备。
[第12课]对数函数和反三角函数的导数
这一讲的主题通过逆函数(又译作反函数)的求导法则,将求导法则总结性的列了出来(包括四则运算求导法则、链式法则、逆函数求导法则)。这一讲讲到了两个重要的实例lny和arcsiny的求导,指明逆函数求导法则可以通过链式法则推导。另外,关于(lny)'=1/y,斯特朗教授有经典点评。
这一讲首先直观地用数量级的观念讲解了线性增长、多项式增长、指数增长等之间的快慢关系。如果x=10的3次方,指数函数10的x次方达到10的1000次方,也就是10后面1000个0。这一讲的另外一个重要内容是对数图,清晰地讲解了对数尺度(以logx为刻度)的好处,它能将各种增长转化为线性形式,并举出了一些典型的例子。
这一讲介绍了微积分的两种应用,深入浅出地讲明白了两种应用的实质,并将两种方法进行了对比讲解,说明了其内涵其实是一样的。线性近似,f(x)=(x-a)f'(a),是求函数近似值最简单使用的方法,在各项工程领域均有广泛的应用。而牛顿法,是近似解方程的标准方法,目前仍广泛应用于计算器和计算机程序中。
这一讲从幂级数入手,讲到了如何求函数幂级数的简单方法,即让函数的各阶导数和幂级数的各阶导数相匹配。然后由e^x, sinx和cosx的幂级数,连贯地引出欧拉公式e^(iθ)=cosθ+isinθ,并就此通俗地引入了复数的概念。课程的最后选讲了两个幂级数:几何级数和对数级数,并诠释了两者间的联系。
这一讲的主题是常系数线性微分方程my''+2ry'+ky=0。教授指出了这种方程在物理、工程、自科、社科等领域的广泛应用,强调它是最重要的微分方程。他以弹簧的振动为例,通俗地解释了各常数的物理意义(m质量、r阻尼、k胡克系数)。课程后半部分举重若轻地讲解了这种方程的解法——代入e^(λt)来求解,详细内容见课程。
关于增长的微分方程
六大函数、六大法则及六大定理
学校:麻省理工学院
讲师:Prof Gilbert Strang
授课语言:英文
类型:数学 国际名校公开课
课程简介:微积分的介绍,面向高中生和大学新生,主要是一个入门。除了视频,还有幻灯片和实例。本课程的目的是从错综复杂的微积分课本和习题中跳出来,以一种总览(Big Picture)的简洁形式重新审视微积分。
扫描左侧二维码下载客户端函数在一点不连续,那左右导数可能存在吗【高等数学吧】_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名:今日本吧第个签到,本吧因你更精彩,明天继续来努力!
本吧签到人数:0成为超级会员,使用一键签到本月漏签0次!成为超级会员,赠送8张补签卡连续签到:天&&累计签到:天超级会员单次开通12个月以上,赠送连续签到卡3张
关注:255,128贴子:
函数在一点不连续,那左右导数可能存在吗收藏
2018年江苏专升本高等数学一与报名须知,自考学历报名--考试-考证,贴心服务!尚德机构推出PICC保险不过退费课程,点击咨询&&
连续不一定可导,可导一定连续,
可能存在的。
以左导数为例。①函数在该点无定义,不可导②函数在该点有定义,函数值=a,函数在该点有左极限A,则A不等于a,lim(f(x+⊿x)-f(x))≠0,则无导数③函数在该点有定义,函数值=a,但函数在该点无左极限,则该点为第二类间断点,lim(f(x+⊿x)-f(x))≠0,则无导数
你看看间断点就明白了。
比如分段函数
结果是否定的
如果左导数存在则说明左连续
右导数存在则说明右连续
则足矣说明这个函数在该点是连续的
注意不要混淆函数的左右导数与导函数的左右极限
不明白的话 可以继续追问
也可以加我QQ
我给你仔细分析
可能存在,但必然左右导数不相等,
学费全免网畅学卡数学课程重点难点详细解析,还有免费直播课,暑期学习好之选学习数学来学费全免网 领取老师视频课程,学习资料及试卷福利等你拿.
不好意思,不知对不对
‖x‖这个例子可能更好
楼上两个大神商量的怎样了
首先,一元函数可导一定连续,多元函数不一定;其次,你说的是在一点可导,只能说明在那一点的领域内是连续的。
首先,一元函数可导一定连续,多元函数不一定;其次,你说的是在一点可导,只能说明在那一点的领域内是连续的。
lz 你这个问题就是间断点的问题 有木有 第一类间断点
第二类间断点 所以除非是第二类 那么就存在 用不用帮你详解?
楼上您来帮我解释一下第二类间断点怎么个左右导数都存在不相等呗?
如果不连续,先看是否有左连续或右连续。哪边连续哪边的导数就可能存在。你可以想象把一个光滑的函数的曲线在某点剪断,然后把一边拉下来点。这样函数不再连续,剪断的那点给哪边哪边就连续可导(当然是单侧的)。
以上各楼中,似乎还没有哪一个人答到点子上,也没有人解释、证明为何命题成立或者不成立。
个人认为自己还是有能力看懂 7 楼的解答。但本人认为 7 楼仍然缺少一句让大家(不同水平的人)觉得“一点就明的” 一句话,所以我认为还没有说到点子上,以致继后的各楼中仍然有人展开一系列质疑和讨论(这当然是一件好事。。。)上述只是个人的看法。
当然可能啊!
各位大神 总结了一下,看有哪条不对:1 左导数存在则一定左连续。2 左导数存在,且右导数存在,但不相等,则在该点连续。3 间断点处导数不存在(即,在某点不连续一定不可导),但可以只存在左导数或右导数的一种。
可能存在,但不可能两个同时存在。
本题实际上是一个概念题,主要涉及到对概念的理解。明白了定义和概念,问题就简单了。。。。楼上参加讨论的人是否都明白为何答案是这般或那般? 我觉得未必都明白。
导数不存在,但左导数右导数可以存在= =
当然可能了
登录百度帐号推荐应用5386人阅读
深度学习(1)
1、sigmoid函数
sigmoid函数,也就是s型曲线函数,如下:
函数:f(z)=11+e-z
导数:f′(z)=f(z)(1-f(z))
上面是我们常见的形式,虽然知道这样的形式,也知道计算流程,不够感觉并不太直观,下面来分析一下。
1.1 从指数函数到sigmoid
首先我们来画出指数函数的基本图形:
从上图,我们得到了这样的几个信息,指数函数过(0,1)点,单调递增/递减,定义域为(-∞,+∞),值域为(0,+∞),再来我们看一下sigmoid函数的图像:
如果直接把e-x放到分母上,就与ex图像一样了,所以分母加上1,就得到了上面的图像,定义域是(-∞,+∞),值域是(0,1),那么就有一个很好地特性了,就是不管x是什么,都可以得到(0,1)之间的值;
1.2 对数函数与sigmoid
首先来看一下对数函数的图像:
对数函数的图像如上,单调递减,有一个比较好的特性就是在(0,1)之间,在接近0的时候,就近无穷大,接近1的时候为0,如果我们把前面的sigmoid函数放到自变量的位置上,就得到了(0,1)的图像;
我们如何来衡量一个结果与实际计算值得差距呢?一种思路就是,如果结果越接近,差值就越小,反之越大,这个函数就提供了这样一种思路,如果计算得到的值越接近1,那么那么表示与世界结果越接近,反之越远,所以利用这个函数,可以作为逻辑回归分类器的损失函数,如果所有的结果都能接近结果值,那么就越接近于0,如果所有的样本计算完成以后,结果接近于0,就表示计算结果与实际结果非常相近。
2、sigmoid函数求导
sigmoid导数具体的推导过程如下:
f′(z)=(11+e-z)′=e-z(1+e-z)2=1+e-z-1(1+e-z)2=1(1+e-z)(1-1(1+e-z))=f(z)(1-f(z))
3、神经网络损失函数求导
神经网络的损失函数可以理解为是一个多级的复合函数,求导使用链式法则。
J(Θ)=-1m∑i=1m∑k=1K[y(i)klog((hΘ(x(i)))k)+(1-y(i)k)log(1-(hΘ(x(i)))k)]+λ2m∑l=1L-1∑i=1sl∑j=1sl+1(Θ(l)j,i)2
先来说一下常规求导的过程:
e=(a+b)(b+1)
这是一个简单的复合函数,如上图所示,c是a的函数,e是c的函数,如果我们用链式求导法则,分别对a和b求导,那么就是求出e对c的导数,c对a的导数,乘起来,对b求导则是求出e分别对c和d的导数,分别求c和d对b的导数,然后加起来,这种方法使我们常规的做法,有一个问题就是,我们在求到的过程中,e对c求导计算了2次,如果方程特别复杂,那么这个计算量就变得很大,怎样能够让每次求导只计算一次呢?
如上图所示,我们从上往下开始计算,将每个单元的值计算出来,然后计算每个单元的偏导数,保存下来;
接下来继续计算子单元的值,子单元的偏导数,保存下来;将最后的子单元到根节点所在的路径的所有偏导乘起来,就是该函数对这个变量的偏导,计算的本质就是从上往下,计算的时候将值存起来,乘到后面的单元上去,这样每个路径的偏导计算只需要一次,从上到下计算一遍就得到了所有的偏导数。
实际上BP(Backpropagation,反向传播算法),就是如此计算的,如果现在有一个三层的神经网络,有输入、一个隐藏层,输出层,我们对损失函数求权重的偏导数,它是一个复杂的复合函数,如果先对第一层的权重求偏导,然后在对第二层的权重求偏导,会发现,其中有很多重复计算的步骤,就像上面的简单函数的示例,所以,为了避免这种消耗,我们采用的就是从后往前求偏导,求出每个单元的函数值,求出对应单元的偏导数,保存下来,一直乘下去,输入层。
下面用一个简单的示例来演示一下反向传播求偏导的过程:
那么我们会有两个初始的权重矩阵:
θ1=[θ110θ120θ111θ121θ112θ122]θ2=[θ210θ211θ212]
我们得到了上面的矩阵,现在我们以sigmoid函数作为激活函数,分别来计算每一层网络的激励(假设我们只有一个样本,输入是x1,x2,输出是y);
第一层是输入,激励就是样本的特征值;记为:
a1=????x0x1x2????
x0是偏置项,为1.
第二层是隐藏层,激励通过特征值与区中相乘得到,然后取sigmoid函数变换,得到a2,未变换之前的记为z2:
z21z22z2a2a2=θ110*x0+θ111*x1+θ112*x2=θ120*x0+θ121*x1+θ122*x2=[z21z22]=sigmoid(z2)=?????1a21a22?????
在上面,我们最后加上了偏置项;
接下来第三层是输出层:
z31z3a3a3=θ210*a20+θ211*a21+θ212*a22=[z31]=sigmoid(z3)=[a31]
因为是输出层了,所以不需要再往下计算,所以不加偏置项;
上面的计算流程,从输入到输出,我们也称为前向传播(Forward propagation)。
然后,我们根据损失函数,写出损失函数的公式,在这里,只有一个输入,一个输出,所以损失函数写出来较为简单:
在这里,m=1;
J(Θ)=-1m[y(i)klog((hΘ(x(i)))k)+(1-y(i)k)log(1-(hΘ(x(i)))k)]+λ2m∑l=1L-1∑i=1sl∑j=1sl+1(Θ(l)j,i)2=-1m[y*log(a3)+(1-y)*log(1-a3)]+λ2m∑l=1L-1∑i=1sl∑j=1sl+1(Θ(l)j,i)2
说明:λ2m∑L-1l=1∑sli=1∑sl+1j=1(Θ(l)j,i)2实际上就是所有的权重的平方和,一般不会将和偏置项相乘的那个放进来;这个项很简单,暂时先不管它,后面不暂时不写这一项(这个是正则化)。
J(Θ)=-1m[y*log(a3)+(1-y)*log(1-a3)]
然后我们得到了上面的式子,这里我们知道,如果我们想要求θ212的偏导数的话,会发现,这个式子其实是一个复合函数,y是常数,a3是z3的sigmoid函数变换,而z3则是a2与权重相乘得来的,现在我们找到了权重在哪里,就可以开始求偏导了,在这里,a3写成s(z3),然后,我们就得到了下面的推导:
?J(Θ)?θ212=-1m[y*1s(z3)-(1-y)*11-s(z3)]*s(z3)*(1-s(z3))*a212=-1m[y*(1-s(z3)-(1-y)*s(z3)]*a212=-1m[y-s(z3)]*a212=1m[s(z3)-y]*a212=1m[a3-y]*a212
根据上面的推导,可以得到下面的式子:
?J(Θ)?θ210?J(Θ)?θ211=1m[a3-y]*a210=1m[a3-y]*a211
所以,还记得前面所说的,我盟从上往下求导,保存当前对多个子单元的偏导数,根据上面的式子,我们知道,对于第二个权重矩阵的偏导,可以由[a3-y]乘以前一层网络的激励,然后除以样本个数来得到,因此有时候我们会将这个差值称为δ3,保存下来,使用矩阵的形式相乘,得到第二个权重矩阵的偏导数;
现在我们已经得到了第二个权重矩阵的偏导数,如何求第一个权重矩阵中的偏导数呢?
比如说,我们现在要对θ112求偏导:
?J(Θ)?θ112=-1m[y*1s(z3)-(1-y)*11-s(z3)]*s(z3)*(1-s(z3))*θ211*s(z2)*(1-s(z2))*x2=-1m*[a3-y]*θ211*s(z2)*(1-s(z2))*x2=-1m*δ3*θ211*s(z2)*(1-s(z2))*x2
从上线的式子,我们就可以看出来,我们保存的导数可以直接乘,如果而不用再次计算一遍,如果有多层网络,实际上后面的过程与这个是一样的,所以就得到了这样的式子:
δ3δ2=a3-y=δ3*(θ2)T*s(z2)′
因为这个网络就是3层,所以这样就可以得出全部的偏导数,如果是多层,原理是一样的,不断地乘下去,从第二个式子开始,后面的形式都是一样的。
&&相关文章推荐
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:7801次
排名:千里之外
(1)(6)(4)(5)
(window.slotbydup = window.slotbydup || []).push({
id: '4740890',
container: s,
size: '250,250',
display: 'inlay-fix'}

我要回帖

更多关于 函数的求导过程 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信