为了看懂为什么在logistic regression 里面加上正则囮可以约束待估计的参数的稀疏性需要对凸优化方法里面的部分知识,现在记录一下这方面的内容
既然是凸优化首先就要有一个凸函數,看下面的定义
设是一个凸函数并且 是一个凸集。如果f是可微的那么可以得到下面的表达式:
其中, ,表示在的微分可以看出,不等式右边其实就是普通的一阶微分的近似表示那么肯定会有误差,如果误差等于0那么取到等号
对不可微的情况下,我们同样可以构造┅个表达式来近似真实情况见下式子:
其中,向量 就叫做次梯度等于零
对于一个给定的点可能不止一个这样的次梯度等于零存在,而昰一个次梯度等于零的集合这样的集合就叫做次微分,表示为:
注意如果微分存在的情况下,这样的次微分集合只包含一个元素就昰该点的梯度等于零值,也就是蜕化为正常的梯度等于零方式所以说这是梯度等于零的一种扩展
对次梯度等于零表达式做一个变形可以嘚到
这个变形可以用来快速估计一些简单函数的次微分,比如一个一维函数在处
自此可以看出有界,因此有
这里写下一些次微分的一些性质
假定我们有一个凸函数:我们的目标是求:
如果函数是可微的,那么最值就是求函数的梯度等于零为0的取值
如果函数不可微的那么最值的条件就是如下的形式
我们看看不可微条件下的最值条件是怎么得来的,还是从次梯度等于零的定义开始,令可以得到
可以看出最小值是在次梯度等于零向量为0的时候取得,这就提供了一种方法在某些不可微的情况下,对凸函数可以用次梯度等于零去代替梯度等于零进行梯度等于零下降学习算法
Uber 机器学习工程师
机器学习第一课逻辑回归没有解析解(至少目前没有找到,仅在binary classes的情况下可以找到[1])遑论神经网络了。
即使有解析解由于大部分情况下神经网络的損失函数为非凸函数,KKT condition(偏导为0算是其中一项)仅仅是非凸函数最优化的必要非充分条件
注:以下内容整理于七月算法2016年4朤班培训讲义详见: /
站方申明:本站部分内容来自社区用户分享,若涉及侵权请联系站方删除。
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。