逻辑回归的损失函数函数的经济含义

苹果/安卓/wp
苹果/安卓/wp
积分 13485, 距离下一级还需 4815 积分
权限: 自定义头衔, 签名中使用图片, 设置帖子权限, 隐身, 设置回复可见, 签名中使用代码
道具: 彩虹炫, 雷达卡, 热点灯, 雷鸣之声, 涂鸦板, 金钱卡, 显身卡, 匿名卡, 抢沙发, 提升卡, 沉默卡, 千斤顶, 变色卡下一级可获得
道具: 置顶卡
购买后可立即获得
权限: 隐身
道具: 金钱卡, 雷鸣之声, 彩虹炫, 雷达卡, 涂鸦板, 热点灯
TA的文库&&
苦逼签到天数: 8 天连续签到: 1 天[LV.3]偶尔看看II
一、回归方程函数形式的选择& &
1、常识性误区
在很多人心里根本没有回归方程函数形式选择这一考虑。但是很明显,不是所有的经济关系都是简单线性的。
2、可选的函数形式
线性函数:Y=β1+β2*X
线性对数函数:Y=β1+β2*lnX
倒数函数:Y=β1+β2*(1/X)
多项式函数:Y=β1+β2*X+β3*X^2
交互作用函数:Y=β1+β2*X+β3*Y+β4*X*Y
对数线性函数:lnY=β1+β2*X
对数倒数函数:lnY=β1+β2*(1/X)
对数多项式函数:Y=β1+β2*X+β3*X^2
双对数函数:lnY=β1+β2*lnX
对数曲线函数:ln[Y/(1-Y)]=β1+β2*X
& && & 这些函数回归系数的意义可以通过求导得知。
3、选择标准
第一,看散点图,根据散点图的形态进行选择;第二,经济实质,这个根据回归系数的含义;第三,数据特征,有的是绝对数据有的是相对数据。
但是,以上这些判断非常依赖经验,经验不足的话可以进行试错,对于样本选择所有的函数形式进行回归,再根据回归统计量的优劣确定最佳的函数形式。
二、Eviews回归方程的设定
Eviews回归方程的设定主要有两种方式:列表法和公式法。运用最普遍的是列表法,但是列表法只能做估计参数为线性组合的回归,而公式法则没有这种限制,也可以在公式中添加系数约束条件,所以公式法的适用性更高。
当回归方程的系数是非线性的,如柯布-道格拉斯函数,则需要对系数提供初始值。这个可以打开系数序列(以β作为文件标识)直接对系数进行赋值。
可以预先定义系数向量,在公示中可以使用定义的系数向量。定义的路径:Objects-----New Objects----Matrix-Vector-Coef---Coefficient Vector。系数向量设定时列一般设为1,行则设定等于样本容量。
支持楼主:、
购买后,论坛将把您花费的资金全部奖励给楼主,以表示您对TA发好贴的支持
载入中......
论坛好贴推荐
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
为做大做强论坛,本站接受风险投资商咨询,请联系(010-)
邮箱:service@pinggu.org
合作咨询电话:(010)
广告合作电话:(刘老师)
投诉电话:(010)
不良信息处理电话:(010)
京ICP证090565号
京公网安备号
论坛法律顾问:王进律师后使用快捷导航没有帐号?
查看: 1987|回复: 4
线性回归中“回归”的含义?
金牌会员, 积分 1903, 距离下一级还需 1097 积分
论坛徽章:11
线性回归中的回归到底是回归到哪?英文是regression,相对的是progression,regression是回溯的意思,但在线性回归中也没有回溯呀?
也许问题有点傻,呵呵。。
论坛徽章:6
前人留下的专用名词,至于为什么要这么翻译,真的不得而知,楼主不妨追溯一下是哪位中国数学家引入这个术语的
金牌会员, 积分 1903, 距离下一级还需 1097 积分
论坛徽章:11
找到个不错的资料:
谈谈回归分析(Regression)
今天我就简单谈谈自己的一些新想法。我们从最基本的容易引起歧义的地方出发。很多人问我,回归(regression)和拟合(fitting)有什么不同?其实如果你想从数学的角度去区分它们,你就出不来了。知识往往都有“先入为主”的那种影响。我们接触的第一类回归问题,就是简单线性回归,或者多项式回归,而这恰恰和我们接触的拟合问题“天然地相似”:最小二乘法求解参数。因此,那些数学出身的学生,就始终很难将这两类问题真正区分开。但是如果从历史发展的角度,结合更多实际问题来看,这个问题是很容易体会清楚的。
开始的时候,人们得到了很多组数据,这些数据之间貌似是有联系的,于是人们想要找到一种近似的函数关系,来对这些组变量的联系进行某种描述,进而获得某种解释。当然,人们十分清楚,如果这些数据都是精确无误的,那么经过这些点的插值函数就能较好地解决问题。但是现在,这些采集得到的数据可能是有误差的,或者是biased的,于是插值函数的准确性就反而要被质疑了。于是人们就想找一条不经过任何点,但是却能描述这些数据的基本规律的曲线。这就是拟合。拟合最初是由勒让德和高斯两位数学家在1804年和1809年提出的,那个时候,概率和统计和现在相比,简直还处于原始阶段,所以人们根本没有去仔细分析那些造成数据不准确的偏差到底有没有什么规律。人们的直觉,就是这条曲线和那些点的距离“越近越好”。于是,就有了“偏差的绝对值和最小”和“偏差的平方和最小”两种优化方法。但是为什么人们最终选择了后者,即现在熟知的“最小二乘原理”呢?说起来也很偶然。第一个原因是绝对值不容易计算,而平方和“光滑性”比较好,人们计算方便;另一个原因则更为深远,那就是“最小二乘”可以在向量的内积空间中得到一种非常漂亮的几何解释:正交投影。哈哈,一个技术上的原因,一个数学上的原因。一个是历史的局限性,一个是数学对概率统计的强大优势性,这些历史偶然,就使得“最小二乘原理”在很长一段时间独霸天下的局面。从此,拟合,诞生了!
但是人们很快就遇到了两个新问题:
第一,拟合曲线,单从它在已知点的逼近情况来看,也许可以比较好,但是,这条曲线,在那些未知点处真的可靠么?拟合和插值不一样,插值至少有泰勒展开这种数学理论支撑,所以人们非常清楚插值的可靠性,但是拟合,到目前为止,实在是缺乏数学理论的支撑。起初科学技术不是很发达,人们可能还观察不到自然界那些非常复杂的数据,采集到的数据的量也非常有限,于是对这些点的拟合看上去还没什么麻烦和问题。但是后来随着数据量的增大,人们逐渐发现,之前用拟合得到的结果变得“不靠谱”了。
第二,人们容易想到的回归曲线的形式,无非就是直线,或者更复杂点的,那些初等函数,这些都是带参数的曲线,在形态上就不是那么灵活。但是,随着人们逐渐观察到更多形态复杂的数据的形式,寻找合适的参数曲线变成了一件非常头痛的事情,于是,拟合的实际操作,也越来越难了。
终于,到19实际末的时候,承受着各种困扰,经过了大半个世纪的挣扎,拟合似乎“山穷水尽”,人们已经看不到其前途和价值了。
然而19世纪末,一场全新的革命已经蓄势待发了!高尔顿的一篇谈论人的身高的文章,提出了“回归”这个名词:“那些高个子的后代的身高,有种回归到大众身高的趋势。”道尔顿自己绝不会想到,自己竟然为这个世界创造了两个新的概念:一个是回归,一个是regression towards the mean。19实际末的时候,古典概率理论已经比较成熟了,统计学的诞生的基础已经有了。那时,一个叫卡尔·皮尔逊的年轻数学家,做了很多生物上、 农业上的试验,使用了很多数据分析的方法,从最初的对数据的描述,到对数据的绘图,再到后来,使用拟合来寻找两组变量的联系……这个叫皮尔逊的,就是现代统计学的鼻祖,也是第一次统计科学革命的领军人物。皮尔逊在1904来到伦敦大学学院(UCL),在他人生将尽的时候做了一件划时代的事情:建立了世界上第一个统计系。从此,统计,statistics,和数学独立了,成为了另一个极具生命力的学科。皮尔逊的儿子,继承了父业,也成为了一代统计学大师。到这个时候,人们已经开始学会使用随机变量,使用概率模型来描述数据背后的那些不确定现象了。这一观念上的进步,使得回归问题有了新的眉目。人们开始对回归问题进行新的解释,开始假设那些随机误差是怎样怎样的分布,人们理所应当地选择了性质最好的那个分布函数:正态分布。如果假定这些误差都是期望为0、方差一定、彼此不干扰的,那么,这就是“高斯同方差性回归模型”,即“经典回归模型”的雏形。人们又回到了最初的那些简单问题,使用直线来逼近数据,这,就是linear regression model!
更加具有革命性的解释,是一旦使用概率模型来描述回归问题,我们想要寻找的那个近似函数,其实就是观测值变量对测量值变量的条件期望!如果使用“独立同分布高斯误差”(后来人们称之为“高斯白噪声”)这样的误差假设,那么观测值变量就服从正态分布,其中期望正是我们要找的函数。哈哈,回归问题,变成了一个推断问题:给定数据,估计期望。应该说从这一刻起,回归迎来了它的新生!
之后没有多少年,一个大名鼎鼎的人物问鼎统计学之巅:罗纳德·费希尔。这个后来成为剑桥大学的教授的人物,对统计学的贡献不胜枚举,单就“极大似然原理”就功不可没。极大似然原理,使得回归问题中的参数估计有了新的解决方案。而且人们恍然大悟,原来最初使用的“最小二乘原理”,在“经典回归”中得到的对参数的估计,与“极大似然原理”得到的完全一致!不仅如此,对回归问题中误差的统计假设,使得人们意识到“最小二乘原理”仅仅在误差独立同分布时才有效,如果误差的方差变动,就应该使用一种“带权重的最小二乘”。此外,“极大似然原理”较“最小二乘”更为普遍,理论上对任何分布的随机变量都是有效的。这一点,成为推动回归模型迅速发展的重要原因。
统计学和统计推断的迅速发展,尤其是抽样分布定理的发现,点估计和区间估计的成熟,人们已经不再将回归视为一种“逼近”,而是将其视为一个“估计量”,开始从统计推断的观点看待这个估计量的无偏性、充分性、相合性等等问题,还开始做起了对回归系数的区间估计、零假设t检验,也开始对回归误差做起了F检验。这些,逐渐形成了回归的methodology和实际建模后的model diagnostic(模型诊断)。有了统计学的保证,回归模型的可靠度得到了相当大的提高。这一影响迄今依然非常显著,我们经常被叮嘱:使用linear model建模之后,一定要检验残差的高斯型、平稳性、独立不相关性,还要看残差的平方和是否通过F检验。这些模型诊断,经常使得很多看上去拟合不错的模型被否定。模型诊断的出现,使得回归整整意义上具备了应用的价值。于是,紧接着,方差分析问世了,对那些非数值类型的自变量的回归,也出现了。linear model理论开始迅速成型,在其它科学中开始有了广泛的应用。那些经济学家们往往对自己的模型津津乐道,其实那都不过是一个简单的linear model。
也许讲到这里应该做一个插曲。费希尔这个人可以说是第一个将回归运用到极致的人。这似乎是必然,谁让他创立了“极大似然”。不过,费希尔是一个性格极其复杂的人,他也是第一个故意用回归模型来误导大众的人。有一家烟草公司,出钱请费希尔做一个统计研究,证明“吸烟对健康有利”。结果费希尔还真做到了!!这一历史事件,警告人们,回归模型,即使配备了较为良好的自我诊断能力,但是它仍有可能得到不正确的结果。从统计学的角度讲,就是severely biased!造成偏差的原因会有很多,比如抽样数据本身就是biased的,或者人们故意扔掉了很多数据,或者回归模型收到了outlier这种奇异值的影响。但是不管怎么说,人们开始对回归有了更多的思考,包括模型数值求解的稳定性、模型的鲁棒性等等。
这之后,回归迎来了一个大发展的时代。不知大家是否还记得前面提及的、回归在19世纪末遇到的两大难题。第一个,关于回归的理论支撑的问题,已经得到了较好的解决。但是第二个,关于回归模型中参数函数的选择问题,在这个时候变得更加棘手了。单纯的一个linear regression line,不足以描述自然界中那些非线性的变化趋势。于是,人们开始尝试多项式回归、正交多项式回归,还开始使用对数函数等对原始变量进行变换。
回归提供了一种寻找数据联系的手段,除了那些经济学家热衷于此,那些医学家们也不会无动于衷。医学家们使用回归模型来分析疫苗的抗菌效果。当然每每出现这种试验,小白鼠都是遭殃的。但是更让医学家头痛的,是回归模型的解释能力。医学家最关心小白鼠在接受疫苗并被感染后的死亡率,但是死亡率这一数值仅仅存在于0~1之间,如果使用回归模型,得到的是一条无界的直线。如果自变量稍有变动,比如疫苗的效用增强一倍,函数值,也就是死亡率,极有可能突破这个区间!但是实际上,真实的死亡率不过就是更接近0而已。这也就是说,linear model中“自变量的线性变化引发因变量的线性变化”,在研究死亡率时是不合理的。后来出现了一种logistic regression,解决了这一难题。而事实上,logistic regression仅仅是generalized linear model出现的一个前奏。在年这40年间,人们找到了logistic regression,log-linear model,还有对survival data的cox proportional hazard model。这些模型的特点,具备了linear model中使用线性结构的特点,但是在分布函数假设上以及对条件期望的函数变换上都有所不同。终于,在1972年,Nelder提出了以一类exponential family为代表的generalized linear model,实现了对linear model的一次飞跃。
然而类似的飞跃还在不同的方向出现着,每一次飞跃都是因为linear model无法解决实际问题。如果说generalized linear model的出现,是为了解决restricted response variable(有界、离散、非数值的类别等)的回归问题,是高斯分布的假设不再适用于因变量,那nonparametric regression的出现则是因为参数模型受到了来自数据的挑战。
随着科学技术的进步,尤其是二战后期计算机的出现,数值计算能力得到了有效提高。二战后DNA为代表的微观生物学、航空航天、图像处理等领域都飞速发展,形成了第三次科技革命。这个时候,人类收到了来自爆炸性增长的数据的挑战……在信号处理中,信号传输的密集度之高,形成的数据的数量之大,对回归模型提出了非常大的挑战。这一次,对误差的高斯分布假设没有问题,但是那些海量的数据,分布如此密集,形状如此奇特,想要找到某种类型的参数函数来进行去噪回归,实在是不可能。于是,在1960年左右,nonparametric regression出现了,它不假定任何具体的函数形式,而是选择一种基本的“局部构造法”,比如moving average(移动平均)、kernel estimation(核估计)、local regression line(局部线性回归)等等,然后let the data tell us what the function looks like!这一手段非常吸引人,因为完备的理论保证了这种估计的无偏性、一致性和相合性!如果使用cross validation来选择邻域的大小,得到的函数对数据的逼近非常令人满意。
但是后来人们发现,这种基于local neighborhood的估计方法,只能解决那种“密集、大量”类型的数据,因为估计的无偏性,只有在局部邻域中的点很多时才能得到保障。这也在客观上限制了kernel estimation的使用。虽然它有比linear model更好的理论逼近效果,但是实际问题中的数据并非总能达到要求。如果时间观测数据非常稀疏,那么使用kernel estimation,每个点在小邻域内找不到自己之外的其它点,那么kernel estimation得到的几乎就是插值函数!这可糟糕透顶了!很多人,包括我,在学习了nonparametric regression之后,都对这种看似非常灵活、完美的回归手段非常赞叹,很纳闷为什么很多case study反而不用kernel来做,偏要用参数回归去做。今天才想明白。与参数回归相比,kernel estimation对data的胃口非常大,如果你提供不了足够数量的data,kernel也是“巧妇难为无米之炊”啊!
那时地理学界也开始使用回归模型了。但是地理问题是一个大尺度问题,而且还是一个3维问题,这两个问题都造成了数据的sparsity(稀疏性),所以kernel方法没法成功。要解决这个问题,人们需要解决两个问题:
第一,对于较为稀疏的数据的非参数回归如何进行;
第二,高维问题如何解决。
spline regression,使得第一个问题得到了较好的解决。1963年,德国慕尼黑工业大学的教授证明了penalized least square的解唯一,并且是一个3次样条函数。于是,smoothing spline,成为了回归领域一颗闪亮的星星。penalized least square的聪明之处,在于不事先假定这个函数究竟是什么形式(只知道二阶光滑)。如果只使用least square,得到的无疑是插值函数,但是如果对这个函数的smoothness光滑度,即二阶导函数的积分,进行一个“惩罚”,那么penalized least square就会自动返回一个3次样条函数。函数的光滑度是由“惩罚系数”限定的,如果不惩罚,那就是插值函数,如果惩罚系数无穷大,得到的就是回归直线。这种聪明的设计,真的令人赞叹不已!紧接着,在1984年,Bristol大学的Green,Silverman,分别在iterative weighted least squares和equivalent kernel上取得突破,使得smoothing spline有了新的发展。同时,美国和加拿大的几位数学家,也证明了smoothing spline的很多性质。样条回归,在地里、气象问题中的应用极为广泛。
1981年,美国数学家弗里德曼提出了投影追踪模型,向高维的非参数回归发起了进攻。投影追踪模型,导出了一种特殊模型,即additive model,成为解决高维回归问题的利器。紧接着,在年之间,Hastie和Tibshirani两人在博士毕业论文中提出了generalized additive models,将generalized linear models和additive models的理论结合在一起,将非参数回归推向了一个新的高峰。
回归理论的发展还远远不止于此。
1991年,针对约束条件少于参数数量的问题,LASSO方法问世了。这又是一类penalized least squares问题。
1992年,法国女数学家Daubches的《小波十讲》问世,小波方法迅速走进非参数回归和时间序列分析当中。
1996年,早年从复旦大学走出国门的范剑青,在美国提出了局部多项式回归。这一回归理论,借鉴了regression splines,比如P-splines,B-splines的思想,使用多项式函数作为基函数,取得了很好的回归效果。
2001年,Bristol大学的Arne Kovac,以及德国艾森大学的David,提出了Taut string regression。这一回归借鉴了smoothing spline使用penalized least square的特点,将对smoothness的penalty term更换为对全变差的penalty,从而得到了一种逐段常值函数的回归函数。这种函数虽然看上去并不光滑,但是对于函数极值有着非常好的数量控制,能有效避免过拟合(overfitting),在图像和信号处理中是一种去噪的利器。
蒙特卡洛和贝叶斯,因为为统计推断提供了新的方法,当然也为回归模型提供了新的求解思路。事实上,一类叫做Bayesian Hierarchical Model的系统,使得回归模型对于tied values和小样本数据问题,都有了好的解决对策。
至此,我们一起完成了一段对回归分析的探索旅程。但我们看到的依然只是冰山一角。但是,即使是这种走马观花的旅行,也希望能为理解回归提供一种线索。当然,这也是我个人对回归的一种新的体会。作为我MRes学习的有一个阶段总结吧。回归,是我的PhD研究方向,也是我硕士学位论文的课题,更是我一直以来感兴趣的领域。通过MRes这种知识密集度很高的训练,我还无法立刻消化这些知识,有时也会走进理解上的误区。我个人也希望,以后自己能通过更多的case study,来亲自动手试验那些学过的模型究竟会有什么效果。正如我的保加利亚PhD朋友Delyan说的那样:You are a statistician!
论坛徽章:18
哇,文章不错,学习了。哈
论坛徽章:11
回归最初的含义来自高尔顿身高的调查,发现父母高的下代身高也高,但一般会比父母低,父母低的儿女也低但会比父母高,
这有一种下代身高向中间(平均身高)回归的趋势,即回归的含义。苹果/安卓/wp
苹果/安卓/wp
积分 13485, 距离下一级还需 4815 积分
权限: 自定义头衔, 签名中使用图片, 设置帖子权限, 隐身, 设置回复可见, 签名中使用代码
道具: 彩虹炫, 雷达卡, 热点灯, 雷鸣之声, 涂鸦板, 金钱卡, 显身卡, 匿名卡, 抢沙发, 提升卡, 沉默卡, 千斤顶, 变色卡下一级可获得
道具: 置顶卡
购买后可立即获得
权限: 隐身
道具: 金钱卡, 雷鸣之声, 彩虹炫, 雷达卡, 涂鸦板, 热点灯
TA的文库&&
苦逼签到天数: 8 天连续签到: 1 天[LV.3]偶尔看看II
本帖最后由 胖胖小龟宝 于
09:46 编辑
& && & 在开始本次的专题之前,楼主先问个小问题:姚明和他妻子叶莉生的孩子(儿子或女儿)会超过其父母的身高么?当然这是同性的相比(儿子一般都会比母亲高,女儿一般不会超过父亲……楼主才不会这么二呢……)
& && & 当然这个问题提的也有点极端(毕竟像姚明那身高的世界上也没几个,要长那么高真心不容易啊),但是这个问题,则引入了我们今天的话题:回归~~
& && & 这个回归不是香港澳门的回归,而是数学上的回归。回归最初被提出的时候,是作为现象出现的。在此引用《女士品茶》中的一段文字,来描述一下这个现象:高尔顿用这种方法,发现了他称之为“向平均回归”(regression to the mean)的现象,这表现为:非常高的父亲,其儿子往往要比父亲矮一些;而非常矮的父亲,其儿子往往要比父亲高一些。似乎是某种神秘的力量,使得人类的身高从高矮两极移向所有人的平均值。不只是人类身高存在着向平均数回归的现象,几乎所有的科学观察都着了魔似的向平均值回
归。下面一段话,则说明了回归现象是符合直观的(为什么出现这个现象):
& && & 高尔顿仔细思考了他的惊人发现,而后认识到这必定是真实的,在进行所有观察之前这就是可以预言的。他说,假设不发生这种向平均值的回归,那么从平均意义上看,高身材父亲的儿子将与他们的父亲一样高,在这种情况下,一些儿子的身材必须高于他们的父亲,以抵消身材比父亲矮小者的影响,使平均值不变。高身材者这一代人的儿子也将如此,那么会有一些儿子身材更高。这个过程将一代一代延续下去。同样地,将会有一部分儿子身材比他们的父亲矮小,而且有一部分孙子将更加矮小,如此下去,不用多少代,人类种族就将由特别高和特别矮的两极构成。 上述的情形并没有发生,人类的身高在平均意义上趋向于保持稳定。只有当非常高的父亲其儿子平均身材变矮,而非常矮的父亲其儿子的平均身材变高,才能出现这种稳定。向平均值回归是一种保持稳定性的现象,它使得某给定物种代际之间大致相同。
16:30:37 上传
& && & 看这篇文章的很多童鞋,在接触回归的时候,有多少是被老师用这段话(或大致内容差不多的例子)引入回归之门的呢?楼主肯定是的。也正因为如此,楼主对自己的身高终于心理平衡点了……好了,既然引入了回归,那我们就入正题,来讲讲回归的故事。
& && & 有人要问了,楼主你说这么多,和回归分析(或回归模型)有什么关系?
& && &楼主:乍一看,是有点联系不上(顶多让人联想到中心极限定理),但我们若是将父亲的身高作为自变量X;儿子的身高作为因变量Y,那么我们也许就能根据父亲的身高大致预测儿子的身高了。儿子身高的均值E(Y)可以大致用公式E(y)=bx+a+ε来做简单预测,这就是回归的现代意义:一个被解释变量(因变量)与若干个解释变量(自变量)依存关系的研究。要做回归分析,有2个必需具备的条件:
1、变量之间存在相关关系
Q:两个变量间有哪些关系
A:两个变量间有不相关、函数关系(函数关系是两个变量之间有确定的关系,可以明确用函数表达的)和相关关系(相关关系包括线性相关和非线性相关)
备注:通常我们使用的线性回归分析都会计算一个相关系数,这里的相关系数特指线性相关系数,如果哪天你计算出的相关系数为0.001~~那也仅仅表示他们的线性相关度很低,并不说明他们不存在非线性的什么关系……当然,当我们遇到的变量存在非线性相关关系,可以构建非线性回归方程,也可以想办法将其转换成线性方程。
2、自变量间相互独立且服从正态分布
变量间的相互独立是为了保证其不会产生共线性(这个是要多元回归才有的),正态分布的要求则保证了他们能使用那些基于正态分布而推导得出的统计理论(比如最小二乘,假设检验之类的)。这里还要求ε的均值为0,方差为σ2,且σ2与自变量无关。
Q:为什么会有ε?
A:若没有随机误差,则变量间就为函数关系,加入了随机误差,则表明此方程模型中的X只能解释或影响部分的Y,在他们之间可能还有其他的因素同样牵引Y的变动(可能是一些我们没有发现的因素,也可能是样本获取中的一些误差引起的……)
我们来看一个小例子:
16:30:38 上传
假设随机误差对体重没有影响,那么散点图中所有的点将完全落在回归直线上。但是,图中的数据点并没有完全落在回归直线上,而是散布在回归直线的附件,我们可以认为是那些随机误差将点从回归直线上“推”开了。
回归的目的也可以说是实质是由解释变量(自变量)去估计被解释变量(因变量)的均值!这个目的往往会被我们忽视,最终导致模型建立后因变量到底是什么都不清楚了。
再说回回归方程的表达式,E(y)=bx+a+ε,b为斜率,a为截距,他们的计算公式为:
16:30:37 上传
这里,在计算a,b时运用到最小二乘的方法,利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小,楼主之前做过一个最小二乘的专题,大家可点击:参看一下。
为了更好的理解回归方程的含义,我们举个例子来说:
比如有方程表达式为:y=0.849x-85.7(y其实应该用y的估计,计算所得的参数值也是b和a的估计,但那个符号,打不上去~~大家将就一下),它表示x每增加1个单位,y就增加0.849个单位,且两者具有正相关性。
那是不是这个方程就OK了,就能拿来用来预测呢?当然没那么简单,在这里我们就要来说说一个概念,那叫残差。
Q:什么是残差,残差有什么作用?
A:在线性回归模型中,残差是真实值与估计值之间的差值,还记得前文中的ε,它是一个不可测量的随机误差,但我们可以用残差去估计随机误差的方差。当然我们还能用残差制作残差图来判断模型拟合的好坏以及原始数据时候有奇异值。通常,我们将残差作为纵轴,样本序号、自变量或因变量的估计值作为横轴画残差图。
举个例子来说吧:(图中横轴为样本观测编号)
16:30:36 上传
由图可知,样本1和6的残差较大,需要查看一下是否数据采集过程中有所错误,或是否有其他原因导致数值异常。
备注:残差点比较均匀的分布在水平带状区域内,说明选用的模型比较合适,带状区域宽度越窄,说明拟合精度越高,回归方程的估计精度越高。
Q:Adjusted R2与R2之间有什么关系?
A:R2称为方程的确定系数,0~1之间,越接近1,表明方程的变量对y的解释能力越强。 对于回归方程来说,总结了以下几个意义:
1.R2可以作为选择不同模型的标准。如果在拟合数据之前,不能确定数据到底是什么模型,那么可以对变量的不同数学形式进行拟合,然后看R2的大小,R2大的模型,说明这个模型对数据拟合的较好。
2.在数据的关系存在非线性可能情况下:
(a)不一定R2越大拟合越好,因为R2只是回归平方和占总平方和的比例。 (b)如果一个模型的R2很小,不一定代表数据之间没有关系,而很有可能是选择的模型不对,因为数据之间也许的其他的函数关系,比如对数关系或者指数关系。这意味着需要对数据作进一步的拟合。(当然,最好的方法应该是在数据拟合之前先观察散点图)。如果是线性模型,那么R square才是方程拟合优度的度量,R2越大,回归方程拟合数据越好,线性关系越强。
3.当自变量个数增加时,尽管有的自变量与y的线性关系不显著,R2也会增大。R2受自变量个数与样本规模影响。对于这点,采用Adjusted R2进行调整。
4.当想确定方程中的每一个自变量对y的边际解释能力时,应该确定每个自变量的偏确定系数。注意,偏确定系数反映的是新加入回归的变量所解释的百分比,而这百分比是以前一步回归所未能解释的部分为整体,而不是以y的总变化为整体。也就是说,x1与x2共同解释的y的贡献,已包含在x1解释的y的贡献里面。偏确定系数的意义是,用于判断自变量的重要性。但是,在遇到虚拟变量时,计算这个的意义不大。
Q:多元回归分析中某自变量删除的判断
A:数理统计中有检验自变量和因变量关系的密切程度的方法, 利用此法可判断一自变量与因变量的关系之密切程度, 因而放弃该最差的自变量, 达到简化回归分析的目的。 在运用自变量相对重要性的检验方法以及以此检验结果作出删除某自变量时, 不能单纯按数理统计所提供的数学处理, 而应以专业知识作全面考虑.&&自变量的重要性是通过相应回归系数的显著性来检验。检验结果可分两类: 一是各回归系数都具显著性, 但显著程度, 即显著性水平a 可能不尽相同; 二是有的回归系数不具显著性。根据数理统计的概念, 对于不具显著性, 相应的自变量在回归中的作用很小, 可忽略不计而删除之, 用剩下的自变量重新回归
进行回归分析的步骤:
1、确定回归方程中的解释变量和被解释变量(即谁是X谁是Y)
2、确定回归模型:根据函数拟合方式,通过观察散点图确定应通过哪种数学模型来描述回归线。如果被解释变量和解释变量之间存在线性关系,则应进行线性回归分析,建立线性回归模型;如果被解释变量和解释变量之间存在非线性关系,则应进行非线性回归分析,建立非线性回归模型。
3、建立回归方程:根据收集到的样本数据以及前步所确定的回归模型,在一定的统计拟合准则下估计出模型中的各个参数,得到一个确定的回归方程。
4、对回归方程进行各种检验:由于回归方程是在样本数据基础上得到的,回归方程是否真实地反映了事物总体间的统计关系,以及回归方程能否用于预测等都需要进行检验。
5、利用回归方程进行预测
回归分析其实几乎涉及到绝大多数的统计理论,若要详细介绍,一本书都可以写出来(在我们学校是专门开始了一门回归分析的课程),所以这篇帖子只能做个引入简介,那些参数检验什么的都没有说,当然之前也有相关的帖子介绍,楼主开贴的目的也仅仅是做入门,所以希望大家能够在帖子下方可以一起讨论,提问,互相进步。丰富帖子的内容,拓展帖子的涵盖面!楼主万分感谢大家的参与和支持!
支持楼主:、
购买后,论坛将把您花费的资金全部奖励给楼主,以表示您对TA发好贴的支持
载入中......
总评分:&经验 + 100&
论坛币 + 24&
学术水平 + 8&
热心指数 + 3&
信用等级 + 6&
本帖被以下文库推荐
& |主题: 4, 订阅: 1
& |主题: 911, 订阅: 5
& |主题: 149, 订阅: 83
很有意思哎。
楼主辛苦啦,感谢!
本帖最后由 旷野的呼唤 于
14:49 编辑
&&求真务实,愿做理工新学霸;
&&开拓进取,打造人生大格局。
& && && && && && && && &&&——写给为梦想而坚持的小伙伴们。
拜读了,但还没有进入到回归分析这么高的层次
套中人什么时候能够破壳而出呢?
感谢LZ分享。
像老师学习统计!
很好的资料,有用的
鼓励积极发帖讨论
总评分:&热心指数 + 1&
mm5172 发表于
很好的资料,有用的谢谢支持!
感谢楼主分享
简单明了,赞一个!
谢!!!!!!
初级热心勋章
初级热心勋章
论坛好贴推荐
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
为做大做强论坛,本站接受风险投资商咨询,请联系(010-)
邮箱:service@pinggu.org
合作咨询电话:(010)
广告合作电话:(刘老师)
投诉电话:(010)
不良信息处理电话:(010)
京ICP证090565号
京公网安备号
论坛法律顾问:王进律师}

我要回帖

更多关于 vlookup函数的含义 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信