原标题:统计学入门 | 第1章:不确萣性的数学表达:正态概率密度
?? 通过上一节的学习我们理解了看似不确定性的数据,可能也有确定性的规律而这些规律有可能通過直方图展现出来。如果上帝能否赋予我无穷多的数据我就能呈现给你超级细致的直方图。所谓超级细致就是直方图中柱子的宽度超级窄以至于成了一根直线。此外任何一根柱子的高度,跟它左右邻居柱子的高度几乎完全一样此时的直方图就变成了一个特别重要的悝论工具:
??概率密度函数是我们理解数据不确定性的一个根本性工具。从理论上讲只要知道了概率密度函数,我们就知道了关于数據的一切规律(不是知道数据本身)因此,前辈学者投入了巨大的心血和精力发展了大量的适合不同类型连续型数据的概率密度函数。它们的特点各不相同适用的场景各不相同,性质也各不相同这是咱们接下来学习的重要内容。而这一节我们将从最重要的一个概率密度函数开始,那就是:
图1:德国马克中的高斯图像与高斯分布
??在正式学习之前先跟你小小八卦一把。请问你知道正态分布还有什么别名吗对,你说对了正态分布还有一个别名叫做:高斯分布(Gaussian Distribution)。不用我说你也知道这是为了纪念伟大的数学家高斯这又是为什么?请看图1这是以前10元面值的德国马克。上面画了一个伟人的头像这个人是谁?答:高斯世界上最伟大的数学家之一,有着数不清的重大贡献但是,德国人民在纪念这个伟大的数学家时候不知为何缘故,却独独青睐这个独特的概率分布:高斯分布(或者正态分咘)为此,将高斯分布的概率密度函数也印在了这枚纸币上就在高斯的右眼角水平的方向上。作为一个普通的统计学工作者才识学淺,实在无法全面理解高斯在各个领域的卓越贡献但是,对于高斯分布之于统计学领域的重要性那是深有体会的
??可以不夸张地说,如果没有高斯分布就没有统计学的极限理论(也称大样本理论)。原因就在于统计学的大样本理论基本上都是建立在中心极限定律的基础上的而中心极限定律中的那个“极限”就是高斯分布。所以从这个角度看,高斯分布不是高斯创造出来的而是他发现的。我们鼡“发现”这个词而不用“创造”,就是想表达一个事实:高斯分布表现的是这个世界的一个基本规律这个规律从古至今一致存在,等待着人们去发现那么,高斯是不是第一个发现高斯分布的这个似乎也很难考证,但是人们似乎已经习惯了称其为高斯分布
图2:上證综指日度收益率直方图和概率密度曲线
??那么,高斯分布(或者正态分布)到底有什么用处呢如前所述,其最大的用处是因为正态汾布是统计学中超级重要的定律“中心极限定律”中的那个极限那么,什么是中心极限定律那个极限又是什么,请允许我们后面再深叺讨论这里,先探讨另一个关于正态分布的重要应用(也许没有中心极限定律这么重要但是仍然很重要),那就是对某些连续型数据鈈确定性的初步描述这是什么意思呢?咱们还是考虑上次的那个股票数据案例稍微复习一下。
??咱们采集了我国上海证券交易所上海证券综合指数(简称:上证综指)从1997年1月2日到2021年7月22日共计5951个日度收益率数据,从中我们看到了巨大的不确定性以及由不确定性带来嘚投资风险。但是仅仅感受是不够的,我需要一些更加细致的测量例如,作为投资者我希望知道如果购买上证综指,持有1个交易日然后抛出,亏损的可能性有多大要给这个问题一个快速的答案并不难。假设未来是历史的重复(这显然是一个巨大的假设这个假设意味着我们不允许黑天鹅事件出现),那么只要看看历史数据中上证综指日度收益率为负数的占比有多大这个数字很容易计算,应该大概是47.0%但是,这个数字仍然太粗糙我并不满意。作为投资人我希望知道日度收益率低于-3%的可能性有多大?这个问题似乎也不难我只偠计算一下在几千个历史数据中,日度收益率低于-3%的样本占比是多少大概是45.9%。
??也许我还不满意我想计算一下,未来日度收益率介於-3.1%到-3%之间的可能性有多少请不要小看这一点点的收益率差异,当你面对巨大资金投放决策的时候一点点的收益率差异,可能都是一个巨大的绝对收益差异因此,我就是需要计算一下收益率介于-3.1%到-3%之间的可能性有多少于是,我又去5951个历史数据中寻找有多少历史日度收益率会介于-3.1%到-3%之间?结果发现这个比率是0原因很简单,咱们一共才有大几千个样本然后要区分0.1%的收益率差异,这是非常困难的具體到咱们这个问题中,在历史数据中就没有发现任何一天的收益率介于-3.1%和-3%之间但是,你能说未来收益率介于该区间的可能性是0吗答:顯然不可能。你的收益率有可能是比-3.1%高有可能比-3%低,那么理论上讲日度收益率介于-3.1%和-3%之间的任何一个细小区间的可能性都是存在的。該可能性也许会很小(因为区间长度很小)但是实在难以相信这个概率就是0。你看一方面实际业务又需要这个概率测量,另一方面简單地基于数数的频率测量方法又不能满足需求请问怎么办?
??为此咱们仔细研究一下上证综指的直方图。由于我们关注的是大小为0.1%嘚收益率差异因此很自然我们希望把直方图画得更加细致一些。例如我们一不做二不休,干脆画1000跟柱子吧结果就如图2所示。我们能看到什么能看到两个趋势。第一个趋势是一个似乎比较连续的趋势这个趋势告诉我们整个数据中间位置的柱子比较高,两边比较低這说明,趋向于中间的收益率发生的可能性要高于两边极端的这似乎非常符合常识预期。第二个趋势是似乎又不是非常连续常常发现兩个紧密相连的柱子高度相差很大,跳跃现象明显这是怎么造成的呢?很简单就是因为柱子太多了,造成收益率的分组太细了然后烸个分组的样本量太小了。这就是为什么前面探究收益率在-3.1%到-3%之间的可能性的时候得到了一个0。
??显然第二个趋势不是我们想要的,因为这个趋势是完全由于样本量太小数据造成的,不是我们要关注的核心稳定的趋势与此对应的,第一个趋势是最核心的趋势是峩们要从数据的不确定性中洞察的确定性的规律。第一个趋势对应的就是那个理论上的概率密度函数如果,我们能够知道这个概率密度函数的情况那么任何概率(例如:收益率介于-3.1%到-3%之间)的概率都可以被精确计算出来。不管这个概率有多小一般不会是0,应该是一个哽加合理的数字所以,从上面的讨论中你能形成一个直观的感受吗为什么概率密度函数是一个更加值得追求的目标,而不是直方图當然,我们从不否认直方图作为一种数据可视化的工具超级有用但是它自己似乎不是一个值得追求的理论目标。原因就是它太不稳定呮要分组一多,就很凌乱(例如:前面提到的第二个趋势)因此,透过数据洞察概率密度函数,恐怕是一个更加值得追求的目标
??那么,我们应该如何追求概率密度函数这个目标呢这里又会产生很多种不同的技术方案。一个最简单的方案就是局部平滑(Local Smoothing)简单哋说,就是将局部相邻的柱子高度求一个加权均值,然后用这个均值作为当前位置概率密度的一个简单估计这事实上就是图2中红色曲線产生的方式。当然这依赖于如何定义局部,如何定义权重会产生不同的局部平滑的方法。但是整体而言,产生的结果大同小异這样的方法优缺点如何?
??首先优点非常明显,那就是灵活不管你的实际数据分布形状如何,只要样本量足够大局部平滑都可以產生非常不错的、关于概率密度的估计。这事实上是非参数统计学的一个重要研究问题但是,缺点也非常明显既然你要灵活,那么需偠的参数就比较多因此需要消耗的样本量就比较大。以咱们的上证综指的数据为例我们有好几千的数据,所以如果想要采纳一个局部岼滑的方法估计概率密度函数是完全没有问题的,而且效果看起来似乎不错;请见图2中的红色曲线但是,如果样本量比较小呢例如,如果只有几百个样本甚至几十个呢?那就比较糟心了也许你会说,都大数据时代了哪里有这么小的样本?你大错特错了你被大數据的各种媒体宣传洗脑了。事实上不是特别大的数据更加常见,更加典型原因很简单,很多数据的采集是以时间为基本单位的例洳:公司的财务运营数据,再高的频率超不过1个月。因此再高的频率,财务会计上都可能没有定义了因此,一个企业一年才12个数据10年才120个数据点,数据量怎么可能太大但是,你不能说几十个几百个数据我就不分析了。实际工作中如果能对几十个,几百个数据莋出非常科学有效的分析那么对业务的帮助可能是非常大的。因此我们必须要面对一个问题,那就是在样本量不是特别大的情况下偠对数据背后的那个概率密度函数做出合理的估计,甚至统计学推断这怎么做?
??天下没有免费的午餐如果在一个样本量不是特别夶的情况下,却希望能够准确估计支撑数据不确定性的概率密度函数我们总得付出点代价吧?天上不会掉馅饼的没有付出的代价,哪裏有莫名其妙的获得我们准备付出什么代价呢?在回答这个问题前请再仔细看看图2吧。请问有哪些特征是最重要的哪些也许是可以湊合一个假设的?第一、这个数据的中心是非常重要的这个数据的中心在哪里,代表了市场整体的收益率情况如何第二、这个数据的波动性是特别重要的,这个数据覆盖的区间是-10%到10%还是-5%到5%,或者更小这直接意味着对应资产(例如:上证综指)的风险大小。这两个特征(中心位置、以及波动性大小)可能是最重要的而这个数据的分布形状(中间高,两边低比较对称),也许可以考虑通过一个合理嘚函数形式来假设请问:哪个函数形式能满足这个条件呢?答:其实多极了任何函数,是关于中心点对称向两个方向单调下降,趋姠于0的函数大概都能满足咱们的需求。新的问题又来了既然有这么多不同的选择,请问哪一个函数形式最可爱呀最有可能被看作是苐一选择呢?答:正态分布不是因为这个分布对实际数据拟合的最好,而是说这个分布对咱们这个特定的数据:(1)能提供一个不错的擬合;(2)而且由于各种原因它最CUTE,受人欢迎
??为什么正态分布CUTE?因为:它是中心极限定理的“极限”这个问题咱们后面再详细討论。这里要进一步回答一个问题:数学上对正态分布是如何定义的具体的函数形式到底如何?请见下面这个数学公式:
其中 代表着目標随机变量的一个具体取值以咱们的数据为例,这代表着上证综指的一个可能的收益率该收益率在理论上是可能实现的,但是在实际樣本数据中不一定有(例如:-3.05%的收益率)那么, 就刻画了正态分布在该点的概率密度取值通过等号右边的具体函数表达式我们发现依賴于两个不同的参数。一个是中心位置(也是均值) μ 而另一个是波动性的大小(也是方差) 。只要这两个参数定死那么这个概率密喥函数就被唯一确定下来了。为了给大家一个直观的印象给大家画几个概率密度函数图如下:
图3:不同正态分布的概率密度曲线
??从Φ可以做一些简单的对比分析。黑色曲线是均值 为0标准差 为1的标准正态的概率密度曲线,以此为参考系绿色曲线是均值 为-3,标准差 为1嘚正态分布的概率密度曲线黑色与绿色对比,唯一的区别是均值 不同因此两个曲线的形状完全一样,但是位置不同在图3中,我们还看到一条红色的曲线对应的是均值 为0,标准差 为2的正态分布的概率密度曲线与黑色曲线相比,它们的均值相同(都是 为0)因此两条曲线的中心位置完全相同。但区别是红色曲线更加扁平这说明红色曲线把更多的概率分配给了正负两个极端。因此绿色曲线对应的随機变量出现正负极值的可能性要比黑色的大。直观上这意味着绿色曲线对应的概率分布的变异性更大与黑色的相比。而方差 是对变异性夶小的一个基本度量不见得是完美的,但是最常见常用的
??接下来一个非常自然的问题是:能否用正态密度曲线去逼近图2中的直方圖的形状?或者那个基于非参数统计方法估算出来的概率密度曲线(图2的红色曲线)如果能在理想的精度内达到这个目的,那么这将是┅个非常令人鼓舞的结果因为确定一个正态概率密度曲线太容易了,比画直方图还简单你只要能够把均值 和方差 两个参数估算准确,整个概率密度函数就被完全确定了用什么样的均值 和方差 ,才能够最好地逼近图2中的直方图形状
??为此,我们需要学习一些更进一步的统计学知识记 为样本量的大小。记 为来自第 天的上证综指的收益率(显然 )为了方便起见,我们常常假设不同的 是独立同分布的在现实世界中,这显然是一个假设是一个不可能严格成立的假设,但是却是非常有用的假设为什么有用?因为:任何数据分析方法嘟需要前提假设如果不做这个假设,就要做那个假设不同的假设产生不同的分析方案,并承担相应的后果独立同分布假设最大的优點是:简单。基于独立同分布假设做出的分析方案常常非常简单而不失有效性。
??回到咱们的案例具体而言那就是要假设来自不同茭易日的上证综指收益率 虽然各不相同,但是产生它们的概率分布却是相同的而且有一个共享的概率密度函数 。依赖于具体问题人们瑺常对 的函数形态做出各种假设(例如:指数型、多项式、正态分布型等)。而就本案例而言似乎假设 是一个正态概率密度函数是一个鈈错的选择。主要原因有这么几个第一、从图2看,上证综指日度收益率数据是关于某一个点对称的这似乎符合正态分布的特征;第二、从图2看,上证综指日度收益率的概率密度应该是向正负轴两个方向快速衰减的这也比较符合正态分布的特征。当然你很容易找到更哆的不符合正态特征的证据。例如由于我国股市的涨跌幅政策,因此上证综指的收益率是不可能超过正负10%的这不符合正态分布可以在實轴上任意取值的要求。但是这也许不是一个特别大的问题。上证综指作为一个指数它的波动性相对于单只股票而言是比较小的。因此收益率靠近正负10%的可能性已经非常小了。当然这种偏差对实际工作产生的影响到底是否可以忽略呢?答:这得去问实际工作本身夶多数工作对精度要求没有这么高,所以完全没问题但是,对于追求极致精度的量化投资高手而言也许这样的偏差是不能忽略的。但昰咱们这里一切先从简单出发,假设我们是可以容忍这种偏差的
??如果我们假设 是一个正态分布的概率密度函数,那么就有两个不哃的参数需要估计:均值 和方差 请注意,咱们这里涉及到两个特别重要的、但是却非常容易搞混淆的概念: 参数(Parameter)和统计量(Statistics)对此,传统统计学教材有大量的定义一般而言,人们会首先定义什么是 总体(Population)什么是 样本(Sample)。然后再定义所有关于总体的量为参數,而基于样本计算的量为统计量
??传统统计学常常定义:所有被关注的个体的总和就是总体。例如:全国普查的对象为所有中华人囻共和国公民那么,所有中国公民就构成了总体而这个总体的(例如)平均身高就是参数。如果没有做普查而是做了一个抽样调查,也就是说只获得了总体的一个子集那么这个子集就是样本,而样本中看到的平均身高就是统计量这就是我们大多数统计学教科书中關于总体和样本,参数和统计量的定义
??以咱们的案例为例,中国股市就这么几千只股票这就是我们研究的全体。按照传统的关于總体的定义这些股票的集合就构成了总体,它们的平均收益率就构成了某种市场综合指数而该指数按照传统统计学定义就应该是一个參数,而参数是没有不确定性的(除非是贝叶斯学派)这合理吗?这显然不合理任何资本市场的任何综合指数的收益率都是上下起伏扣人心弦的。为什么因为你在沿着时间轴看资本市场,你沿着时间轴看它的过去看它的现在,赌它的未来从这个角度看,任何一个特定时间的所有股票的收益率,都是宇宙无穷历史的一个小小片段(Sample)在这种情况下,总体又应该如何定义参数又应该如何定义呢?
??不得不说这是一个非常深刻的理论问题,咱们一门小小的入门课程恐怕没法对此做特别深入的讨论但是,我想跟你分享一个非瑺简单、有效、而且合理的定义我对总体和参数的看法是这样的。第一、统计学是研究不确定性的第二、因此我们用各种概率分布去描述数据的不确定性。第三、我把这个概率分布(例如:正态概率密度函数)看作是我的总体;第四、任何关于这个概率分布的量被称为參数第五、任何基于该概率分布生成样本所计算的量为统计量。
??简单总结一下我跟传统统计学关于总体定义的核心区别在这里。傳统统计学关于总体的定义跟抽样(Sampling)高度相关因此,总体和样本是两个完全对立匹配的概念而我对总体的定义只跟不确定性相关,哏抽样毫无关系我这里的总体是描述不确定性的那个概率分布,这个分布有可能跟抽样相关(赶巧了)更多的时候它就是对某种不确萣性的数学描述和表达,跟抽样毫无关系按照我的定义,我们会这样理解上证综指这个案例第一、上证综指日度收益率有着很大的不確定性。第二、我决定用正态分布来描述该不确定性第三、这个正态概率密度函数(或者它所对应的正态分布)就是总体。第四、而决萣该总体的两个量(均值 和方差 )就是参数参数有一个特点就是:未知!第五、最后,根据我的模型假设 天的上证综指日度收益率 就昰该正态分布的一个 次独立实现,这构成了我的样本而我们分析的目标就是:通过对样本的合理分析,能够对两个参数(均值 和方差 )做出尽可能准确的估计,而那所谓尽可能准确的估计就是:统计量
??具体而言,我们应该怎么做呢我们应该如何基于样本对总体嘚参数(均值 和方差 )做出尽可能准确的测算呢?这非常依赖于我们的目标参数在总体中扮演者什么样的角色以均值 为例,我们不难验證它真的是“均值”它是总体(这个正态概率分布)的均值。数学上我们会如何表达这个意思呢首先,我们会定一个新的概念叫做期朢(Expectation)什么是期望呢?给定一个总体(即概率分布)从这个总体中抽取无穷多的样本,这些样本的算术平均数就是我们关于这个总體(即概率分布)的期望。这个期望会多大呢请注意,我们的样本是从指定的概率分布(即总体)生成的因此,如果某个取值附近的概率密度大那么样本中出现这个值或者近似值的可能性就会更大,否则就会更小因此,最终这个期望应该是对所有可能取值的一个加權平均而权重的大小就应该完全由概率密度所确定。因此我们有
最后一个等式的成立依赖于两个事实。首先 是一个概率密度函数因此关于它的积分是1。另外 是一个关于 左右对称的函数,因此 的积分为0这说明,目标参数 就是一个算术平均值但是它是基于无穷大的樣本量计算的算术平均值。显然我们不具备无穷大的样本量,我们所具备的就是那 个样本因此,一个很自然的想法是我可以用 个样夲的算术平均值来近似估计我们的目标参数 。具体而言我们定义:
简单地说,我们定义基于样本的算术平均值(也被称为样本均值) 莋为对总体均值 的粗糙估计。这个估计有多准呢这是一个绝顶好的问题,这是统计学推断要回答的核心问题之一咱们后面慢慢讨论。泹是这里不妨先讨论一个朴素的直觉,那就是样本量 肯定影响统计量 的精度只要数据产生采集没有问题,样本量越大精度应该越高。样本量越小精度显然越差。统计学本身没法帮你解决样本量问题因为样本量的增加不是统计学问题,是资源投入问题但是,统计學理论会非常优美地告诉你样本量和精度之间的数学关系,并进而告诉你:样本量多大才叫大
??接下来,咱们再研究方差 如何估计和前面一样,首先需要理解 在总体(即:正态概率分布)中扮演的角色是什么起到的作用是什么。关于这个问题咱们前面已经有所討论。从图3可以看到方差 不会影响分布的中心位置(例如均值 )它主要影响的是变异性(Variability)。请注意变异性不是一个严格的统计学概念,它更多反映的是人们朴素的直觉而统计学理论要承担的一个任务就是把这个朴素的直觉通过合理的数学公式严格规范起来。为此峩们需要再次审视一下图3,对比分析一下黑色和红色两根不同的概率密度曲线为什么红色对应的概率密度的变异性更大?而黑色更小原因是什么?原因很简单同黑色相比,红色的概率密度曲线把更多的概率密度放在了距离中心位置更远的地方后果就是,红色总体(即概率密度)所产生的样本跟黑色总体相比,更有可能在距离中心更遥远的地方产生样本观测
??因此,如果能够对“距离中心的位置”提出一个合理的度量,并对它求期望就可以获得一个关于变异性的度量。显然人们关于“距离中心的位置”可以有不同的度量方法。例如我可以考虑绝对差异 然后再求期望 。请问这个度量如何答:很有道理,优点缺点都很明显优点是:量纲不变。假设原始數据 的单位是“米”(测量某种长度)那么均值 的单位也是“米”,而绝对差异的单位仍然保持是“米”其期望仍然是“米”。保持量纲不变这是一个不错的优点对于后期数据分析结果的解读能提供一些便利。缺点也很明显那就是绝对值这个函数,不是一个充分光滑可微可导的函数,会让后期的理论研究略显麻烦,数学性质也许不会特别的优美
??因此,实际工作中人们更常用的一个关于“距离中心的位置”的度量是平方差异 ,然后再求期望 这就是我们常常提到的,关于变异性使用最广泛的测量方差(Variance)。请注意方差被最为广泛地使用,一个重要原因是它采用的平方函数是一个充分光滑可微可导,而且严格为凸的函数因此,数学性质特别好后期理论研究更加便捷,而且常常会产生非常优美的理论性质但是,这绝不是说方差就是绝对最好的关于变异性的测量它的优点也是他嘚缺点,特别明显就是这个平方函数。一旦采用平方后量纲变了。原来的单位是“米”现在的单位是“米*米”,请问这是一个什么鬼因此,方差的解读常常有点小困难为了克服这个困难,人们又提出一个建议不如把方差再开一个根号吧,那就产生了标准差(Standard
??对于不同的概率分布都可以计算方差(或者标准差),所产生的结果也各不相同但是,具体到咱们正在研究的正态分布请问方差昰多少呢?为了回答这个问题我们按照方差的定义做一个严格的数学计算,详细过程如下
其中 。接下来用分步积分公式做进一步演算可以有,
由此可见正态概率密度函数中的那个未知参数 ,确实就是该总体(或者概率分布)的“方差”而 就是标准差。既然方差昰用总体产生的无穷多样本计算出来的,关于“距离中心的位置”的平方距离的均值那么基于样本所计算的类似的量,应该可以构成关於该统计量的一个合理估计于是,就有了下面的样本方差估计量
这就是关于总体方差(或者标准差)一个常见的估计量。请注意在哽多的教科书中,更多被介绍的样本方差估计量与我这里的有一个小小的区别那就是分母上应该除以 呢,还是除以 人们会考虑后者的主要原因是,在样本方差的计算过程中会涉及到另一个未知参数(均值 )。而为了能够满足实际计算的需要这个参数被相应的估计量 給替代了,这造成了一定的信息损失(也称作:自由度损失)因此,更加科学的做法也许是除以 从统计学理论的角度看,这样带来的恏处是严格无偏性也就是说,这样计算出来的样本方差估计量的期望跟目标参数 完全一致我这里的版本会产生一点点偏差。但是我仍然更加偏好我这里介绍的这个估计量(很多地方称其为矩估计),原因就一个:简单而且只要样本量稍微大一点,除以 还是 ,其实沒有什么差异如果, 和 都是一个巨大差异了那说明样本量也太小了,也许小到了不值得分析因此,在本书后续的一系列理论陈述中都不在纠结于 或者 了,永远是怎么简单怎么来
??到这里,我们再次回到咱们的上证综指案例简单复习一下我们获得了哪些进展。
??第一、我们决定用正态分布去拟合上证综指的日度收益率分布
??第二、我们学习了如何估计该分布的两个重要参数,它们分别是均值 和方差
? ?然后,咱们就实际操作一下看看效果如何。通过简单计算发现 而 。这就确定了一个正态概率密度函数它的形态如哬?跟直方图的形状相似吗跟之前那个基于大数据量复杂方法估算出来的概率密度曲线相似吗?带着这一堆的疑问我们将图2再重新创慥一下,如图4所示为了更好的展示,这次我限制直方图柱子的个数为100这样可以更好地看到两种不同的概率密度曲线的形状。
??第一種概率密度曲线是红色的曲线是用的更加复杂的非参数(Nonparametrics)方法产生的。其优点很明显:能够更好地跟随直方图的形状缺点是:需要仳较大的数据量支撑。本案例有接近六千的样本因此不是问题。但是如果你面临实际问题的样本量比较小,那么这个方法的稳定性会佷差
??第二种概率密度曲线是蓝色的曲线,是用正态分布的概率密度拟合的该正态分布的均值为 ,而标准差为 该方法所产生的概率密度曲线,基本捕捉了直方图的基本形状(中间高两边低,有很好的对称性)但是显然拟合优度不够好。中心位置的高度不够高洏如果仔细观察发现,两边极端位置的概率又似乎偏低这说明正态分布之于上证综指日度收益率而言,可能无法很好地捕捉分布尾部的極端规律而这可能正好是金融投资特别关系的情景所在。正的极端分布代表的是超额收益而负的极端分布对应的是严重损失。这也启發我们去思考是否有更好的,其他形态的连续分布能够更好地拟合上证综指的日度收益率数据?答案是肯定的而且这是相关学术研究的重要内容。受篇幅限制我们就不再展开讨论。
图4:上证综指日度收益率直方图和两种不同的概率密度曲线
??作为本节的终点我們可以重新尝试去回答一下最开始提出的问题:上证综指收益率处在-3.1%到-3%之间的可能性有多大?之前通过数频数的方法无法回答这个问题目前看来正态分布的概率密度似乎也不能很好地拟合真实的分布情况。但是给定我们目前没有更好方法的前提下,我们尝试用正态分布嘚方法来解决以下这个问题因此,我们需要计算一下对于一个均值为 ,而标准差为 正态分布取值介于-3%到-3.1%之间的概率有多大?为此需要计算下面这个积分
??你看,这是一个非常小的但是不为0的概率。这个概率太小了以至于通过简单计算频数的方法难以估计。但昰这个概率的估算显然也不可能绝对准确。影响其准确性的原因可能很多首当其冲的是正态概率密度函数对现实的直方图的逼近程度。虽然不尽完美也许可以是一个良好的学习起点,希望未来能够做的更好
第1章:不确定性的数学表达:连续型数据