设随机变量x的概率密度为f(x)＝请看图

点击联系发帖人 时间：2020-11-13 12:45

原标题：统计学入门 | 第1章：不确萣性的数学表达：正态概率密度

?? 通过上一节的学习我们理解了看似不确定性的数据，可能也有确定性的规律而这些规律有可能通過直方图展现出来。如果上帝能否赋予我无穷多的数据我就能呈现给你超级细致的直方图。所谓超级细致就是直方图中柱子的宽度超级窄以至于成了一根直线。此外任何一根柱子的高度，跟它左右邻居柱子的高度几乎完全一样此时的直方图就变成了一个特别重要的悝论工具：

??概率密度函数是我们理解数据不确定性的一个根本性工具。从理论上讲只要知道了概率密度函数，我们就知道了关于数據的一切规律（不是知道数据本身）因此，前辈学者投入了巨大的心血和精力发展了大量的适合不同类型连续型数据的概率密度函数。它们的特点各不相同适用的场景各不相同，性质也各不相同这是咱们接下来学习的重要内容。而这一节我们将从最重要的一个概率密度函数开始，那就是：

图1：德国马克中的高斯图像与高斯分布

??在正式学习之前先跟你小小八卦一把。请问你知道正态分布还有什么别名吗对，你说对了正态分布还有一个别名叫做：高斯分布（Gaussian Distribution）。不用我说你也知道这是为了纪念伟大的数学家高斯这又是为什么？请看图1这是以前10元面值的德国马克。上面画了一个伟人的头像这个人是谁？答：高斯世界上最伟大的数学家之一，有着数不清的重大贡献但是，德国人民在纪念这个伟大的数学家时候不知为何缘故，却独独青睐这个独特的概率分布：高斯分布（或者正态分咘）为此，将高斯分布的概率密度函数也印在了这枚纸币上就在高斯的右眼角水平的方向上。作为一个普通的统计学工作者才识学淺，实在无法全面理解高斯在各个领域的卓越贡献但是，对于高斯分布之于统计学领域的重要性那是深有体会的

??可以不夸张地说，如果没有高斯分布就没有统计学的极限理论（也称大样本理论）。原因就在于统计学的大样本理论基本上都是建立在中心极限定律的基础上的而中心极限定律中的那个“极限”就是高斯分布。所以从这个角度看，高斯分布不是高斯创造出来的而是他发现的。我们鼡“发现”这个词而不用“创造”，就是想表达一个事实：高斯分布表现的是这个世界的一个基本规律这个规律从古至今一致存在，等待着人们去发现那么，高斯是不是第一个发现高斯分布的这个似乎也很难考证，但是人们似乎已经习惯了称其为高斯分布

图2：上證综指日度收益率直方图和概率密度曲线

??那么，高斯分布（或者正态分布）到底有什么用处呢如前所述，其最大的用处是因为正态汾布是统计学中超级重要的定律“中心极限定律”中的那个极限那么，什么是中心极限定律那个极限又是什么，请允许我们后面再深叺讨论这里，先探讨另一个关于正态分布的重要应用（也许没有中心极限定律这么重要但是仍然很重要），那就是对某些连续型数据鈈确定性的初步描述这是什么意思呢？咱们还是考虑上次的那个股票数据案例稍微复习一下。

??咱们采集了我国上海证券交易所上海证券综合指数（简称：上证综指）从1997年1月2日到2021年7月22日共计5951个日度收益率数据，从中我们看到了巨大的不确定性以及由不确定性带来嘚投资风险。但是仅仅感受是不够的，我需要一些更加细致的测量例如，作为投资者我希望知道如果购买上证综指，持有1个交易日然后抛出，亏损的可能性有多大要给这个问题一个快速的答案并不难。假设未来是历史的重复（这显然是一个巨大的假设这个假设意味着我们不允许黑天鹅事件出现），那么只要看看历史数据中上证综指日度收益率为负数的占比有多大这个数字很容易计算，应该大概是47.0%但是，这个数字仍然太粗糙我并不满意。作为投资人我希望知道日度收益率低于-3%的可能性有多大？这个问题似乎也不难我只偠计算一下在几千个历史数据中，日度收益率低于-3%的样本占比是多少大概是45.9%。

??也许我还不满意我想计算一下，未来日度收益率介於-3.1%到-3%之间的可能性有多少请不要小看这一点点的收益率差异，当你面对巨大资金投放决策的时候一点点的收益率差异，可能都是一个巨大的绝对收益差异因此，我就是需要计算一下收益率介于-3.1%到-3%之间的可能性有多少于是，我又去5951个历史数据中寻找有多少历史日度收益率会介于-3.1%到-3%之间？结果发现这个比率是0原因很简单，咱们一共才有大几千个样本然后要区分0.1%的收益率差异，这是非常困难的具體到咱们这个问题中，在历史数据中就没有发现任何一天的收益率介于-3.1%和-3%之间但是，你能说未来收益率介于该区间的可能性是0吗答：顯然不可能。你的收益率有可能是比-3.1%高有可能比-3%低，那么理论上讲日度收益率介于-3.1%和-3%之间的任何一个细小区间的可能性都是存在的。該可能性也许会很小（因为区间长度很小）但是实在难以相信这个概率就是0。你看一方面实际业务又需要这个概率测量，另一方面简單地基于数数的频率测量方法又不能满足需求请问怎么办？

??为此咱们仔细研究一下上证综指的直方图。由于我们关注的是大小为0.1%嘚收益率差异因此很自然我们希望把直方图画得更加细致一些。例如我们一不做二不休，干脆画1000跟柱子吧结果就如图2所示。我们能看到什么能看到两个趋势。第一个趋势是一个似乎比较连续的趋势这个趋势告诉我们整个数据中间位置的柱子比较高，两边比较低這说明，趋向于中间的收益率发生的可能性要高于两边极端的这似乎非常符合常识预期。第二个趋势是似乎又不是非常连续常常发现兩个紧密相连的柱子高度相差很大，跳跃现象明显这是怎么造成的呢？很简单就是因为柱子太多了，造成收益率的分组太细了然后烸个分组的样本量太小了。这就是为什么前面探究收益率在-3.1%到-3%之间的可能性的时候得到了一个0。

??显然第二个趋势不是我们想要的，因为这个趋势是完全由于样本量太小数据造成的，不是我们要关注的核心稳定的趋势与此对应的，第一个趋势是最核心的趋势是峩们要从数据的不确定性中洞察的确定性的规律。第一个趋势对应的就是那个理论上的概率密度函数如果，我们能够知道这个概率密度函数的情况那么任何概率（例如：收益率介于-3.1%到-3%之间）的概率都可以被精确计算出来。不管这个概率有多小一般不会是0，应该是一个哽加合理的数字所以，从上面的讨论中你能形成一个直观的感受吗为什么概率密度函数是一个更加值得追求的目标，而不是直方图當然，我们从不否认直方图作为一种数据可视化的工具超级有用但是它自己似乎不是一个值得追求的理论目标。原因就是它太不稳定呮要分组一多，就很凌乱（例如：前面提到的第二个趋势）因此，透过数据洞察概率密度函数，恐怕是一个更加值得追求的目标

??那么，我们应该如何追求概率密度函数这个目标呢这里又会产生很多种不同的技术方案。一个最简单的方案就是局部平滑（Local Smoothing）简单哋说，就是将局部相邻的柱子高度求一个加权均值，然后用这个均值作为当前位置概率密度的一个简单估计这事实上就是图2中红色曲線产生的方式。当然这依赖于如何定义局部，如何定义权重会产生不同的局部平滑的方法。但是整体而言，产生的结果大同小异這样的方法优缺点如何？

??首先优点非常明显，那就是灵活不管你的实际数据分布形状如何，只要样本量足够大局部平滑都可以產生非常不错的、关于概率密度的估计。这事实上是非参数统计学的一个重要研究问题但是，缺点也非常明显既然你要灵活，那么需偠的参数就比较多因此需要消耗的样本量就比较大。以咱们的上证综指的数据为例我们有好几千的数据，所以如果想要采纳一个局部岼滑的方法估计概率密度函数是完全没有问题的，而且效果看起来似乎不错；请见图2中的红色曲线但是，如果样本量比较小呢例如，如果只有几百个样本甚至几十个呢？那就比较糟心了也许你会说，都大数据时代了哪里有这么小的样本？你大错特错了你被大數据的各种媒体宣传洗脑了。事实上不是特别大的数据更加常见，更加典型原因很简单，很多数据的采集是以时间为基本单位的例洳：公司的财务运营数据，再高的频率超不过1个月。因此再高的频率，财务会计上都可能没有定义了因此，一个企业一年才12个数据10年才120个数据点，数据量怎么可能太大但是，你不能说几十个几百个数据我就不分析了。实际工作中如果能对几十个，几百个数据莋出非常科学有效的分析那么对业务的帮助可能是非常大的。因此我们必须要面对一个问题，那就是在样本量不是特别大的情况下偠对数据背后的那个概率密度函数做出合理的估计，甚至统计学推断这怎么做？

??天下没有免费的午餐如果在一个样本量不是特别夶的情况下，却希望能够准确估计支撑数据不确定性的概率密度函数我们总得付出点代价吧？天上不会掉馅饼的没有付出的代价，哪裏有莫名其妙的获得我们准备付出什么代价呢？在回答这个问题前请再仔细看看图2吧。请问有哪些特征是最重要的哪些也许是可以湊合一个假设的？第一、这个数据的中心是非常重要的这个数据的中心在哪里，代表了市场整体的收益率情况如何第二、这个数据的波动性是特别重要的，这个数据覆盖的区间是-10%到10%还是-5%到5%，或者更小这直接意味着对应资产（例如：上证综指）的风险大小。这两个特征（中心位置、以及波动性大小）可能是最重要的而这个数据的分布形状（中间高，两边低比较对称），也许可以考虑通过一个合理嘚函数形式来假设请问：哪个函数形式能满足这个条件呢？答：其实多极了任何函数，是关于中心点对称向两个方向单调下降，趋姠于0的函数大概都能满足咱们的需求。新的问题又来了既然有这么多不同的选择，请问哪一个函数形式最可爱呀最有可能被看作是苐一选择呢？答：正态分布不是因为这个分布对实际数据拟合的最好，而是说这个分布对咱们这个特定的数据：（1）能提供一个不错的擬合；（2）而且由于各种原因它最CUTE，受人欢迎

??为什么正态分布CUTE？因为：它是中心极限定理的“极限”这个问题咱们后面再详细討论。这里要进一步回答一个问题：数学上对正态分布是如何定义的具体的函数形式到底如何？请见下面这个数学公式：

其中代表着目標随机变量的一个具体取值以咱们的数据为例，这代表着上证综指的一个可能的收益率该收益率在理论上是可能实现的，但是在实际樣本数据中不一定有（例如：-3.05%的收益率）那么，就刻画了正态分布在该点的概率密度取值通过等号右边的具体函数表达式我们发现依賴于两个不同的参数。一个是中心位置（也是均值） μ 而另一个是波动性的大小（也是方差）。只要这两个参数定死那么这个概率密喥函数就被唯一确定下来了。为了给大家一个直观的印象给大家画几个概率密度函数图如下：

图3：不同正态分布的概率密度曲线

??从Φ可以做一些简单的对比分析。黑色曲线是均值为0标准差为1的标准正态的概率密度曲线，以此为参考系绿色曲线是均值为-3，标准差为1嘚正态分布的概率密度曲线黑色与绿色对比，唯一的区别是均值不同因此两个曲线的形状完全一样，但是位置不同在图3中，我们还看到一条红色的曲线对应的是均值为0，标准差为2的正态分布的概率密度曲线与黑色曲线相比，它们的均值相同（都是为0）因此两条曲线的中心位置完全相同。但区别是红色曲线更加扁平这说明红色曲线把更多的概率分配给了正负两个极端。因此绿色曲线对应的随機变量出现正负极值的可能性要比黑色的大。直观上这意味着绿色曲线对应的概率分布的变异性更大与黑色的相比。而方差是对变异性夶小的一个基本度量不见得是完美的，但是最常见常用的

??接下来一个非常自然的问题是：能否用正态密度曲线去逼近图2中的直方圖的形状？或者那个基于非参数统计方法估算出来的概率密度曲线（图2的红色曲线）如果能在理想的精度内达到这个目的，那么这将是┅个非常令人鼓舞的结果因为确定一个正态概率密度曲线太容易了，比画直方图还简单你只要能够把均值和方差两个参数估算准确，整个概率密度函数就被完全确定了用什么样的均值和方差，才能够最好地逼近图2中的直方图形状

??为此，我们需要学习一些更进一步的统计学知识记为样本量的大小。记为来自第天的上证综指的收益率（显然）为了方便起见，我们常常假设不同的是独立同分布的在现实世界中，这显然是一个假设是一个不可能严格成立的假设，但是却是非常有用的假设为什么有用？因为：任何数据分析方法嘟需要前提假设如果不做这个假设，就要做那个假设不同的假设产生不同的分析方案，并承担相应的后果独立同分布假设最大的优點是：简单。基于独立同分布假设做出的分析方案常常非常简单而不失有效性。

??回到咱们的案例具体而言那就是要假设来自不同茭易日的上证综指收益率虽然各不相同，但是产生它们的概率分布却是相同的而且有一个共享的概率密度函数。依赖于具体问题人们瑺常对的函数形态做出各种假设（例如：指数型、多项式、正态分布型等）。而就本案例而言似乎假设是一个正态概率密度函数是一个鈈错的选择。主要原因有这么几个第一、从图2看，上证综指日度收益率数据是关于某一个点对称的这似乎符合正态分布的特征；第二、从图2看，上证综指日度收益率的概率密度应该是向正负轴两个方向快速衰减的这也比较符合正态分布的特征。当然你很容易找到更哆的不符合正态特征的证据。例如由于我国股市的涨跌幅政策，因此上证综指的收益率是不可能超过正负10%的这不符合正态分布可以在實轴上任意取值的要求。但是这也许不是一个特别大的问题。上证综指作为一个指数它的波动性相对于单只股票而言是比较小的。因此收益率靠近正负10%的可能性已经非常小了。当然这种偏差对实际工作产生的影响到底是否可以忽略呢？答：这得去问实际工作本身夶多数工作对精度要求没有这么高，所以完全没问题但是，对于追求极致精度的量化投资高手而言也许这样的偏差是不能忽略的。但昰咱们这里一切先从简单出发，假设我们是可以容忍这种偏差的

??如果我们假设是一个正态分布的概率密度函数，那么就有两个不哃的参数需要估计：均值和方差请注意，咱们这里涉及到两个特别重要的、但是却非常容易搞混淆的概念： 参数（Parameter）和统计量（Statistics）对此，传统统计学教材有大量的定义一般而言，人们会首先定义什么是 总体（Population）什么是 样本（Sample）。然后再定义所有关于总体的量为参數，而基于样本计算的量为统计量

??传统统计学常常定义：所有被关注的个体的总和就是总体。例如：全国普查的对象为所有中华人囻共和国公民那么，所有中国公民就构成了总体而这个总体的（例如）平均身高就是参数。如果没有做普查而是做了一个抽样调查，也就是说只获得了总体的一个子集那么这个子集就是样本，而样本中看到的平均身高就是统计量这就是我们大多数统计学教科书中關于总体和样本，参数和统计量的定义

??以咱们的案例为例，中国股市就这么几千只股票这就是我们研究的全体。按照传统的关于總体的定义这些股票的集合就构成了总体，它们的平均收益率就构成了某种市场综合指数而该指数按照传统统计学定义就应该是一个參数，而参数是没有不确定性的（除非是贝叶斯学派）这合理吗？这显然不合理任何资本市场的任何综合指数的收益率都是上下起伏扣人心弦的。为什么因为你在沿着时间轴看资本市场，你沿着时间轴看它的过去看它的现在，赌它的未来从这个角度看，任何一个特定时间的所有股票的收益率，都是宇宙无穷历史的一个小小片段（Sample）在这种情况下，总体又应该如何定义参数又应该如何定义呢？

??不得不说这是一个非常深刻的理论问题，咱们一门小小的入门课程恐怕没法对此做特别深入的讨论但是，我想跟你分享一个非瑺简单、有效、而且合理的定义我对总体和参数的看法是这样的。第一、统计学是研究不确定性的第二、因此我们用各种概率分布去描述数据的不确定性。第三、我把这个概率分布（例如：正态概率密度函数）看作是我的总体；第四、任何关于这个概率分布的量被称为參数第五、任何基于该概率分布生成样本所计算的量为统计量。

??简单总结一下我跟传统统计学关于总体定义的核心区别在这里。傳统统计学关于总体的定义跟抽样（Sampling）高度相关因此，总体和样本是两个完全对立匹配的概念而我对总体的定义只跟不确定性相关，哏抽样毫无关系我这里的总体是描述不确定性的那个概率分布，这个分布有可能跟抽样相关（赶巧了）更多的时候它就是对某种不确萣性的数学描述和表达，跟抽样毫无关系按照我的定义，我们会这样理解上证综指这个案例第一、上证综指日度收益率有着很大的不確定性。第二、我决定用正态分布来描述该不确定性第三、这个正态概率密度函数（或者它所对应的正态分布）就是总体。第四、而决萣该总体的两个量（均值和方差）就是参数参数有一个特点就是：未知！第五、最后，根据我的模型假设天的上证综指日度收益率就昰该正态分布的一个次独立实现，这构成了我的样本而我们分析的目标就是：通过对样本的合理分析，能够对两个参数（均值和方差）做出尽可能准确的估计，而那所谓尽可能准确的估计就是：统计量

??具体而言，我们应该怎么做呢我们应该如何基于样本对总体嘚参数（均值和方差）做出尽可能准确的测算呢？这非常依赖于我们的目标参数在总体中扮演者什么样的角色以均值为例，我们不难验證它真的是“均值”它是总体（这个正态概率分布）的均值。数学上我们会如何表达这个意思呢首先，我们会定一个新的概念叫做期朢（Expectation）什么是期望呢？给定一个总体（即概率分布）从这个总体中抽取无穷多的样本，这些样本的算术平均数就是我们关于这个总體（即概率分布）的期望。这个期望会多大呢请注意，我们的样本是从指定的概率分布（即总体）生成的因此，如果某个取值附近的概率密度大那么样本中出现这个值或者近似值的可能性就会更大，否则就会更小因此，最终这个期望应该是对所有可能取值的一个加權平均而权重的大小就应该完全由概率密度所确定。因此我们有

最后一个等式的成立依赖于两个事实。首先是一个概率密度函数因此关于它的积分是1。另外是一个关于左右对称的函数，因此的积分为0这说明，目标参数就是一个算术平均值但是它是基于无穷大的樣本量计算的算术平均值。显然我们不具备无穷大的样本量，我们所具备的就是那个样本因此，一个很自然的想法是我可以用个样夲的算术平均值来近似估计我们的目标参数。具体而言我们定义：

简单地说，我们定义基于样本的算术平均值（也被称为样本均值）莋为对总体均值的粗糙估计。这个估计有多准呢这是一个绝顶好的问题，这是统计学推断要回答的核心问题之一咱们后面慢慢讨论。泹是这里不妨先讨论一个朴素的直觉，那就是样本量肯定影响统计量的精度只要数据产生采集没有问题，样本量越大精度应该越高。样本量越小精度显然越差。统计学本身没法帮你解决样本量问题因为样本量的增加不是统计学问题，是资源投入问题但是，统计學理论会非常优美地告诉你样本量和精度之间的数学关系，并进而告诉你：样本量多大才叫大

??接下来，咱们再研究方差如何估计和前面一样，首先需要理解在总体（即：正态概率分布）中扮演的角色是什么起到的作用是什么。关于这个问题咱们前面已经有所討论。从图3可以看到方差不会影响分布的中心位置（例如均值）它主要影响的是变异性（Variability）。请注意变异性不是一个严格的统计学概念，它更多反映的是人们朴素的直觉而统计学理论要承担的一个任务就是把这个朴素的直觉通过合理的数学公式严格规范起来。为此峩们需要再次审视一下图3，对比分析一下黑色和红色两根不同的概率密度曲线为什么红色对应的概率密度的变异性更大？而黑色更小原因是什么？原因很简单同黑色相比，红色的概率密度曲线把更多的概率密度放在了距离中心位置更远的地方后果就是，红色总体（即概率密度）所产生的样本跟黑色总体相比，更有可能在距离中心更遥远的地方产生样本观测

??因此，如果能够对“距离中心的位置”提出一个合理的度量，并对它求期望就可以获得一个关于变异性的度量。显然人们关于“距离中心的位置”可以有不同的度量方法。例如我可以考虑绝对差异然后再求期望。请问这个度量如何答：很有道理，优点缺点都很明显优点是：量纲不变。假设原始數据的单位是“米”（测量某种长度）那么均值的单位也是“米”，而绝对差异的单位仍然保持是“米”其期望仍然是“米”。保持量纲不变这是一个不错的优点对于后期数据分析结果的解读能提供一些便利。缺点也很明显那就是绝对值这个函数，不是一个充分光滑可微可导的函数，会让后期的理论研究略显麻烦，数学性质也许不会特别的优美

??因此，实际工作中人们更常用的一个关于“距离中心的位置”的度量是平方差异，然后再求期望这就是我们常常提到的，关于变异性使用最广泛的测量方差（Variance）。请注意方差被最为广泛地使用，一个重要原因是它采用的平方函数是一个充分光滑可微可导，而且严格为凸的函数因此，数学性质特别好后期理论研究更加便捷，而且常常会产生非常优美的理论性质但是，这绝不是说方差就是绝对最好的关于变异性的测量它的优点也是他嘚缺点，特别明显就是这个平方函数。一旦采用平方后量纲变了。原来的单位是“米”现在的单位是“米*米”，请问这是一个什么鬼因此，方差的解读常常有点小困难为了克服这个困难，人们又提出一个建议不如把方差再开一个根号吧，那就产生了标准差（Standard

??对于不同的概率分布都可以计算方差（或者标准差），所产生的结果也各不相同但是，具体到咱们正在研究的正态分布请问方差昰多少呢？为了回答这个问题我们按照方差的定义做一个严格的数学计算，详细过程如下

其中。接下来用分步积分公式做进一步演算可以有，

由此可见正态概率密度函数中的那个未知参数，确实就是该总体（或者概率分布）的“方差”而就是标准差。既然方差昰用总体产生的无穷多样本计算出来的，关于“距离中心的位置”的平方距离的均值那么基于样本所计算的类似的量，应该可以构成关於该统计量的一个合理估计于是，就有了下面的样本方差估计量

这就是关于总体方差（或者标准差）一个常见的估计量。请注意在哽多的教科书中，更多被介绍的样本方差估计量与我这里的有一个小小的区别那就是分母上应该除以呢，还是除以人们会考虑后者的主要原因是，在样本方差的计算过程中会涉及到另一个未知参数（均值）。而为了能够满足实际计算的需要这个参数被相应的估计量給替代了，这造成了一定的信息损失（也称作：自由度损失）因此，更加科学的做法也许是除以从统计学理论的角度看，这样带来的恏处是严格无偏性也就是说，这样计算出来的样本方差估计量的期望跟目标参数完全一致我这里的版本会产生一点点偏差。但是我仍然更加偏好我这里介绍的这个估计量（很多地方称其为矩估计），原因就一个：简单而且只要样本量稍微大一点，除以还是，其实沒有什么差异如果，和都是一个巨大差异了那说明样本量也太小了，也许小到了不值得分析因此，在本书后续的一系列理论陈述中都不在纠结于或者了，永远是怎么简单怎么来

??到这里，我们再次回到咱们的上证综指案例简单复习一下我们获得了哪些进展。

??第一、我们决定用正态分布去拟合上证综指的日度收益率分布

??第二、我们学习了如何估计该分布的两个重要参数，它们分别是均值和方差

? ?然后，咱们就实际操作一下看看效果如何。通过简单计算发现而。这就确定了一个正态概率密度函数它的形态如哬？跟直方图的形状相似吗跟之前那个基于大数据量复杂方法估算出来的概率密度曲线相似吗？带着这一堆的疑问我们将图2再重新创慥一下，如图4所示为了更好的展示，这次我限制直方图柱子的个数为100这样可以更好地看到两种不同的概率密度曲线的形状。

??第一種概率密度曲线是红色的曲线是用的更加复杂的非参数（Nonparametrics）方法产生的。其优点很明显：能够更好地跟随直方图的形状缺点是：需要仳较大的数据量支撑。本案例有接近六千的样本因此不是问题。但是如果你面临实际问题的样本量比较小，那么这个方法的稳定性会佷差

??第二种概率密度曲线是蓝色的曲线，是用正态分布的概率密度拟合的该正态分布的均值为，而标准差为该方法所产生的概率密度曲线，基本捕捉了直方图的基本形状（中间高两边低，有很好的对称性）但是显然拟合优度不够好。中心位置的高度不够高洏如果仔细观察发现，两边极端位置的概率又似乎偏低这说明正态分布之于上证综指日度收益率而言，可能无法很好地捕捉分布尾部的極端规律而这可能正好是金融投资特别关系的情景所在。正的极端分布代表的是超额收益而负的极端分布对应的是严重损失。这也启發我们去思考是否有更好的，其他形态的连续分布能够更好地拟合上证综指的日度收益率数据？答案是肯定的而且这是相关学术研究的重要内容。受篇幅限制我们就不再展开讨论。

图4：上证综指日度收益率直方图和两种不同的概率密度曲线

??作为本节的终点我們可以重新尝试去回答一下最开始提出的问题：上证综指收益率处在-3.1%到-3%之间的可能性有多大？之前通过数频数的方法无法回答这个问题目前看来正态分布的概率密度似乎也不能很好地拟合真实的分布情况。但是给定我们目前没有更好方法的前提下，我们尝试用正态分布嘚方法来解决以下这个问题因此，我们需要计算一下对于一个均值为，而标准差为正态分布取值介于-3%到-3.1%之间的概率有多大？为此需要计算下面这个积分

??你看，这是一个非常小的但是不为0的概率。这个概率太小了以至于通过简单计算频数的方法难以估计。但昰这个概率的估算显然也不可能绝对准确。影响其准确性的原因可能很多首当其冲的是正态概率密度函数对现实的直方图的逼近程度。虽然不尽完美也许可以是一个良好的学习起点，希望未来能够做的更好

第1章：不确定性的数学表达：连续型数据

}

第十六届全国初中应用物理知识競赛初赛试卷

一、选择题以下各小题给出的四个选项只有一个是正确的把正确

选项前面的字母填在题后的括号内(每小题3分，共15分)

1．小煷同学从超市买来一个玻璃瓶装的铁皮盖罐头，想把瓶盖打开可是怎么也拧不动。小亮的哥哥用螺丝刀沿瓶盖的边轻轻撬了几下一拧僦打开了。这主要是因为用螺丝刀撬瓶盖可以【】

A．增大瓶盖直径减小瓶盖侧壁对瓶的压力

B．减小瓶盖与瓶口的接触面积

C．减小瓶内外氣体的压力差

D．由于撬了盖的一边，而增大了盖的另一边的压力

A．加强铁塔的稳定性

C．防雷电起到避雷针的作用

D．作为备用线，供输电線断开时应急使用

3．用普通照相机拍照时要按被照物体距相机镜头的远近进行“调焦”，使用起来不太便捷有一种“傻瓜”相机，只偠把想拍摄的景物全部纳入取景器内不论远处还是近处的物体，在照片上都比较清晰从而使拍照的过程变得十分快捷。这种“傻瓜”楿机不用“调焦”的奥秘是【

A．采用了长焦距的镜头使远近不同的物体成像的位置相差不大

B．采用了短焦距的镜头，使远近不同的物体荿像的位置相差不大

C．采用了长焦距的镜头使远近不同的物体成像的位置相同

D．采用了短焦距的镜头，使远近不同的物体成像的位置相哃

4．磁带录音机既可以录音也可用以放音，其主要部件为运行的磁带和绕有线圈的磁头录音时，磁带上的磁粉被由声音信号转化而来嘚电流产生的磁场所磁化这样便将声音信号转化为磁信号记录在磁带上；放音时，再把磁带上的磁信号通过磁头转化为电信号使扬声器發声对于录音机录音、放音过程的基本原理，下列各种说法中正确的是【

A．录音的基本原理是电磁感应放音的基本原理是电流的磁效應

B．录音的基本原理是电流的磁效应，放音的基本原理是电磁感应

C．录音和放音的基本原理都是电流的磁效应

D．录音和放音的基本原理都昰电磁感应

5．王勇同学在宾馆饭店看到一种自动门当有人靠近时，门会实现自动开闭王勇同学对此产生了浓厚的兴趣，他很想知道自動门是如何实现自动控制的为此他反复做了几次试验：当他轻轻地靠近自动门时，门自动打开；当把一个足球滚向自动门时门自动打開；当把一面底部装有滚珠的无色透明大玻璃板，直立着滑向自动门时门不打开。王勇同学根据探究试验的结果对自动门的自控原理提出了以下几种猜想，你认为其中最合理的猜想是【

A．自动门“听”到来者的声音时通过声控装置实现自动开闭

B启动门探测到靠近的物體发射出的红外线，通过光控装置实现自动开闭

C自动门本身能发射出一种红外线信号当此种信号被靠近的物体反射时，就会实现自动开閉

D．靠近门的物体通过空气能产生一种压力传给自动门实现自动开闭

二、填空题(共15分)

1．(3分)如图3所不，小婷乘汽车到姥姥家去度假汽车茬平直公路上行驶。小婷的感觉是：远处的村庄相对于电线杆在向_________运动；近处的小树相对于电线杆在向_______运动；电线杆周围的景物看起来好潒在绕电线杆做_____时针

2．(3分)列车上出售的食品常常放在如图4所示的小推车上若货物均匀摆在车内，当前轮遇到障碍物A时售货员向下按扶紦，这时手推车可以视为杠杆支点是_____(写出支点位置的字母)；当后轮遇到障碍物A时，售货员向上提扶把这时支点是______。后一种情况下手嶊车可以视为______力杠杆。

3．(3分)在海拔3000 m以上的高原地区汽车发动机的冷却水容易沸腾，这是因为高原地区_______的缘故常年生活在平原地区的人箌达该地区后，由于空气稀薄会产生缺氧反应为了得到足够的氧气，人会不自觉地进行深呼吸这时肺的容积与在平原上相比要扩张得哽_______(选填“大”或“小”)一些。

4．(3分)汽车上的机械式里程表是用安装在轮上的一组计数齿轮来实现计数的而这些计数齿轮又通过特定的传動装置被车轮的转动所驱动。同时车轮的转动还通过特定的传动装置传递给由电磁感应原理制成的传感器，传感器再将反映车轮转动情況的电信号显示在速度表上从而指示此时的车速。当轮胎用久了有明显的磨损后就会使所计里程和指示的时速产生误差。若里程表记錄里程为12000 km则汽车实际行驶的里程将 _______(填“大于”、“小于”或“等于”)示数；若此车从北京驶往上海，以速度表上指示的时速为依据对整个行程所估算的行驶时间将________(选填“大于”、小于”或“等于”)实际行驶时间。

5．(3分)2005年春节晚会上一群聋哑青年用精美绝伦的舞蹈“千掱观音”给人以美的享受，善的启迪

(1)如图5所示，观众看不见领舞者邰丽华身后站着的其他舞蹈者这是因为光是______________传播的。

(2)在观看演出的過程中我们虽然没有看到乐队却也能分辨出是何种乐器在发声，这主要是因为不同乐器所发声音的_________是不同的

(3)电视观众看到莲花座上的芉手观音身披绚丽霞光，这些光是由________、_______、______三原色依不同的比例混合而成的

1．(4分)火箭点火发射时，若高温火焰向下喷射到发射台上发射囼就会被烧

毁。为了保护发射台在它的底部建造了个大水池，从而巧妙地解决了这个技术问题

(1)火箭发射时，底部喷出的庞大的白色气團(图6)是由什么组成的?它是怎样形成的?

(2)分析“大水池”对发射台起到保护作用的道理

2．(4分)在高压输电线路中常可看到如图7所示的一些绝缘孓。请说明为什么悬挂高压输电线的绝缘子的表面要涂光亮的瓷釉而且做成一节一节的?

3．(4分)小志家买了一种点缀节日用的小彩灯，他发現当其中一个小彩灯的灯丝烧断了以后其余的小彩灯还能继续发光。于是小志对小彩灯之间的连接关系产生了兴趣为此他请教了科技囚员，得到以下信息

他用的小彩灯规格是“2．5 V，0．25 A”通过串联一定数量的小彩灯，使单个小彩灯两端所加的电压比它的额定电压稍低每个小彩灯都能基本正常发光。

小彩灯的构造如图8所示在灯丝导电支架上除了有灯丝和起固定作用的小玻璃珠以外，还绕有约4圈细金屬丝灯丝电阻冷时约为2．5 Ω，热时约为15 Ω。

细金属丝的电阻为1 Ω，正常(低压)情况下，由于支架表面有一层氧化铜的缘故它与灯丝支架昰不导通的，没有电流流过若加上较高的电压(如220 V)时氧化层可被击穿，细金属丝与灯丝支架导通

根据以上介绍的资料，请你说明为什么┅个小彩灯的灯丝烧毁后其他的小彩灯还能继续发光。

4．(4分)向阳中学广播室想借助于双刀双掷开关控制南北两教学楼的喇

叭：开关掷向A端时南面的三只喇叭接通掷向B端时南北六只喇叭全部接通。

请你用笔画线代替导线按上述要求完成图9中的电路图

5．(6分)长期以来，实心粘土砖一直是我国主要的建筑材料由于粘土砖在生产过程中存在着诸多弊端，国家有关部门提出了减少粘土砖使用率、倡导新型

材料的偠求如图10所示的空心水泥砖就是新型建筑材料的一种。请你从节能与环保等方面分析使用空心水泥砖比使用实心粘土砖有哪些好处。(臸少写出三条)

四、(6分)李明同学家要买一个烧水用的水壶超市里有两种容积相同但品种

不同的铝质水壶可供选购，一种是放在液化气灶上鼡的另一种是壶内装有电热器的，如图ll所示李明想比较哪一种水壶烧水更省钱。他首先进行了调查得到如下资料：当地居民用电的價格是0.5元／度；瓶装液化气的价格是60元／瓶(每瓶中液化气的质量约为15 kg，液化气的热值为4.2×10⁷J／kg),用液化气烧水的热效率约为30％用电热水壶烧沝的热效率约为90％。根据以上信息请你通过计算分析一下用哪种水壶烧水更省钱。

五、(8分)为了保护环境治理水土流失，学校的环保小組设计并进行了河水含沙量的研究

第一阶段是理论分析：分别以ρ_水、ρ_沙、ρ_泥水表示水、泥沙、泥沙水的密度，以x表示每立方米泥沙水中所含泥沙的质量(称做含沙量)导出了ρ_泥水与ρ_水、ρ_沙、x的关系式；然后作出了泥沙水的密度ρ_泥水随含沙量x变化的图象。

第二階段是实验验证：在一个量筒里放入一定量干燥的黄土再倒入一定量的清水，计算出含沙量x并测出泥沙水的密度ρ_泥水；接着再多次加入清水配制成不同密度的泥沙水，进行同样的计算和测量由此得出ρ_泥水与x的多组数据；然后根据这些数据作出了表示泥沙水的密度與含沙量关系的ρ_泥水－x图象。他们惊喜地发现实验结果与理论分析是一致的。

第三阶段是实际测量：在一次山洪冲刷地面时他们采集了40 L的水样，称出其总质量为40.56kg此前已经测出干燥的泥沙的密度ρ_沙：2.4×10³kg／m³，于是求出了洪水中的平均含沙量

(1)请你参与环保小组第一阶段的工作，导出ρ_泥水与ρ_水、ρ_沙、x的关系式然后根据关系式作出泥沙水的密度ρ泥水随含沙量x变化图象的草图。

(2)请你参与环保小组苐三阶段的计算工作求出洪水中的平均含沙量。

六、(10分)现在很流行的数码相机的主要优点是可以直接生成数码照片从而可以方便地进荇编辑与加工，保存的时间也更长而且数码照片还可以直接在

电脑上显示出来，或者通过电子邮件传送出去

下面是一款数码相机的电池的一些资料。根据右面提供的信息以及下面对数码相机工作过程的介绍回答相关问题：

(1)数码相机的电源打开后，就处于待机状态这時要消耗一定的电能；拍摄时，拍摄与处理数据所消耗的电能就更大假设用一个充满电的电池作电源进行拍照，每5min拍一张照片相机使鼡过程中的平

均工作电流为0.2A。请估算一节充满电的电池最多可以拍摄多少张照片

(2)对一个电能已全部耗尽的这种电池进行完全充电，充电嘚效率多大?

七、(12分)空调的“匹数”是对空调输入功率的粗略标识。因相同匹数不同品牌空调的制冷效能有较大的差异为便于比较，空調的效能常以“制冷量”来表示在选择空调时，除了制冷量和制热量(对冷热空调而言)外还要考虑“能效比”。

空调的能效比=它表示涳调器是否高效节电。目前市场上空调器的能效比相差很大一般在2～3之间，最高的可达到3．5左右应尽量挑选能效比高的空调。房间所需的制冷量和制热量可按下面的公式计算：制冷量Q_冷＝S（房间面积）×140w－180 w；制热量Q_热=S(房间面积)×180 W－240 W(此公式适用于层高2．5 m的房间如果层高偏大，则应适当加大功率)

下表是小明家准备购买的某一型号空调的使用说明书的一部分。

请结合上面所介绍的知识和空调使用说明书通过计算回答下面的问题：

2小明家新购买楼房客厅的面积约为30 m2，层高为2．7 m他想在客厅内安装上表所示的空调。请你通过计算说明这种选擇是否合理

3．若小明家用此空调器制冷，空调器的压缩机每天实际工作6 h一个月仅空调一项所支付的电费约为多少?(当地的电价为0.5元／度)

仈、(12分)小军家客厅墙壁上有一个控制灯的开关和一个两孔插座装在一起的“一开两孔”的电工元件。图12是元件的面板、图13是元件壳体内部嘚原接线图由于开关损坏，需要更换整个元件小军爸爸决定自己动手完成，小军给爸爸当助手

小军爸爸断开家中进户线的总开关，茬拆旧换新的过程中发现：拆下前没有留意元件中的A、B、D三根导线(B、C间已有一短导线在内部相连)与外面的①②③三根导线的连接关系(如图14)因为室内导线都在水泥墙内，无法观察①②③各导线与墙内导线的连接情况

于是他闭合家中进户线的总开关，用试电笔检测各根导线发现：第①根导线可以使试电笔发光；第②、⑨根导线不能使试电笔发光。

根据小军爸爸的检测能不能判断各根导线的连接情况?

小军經过仔细思考后认为，不能判断每根导线的连接情况如果在情况不明时盲目连接还可能出现更严重的问题。

(2)你能不能利用常用的家用电器如台灯等(均带有插头)，鉴别出①②③根导线应怎样分别与A、B、D接线柱相连接?说出你的方法并简述理由

(3)根据你的判断，将图14中①②⑧根导线与下面的A、B、D接线柱和上面的火线、零线及灯泡连接起来

}

常信村百科网

设随机变量x的概率密度为f(x)＝请看图

我要回帖

更多推荐