集中趋势测量法是用什么来代表一个随机变量的数字特征分布特征

四、单变量的描述统计离散趋势分析和集中趋势分析四、单变
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
四、单变量的描述统计离散趋势分析和集中趋势分析
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='/DocinViewer-4.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口31社会统计学讲义-第3页
上亿文档资料,等你来发现
31社会统计学讲义-3
离均差x?x→离均差之和??x?x?→离均差绝对;2/;?频次分布;S?;?分组资料;S?;(二)变异系数/离散系数;1、使用离散系数的原因;2、CV;四、小结;异众比率最适合于分析定类变项,也可分析定序、定距;标准差(或方差)只能用来分析定距变项;离散趋势测量法和集中趋势测量法是有互补作用的;第四章简化两个变量的分布;教学目的和要求:通过本章的学习使学生能
离均差x?x→离均差之和??x?x?→离均差绝对值之和?x?x→??x?x?2→S2???x?xn?2/S??频次分布S??分组资料S??(二)变异系数/离散系数1、使用离散系数的原因2、CV四、小结异众比率最适合于分析定类变项,也可分析定序、定距变项。它仅考虑频次 极差、四分位差(十分位差)最适合用来分析定序变项,也可分析定距变项。极差仅仅考虑了变量的两个极端值,而四分位差考虑了变量的次序或大小。标准差(或方差)只能用来分析定距变项。由于它们的计算涉及每一个变量值,所以它们反映的信息在离散值中是最全面、最可靠的变异描述指标。方差还具有可加性,能够参与进一步的统计运算。不过,也正是由于标准差和方差的计算涉及每一个变量值,所以,它们也会受到极端值的影响,当数据中有较明显的极端值时不宜使用。另外,它们在计算中实际都使用了均值,因此实际上只有均值能反映集中趋势时才能使用方差和标准差来反映离散趋势。因此,实际上方差和标准差的适用范围应当是正态分布。还有一点要说明的是,比较均值,不一定要看离散趋势,但比较标准差时,一定要看均值的情况。变异系数的计算涉及均值和标准差,因此,它也只能用于分析定距变量。它实际是对标准差的修正。离散趋势测量法和集中趋势测量法是有互补作用的。二法并用,就可以一方面知道资料的代表值,有利于估计或预测工作,另一方面可以知道资料的差异情况,反映估计或预测时会犯的错误。 ?Sx第四章
简化两个变量的分布教学目的和要求:通过本章的学习使学生能够对相关及其性质有初步认识,学会制作与分析列联表,明确选择相关测量法的标准。教学重点和难点: 重点是列联表、PRE意义,难点是相关关系与因果关系。 教学方法:课堂讲授,辅之以实例讲解教学内容: 第一节
统计相关的性质一、什么是相关?相关,是指一个变量的值与另一个变量的值有连带性。具体来说,如果一个变量的值发生变化,另一个变量的值也有变化。二、相关的强度和方向1、相关强度相关系数――表示变量间的相关程度的量的指标。相关系数的特征:(1)不具有实际数学运算意义,只能表示相关程度更强。(2)统计相关:相关系数是统计得来的,它只能说明两种现象间可能存在一定的关联度,不一定具有实际意义,即实际上可能并不存在,这也就是我们讲的统计相关。(3)取值范围:[-1,1]相关系数的正负号表明了相关的方向。其绝对值则表明了相关的程度。一般0表示无相关,1代表全相关(-1是完全负相关,1则是完全正相关)。绝对值越大,说明两变量之间的相关程度越强。2、相关方向正相关:一个变量的值增加时,另一个变量的值也随着增加。收入水平-消费水平负相关:一个变量的值增大时,另一个变量的值却减小。教育水平-理想子女数目需要大家注意的是,相关方向的分析只限于定序以上层次的变量。三、相关关系的类型(按变量变化的表现形式)直线相关、曲线相关直线相关:当变量X发生变动时,变量Y的值也发生大致均等的变动。 散点图――适用于定距以上层次的变量,它是以直角坐标的横轴表示变量X的取值变化范围,纵轴表示变量Y的取值变化范围。根据每一个个案在变量X和变量Y上的值来确定坐标图中的每一个点。直线相关表现在直角坐标系中,X、Y值所对应的点分布狭长,成直线趋势。曲线相关表现在直角坐标系中,X、Y值所对应的点分布分散,呈曲线趋势。四、因果关系1、定义:当其中一个变量变化时(取不同的值时)会引起或导致另一个变量也随之发生变化(取值也不同),但反之不成立,当后一变量变化时,不会引起前一变量的变化。自变量X→因变量Y自变量――变化发生在前面,并且能引起另一变量发生变化的那个变量 因变量――变化发生在后面并且这种变化是前边变量的变化所引起的那个变量对称关系、不对称关系2、判断条件相关关系可能包含着因果关系,但并非所有存在着相关关系的变量之间,都一定存在因果关系(相关的两个变量可能仅仅是共同变化),而因果关系必然是相关关系。因果关系的判断条件:① 变量X与变量Y之间存在着不对称的相关关系。②变量X与变量Y在发生的顺序上有先后之别。先有自变量的变化,后有因变量的变化。如果两个变量的变化同时发生,分不出先后,则不能成为因果关系。③变量X与变量Y的关系不是同源于第三个变量的影响。即变量X与变量Y之间的关系不是某种虚假或表面的关系。第二节
交互分类与百分表一、定义交互分类,就是同时依据两个变量的值,将所研究的个案分类。交互分类的结果通常以交互分类表(又称列联表)的形式反映出来。列联表适用于对两个定类变量(或一个定类、一个定序变量)的分析。 边缘次数、条件次数(在自变量的每个值(条件)的情况下依变量的各个值的个案数目。)二、列联表制作准则1.每个表的顶端要有表号和标题。2.绘表时所用的线条,要尽可能简洁。3.百分号的简便处理。4.列出边缘次数。5.表内百分率数值的小数位要保留多少,取决于研究的需要,但前后要保持一致性。6.如何安排交互分类的两个变量。自变量放在表的上层,将因变量放在表的左侧。表的大小=横行数目(r)*纵列数目(c)。7.交互分类中两个变量的变量值应有所限制,不宜太多。三、百分率的计算一般的原则是:根据自变量的方向。如果依变量在样本内的分布不能代表它在总体内的分布,则百分率的计算要依据依变量的方向。第三节
简化相关与消减误差相关测量法――以一个统计值表示变量与变量之间的关系。一、相关测量法的选择标准1.测量层次定类-定类;定序-定序;定距-定距;定类-定序;定类-定距;定序-定距。2.对称关系3.统计值的意义,一般选用具有PRE意义的测量法。二、消减误差比例PREPRE=(E1-E2)/ E1E1――不知道X值时,预测Y值时所产生的全部误差E2――依据X值预测Y值时所产生的全部误差E1―E2――依据X值预测Y值时所减少的误差PRE的数值越大,就表示以X值预测Y值时能够减少的误差所占的比例越大,也就是说,X与Y的关系越强。PRE=1,X与Y是全相关;PRE=0, X与Y之间无相关。PRE数值的意义,就是表示用一个现象(如变量X)来解释另一个现象(如变量Y)时能够减除百分之几的错误。三、2*2表――υ(佛爱)系数和Q系数1. υ系数(佛爱)???ad=bc时,υ=0,两个变量相互独立。a=d=0(或b=c=0),与 b*c的差异越大,就表示相关程度越强。2.Q系数Q?ad?bcad?bc
a\b\c\d中有一个为0,则Q?1 ??1。如果a*d包含各类专业文献、外语学习资料、中学教育、应用写作文书、专业论文、31社会统计学讲义等内容。 
 社会统计学讲义(卢淑华) 第一章社会学研究与统计分析 一、社会调查资料的特点(随时掌握) 随机性、统计规律性; 二、统计学的作用:为社会研究提供数据分析和推论的...  社会统计学简答题与计算... 4页 免费 卢淑华社会统计学讲义_1 10页 免费 社会...《社会统计学》复习资料 社会统计学》一、概念辨析(3×8' ) 1.参数估计与...  卢淑华 《社会统计学》讲义_其它_高等教育_教育专区。社会统计学讲义第一章 导论 一、社会统计学 1、社会统计学是运用统计的一般原理,对社会各种静态结构与动态趋势...  2014 年春社会统计学期末复习训练一、单项选择题 (20=2×10) 1.为了解 IT 行业从业者收入水平, 某研究机构从全市 IT 行业从业者随机抽取 800 人作为样 本...  社会统计学 复习资料_哲学_高等教育_教育专区。社会统计学第一章 导论 一.社会统计学的产生与发展 1.国势学派: (又称记录学派或历史学派)对国家显著事迹的记录...  卢淑华社会统计学讲义_1 10页 免费 社会统计学复习题 13页 免费 北大社会学考研...区间估计与假设检验的统计处理时相通的,实际上假设检验的接受 域也正是区间估计...  统计学讲义_经济学_高等教育_教育专区。统计学基本内容讲解第二节 统计学的理论...第五节 统计指标与统计指标体系一、统计指标统计指标是社会经济统计活动和社会...  NETM(MA/MS) Materials for Social Statistics 《社会统计学》复习材料 社会统计...卢淑华社会统计学讲义_1 10页 免费 社会统计学复习资料 8页 2下载券 社会统计...  社会统计学公式总结_社会学_人文社科_专业资料。关于社会学统计的公式今日...卢淑华社会统计学讲义_1 10页 免费 《社会统计学》样题附答... 6页 免费 社会...基础统计-第4章-数据分布特征的测度_中华文本库
第1页/共1页
文本预览:
第四章 数据分布特征的测度 第一节 集中趋势的测度 第二节 离散程度的测度 第三节 偏态与峰度的测度
第1页/共1页
寻找更多 ""社会统计学第二章第二三节_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
文档贡献者
评价文档:
社会统计学第二章第二三节
把文档贴到Blog、BBS或个人站等:
普通尺寸(450*500pix)
较大尺寸(630*500pix)
大小:1.67MB
登录百度文库,专享文档复制特权,财富值每天免费拿!
你可能喜欢第二节 集中趋势测量法集中趋势是指一组数据向某一中心值靠拢的 集中趋势是指一组数据向某一中心值靠拢的 倾向, 倾向,测度集中趋势就是寻找数据一般水平的 代表值或中心值。 代表值或中心值。 一、平均值(Mean) 平均值( ) 平均值就是一组数据的平均值 就是一组数据的平均值(average 平均值就是一组数据的平均值 value),用来测度中心
位置 ,用来测度中心位置(central location)。 。 1.简单算术平均数 简单算术平均数 n 对样本: 对样本: ∑ xix1 + x 2 + L + x n = x = nX1i =1nn其中n为样本数 其中 为样本数 对总体: 对总体:X = + X2 + L + X N n=∑X Ni =1i其中N为总体单位数 其中 为总体单位数 例1.(美国)一个关于大学生毕业后工作起薪的问 (美国) 卷调查数据Table 1, Monthly Starting Salaries for a Sample of 12 College Graduates Graduates Monthly Graduates Monthly Graduates Monthly Salary($) Salary($) Salary($) 1 5 9 0 6 2 3 0 11 0 8 0X 1 + X 2 + L + X n 2350 + 2450 + L + 2380 X = = = 2440 n 12 2.加权算术平均数 加权算术平均数X 1 F1 + X 2 F 2 + L + X X = F1 + F 2 + L F kkFk=∑ X i Fii=1k∑ Fii=1k其中Fi为权数 加权算术平均往往适用于对分组后的数据求均值,这时 加权算术平均往往适用于对分组后的数据求均值,这时Xi 往往适用于对分组后的数据求均值 为各组变量代表值(往往取组中值),F 组中值), 为各组变量代表值(往往取组中值),Fi 为各组变量值出现 的频数。 的频数。 组中值=(上限+下限 下限) 组中值 (上限 下限)/2 某班级英语考试成绩分组情况见下表: 例2.某班级英语考试成绩分组情况见下表: 某班级英语考试成绩分组情况见下表成绩分组 人数 (分) 50以下 2 以下 50~60 5 60~70 10 累计人数 2 7 17 成绩分组 (分) 70~80 80~90 90以上 以上 人数 18 9 6 累计人数 35 44 50X1F1 + X 2 F2 +L+ X k Fk 45* 2 + 55*5 +L+ 95*6 X= = F1 + F2 +L+ Fk 50 = 75.2 算术平均数具有如下性质: 算术平均数具有如下性质: 具有如下性质 (1)各变量值与其算术平均数的离差和为零: )各变量值与其算术平均数的离差和为零:∑ (XN i =1i? X)=0(2)各变量值与其算术平均数的离差平方和最小: )各变量值与其算术平均数的离差平方和最小:∑ (XN i =1i? X)2= min▲注意: 注意: 均值容易受到统计数据中个别极端数据的影响, 均值容易受到统计数据中个别极端数据的影响, 从而使均值代表某组统计数据的“平均水平” 从而使均值代表某组统计数据的“平均水平”时失 去意义,这时往往用“剔除极端值” 去意义,这时往往用“剔除极端值”的方法加以修 正。 的最高值用10000代替, 代替, 如例1中,如果将月薪 中 如果将月薪2825的最高值用 的最高值用 代替 则均值为3038 则均值为 二、中位数(Median) 中位数中位数是一组数据按大小排序后,处于中间位置 中位数是一组数据按大小排序后,处于中间位置 上的变量值。 上的变量值。 1. 对于未分组数据: 对于未分组数据: 数据个数为奇数, (1)如果数据个数为奇数,则中位数恰为处于中 )如果数据个数为奇数 间位置的数: 间位置的数:M e = X ? N +1 ?? ? 2 ? ?数据个数为偶数, (2)如果数据个数为偶数,则为中间位置两个数 )如果数据个数为偶数 的平均数 ? 1? ? ? M e = ?X? N ? + X? N ?? ? +1 ? ? 2? ?2? ? 2 ?? ? ? ? 美国大学毕业生起薪例中:按升序排出的12 12个 美国大学毕业生起薪例中:按升序排出的12个 统计数为: 统计数为: 50 90 50 25 则中位数为M e = (2390 + 2420) 2 = 2405 ▲注意: 注意: 由于均值容易受到统计数据中个别极端数据 的影响,从而使均值代表某组统计数据的“ 的影响,从而使均值代表某组统计数据的“平 均水平”时失去意义, 均水平”时失去意义,这时用中位数代替均值 则更有意义。 则更有意义。 如,在大学生毕业工作起薪的例中,如果原 在大学生毕业工作起薪的例中, 统计数中最高薪金由2825换为 换为10000,则得到 统计数中最高薪金由 换为 , 平均薪金为3038的结论,显然与其他 位均在 的结论, 平均薪金为 的结论 显然与其他11位均在 2000多的薪水水平不符,但这时若用中位数 多的薪水水平不符, 多的薪水水平不符 2405,显然更具代表意义。 ,显然更具代表意义。 2.对于分组后的数据: 对于分组后的数据: 对于分组后的数据首先需确定中位数所在的组,然后可根据下列公式计算中位数: 首先需确定中位数所在的组,然后可根据下列公式计算中位数: 需确定中位数所在的组 下限公式: 下限公式: ∑fMe= L+2? S m ?1上限公式: 上限公式:fmm+1×dMe = U ? 2∑f ?Sfm×d式中: 为中位数所在的组 为中位数所在的组, 为该组组距 为该组组距, 式中:m为中位数所在的组,d为该组组距, L、U分别为该组的下限值与上限值, 分别为该组的下限值与上限值, 、 分别为该组的下限值与上限值 fm为该组的频数, 为该组的频数, Sm-1 为该组以下各组的频数总和, 为该组以下各组的频数总和, Sm+1为该组以上各组的频数总和, 为该组以上各组的频数总和, 显然S m ?1 + f m + S m +1 = ∑ f 某班级英语考试成绩分组情况见下表: 例4.某班级英语考试成绩分组情况见下表: 某班级英语考试成绩分组情况见下表成绩分组 人数 (分) 50以下 2 以下 50~60 5 60~70 10 累计人数 2 7 17 成绩分组 (分) 70~80 80~90 90以上 以上 人数 18 9 6 累计人数 35 44 50从成绩由低往高排,中位数所在组应在第 组 的组, 从成绩由低往高排,中位数所在组应在第4组,即70~80的组, 的组 由于L=70,U=80,d=10,而 由于 , , , Sm-1=2+5+10=17, Sm+1=9+6=15, fm=18,故 , , ,50 2 ? 17 × 10 = 74.4 M e = 70 + 18或M e = 80 ?50 2 ? 15 × 10 = 74.4 18 三、众数(Mode) 众数众数是一组数据中出现次数最多的变量值。 众数是一组数据中出现次数最多的变量值。 是一组数据中出现次数最多的变量值? 在大学毕业生工作起薪的例中,众数为 在大学毕业生工作起薪的例中,众数为2380。 。 ? 在分组数据中,众数可按下式计算: 在分组数据中,众数可按下式计算: f m ? f m?1 下限公式: M o = L + 下限公式: ×d( f m ? f m?1 ) + ( f m ? f m+1 )上限公式: 上限公式:Mo = U ?f m ? f m+1 ×d ( f m ? f m?1 ) + ( f m ? f m+1 )式中: 为某数值出现次数(频数)最多的组( 式中: fm为某数值出现次数(频数)最多的组(第m组)的频数, 组 的频数, fm-1与fm+1分别为第 分别为第m-1组与 组与m+1组的频数, 组的频数, 组与 组的频数 L、U分别为第 组的下限与上限值, 分别为第m组的下限与上限值 、 分别为第 组的下限与上限值, d为该组组距。 为该组组距。 为该组组距 ?在学生英语考试成绩例中,次数最多的组也在70~80组中, 在学生英语考试成绩例中,次数最多的组也在 组中, 在学生英语考试成绩例中 组中 则有 fm=18, fm-1=10, fm+1=9, , , ,M o = 70 + 18 ? 10 × 10 = 74.7 (18 ? 10) + (18 ? 9)或18 ? 9 M o = 80 ? × 10 = 74.7 (18 ? 10) + (18 ? 9) ▲注意: 注意: 1.如果某组统计数据中没有哪个数值出现较多的频率(次 如果某组统计数据中没有哪个数值出现较多的频率( 如果某组统计数据中没有哪个数值出现较多的频率 ),则可认为该组数无众数; 则可认为该组数无众数 数),则可认为该组数无众数;如果有多个数据出现的次数 频率)较多,则认为有多个众数 有多个众数。 (频率)较多,则认为有多个众数。 在有多个众数的情况下,则对众数的关注度下降, 在有多个众数的情况下,则对众数的关注度下降,因为多 众数对描述数据位置无多大帮助。 众数对描述数据位置无多大帮助。 2.对描述品质数据的分布特征的“位置”测度只能用众数。 对描述品质数据的分布特征的“ 对描述品质数据的分布特征的 位置”测度只能用众数。 例如在前面购买五类不同品牌 例如在前面购买五类不同品牌 计算机的统计中, 计算机的统计中,曾得到如右表所示 的频数分布表。 的频数分布表。 显然,众数, 显然,众数,即个人购买最多的机 算机品牌是Apple。在这类数据中, 算机品牌是 。在这类数据中, “均值”与“中位数”是没有任何意 均值” 中位数” 义的。 众数” 义的。“众数”提供了频数最高的个 人电脑购买品牌。 人电脑购买品牌。 Company Frequency Apple 13 Compaq 12 Gateway2000 5 IBM 9 Packard Bell 11 四、中位数、众数与算术平均数的关系 中位数、 1.如果数据具有单一众数,且分布是对称的,则众数Mo、 如果数据具有单一众数,且分布是对称的,则众数 如果数据具有单一众数 中位数M 相等, 中位数 e 与均值 X 相等,即 M o = M e = X ; 2.对于非对称分布, 对于非对称分布, 对于非对称分布 当分布左偏时(说明存在极端小的值) 当分布左偏时(说明存在极端小的值)X & Me & Mo当分布右偏时(说明存在极端大的值) 当分布右偏时(说明存在极端大的值)X & Me & Mo3.在偏斜度适度的情况下,不论是左偏还是右偏,中位数与 在偏斜度适度的情况下,不论是左偏还是右偏, 在偏斜度适度的情况下 算术平均数之差约等于众数与算术平均数之差的1/3, 算术平均数之差约等于众数与算术平均数之差的 ,即有如 下经验公式: 下经验公式: 1 M e ? X = (M O ? X ) 3 众数、 众数、中位数和均值的应用场合 ? 众数、中位数和均值都是对数据集中趋势的测度, 1.均值由全部数据计算,包含了全部数据的信息,具有良好 由全部数据计算, 由全部数据计算 包含了全部数据的信息, 的数学性质,当数据接近对称分布时,具有较好的代表性; 的数学性质,当数据接近对称分布时,具有较好的代表性; 但对于偏态分布,其代表性较差。 但对于偏态分布,其代表性较差。 2.中位数是一组数据中间位置上的代表值,不受数据极端值 是一组数据中间位置上的代表值, 是一组数据中间位置上的代表值 的影响,对于偏态分布的数据,其代表性要比均值好。 的影响,对于偏态分布的数据,其代表性要比均值好。 3.众数是一组数据分布的峰值,是一种位置的代表,当数据 是一组数据分布的峰值, 是一组数据分布的峰值 是一种位置的代表, 的分布具有明显的集中趋势时,尤其对于偏态分布, 的分布具有明显的集中趋势时,尤其对于偏态分布,众数的 代表性比均值好。 代表性比均值好。 4.对接近正态的分布数据,常用 对接近正态的分布数据, 描述数据的集中趋势; 对接近正态的分布数据 常用均值描述数据的集中趋势; 描述数据的集中趋势 描述数据的集中趋势。 对偏态分布,常用众数或中位数描述数据的集中趋势。 或 描述数据的集中趋势 对偏态分布,常用 5.均值只适用于定距或定比尺度的数据;定序尺度数据可用 只适用于定距或定比尺度的数据; 只适用于定距或定比尺度的数据 中位数或众数进行描述,而对定类尺度数据,只能用 进行描述, 或 进行描述 而对定类尺度数据,只能用众数进 进 行描述。 行描述。 变量类型与集中趋势测度值变量类型和所适用的集中趋势测度值变量类型 适 用 的 测 度 值 定类变量 众数 ― ― 定序变量 中位数 众数 ― 定距变量 均值 众数 中位数 定比变量 均值 众数 中位数 分布的形状与 众数、 众数、中位数和均值的关系均值 中位数 众数 均值 = 中位数 = 众数 众数 中位数 均值左偏分布对称分布右偏分布高层次变量可以用低层次变量的测量方法 但统计分析中,更多的是用均值 统计分析中, 统计分析中 更多的是用均值。 对于偏态的分布,应使用中位值作为集中趋势。 只有单峰和基本对称的图形,用均值作为集中趋势才是合 理的。 第三节 离散趋势测量法对数据分布特征的另一个测度指标是数据分布离散程度。 对数据分布特征的另一个测度指标是数据分布离散程度。 数据分布离散程度 它反映各数据远离其中心值的程度,因此,也称离中趋势。 离中趋势 它反映各数据远离其中心值的程度,因此,也称离中趋势。 集中趋势反映的是各变量值向其中心值聚集的程度, 集中趋势反映的是各变量值向其中心值聚集的程度, 反映的是各变量值向其中心值聚集的程度 离中趋势反映各变量值之间的差异状况。 离中趋势反映各变量值之间的差异状况。 反映各变量值之间的差异状况 注意: 注意: 集中趋势的测度值概括地反映了数据的一般水平, 集中趋势的测度值概括地反映了数据的一般水平,它对该 的测度值概括地反映了数据的一般水平 组数据的代表程度,取决于该组数据的离散水平 离散水平。 组数据的代表程度,取决于该组数据的离散水平。 数据的离散程度越大, 数据的离散程度越大,集中趋势的测度值对该组数据的代 表性就越差。 表性就越差。 例:如果你是一家制造业公司的供应部门经理,与两家原材料供应商 :如果你是一家制造业公司的供应部门经理, 联系供货, 联系供货,两家供应商均表示能在大约10个工作日内供齐所需原材 料。几个月的运转之后,你发现尽管两家供货商供货的平均时间都 。几个月的运转之后, 是大约10天 是大约 天,但他们供货所需天数的分布情况却是不同的(图)。 ( 两家供货商按时供货的可信度相同吗? 问:两家供货商按时供货的可信度相同吗?考虑它们直方图的差异,你 两家供货商按时供货的可信度相同吗 考虑它们直方图的差异, 更愿意选择哪家供货商供货呢? 更愿意选择哪家供货商供货呢?相对频数 5 4 3 2 1 1 1 1 1 1 A 供货商 相对频数 B 供货商91011天78910111213 1415天 A 50
平均 工资 商店 1780 B 00
平均 工资 商店 1780 一、极差(Range) 极差 极差是最简单的测度离中趋势(分散程度) 极差是最简单的测度离中趋势(分散程度)的指 是最简单的测度离中趋势 也称全距 全距, 一组数据最大值与最小值之差: 标,也称全距,是一组数据最大值与最小值之差: R=最大值 C最小值 最大值 最小值 对于组距分组数据,极差可近似地表示为: 对于组距分组数据,极差可近似地表示为: R=最高组上限 - 最低组下限 最高组上限 ▲注意: 注意: 1.极差易受极端值的影响; 极差易受极端值的影响; 极差易受极端值的影响 2.由于极差只利用了数据两端的信息,没有反映 由于极差只利用了数据两端的信息, 由于极差只利用了数据两端的信息 中间数据的分散状况, 中间数据的分散状况,因而不能准确描述数据的分 散程度。 散程度。 二、方差(Variance) 方差 ) 方差是各变量值与其均值离差 方差是各变量值与其均值离差(deviation about 是各变量值与其均值离差 the mean)平方的平均数。 平方的平均数。 平方的平均数 总体方差(Population Variance) (一)总体方差 总体方差用 总体方差用σ2表示其中: 为第i组数据的频数 其中:Fi为第 组数据的频数 Xi为第i个数(未分组)或第i 组组中值(分组) 为第 个数(未分组)或第 组组中值(分组) 个数 (二)样本方差(Sample Variance) 样本方差 样本方差用S 样本方差用 2表示其中: 为第i组数据的频数 其中:fi为第 组数据的频数 xi为第 个数(未分组)或第 组组中值(分组) 为第i个数 未分组)或第i 组组中值(分组) 个数( A 商 店 B 商 店平均 工资 1780 平均 工资 1780极差 300 极差 1350方差 10600 方差 264600标准差 102.96 标准差 514.39 个班级平均人数的例中, 例:在上述5个班级平均人数的例中, 在上述 个班级平均人数的例中若视5个班为总体, 若视 个班为总体,则 个班为总体σ2∑(X =i? X)Ni256 = = 51.2 5若视5个班为样本, 若视 个班为样本,则 个班为样本S2∑ ( x ? x ) = 256 = 64 =n ?1 5 ?1 对于分组后的数据若视为总体: 若视为总体: σ =2( X i ? X ) 2 Fi ∑∑Fii256 = = 51.2 5若视为样本: 若视为样本: S 2 =( xi ? x ) 2 f i ∑∑f?1256 = = 64 4 三、标准差(Standard Deviation) 标准差标准差:方差的平方根( 标准差:方差的平方根(正) 总体标准差: 总体标准差:σ = σ2均值样本标准差: 样本标准差:S = S2在五个班级规模的例中: 在五个班级规模的例中: 若视5个班为总体,则标准差为 若视 个班为总体,则标准差为7.15, 个班为总体 , 若视5个班为样本,则标准差为 。 若视 个班为样本,则标准差为8。 个班为样本 ▲注意: 注意:1.由于方差计算中使用了平方运算,因此方差 由于方差计算中使用了平方运算, 由于方差计算中使用了平方运算 的单位也是平方, 的单位也是平方,如上述班级规模例中方差为 64(学生 2,其具体意义不明确。因此方差只有在 学生) 具体意义不明确。因此方差只有在 学生 比较不同组数据的离散程度时才有数量大小上的 意义。 意义。 2.标准差是对方差的开方运算,因此,其单 标准差是对方差的开方运算,因此, 标准差是对方差的开方运算 位与原始数据的单位一致, 位与原始数据的单位一致,它与均值及其他用同 一单位测度的数据相比较也容易一些。 一单位测度的数据相比较也容易一些。 (标准差就是指数据“离散程度的测度值”距 标准差就是指数据“离散程度的测度值” 均值”的距离)。 “均值”的距离)。 ? 重复 次测量一种物体的长度,得到数据 重复3次测量一种物体的长度, 次测量一种物体的长度 如下: 如下: ? 单位:m 1.1, 1.2, 1.3; 单位: ? 平均长度1.2,标准差0.08165 平均长度 ,标准差 ? 单位:cm 110, 120, 130; 单位: ? 平均长度120,标准差 平均长度 ,标准差8.165 四、离散系数(Coefficient of Variation) 离散系数离散系数:一组数据标准差与其均值的比, 离散系数:一组数据标准差与其均值的比,也称 标准差系数,是测度数据离散程度的相对指标 相对指标: 为标准差系数,是测度数据离散程度的相对指标:例:前例中, 前例中, 为单位, 离散系数为: 以m为单位, 离散系数为:0.=0.068, 为单位 , 为单位, 以cm为单位,离散系数为:8.165/120=0.068 为单位 离散系数为: ▲注意: 注意:1.对不同组数据,其离散程度既受其数据本 对不同组数据, 对不同组数据 身的水平的影响,也受数据计量单位的影响, 身的水平的影响,也受数据计量单位的影响,因 此对不同(性质)组别的数据,不好用离差 离差或 此对不同(性质)组别的数据,不好用离差或标 准差来比较它们的离散程度; 来比较它们的离散程度 准差来比较它们的离散程度; 2.由于离散系数消除了来自这两方面的影响, 由于离散系数消除了来自这两方面的影响, 由于离散系数消除了来自这两方面的影响 因此可以用它进行不同数据组的比较 可以用它进行不同数据组的比较。 因此可以用它进行不同数据组的比较。 家企业, 例5:某管理局抽查了其所属的 家企业,其产品销 :某管理局抽查了其所属的8家企业 售额与销售利润数据如下表所示, 售额与销售利润数据如下表所示,试比较销售额 与销售利润的离散程度。 与销售利润的离散程度。企业编号 销售额 (万元 万元) 万元 X1 170 220 390 430 销售利润 (万元 万元) 万元 X2 8.1 12.5 18.0 22.0 企业编号 销售额 (万元 万元) 万元 X1 480 650 950 1000 销售利润 (万元 万元) 万元 X2 26.5 40.0 64.0 69.01 2 3 45 6 7 8X 1 = 536 .25 ( 万元 ) X 2 = 32 .52 ( 万元 )S 1 = 309 .19 (万元 ) S 2 = 23 .09 (万元 )V1 = 309 .19 536 .25 = 0 .577 V 2 = 23 .09 32 .52 = 0 .710计算结果表明, 计算结果表明,产品销售额的离散程度小于销售 利润的离散程度。 利润的离散程度。
统计学课件 第2章-集中趋势与离散趋势―汇集和整理大量word文档,专业文献,应用文书,考试资料,教学教材,办公文档,教程攻略,文档搜索下载下载,拥有海量中文文档库,关注高价值的实用信息,我们一直在努力,争取提供更多下载资源。}

我要回帖

更多关于 三边测量法 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信