有谁知道如何学好Al数学的图灵数学统计学丛书嘛(Al-statistics)有同学传授一下经验嘛 拜托啦

当前位置: >>
统计学练习题和答案
学号:班级:姓名:第一章一、填空题导论1.1.1 统计工作 是人们对客观事物数量方面进行调查研究的认识活动。 1.1.2 调查得到的经过整理具有信息价值的各种统计数据、图表和文字资料都是统计资料。 1.1.3 统计学是一门收集、整理和分析统计数据的 方法论 科学, 其目的是探索数据的内在 数量规律性 ,以达到对客观事物的科学认识。 1.1.4 统计数据按其采用的 计量尺度 不同可以分为分类数据、顺序数据、数值型数据。 1.1.5 分类数据 是指只能归入某一类别的非数字型数据。 1.1.6 分类数据是按 品质属性 对事物进行分类的结果,反映各个类型的数量结果。 1.1.7 顺序数据 是指归于某一有序类别的非数字型数据。 1.1.8 数值型数据 是指按数字尺度测量的观察值,也就是直接反映事物数量特征的数据。 1.1.9 统计数据按其 收集方法 不同,可以分为观测数据和实验数据。 1.1.10 观测数据 是指通过调查或观测而收集到的数据。 1.1.11 实验数据 是指在实验中控制实验对象而收集到的数据。 1.1.12 统计数据按被描述的对象和时间的关系不同分为 截面数据、 时间序列数据 和 混合 数据 。 1.1.13 截面数据 是指对不同单位在同一个时间点上收集的数据。 1.1.14 时间序列数据 是指对同一个单位的一个或多个变量在不同时间上收集到的数据。 1.1.15 混合数据 是指在数据集中含有时间序列和截面数据成分的数据。 1.1.16 以文字记述国家显著事项的学说在统计发展史上称为 国势学 。 1.1.17 从统计方法的构成看,统计学可以分为 描述统计学 和 推断统计学 。 1.1.18 从统计方法研究和统计方法的应用角度来看, 统计学可以分为 理论统计学、 应用统计学。 1.1.19 根据一定目的确定的所要研究事物的全体称为 统计总体 。 1.1.20 总体单位所具有的属性和特征通常称为 标志 。 1.1.21 反映统计总体数量特征的概念和数值称为统计指标。 1.1.22 标志是反映 总体单位 的属性和特征,而指标则是反映 总体 的数量特征。 1.1.23 统计指标按其所反映的数量特点不同,可以分为 数量指标 和 质量指标。 1.1.24 凡是反映现象总规模、总水平和工作总量的统计指标称为数量指标 。 1.1.25 凡是反映现象相对水平和工作质量的统计指标称为 质量指标 。 1.1.26 变量按其所受影响因素不同,可分为 确定性变量 和 随机变量 。 1.1.27 变量按其数值形式不同,可以分为 离散型变量 和 连续型变量 。 1.1.28 根据总体中包含的单位数是否有限,总体可以分为 有限总体 和 无限总体 。 1.1.29 统计学研究的对象是客观现象的 数量方面 。二、单项选择题(在每小题的 3 个备选答案中选出 1 个正确答案,并将其字母填在题干后面的括号内) 1.2.1 人们对客观事物数量方面进行调查研究的认识活动是指 A.统计工作 B.统计学 C.统计资料 1.2.2 统计学是一门收集、整理和分析统计数据的 A.方法论科学 B.实质性科学 C.实证科学 1.2.3 统计数据分为分类数据、顺序数据和数值型数据的依据是 A.价值单位 B.计量单位 C.计量尺度 1.2.4 凡是可以用数值表示的标志,称为 A.数量标志 B.数量指标 C.品质标志 ( A ) ( A ) ( C ) ( A )1 学号:班级:姓名:1.2.5 反映统计总体数量特征的概念和数值,称为 ( C ) A.数量标志 B.标志 C.统计指标 1.2.6 凡是反映总体现象相对水平和工作质量的统计指标称为 ( B ) A.数量指标 B.质量指标 C.数量标志 1.2.7 变量可以分为离散型变量和连续型变量,其依据是 ( A ) A.数值形式 B.计量单位 C.计量尺度 1.2.8 政治算术学派主要代表人物威廉?配第的代表作是 ( A ) A.政治算术 B.欧洲各国国势学概论 C.社会物理学 1.2.9 如果要研究某市 30 万在校高等学校大学生的月消费支出情况,总体单位是 ( B ) A.30 万个大学生 B.每一位在校大学生 C.每一所大学 1.2.10 如果要研究某市 3000 家外资企业的基本情况,其中甲企业职工人数 800 人,这是一 个什么指标 ( C ) A.数量指标 B.质量指标 C.数量标志值 1.2.11 如果要研究某市 2 万户贫困家庭的生活状况,总体是 ( B ) A.每一户贫困家庭 B.2 万户贫困家庭 C.所有贫困人口 1.2.12 如果对连续生产线上的产品进行质量检验,那么研究对象是 ( A ) A.无限总体 B.有限总体 C.抽样总体 1.2.13 如果要研究某市人口的性别比例关系,那么,每个人的性别是 ( A ) A.品质标志 B.质量指标 C.数量标志 1.2.14 当研究对象为某班 50 名学生时,张三同学的年龄 20 岁是一个 ( B ) A.变量 B.变量值 C.统计指标三、多项选择题(在下列 4 个备选答案中,至少有二个是正确的,请将其全部选出, 并把字母填在题干后面的括号内)1.3.1 当人们谈及什么是统计时,通常可以理解为 ( ACD ) A.统计工作 B.统计整理 C.统计资料 D.统计学 1.3.2 调查得到的经过整理具有信息价值的统计资料包括 ( ABD ) A.统计数据 B.统计图标 C.统计软件 D.统计年鉴 1.3.3 以下关于统计学的描述,正确的有 ( ACD ) A.统计学是一门收集、整理和分析统计数据的方法论科学 B.统计学是一门收集、整理和分析统计数据的实质性科学 C.统计学的研究目的是探索数据的内在数量规律性 D.统计学提供了探索数据内在规律的一套方法 1.3.4 统计数据按其采用的计量尺度不同可以分为 ( ABC ) A.分类数据 B.顺序数据 C.数值型数据 D.截面数据 1.3.5 统计数据按其收集方法不同,可以分为 ( AB ) A.观测数据 B.实验数据 C.时序数据 D.混合数据 1.3.6 统计数据按被描述的对象和时间的关系不同分为 ( ABD ) A.截面数据 B.时间序列数据 C.观测数据 D.混合数据 1.3.7 从统计学的产生和发展过程来看,大致可以划分为三个时期,即 ( ABC ) A.古典统计学时期 B.近代统计学时期 C.现代统计学时期 D.应用统计学时期 1.3.8 从统计方法的构成看,统计学可以分为 ( AD ) A.描述统计学 B.理论统计学 C.应用统计学 D.推断统计学 1.3.9 作为一个统计总体,必须具有以下特征 ( ABD ) A.同质性 B.变异性 C.统一性 D.大量性 1.3.10 标志是指总体单位所具有的属性和特征,可以分为 ( AC ) A.数量标志 B.数量指标 C.品质标志 D.质量指标 1.3.11 如果要研究某市 987 家外资企业的基本情况,下列属于统计指标的有 ( ABD ) A.所有外资企业的职工平均工资 B.所有外资企业的平均利润2 学号:班级:姓名:( AD )C.甲企业的固定资产原值 D.所有外资企业平均职工人数 1.3.12 统计指标按其所反映的数量特点不同,可以分为 A.数量指标 B.数量标志 C.品质标志 D.质量指标四、判断改错题(在你认为正确的题后括号内打“ 后括号内打“ × ” ,并在其正下方写出正确的答案来)√ ” 。在你认为错误的地方和题1.4.1 统计资料是统计工作的成果,包括调查得到的经过整理具有信息价值的各种统计数 据、图表和文字资料。 ( √ ) 1.4.2 统计学是一门收集、整理和分析统计数据的实质性科学。 (×,方法论科学) 1.4.3 分类数据是指只能归入某一类别的非数字型数据。 ( √ ) 1.4.4 顺序数据是按数量属性对事物进行分类的结果。 (×,品质属性) 1.4.5 分类数据和顺序数据相似之处在于两者都是非数字型数据。 ( √ ) 1.4.6 统计数据按其描述的对象不同,可以分为观测数据和实验数据。 (×,收集方法) 1.4.7 时间序列数据是指对不同单位在同一个时间点上收集的数据。 (×,截面数据) 1.4.8 从统计方法的构成看,统计学可以分为描述统计学和推断统计学。 ( √ ) 1.4.9 总体的数量特征都是从每个总体单位的特征加以逐级汇总而体现出来的。 ( √ ) 1.4.10 同质性是指构成总体的个别事物在某个方面必须具有相同的性质。 ( √ ) 1.4.11 若总体中所包含的统计指标数是有限的,则称为有限总体。 (×,总体单位数) 1.4.12 标志表现是指各种属性和特征在总体单位身上的具体体现。 ( √ ) 1.4.13 统计指标按其所反映的数量特点不同,可以分为相对指标和平均指标。 (×,数量指标和质量指标) 1.4.14 反映现象总规模、 总水平和工作总量的统计指标称为质量指标。 (×, 数量指标) 1.4.15 反映现象相对水平和工作质量的统计指标称为数量指标。 (×,质量指标) 1.4.16 变量按其所受影响因素不同,可分为离散型变量和连续型变量。 (×,确定性变量和随机变量) 1.4.17 甲企业职工人数 1248 人, 这是一个连续变量。 (×, 离散变量) 1.4.18 某地区 2007 年人均国内生产总值为 13600 元,这是一个离散变量。 (×,连续变量)五、简答题1.5.1 如何理解统计学的性质? 答:为了更好地理解统计学的性质,我们应明确以下三个方面的问题。其一,统计学研究的 对象是客观现象的数量方面;其二,统计学研究的是群体现象的数量特征与规律性;其三,统计 学是一门方法论的科学。 1.5.2 统计数据有哪些基本分类? 答: 统计数据有三种基本分类。 一是按其采用的计量尺度不同, 统计数据可以分为分类数据、 顺序数据、数值型数据;二是按其收集方法不同,统计数据可以分为观测数据和实验数据;三是 按被描述的对象和时间的关系不同,统计数据可以分为截面数据、时间序列数据和混合数据。 1.5.3 什么是描述统计学和推断统计学? 答:描述统计学(Descriptive Statistics)研究如何取得反映客观现象的数据,并通过图表形 式对所收集的数据进行加工处理和显示, 进而通过综合、 概括与分析得出反映客观现象的规律性 数量特征。内容包括统计数据的收集方法、数据的加工处理方法、数据的显示方法、数据分布特 征的概括与分析方法等。 推断统计学(Inferential Statistics)则是研究如何根据样本数据去推断总体数量特征的方法, 它是在对样本数据进行描述的基础上,对统计总体的未知数量特征作出以概率形式表述的推断。3 学号:班级:姓名:1.5.4 什么是统计总体?它具有何特点? 答:统计总体就是根据一定目的确定的所要研究事物的全体。它是由客观存在的、具有某种 共同性质的许多个别事物构成的整体,简称为总体。总体具有以下三个特点: 其一,同质性,是指构成总体的个别事物在某个方面(或某一点上)必须具有相同的性质, 这是构成总体的必要条件。其二,变异性,是指构成总体的个别事物除了至少在某一个方面具有 相同的性质以外,其他方面应该存在差异,这是进行统计研究的前提。其三,大量性,是指构成 总体的个别事物要求足够的多,这是探究客观事物规律性的基础。 1.5.5 什么是样本?它具有何特点? 答:从全及总体中抽取出来,作为代表这一总体的部分单位组成的集合体称为样本。 样本有以下显著的特点:其一,构成样本的单位必须取自全及总体内部,不允许总体外部的 单位参加抽样过程;其二,从一个全及总体中可以抽取许多个样本;其三,样本具有代表性;其 四,样本具有客观性。从全部总体中抽取样本,必须排除主观因素的影响。 1.5.6 什么是统计指标与指标体系? 答:统计指标是反映统计总体数量特征的概念和数值。 统计指标体系是由一系列相互联系的统计指标所组成的有机整体, 用以反映所研究现象各方 面相互依存相互制约的关系。4 学号:班级:姓名:第二章一、填空题统计数据的收集、整理与显示2.1.1 一切数据最初都来源于 调查与实验 。 2.1.2 自己进行调查与实验得到的数据称为 初级统计数据或者直接数据 。 2.1.3 抽样调查是按照 随机原则 从总体中抽取部分单位进行观察用以推算总体数量特征 的一种统计调查方式。 2.1.4 调查对象 是根据调查目的确定的、 在某种性质上相同的许多个体单位所组成的集合。 2.1.5 报告 单位是负责向调查研究机构提供所需统计资料的基层单位。 2.1.6 标志 是反映调查单位特征的变量。 2.1.7 调查表 是指把所要调查的项目按照一定的结构和顺序排列后形成的表格。 2.1.8 一览表 是指一份表格上可以同时登记两个及两个以上调查单位有关调查项目的调 查表。 2.1.9 单一表 是指一份表格上只登记一个调查单位有关调查项目的调查表。 2.1.10 一般情况下,调查项目多宜采用 单一表 ,调查项目少则应采用 一览表 。 2.1.11 调查时间 是指调查资料所属的时间。 2.1.12 问卷中的开放性问题可以采用填空和 自由回答 两种方式。 2.1.13 数据数列分组的关键在于 分组变量的选择和各组界限的划分 。 2.1.14 某开口组的上限为 30,相邻组组距是 5,则其假定下限为 25 ,组中值为 27.5 。 2.1.15 某开口组的下限为 280,相邻组组距是 10,则其假定上限为 290 ,组中值为 285 。 2.1.16 在组距数列中,表示各组界限的变量值称为 组限 ,各组上限与下限之间中点位置 值称为 组中值 。二、单项选择题(在每小题的 3 个备选答案中选出 1 个正确答案,并将其字母填在题干后面的括号内) 2.2.1 主要用来调查时点现象总体特征的一次性全面调查称为 ( C ) A.抽样调查 B.统计报表调查 C.普查 2.2.2 按照随机原则抽取样本,并对总体的特征做出推断的调查方式是 ( A ) A.抽样调查 B.普查 C.统计报表调查 2.2.3 采用事先设计好的问卷进行调查的方法称为 ( B ) A.小组座谈法 B.问卷调查法 C.电话调查法 2.2.4 调查人员到现场对调查单位直接观察得到结果的方法称为 ( A ) A.观察法 B.实验法 C.电话调查法 2.2.5 在分类的基础上,将总体的所有单位按类进行整理,形成总体单位在各组间的分布, 称为 ( C ) A.频数 B.次数 C.频数分布 2.2.6 在问卷中没有提供答案,由被调查者自由地选择回答形式的问题称为 ( B ) A.封闭性问题 B.开放性问题 C. 复杂性问题 2.2.7 上四分位数 QU 位置的计算公式是 ( A )4 2 2.2.8 行标题通常用来表示横向变量的名称, 一般在统计表的 ( B ) A.中间 B.左边 C.右边 2.2.9 一组数 15,18,19,20,22,24,26,27,28,29,32 的上四分位数值和下四分位 数值分别是 ( A ) A.28,19 B.29,20 C.28,205A.3(n ? 1) 4B.n ?1C.n ?1 学号:班级:姓名:B ) C ) C ) A ) A )2.2.10 现一组数: 27, 30, 34。 25, 29, 32, 其中位数的值是 ( A.29 B.29.5 C.30 2.2.11 在分组时,凡遇到某单位的标志值刚好等于相邻两组上下限数值时,一般是 ( A.此值归入两组均可 B.将此值归入上限所在组 C.将此值归入下限所在组 2.2.12 人口普查的调查单位是 ( A.全部人口 B.每户家庭 C.每个人 2.2.13 数据审核时,主要从及时性、准确性和完整性等三方面进行审核的数据是 ( A.原始数据 B.二手数据 C.时间序列数据 2.2.14 在数值型数据的图示中, 适用于多变量数据的图形有 ( A.雷达图 B.直方图 C.茎叶图三、多项选择题(在下列 4 个备选答案中,至少有二个是正确的,请将其全部选出,并把字母填在题干后面的括号内) 2.3.1 常用的统计调查方式有 ( ACD ) A.普查 B.科学试验 C.统计报表调查 D.抽样调查 2.3.2 属于数据收集方法的有 ( ABCD ) A.访问调查法 B.电话调查法 C.小组座谈法 D.实验法 2.3.3 设计调查表时是采用一览表还是单一表,取决于 ( AD ) A.调查单位与报告单位的关系 B.方便性 C.经费的多少 D.调查项目的多少 2.3.4 选择回答型的设计方法包括两项选择法及 ( ABCD ) A.多项选择法 B.顺序选择法 C.评定尺度法 D.双向列联法 2.3.5 对封闭性问题的设计,答案要遵循的原则是 ( CD ) A.完备性 B.系统性 C.穷尽性 D.互斥性 2.3.6 在分组汇总之前,要对原始资料的哪些方面进行审核 ( ABC ) A.及时性 B.准确性 C.完整性 D.互斥性 2.3.7 分类数据的图示方法主要包括 ( ABCD ) A.条形图 B.Pareto 图 C.对比条形图 D.饼图 2.3.8 数据分组根据分组变量的多少可以分为 ( CD ) A.单层分组 B.多层分组 C.简单分组 D.复合分组。 2.3.9 从外形看,统计表都由哪些部分组成? ( ABCD ) A.表头 B.行标题 C.列标题 D.数字资料 2.3.10 属于数值型数据图示方法的有 ( ABCD ) A.直方图 B.箱线图 C.雷达图 D.茎叶图 2.3.11 多变量数据的图示方法包括 ( ABCD ) A.散点图 B.气泡图 C.雷达图 D.星座图 2.3.12 某次人口普查的标准时点为 7 月 1 日零点,今有甲,乙、丙、丁四人情况是:甲 6 月 30 日夜 10 点出生,乙 6 月 30 日夜 11 点去世,丙 6 月 30 日夜 12 点半出生,丁 7 月 1 日 1 点去世。调查员登记时,对这四人处理正确的选项是 ( ACD ) A.甲登记、乙不登记 B.甲不登记、乙登记 C.丙不登记 D.丁登记四、判断改错题(在你认为正确的题后括号内打“后括号内打“ × ” ,并在其正下方写出正确的答案来)√ ” 。在你认为错误的地方和题2.4.1 调查单位与报告单位总是相同的。 (×,调查单位与报告单位不总是相同的) 2.4.2 两项选择法是指提出的问题只有两种备选答案的提问方法。 2.4.3 复合分组是对被研究现象总体只按一个变量进行分组。6( √ ) 学号:班级:姓名:(×,简单分组是对被研究现象总体只按一个变量进行分组) 2.4.4 简单分组是对原始数据按两个或两个以上变量进行层叠式分组。 (×,复合分组是对原始数据按两个或两个以上变量进行层叠式分组) 2.4.5 实验法具有方法科学、反映客观、过程容易控制等优点。 ( √ ) 2.4.6 小组座谈法有匿名性、定量化和轮回反馈式等特点。 (×,德尔菲法有匿名性、定量化和轮回反馈式等特点) 2.4.7 网络调查是指利用国际互联网搜集数据方法。 ( √ ) 2.4.8 开放性问题一般放在问卷的前面。 (×,开放性问题一般放在问卷的最后) 2.4.9 组织普查时要规定统一的登记时点。 (×,组织普查时要规定统一的标准时点) 2.4.10 在全国人口普查中,全国人口是调查对象。 ( √ ) 2.4.11 抽样调查属于全面调查方式。 (×,普查属于全面调查方式,抽样调查属于非全面调查方式) 2.4.12 我国在每逢年份的末尾数字为 0 的年份进行人口普查。 ( √ )五、简答题2.5.1 在选择次级数据时应该注意什么? 答: (1)应根据研究目的选择次级数据; (2)注意次级数据变量名称的含义是否发生变化; (3)注意次级数据的计算口径和计算方法是否一致; (4)注意尊重次级数据所有者的权益。 2.5.2 什么是普查?组织普查时,应该注意什么问题? 答: 普查是国家为了详细地了解某项重要的国情国力而专门组织的一次性全面调查, 主要用 来调查属于一定时点上现象的总体特征。组织普查时,应该注意(1)要规定统一的标准时点; (2)严格设定必需的调查项目; (3)尽可能地缩短普查登记期限; (4)按一定的周期进行同类 普查。 2.5.3 抽样调查具有什么特点? 答: (1)从总体中随机抽取样本单位; (2)抽样调查的目的是根据样本的数量特征推断总体 的数量特征; (3)抽样误差可以事先计算并且加以控制。 2.5.4 统计数据的具体收集方法有哪些? 答:有访问调查法、问卷调查法、德尔菲法、电话调查法、电脑辅助调查法、小组座谈法、 观察法、实验法、网络调查法等。 2.5.5 什么是访问调查法?访问调查法的特点是什么? 答: 访问调查法是调查者通过与被调查者的当面交谈而得到所需资料的调查方法。 在访问调 查中,调查人员可以直接了解被调查者对调查问题的态度、观点、举止和调查现场的环境等,为 判断调查资料的准确程度提供一定的依据。与其他调查法相比,访问调查法的特点有:回答率较 高、数据比较准确、可使用较复杂的问卷、调查成本高等。 2.5.6 什么是德尔菲法?德尔菲法的特点是什么? 答:德尔菲法是指按照规定的程序,采用邮寄或电子邮件的方式,反复多次地收集各地专家 的看法,使不同意见趋于一致的调查方法。德尔菲法有匿名性、定量化和轮回反馈式等特点。 2.5.7 一份完整的调查方案,应该包括哪些内容? 答: (1)调查目的; (2)调查对象、调查单位和报告单位; (3)调查项目与调查表; (4)调查时间、调查方式与方法; (5)调查的组织工作。 2.5.8 为了保证原始统计资料的准确性,在确定调查项目时应该注意什么问题? 答: (1) 调查项目的含义必须明确,不能模棱两可; (2) 考虑取得资料的可行性,有些调7 学号:班级:姓名:查项目虽然需要,但在现有条件下难以取得资料的则不应列入; (3) 调查项目的答案应满足完 备性和互斥性。如果要求选择回答,则必须列出所有可能的答案,以免出现重复或遗漏; (4) 确 定不同时期同类调查的调查项目时,前后时期的调查项目应互相衔接,以便进行动态比较分析。 2.5.9 设计问卷的提问项目时一般应注意遵循哪些规则? 答: (1)问题的顺序安排应注意逻辑性; (2)问题的顺序安排应注意兴趣; (3)问题的顺序安排应注意先易后难; (4)开放性问题一般放在最后。 2.5.10 什么是问卷中的封闭性问题?封闭性问题答案的设计有哪些类型可供选择? 答: 封闭性问题是指调查者已经设计好若干个答案, 被调查者只需从中选择一个或一个以上 答案的问题。其答案的设计有两项选择法、多项选择法、顺序选择法、评定尺度法、双向列联法 等可供选择。 2.5.11 分类数据和顺序数据的图示方法各有哪些? 答:分类数据的图示方法包括条形图、Pareto 图、对比条形图和饼图;顺序数据的图示方 法包括累计频数分布图和环形图。 2.5.12 数据分组应注意什么? 答: (1) 保持组内单位的同质性和组间单位的差异性; (2) 统计分组要符合穷举性原则; (3) 统计分组要符合互斥性原则。 2.5.13 数值型数据的图示方法有哪些? 答:数值型数据的图示方法包括直方图、茎叶图、箱线图、线图、二维或三维散点图、气泡 图、雷达图等。 2.5.14 统计表由哪几个部分组成? 答:统计表有多种具体形式,但不论哪种形式的统计表,从外形看都由表头、行标题、列标 题和数字资料四个部分组成。 2.5.15 简述统计表的设计规则。 答: (1)合理安排统计表的结构; (2)统计表的总标题、行标题、列标题都要能简明扼要地 说明有关内容; (3)统计表的左右两端一律不封口;表的上下两端一般用粗线,其他的中间线都 用细线隔开; (4)表中数据一般采用右对齐形式,有小数点时以小数点对齐,同栏数据要具有同 一精确度;不要求填写或不可能有答案的表格单元,一般用“―”表示,在数字资料区不能出现 “同上”“同左”等文字; 、 (5)若使用的是次级资料,应在表的下方注明资料来源,既显示对原 作者的尊重,又便于读者查对。有时还需要在表的下方附上简明的指标解释。 2.5.16 试设计一份调查大学生对本科教学计划意见的问卷,进行调查并将调查结果制成统 计表和统计图。 答:略 2.5.17 调查本班同学的来源地(按省或按市) ,制作频数分布表、条形图、柱形图和 Pareto 图。 答:略六、作图与计算题2.6.1 为了解某大型居民小区的物业管理质量,随机抽取了由 100 个家庭组成的样本。 质量 等级的含义分别为:A.差;B.较差;C.一般;D.较好;E.好。有关资料如下:C D A C B A B E D C A A D B D C C D B D8 学号:B B B D D C E C C C C D C B C B E B D B A C D A班级:B A E A B A D C A D B E C B B D B B C A C C A B C B C B D E A B姓名:D C C C A B C B B B C E C D C C B A B A E A A D要求: (1)指出上面的数据的类型; (2)制作频数分布表; (3)绘制条形图反映质量等级的 分布。 解: (1)顺序数据。 (2)频数分布表等级 A B C D E 合计 户数 18 28 28 18 8 100 向上累积 (%) 18 46 74 92 100 ―(3)条形图E D C B A 0 5 10 15 20 25 302.6.2 某生产车间 30 名工人日加工零件数(件)如下: 30 26 42 41 36 44 40 37 37 25 45 29 43 31 36 49 34 47 33 43 38 42 32 34 38 46 43 39 35 36 试根据以上资料分成如下几组:25―30,30―35,35―40,40―45,45―50,编制频数分布 表,并绘制直方图。 解: 频数分布表零件数(件) 25-30 30-35 35-40 40-45 45-50 频率 4 6 9 8 3 百分比(%) 13.33 20 30 26.67 109 学号:班级:合计 30 100姓名:直方图:2.6.3 某调查公司对省内各市 2007 年度评选的“三八”红旗手的状况进行了调查,得到如 下的百分比信息: (1)所从事的行业:服务业 41%,制造业 35%,政府机关 8%,个体户 3%,其他 13%; (2)学历状况:高中 30%,本科 45%,硕士 15%,博士 4%,其他 6%; (3)婚姻状况:有配偶 85%,未婚 6%,其他 9%。 要求:试利用上述信息对这些先进人物作出描述。 解:在所选的选的“三八”红旗手中,服务业和制造业占绝大多数,分别为 41%和 35%。行业其它 13% 个体户 3% 政府机关 8% 服务业 41% 服务业 制造业 政府机关 个体户 其它制造业 35%在学历中以高中生和本科生居多,分别占 30%和 45%。10 学号:班级:姓名:对于配偶情况,有配偶的占 85%,未婚的占 8%。2.6.4 为了解某特定商品房型的价格变动情况,某市调查机构随机抽取了 25 个样本,得销 售价格资料如下:销售价格(单位:元) 10 95 70 49 80 75 30 50 6120要求:试根据上表资料绘制茎叶图。 解: 销售价格茎叶图为:树茎 53 54 55 56 57 58 59 60 61 62 63 67 25
20 95 80 树叶 数据个数 1 1 3 4 5 3 2 3 1 1 12.6.5 D 超市 30 天的销售额资料如下(单位:万元) :59 40 56 36 63 67 42 56 35 65 64 69 41 46 57 63 92 45 43 54 63 84 64 7211 学号:53 64班级:31 70姓名:51 78要求:试根据上表资料进行数据分组,并绘制这组数据的频数直方图。 解: 将数据分为 7 组,组距为 10。 频数分布表按销售额分组(万元) 30-40 40-50 50-60 60-70 70-80 80-90 90-100 合计 频率 4 5 7 9 3 1 1 30 百分比(%) 13.3 16.7 23.3 30.0 10.0 3.3 3.3 100.0直方图:10 8 6 4 2 0 20-30 30-40 40-50 50-60 60-70 70-80 80-90 90-100 100-1102.6.62006 年世界十大富豪和中国内地十大富豪资产的资料如下:世界(亿美元) 姓名 比尔?盖茨 沃伦?巴菲特 卡洛斯?贺鲁 英格瓦?坎普拉德 拉克什米?米塔尔 保罗?艾伦 伯纳德?阿诺特 阿尔瓦利德?塔拉尔 肯尼斯?汤姆森家族 李嘉诚 资产 500 420 300 280 235 220 215 200 196 188 中国内地(亿元人民币) 姓名 黄光裕 许荣茂 荣智健 朱孟依 张 张 茵 力 资产 180.9 173.6 158 152.4 115 115.2 113 91.7 90.8 90.5施正荣 刘永行 郭广昌 鲁冠球要求:试按照 1 美元=7 元人民币的汇率,画出相应的对比柱形图和环形图。 解:12 学号:班级:姓名:对比柱形图世界十大富豪和中国内地十大富豪资产柱形对比图 600 500 400亿美元300 200 100 0 1 2 3 4 5 6 7 8 9 10 11系列1 系列2(系列 1 为世界十大富豪,系列 2 为中国内地十大富豪) 环形图:世界十大富豪和中国内地十大富豪资产环形图12.93 12.97 13.1 196 200 18825.84 500 24.8 42016.14 215 220 16.46 235 16.43300 22.57 280 21.771 2 3 4 5 6 7 8 9 102.6.7 试通过对次级资料的收集,绘制
年我国国内生产总值(GDP)的线图, (按当年价格计算,单位:亿元) 。 解:
年我国国内生产总值(GDP)的线图年我国国内生产总值(GDP) 000 000 50000 0总值2.6.8 某大型乳制品加工企业 2006 年在全国 4 个大区的销售额如下(单位:百万元) :月份 1 2 3 4 5 6 华北 110 115 107 105 101 99 华东 160 160 174 189 192 140 华中 81 82 76 77 80 77 华南 62 68 70 71 69 7319 90 19 91 19 92 19 93 19 94 19 95 19 96 19 97 19 98 19 99 20 00 20 01 20 02 20 03 20 04 20 05 20 06年份13 学号:7 8 9 10 11 12 96 100 108 113 125 129班级:154 170 177 188 151 179 76 69 66 75 89 95姓名:78 77 89 92 95 98要求:试根据上表资料绘制箱线图,并分析各大区销售额的分布特征。 解:如图所示,华东地区的平均销售额最高,其次是华北地区,较低的是华中地区,排最后的是 华南地区;从销售额分布的离散程度来说,华中地区(有两个离异点)和华南地区的销售额较为 集中,,华北和华东地区的销售额则比较分散。14 学号:班级:姓名:第三章一、填空题数据分布特征的描述3.1.1 集中趋势 是指一组数据向其中心值靠拢的倾向。 3.1.2 加权算术平均数受两个重要因素的影响, 一个是 各组变量值 ; 另一个是各组变量值 出现的 频数或频率 。 3.1.3 计算比率的平均数时,如果已知比率及其基本计算式的分母资料,则采用 加权算术 平均法 。 3.1.4 计算比率的平均数时,如果已知比率及其基本计算式的分子资料,则采用 加权调和 平均法 。 3.1.5 几何平均法 是计算平均比率或平均发展速度最适用的一种方法。 3.1.6 众数 是指一组数据中出现次数最多的变量值。 3.1.7 四分位数 是指将按大小顺序排列的一组数据划分为四等分的三个变量值。 3.1.8 十分位数 是指将按大小顺序排列的一组数据划分为 10 等分的 9 个变量值。 3.1.9 在数据分布呈 完全对称的正态分布 时,算术平均数、众数和中位数三者相等。 3.1.10 异众比率是指 非众数组 的频数占总频数的比率。 3.1.11 上四分位数与下四分位数之差的简单算术平均数称为 四分位差 。 3.1.12 各个变量值与其算术平均数离差的绝对值的平均数称为 平均差 。 3.1.13 总体方差是各个数据与其 算术平均数 的离差平方的平均数,通常以 ? 2 表示。 3.1.14 皮尔逊测度法就是利用算术平均数与众数的关系来测度数据分布 偏斜程度 的一种 方法。 3.1.15 中心矩法 是指用标准差的三次方除三阶中心矩计算偏态系数的一种方法。二、单项选择题(在每小题的 3 个备选答案中选出 1 个正确答案,并将其字母填在题干后面的括号内) 3.2.1 先将一组数据的变量值按一定顺序排列, 然后取某一位置的变量值来反映这些数据的 一般水平,把这个特殊位置上的数值看作是平均数,称为 ( B ) A.数值平均数 B.位置平均数 C.离散系数 3.2.2 算术平均数反映的是数据分布的什么特征 ( A ) A.集中趋势 B.离散趋势 C.偏态趋势 3.2.3 根据算术平均数的性质, 下列表达式正确的是 ( A ) A. ?( x ? x ) f ?0 B.?x- x f = 0C.?( x - x )2 f = 03.2.4 如果分布数列中各变量值呈几何级数变化或频率分布极不对称, 计算平均数的常用方 法是 ( B ) A.算术平均法 B.几何平均法 C.调和平均法 3.2.5 用各组的组中值代表其实际数据计算算术平均数时,通常假定 ( A ) A.各组数据在组内是均匀分布的 B.各组次数相等 C.各组数据之间没有差异 3.2.6 当数据分布为右偏分布时,算术平均数与中位数、众数的关系表现为 ( A ) A. M o ? M e ? x B. x ? M e ? M o C. x ? M o ? M e 3.2.7 离散程度测度指标中,受极端值影响最大的是 ( C ) A.平均差 B.标准差 C.全距 3.2.8 平均差与标准差的主要区别在于 ( B ) A.说明问题的角度不同 B.对离差的数学处理方法不同 C.计算对象不同 3.2.9 标准差系数消除了 ( B ) A.总体单位数多少的影响 B.平均数大小和计量单位的影响 C.离散程度的影响15 学号:班级:姓名:( B )3.2.10 直接使用标准差比较分析两个同类总体平均数的代表性,其前提条件是 A.两个总体的标准差应该相等 B.两个总体的平均数应该相等 C.两个总体的离差平方和应该相等 3.2.11 下列指标中,实际应用最广泛的离散程度测度指标是 A.平均差 B.标准差 C.离散系数 3.2.12 皮尔逊测度法就是利用算术平均数与众数的关系来测度数据分布的 A.偏斜程度 B.离散程度 C.集中程度( B ) ( A )三、多项选择题(在下列 4 个备选答案中,至少有二个是正确的,请将其全部选出,并把字母填在题干后面的括号内) 3.3. 1 描述数据分布集中趋势的指标有 ( ABCD ) A.算术平均数 B.调和平均数 C.众数 D.中位数 3.3.2 描述数据分布离散趋势的指标有 ( ABCD ) A.全距 B.平均差 C.标准差 D.离散系数 3.3.3 算术平均数所具有的数学性质有 ( AC ) A.各个变量值与其平均数离差之和等于零 B.各个变量值与其平均数离差的绝对值之和等于零 C.各个变量值与其平均数离差的平方和为最小值 D.各个变量值与其平均数离差的平方和为最大值 3.3.4 下列不适于计算算术平均数的数据类型有 ( AB ) A.分类数据 B.顺序数据 C.数值型数据 D.截面数据 3.3.5 加权算术平均数中,各个变量值的权数要起作用必须具备两个条件 ( AD ) A.各个变量值之间有差异 B.各个变量值的权数相等 C.各个变量值相等 D.各个变量值的权数有差异 3.3.6 下列对众数的解释说明中,正确的有 ( ABCD ) A.众数是指一组数据中出现次数最多的变量值 B.一组数据中可能有多个众数,也可能没有众数 C.众数不受极端值的影响 D.众数缺乏灵敏性 3.3.7 下列对中位数的解释说明中,正确的有 ( ACD ) A.中位数不受分布数列的极大或极小值影响 B.中位数是指一组数据中出现次数最多的变量值 C.中位数缺乏灵敏性 D.当次数分布偏态时,中位数的代表性会受到影响 3.3.8 以 SK p 表示根据皮尔逊测度法计算的偏态系数,下列陈述中正确的是 ( ABCD ) A.经验证明,在适度偏态的情况下, ?3 ? SK p ? 3 B.当 x ? M o , SK p ? 0 时,数据分布呈对称分布 C.当 x ? M o , SK p ? 0 时,数据分布呈右(正)偏分布 D.当 x ? M o , SK p ? 0 时,数据分布呈左(负)偏分布 3.3.9 下列关于四分位差的解释说明中,正确的有 A.四分位差就是上四分位数与下四分位数之差的简单算术平均数 B.四分位差越小,表明中位数的代表性越好 C.四分位差越大,表明中位数的代表性越差 D.四分位差可以避免受极端值的影响 3.3.10 比较不同总体平均数的代表性时,应该使用离散系数,因为 A.离散系数可以消除平均数大小的影响16( ABCD )( AB ) 学号:班级:姓名:B.离散系数可以消除计量单位的影响 C.离散系数可以消除总体单位数多少的影响 D.离散系数可以消除变量值之间差异程度的影响四、判断改错题(在你认为正确的题后括号内打“ 后括号内打“× ” ,并在其正下方写出正确的答案来)√ ” 。在你认为错误的地方和题3.4.1 算术平均数既适用于数值型数据,也适用于分类数据和顺序数据。 ( ×,不适用于分类数据和顺序数据 ) 3.4.2 根据分组数据计算的平均数只是实际平均数的近似值。 ( √ ) 3.4.3 简单算术平均数的大小只与变量值的大小有关,与权数无关。 ( √ ) 3.4.4 各变量值与其算术平均数的离差平方和为最小值。 ( √ ) 3.4.5 众数可直观地说明分布的离散趋势,可用它反映变量值一般水平的代表值。 ( ×,集中趋势 ) 3.4.6 对于一组数据,可能存在一个或多个众数,也可能不存在众数。 ( √ ) 3.4.7 四分位数是将按大小顺序排列的一组数据划分为三等分的四个变量值。 (×,四等分的三个变量值) 3.4.8 十分位数是指将按大小顺序排列的一组数据划分为 10 等分的 10 个变量值。 ( ×,9 个变量值 ) 3.4.9 在左偏分布中,众数最小,中位数适中,算术平均数最大,即 M o ? Me ? x 。 ( ×,右偏分布 ) 3.4.10 数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差。 ( √ ) 3.4.11 在实际工作中,全距常用来检查产品质量的稳定性和进行质量控制。 ( √ ) 3.4.12 偏态和峰态是对分布集中程度的测度。 ( ×,分布形状 ) 3.4.13 凡频率分布中各变量值对众数的相对位置都较正态曲线更为分散, 其曲线较为平缓, 则为低峰度。 ( √ ) 3.4.14 如果以 ? 表示峰度系数,当 ? ? 0 时,分布曲线为低峰曲线,表明变量值的差异程 度大,平均数代表性差。 ( ×, ? ? 0 )五、简答题3.5.1 什么是集中趋势?测度集中趋势的主要指标有哪些? 答: 集中趋势是指一组数据向其中心值靠拢的倾向, 测度集中趋势也就是寻找数据一般水平 的代表值或中心值。 取得集中趋势代表值的方法通常有两种:一是从一组数据(即各个变量值)中抽象出具有一 般水平的量,这个量不是某一个具体变量值,但又要反映这些数据的一般水平,这种平均数称为 数值平均数。数值平均数有算术平均数、调和平均数、几何平均数等形式。二是先将一组数据的 变量值按一定顺序排列, 然后取某一位置的变量值来反映这些数据的一般水平,把这个特殊位置 上的数值看作是平均数,称作位置平均数。位置平均数有众数、中位数等形式。 3.5.2 什么是调和平均数?调和平均数与算术平均数有何关系? 答:调和平均数也称“倒数平均数” ,它是对变量的倒数求平均,然后再取倒数而得到的平 均数。 从数学定义角度看算术平均数与调和平均数是不一样的, 但在社会经济应用领域, 调和平均 数实际上只是算术平均数的另一种表现形式, 二者本质上是一致的,惟一的区别是计算时使用了 不同的数据。17 学号:班级:姓名:3.5.3 什么是几何平均数?其应用场合是什么? 答:几何平均数也称几何均值,它是 n 个变量值乘积的 n 次方根。几何平均法是计算平均比 率或平均发展速度最适用的一种方法。 如果分布数列中各变量值呈几何级数变化或频率分布极不 对称,也常采用几何平均法来计算平均数。如果被平均的变量值中有一个为零,则不能计算几何 平均数;如果变量值为负数,开奇次根会形成虚根,失去意义。 3.5.4 什么是离散趋势?测度离散趋势的主要指标有哪些? 答:离散趋势是指各个变量值远离其中心值的程度,是数据分布的另一个重要特征。 描述数据离散程度常用的测度值有全距、异众比率、四分位差、平均差、标准差以及离散系 数,其中标准差最重要。 3.5.5 什么是偏度和峰度?如何根据偏态系数和峰度系数判断数据分布的形态? 答:偏度是描述数据分布对称性的特征值。 峰度是统计学中描述数据分布平坦或尖峭的程度的特征值。 根据皮尔逊测度法测算的偏态系数 SK p ,经验证明,在适度偏态的情况下, ?3 ? SK p ? 3 。 当 x ? M o , SK p ? 0 时,数据分布呈对称分布;当 x ? M o , SK p ? 0 时,数据分布呈右(正)偏分 布;当 x ? M o , SK p ? 0 时,数据分布呈左(负)偏分布。 根据中心矩法计算的偏态系数 ? ,当 ? ? 0 时,数据分布呈对称分布形态;? ? 0 ,数据分布 呈负(左)偏态;? ? 0 ,数据分布呈正(右)偏态;? 值越接近于 0,数据分布越趋于对称,? 的绝对值越大,数据分布越偏斜。 根据峰度系数 ? ,当 ? ? 0 时,分布曲线为正态曲线;当 ? ? 0 时,分布曲线为高峰曲线,表 明变量值的差异程度小,平均数代表性好;当 ? ? 0 时,分布曲线为低峰曲线,表明变量值的差 异程度大,平均数代表性差。六、计算题3.6.1 2007 年某企业精加工车间 20 名工人加工 A 零件的产量资料如下:按日产量分组(件) 28 29 30 31 32 合 计 工人人数(人) 2 4 7 5 2 20要求:试计算 20 名工人日产量的算术平均数、众数和中位数。 解: (1)20 名工人日产量的算数平均数: ? xf 28 ? 2 ? 29 ? 4 ? 30 ? 7 ? 31 ? 5 ? 32 ? 2 601 x? ? ? ? 30.05 (件/人) 。 ?f 20 20 (2)从该企业的产量资料表可以看出,20 名工人日产量的众数为 30 件;18 学号:班级:姓名:(3)20 名工人日产量的中位数: 工人总数的二分之一是 10 人, 从小到大累计人数首次超过 10 的组所对应的日产量为 30 件, 则中位数为 30 件。 3.6.2 2007 年某管理局所属 22 个企业的工人工资及工人比重资料如下:按月工资分组(元/人) 1000 以下
3000 以上 合 计 企业数 3 7 8 4 22 各组工人占工人总数的比重(%) 15 35 32 18 100要求:试计算该管理局工人的月平均工资。 解: 根据已知资料,列表计算如下: 某管理局工人的月平均工资计算表按月工资分组(元/人) 1000 以下
3000 以上 合 计 组中值 x 500 00 ―― 各组工人占工人总数的比重(%) 15 35 32 18 100f /? fx?( f /? f )
203000该管理局工人的月平均工资为:x ? ? xii ?1 k?ffi?500 ? 15 ? 1500 ? 35 ? 2500 ? 32 ? 3500 ? 18 203000 ? ? 2030 (元/人) 。 100 203.6.3 某工业局所属生产同一产品企业 19 个,2007 年按工人劳动生产率高低分组如下:按劳动生产率分组(吨/人) 50~60 60~70 70~80 80~90 90~100 合 计 企业数 8 5 3 2 1 19 各组工人数(人) 00 00要求:试计算该工业局工人平均劳动生产率。 解: 根据已知资料,列表计算如下: 该工业局工人平均劳动生产率计算表按劳动生产率分组(吨/人) 50~60 组中值 x 55 19 各组工人数(人)f 2400 xf 132000 学号:60~70 70~80 80~90 90~100 合 计班级:65 75 85 95 ―― 00 姓名:00 500 532500该工业局工人平均劳动生产率为: ? xf 55 ? 2400 ? 65 ? 1600 ? 75 ? 1200 ? 85 ? 1200 ? 95 ?
x? ? ? ? 71 (吨/人) 。 ?f .6.4 某企业生产 A 种产品需要经过三个连续作业的车间才能完成。2008 年 1 月第一车间 粗加工产品的合格率为 98%,第二车间精加工产品的合格率为 95%,第三车间最后装配的合格 率为 92%。 要求:试计算该产品的企业平均合格率。 解: 该产品的企业平均合格率为:Gm ?n?xi ?1ni? 3 98% ? 95% ? 92% ? 94.97%。3.6.5 根据抽样调查结果,2008 年 2 月某市居民通讯支出额的众数为 120 元,算术平均数 为 150 元。 要求:试根据算术平均数、中位数及众数之间的关系,计算中位数的近似值,并说明该市居 民通讯支出额分布的态势。 解: (1)该市居民通讯支出额的中位数近似值为: M ? 2x 120 ? 2 ?150 。 M ? o ? ? 140 (元) e 3 3 (2) 120 ? 140 ? 150 显然有 M o ? Me ? x , 由 即该市居民通讯支出额呈尾巴拖在右边的正偏 态分布,也即右偏分布。 3.6.6 某投资银行的年利率按复利计算, 年的年利率分组资料如下:按年利率分组(%) 6 8 9 12 15 合 计 年数(年) 2 4 3 2 1 12要求:试计算
年的平均年利率。 解:
年的平均年利率为:xG ? ? f?xi ?1kfii? 100% ? 12 106%2 ? 108%4 ? 109%3 ? 112%2 ? 115% ? 100% ? 9.14%3.6.7 根据 500 户抽样调查结果,2007 年某市城市居民家庭按月人均可支配收入分组的资 料如下:20 学号:班级:按月人均可支配收入分组(元/人) 1000 以下
4000 以上 合 计姓名:各组家庭户数占总户数的比重(%) 15 28 32 18 7 100要求:根据上述资料计算 2007 年该市居民家庭月人均可支配收入及其平均差和标准差。 解: (1)2007 年该市居民家庭月人均可支配收入为:x ? ? xii ?1 k?ffi?500 ? 15 ? 1500 ? 28 ? 2500 ? 32 ? 3500 ? 18 ? 4500 ? 7 ? 2240 (元/人) 。 100(2)相关计算过程如下: 2007 年该市居民家庭月人均可支配收入计算表各组家庭户数占 按月人均可支配 收入分组(元/人) 组中值 x 总户数的比重 (%)x?xx?xf /? f?ff2 (x ? x)?ff1000 以下500151740261001500287402072025003226083202163200 4000 以上 合 计3500181260226804500 ――7226015820100626093640人均可支配收入的平均差为:AD ?? x?x f ?f2?1740 ? 15 ? ? ? 2260 ? 7 93640 = =936.40(元) 100 100(3)标准差为:S?? (x ? x)i ?1 ik?ffi?i500 17402 ? 15 ? ? ? 22602 ? 7 500 0 ? ? ? ? ? 1129.14 (元) 499 100 499 100 4993.6.8 2006 年某校学生会为了解在校大学生的消费支出情况,从全校本科学生中按性别随 机各抽取 100 名,其月消费支出额分组资料如下:21 学号:班级:月消费支出额(元) 200 以下 200~300 300~400 400~500 500~600 600~700 700 以上 合 计 男 生(人) 6 9 16 24 23 14 8 100姓名:女 生(人) 5 12 25 24 18 10 6 100要求:根据表中资料 (1)分别计算男女学生的平均月消费支出; (2)分别计算男女学生月消费支出的中位数和众数; (3)分别计算男女学生月消费支出的下四分位数和上四分位数; (4) 分别计算男女学生月消费支出的平均差、标准差、离散系数,并比较其平均月消费支 出的代表性; (5)分别计算男女学生月消费支出分布的偏态系数和峰度系数,判断其分布形态。 解: (1)男学生的平均月消费支出为: ? xf 150 ? 6 ? ? ? 750 ? 8 47300 x? ? ? ? 473 (元) ; ?f 100 100 同理得到女学生的平均月消费支出为 442 元。 (2)男学生月消费支出的中位数为: 对男学生而言, ? f / 2 =50,首次超过 50 的累计次数为 55,其所对应的组为 400~500 元, 故该组为中位数所在的组;该组 L =400, f m =24, S m ?1 =31, d =100,代入公式求得:Me ? L ? (? f / 2) ? Sm?1 fm ? d ? 400 ? 50 ? 31 ? 100 ? 479(元) ; 24同理可得到女学生月消费支出的中位数为 433 元; 男学生月消费支出的众数为: Δ1 24 ? 16 Mo ? L ? ? d ?? 400 ? ? 100 ? 489 (元) ; Δ1 ? Δ 2 (24 ? 16) ? (24 ? 23) 同理得到女学生月消费支出的众数为 393 元。 (3)男学生月消费支出的下四分位数为: 对男生而言, QL 的位置=25,由小到大累计次数首次超过 25 的组是 300~400,该组即为下 四分位数所在的组, SQL ?1 =15, fQL =16, dQL =100,代入公式求得:?fQL ? LQL ? 4? SQL ?1 f QL? d QL ? 3 0 0 ?2 5? 1 5 ? 100 ? 163 6元) ( 2.5 ;同理得到女学生月消费支出的下四分位数为 332 元。22 学号:班级:姓名:男学生月消费支出的上四分位数为:3? f QU ? LQU ? 4 ? SQU ?1 f QU 75 ? 55 ? 100 ? 587(元) 23? d QU ? 500 ?同理得到女学生月消费支出的上四分位数为 550 元 (4)男学生月消费支出的平均差为:AD ?? x?x f ?fx?150 ? 473 ? 6 ? ? ? 750 ? 473 ? 8 100? 129 (元)同理可求得女生月消费支出的平均差为 121 元; 男生月消费支出的标准差为:( ? x ? x)f2 i ?1 k iS=?fi ?1k??150 ? 473?2? 6 ? ? ? ? 750 ? 473? ? 82i?1100 ? 1? 159.45 (元)同理求得女生月消费支出的标准差为 152.21 元; 男生月消费支出的离散系数为:S 159.45 ? ? 0.3371 x 473 同理可求得女生月消费支出的离散系数为 0.3444, 前者小于后者, 所以男学生的平均消费支 出代表性更强。 VS ?(5) 三阶中心矩m3 ??(X ? X ) ?f3f; 四阶中心矩m4 ??(X ? X ) ?f4f偏度系数:? ?m3?3; 峰度系数:? ??4m4?3根据公式计算得男生月消费支出的偏度为-0.1879,呈轻度左偏分布;峰度为-0.5550,呈轻 度低峰分布; 对女生而言, 月消费支出偏度为 0.1727, 呈轻度右偏分布; 峰度为-0.5015, 呈轻度低峰分布。 3.6.9 2007 年第一季度某种药品在三个地区的销售额资料如下:月 1 2 3 合 计 份 单价(元/合) 15 14 12 ―― 销售额(万元) 甲地区 30 32 36 98 乙地区 45 35 42 122 丙地区 24 28 30 82要求:根据上述资料, (1)分别计算甲、乙、丙三个地区第一季度该种药品的平均价格; (2)分别计算第一季度各月该种药品的平均价格; (3)计算该种药品第一季度总的平均价格。 解: (1)甲地区第一季度该种药品的平均价格为:23 学号:班级:姓名:Hm ??m ?xi ?1 i ?1 k ikimi?980000 ? 13.45 (元/盒) 000 360000 ? ? 15 14 12同理得到乙地区和丙地区的平均价格分别为:13.56 元/盒和 13.44 元/盒。 (2)1 月份的平均价格为:Hm ??mi ?1 kkim ? xi i ?1 i?300000 ? 450000 ? 000 ; ? ? 15 (元) 300000 ? 450000 ? 00 15同理可得 2 月份和 3 月份的平均价格分别为 14 元/盒和 12 元/盒。 (3)第一季度总的平均价格为:Hm ??mi ?1 kkim ? xi i ?1 i?980000 ? 1220000 ? 820000 ? 13.49 (元/盒) 300000 ? 450000 ? 000 ? 420000 ? 300000 ??? 15 123.6.10 2007 年 5 月,某高等职业技术学院 200 个班的女生比重及学生人数资料如下: (1)已知女生比重、班数及各组学生总人数:女生比重(%) 10~20 20~30 30~40 40~50 50 以上 合 计 班 数(个) 30 35 55 45 35 200 各组学生总人数(人) 00 80(2)已知女生比重、班数及各组女生人数:女生比重(%) 10~20 20~30 30~40 40~50 50 以上 合 计 班 数(个) 30 35 55 45 35 200 各组女生人数(人) 234 420 980 936 968 3538要求:根据上述两组资料分别计算全校女生的比重,并比较两种计算方法的特点。 解: (1)这种情况下使用算术加权平均法,女生比重为: ? xf 0.15 ? 1560 ? ? ? 0.55 ?
x? ? ? ? 0.3581 ?f
(2)这种情况下使用调和加权平均法,女生比重为:24 学号:班级:姓名:Hm ??m ?xi ?1 i ?1 k ikimi? ?? ? 0.15 0.55?3538 ? 0.两种计算方法的结果完全一致。从数学定义角度看,算术平均数与调和平均数是不一样的; 但在社会经济应用领域, 调和平均数实际上只是算术平均数的另一种表现形式,二者本质上是一 致的,惟一的区别是计算时使用了不同的数据。第四章一、填空题抽样分布4.1.1 按随机变量取值的特点不同,通常把随机变量分为两类,即 离散型随机变量 和 连 续型随机变量 。 4.1.2 设 ( X1 , X 2 ,L , X n ) 是抽自正态总体 N (m, s2) 的一个容量为 n 的简单随机样本(重复骣 s 2÷ 1 n 抽样) ,则 X = ? X i 服从 N ?m, ÷。 ? ? n÷ ÷ n i= 1 桫2 1 n ?= 1 ( X i - X ) 是样本方 n- 1 i i= 1 (n - 1) S 2 X- m X- m 差,则统计量: Z = ~ N (0,1) ; t = ~ t (n- 1) ; c 2 = ~ c 2 (n - 1) 。 2 s s n S n4.1.3设 X ~ N (m, s2), X = ? n1nX i 是样本均值, S 2 =2 4.1.4 设 ( X1 , X 2 ,L , X n ) 是正态总体 N (m, s ) 的一个简单随机样本,则 E ( X ) = m ,D( X ) = s 2 。二、单项选择题(在每小题的 3 个备选答案中选出 1 个正确答案,并将其字母填在题干后面的括号内) 4.2.1 设 X 的分布列为X p则 F (3)的值是 A.0 4.2.2n-1 0.350 0.201 0.45( B ) B.1 C.0.552若 X1 , X 2 ,?, X n 是 来 自 正 态 总 体 N (m, s) 的一个简单随机样本,则统计量( A ) C. nc2 =1 s2? ( x - x)i i= 12的自由度为 B. n - 22A. n - 14.2.3 若 X1 , X 2 ,?, X n 是 来 自 总 体 N (m, s)的 样 本 , 其 中 s2未 知 , 且 ( B )S2 =2 1 n X- m ?= 1 ( X i - X ) ,则统计量 T = s n 的自由度为 n- 1 i A. n B. n - 1 C. n - 225 学号:班级:姓名:( B ) C.二阶原点矩4.2.4 随机变量 X 的数学期望又叫 X 的 A.一阶中心矩 B.一阶原点矩 4.2.5 若 X1 , X 2 ,?, X15 来自总体 N (m, s2) 的样本,令 t =X- m ,其中: s 15( B ) C. t ~ N (0,1)1 15 X= 邋X i , 15 i= 1 A. t ~ t (15)1 S = 14215(Xi i= 1X ) ,则有2B. t ~ t (14)4.2.6 若不断重复某项调查,每次向随机抽取的 100 人提出同一个问题,则每次都能得到一 个回答“是”的人数百分数,这若干百分数的分布称为 ( C ) A.样本平均数的抽样分布 B.总体成数的次数分布 C.样本成数的抽样分布三、多项选择题(在下列 4 个备选答案中,至少有二个是正确的,请将其全部选出, 并把字母填在题干后面的括号内)4.3.1 设 X1 , X 2 ,?, X n 是 来 自 正 态 总 体 X 的 一 个 容 量 为 n 的 样 本 , X =1 n ? Xi , n i= 1( ABCD )S2 =2 1 n ?= 1 ( X i - X ) ,则下列结论中不正确的有 n- 1 iA. X ~ N (m, s C. ~ N m, s X2)E (X ) = mB. X ~ N (0,1) D. ~ N m, s XE (X ) = 0(2)2X- m ~ N (0,1) s n(2)且s 2未知,X- m ~ t (n - 1) S n4.3.2 设 X ~ N m, s 正确的有 A. E S C. E (S(), X1 , X 2 ,?, X n是X的样本,S 2 =2 1 n ?= 1 ( X i - X ) ,则结论 n- 1 i( BCD )( 2)=2s n- 122 B. 当s 2=s 0时,有(n - 1) S2 02)= s 2s X - m0 D. 当m = m0时,有 ~ t (n - 1) S n~ c 2 (n - 1)四、判断改错题(在你认为正确的题后括号内打“ 后括号内打“ × ” ,并在其正下方写出正确的答案来)4.4.1√ ” 。在你认为错误的地方和题2 2 设 总 体 X ~ N (m, s ) , X 1 , X 2 ,? , X 7 是 X 的 一 个 样 本 , S 为 样 本 方 差 , 则 有4S 2 ~ c 2 (7) 。 2 s( ×,因(n - 1) S 2s2~ c 2 (n - 1),所以正确的结论应为6S 2 ~ c 2 (6) ) 2 s4.4.2 凡是总体参数 q 的无偏估计量都是 q 的有效估计量。 ( ×, 总体参数 q 的有效估计量一定是它的无偏估计量, 而无偏估计则不一定是有效估计, 只有 q 的无偏估计量中其方差最小者,才能作为 q 的有效估计 ) 4.4.3 对于同一险种,投保人越多,保险公司的相对风险会越小。 (√,根据大数定律, n 充分大时,大量随机变量的总和或均值具有稳定性,随机事件发生 的频率也具有稳定性。因此,对于同一险种,投保的个体越多,保险公司的相对风险会越小 ) 4.4.4 若某种彩票中奖的概率为 5?,那么随机购买 1000 注彩票将有 5 注中奖。 ( ×,中奖概率为 5?,意味着在试验次数非常多的情况下,平均每 1000 注彩票大约有 526 学号:班级:姓名:注会中奖。但并不意味着每 1000 注彩票必然有 5 注中奖 )五、简答题4.5.1 说明随机变量 X 的方差 D( X ) 的意义。 答:指 X 分布在其均值 E ( X ) 附近的分散程度, D( X ) 越小,分布越集中在 E ( X ) 的附近, 反之,则越分散。六、计算题4.6.1 设 X : N (3, 4),试求: ⑴ P { X & 2};⑵ P {X & 3} 解: ⑴ P { X & 2}= 1- P { X ? 2} 1- P { 2 #X -2}轾骣 - 3 骣 2- 3 2 = 1- 犏珑 鼢 F F珑 鼢 = 1- 轾 F (0.5)- 1 + F (2.5) 1臌 犏珑 2 鼢 桫 2 桫 臌 = 1+ F (0.5)- F (2.5) = 1+ 0.6915 - 0.9938 = 0.6977⑵ P {X & 3}= 1- P {X ? 3} 1- F (0) = 0.5 4.6.2 一商店负责供应 1000 人的商品,某种商品在一段时间内每人需用一件的概率为 0.6。 假定各人在这段时间内购买与否彼此独立,问商店应备多少件这种商品,才能以 99.7%的概率保 证供应? 解: 每个人可能买,也可能不买该商品,可能买得概率是 0.6,现有 1000 人,设售出此商品得件 数为 X ,则 X ~ B() ,如果商店准备 x 件商品,就不会脱销,即P {X 3x} 0.997由棣莫弗-拉普拉斯( De Moivre - Laplace )中心极限定理,得P {X ? x}禳 镲 X - np x - np 镲 P镲 睚 镲 np (1- p ) np (1- p ) 镲 镲 铪 骣 - 600 ÷ x = F? ÷ 0.997 ? ? 240 ÷ 桫即x - 600 = 2.75, x = 643 2404.6.3 有 10000 人参加一家保险公司得人身受命保险,每年没人付 100 元得保险费,而在一 年内一个人死亡的概率是 0.006。死亡时,其家属可以从保险公司领取赔偿费 10000 元。试求: ⑴ 保险公司亏本的概率是多少? ⑵ 保险公司一年的利润不少于 300000 元的概率是多少?27 学号:解:班级:姓名:假设一年内有 X 人死亡,易知 X ~ B() ,于是np = 60,np (1- p) = 59.64⑴ “亏本”即入不敷出,公司每年收入 1000000 元,死亡 1 人支出 10000 元,死亡 100 人时则收支平衡。当 X & 100 时,公司就会亏本。所以有禳 - 60 100 - 60 X 镲 P {X & 100}= P 镲 & = 1- F (5.18) 睚 镲 59.64 59.64 镲 铪0即公司基本不会亏本。 ⑵ 利润不少于 300000 元,即支出要少于 000=700000 元,因此,死亡人数不 能多于 00=70 人。于是有禳0 - 60 X - 60 70 - 60 镲 P {0 & X & 70} = P 镲 & & 睚 镲 59.64 59.64 59.64 镲 铪 禳 X - 60 镲 = P 镲 7.769 & & 1.295 睚 镲 59.64 镲 铪 = F (1.295) + F (7.769)- 1 = 90.32%4.6.4 公共汽车车门的高度是按男子碰头的机会在 1%以下来设计的。设男子身高服从正态 分布,平均身高时 170 厘米,标准差是 6 厘米,问车门高度至少应为多少厘米? 解:2 记男子身高为随机变量 X ,则 X ~ N (170, 6 ) 。设车门高度为 h ,按题设要求有P {X & h} 0.01 P {X ? h} 骣 - 170 ÷ h F? ? ÷ 0.99 ? 6 ÷ 桫 h 184h - 170 吵2.328, 64.6.5 银行常以某一科目行社间往来账目记帐一笔为一标准工作量, 。根据 3 个营业员 72 天的统计,会计日人均工作量为 253.64(标准工作量) ,标准差为 45.91(标准工作量) 。假设会 计员的日人均工作量 X 服从正态分布。若完成标准工作量在 300 笔以上时,给以物质奖励,求 受物质奖励的面有多大? 解:2 由题设 X ~ N (253.64, 45.91 ) ,所以为28 学号:班级:姓名:p = P {X & 300} = 1- P {X 300} 300 - 253.64 45.91禳 - 253.64 X 镲 = 1- P 睚 镲 45.91 镲 铪 = 1- F (1.01) = 1- 0.8434 = 0.1562第五章一、填空题5.1.1统计推断设 样 本 X1, X 2 ,? , X 来自 N m , 1.69则对检验 H m= : ( ) , n 0, 35采 用 的 检 验 量 是Z=X - 35 。 1.3 n5.1.2 设 X1 , X 2 ,?, X n 是来自总体 X 的一个样本,又设 E ( X ) = m, D( X ) = s ,则总体22(样本方差) 均值 m 的无偏估计为 X (样本均值) ;总体方差 s 的无偏估计为 S 。5.1.3 若检验统计量的观测值落在拒绝域内,则应拒绝 H 0 。 5.1.4 设 X=21 n ?= 1 X i 为 来 自 正 态 总 体 N (m, s 2 ) 的 样 本 均 值 , m 未 知 , 欲 检 验 n iH0 : s = s22 0 ,检验的统计量为(n - 1) S 22 s0。2 2 5.1.5 两 个 正 态 总 体 均 值 的 假 设 检 验 H 0 : m = m2 (已知s 1 =s 2 ) , 检 验 量 为 1T=X- Y ,拒绝域为 T & ta (n1 + n2 - 2)。 1 1 Sp + n1 n25.1.6 若其他条件不变,置信度越高,则置信区间的长度 越长 。二、单项选择题(在每小题的 3 个备选答案中选出 1 个正确答案,并将其字母填在题干后面的括号内) 5.2.1 对总体参数进行抽样估计的首要前提是必须 ( B ) A.事先对总体进行初步分析 B.按随机原则抽取样本 C.保证调查数据的准确性、及时性 5.2.2 若其它条件相同,则下列诸检验的 P 值中拒绝原假设理由最充分的是 ( A ) A.2% B.10% C.25% 5.2.3 某校有学生 8000 人,随即抽查 100 人,其中有 20 人对学生管理有意见,则该校学生 中对学校后勤管理有意见的人数的点估计值为 ( C )29 学号:班级:姓名:A.20% B.20 C..4 如果总体服从正态分布,但总体均值和方差未知,样本量为 n ,则用于构造总体方差 置信区间的随机变量的分布是 ( C ) A. N (0,1) B. N (m, s2)C. c 2 (n - 1)5.2.5 其他条件相同时,要使抽样误差减少 1/4,样本量必须增加 ( C ) A.1/4 B.4 倍 C.7/9 5.2.6 影响区间估计质量的因素不包括 ( B ) A. 置信度 B. 总体参数 C. 样本量 5.2.7 某企业最近几批产品的优质品率分别为 88%,85%,91%,为了对下一批产品的优 质品率进行抽样检验,确定必要的抽样数目时, P 应选 ( A ) A.85% B.87% C.90% 5.2.8 设 X ~ N (m, s 估计量为 A.2) , ( X1, X 2 ,?, X n )是 X 的一个简单随机样本,则未知参数 s 2 的矩( A ) B.1 ? n(Xi -X)2?( X i - m)2C. n?( X i - m)2三、多项选择题(在下列 4 个备选答案中,至少有二个是正确的,请将其全部选出,并把字母填在题干后面的括号内) 5.3.1 推断统计学研究的主要问题是 ( ABD ) A.如何科学地从总体中抽出样本 B.怎样控制样本对总体的代表性误差 C.怎样消除样本对总体的代表性误差 D.如何科学地由所取样本去推断总体 5.3.2 确定样本容量时,必须考虑的影响因素有 ( ACD ) A.总体各单位之间的离散程度 B.样本各单位之间的离散程度 C.抽样方式的极限误差 ? D.抽样推断的把握程度 5.3.3 影响抽样误差大小的因素有 ( ACD ) A.总体各单位之间的离散程度 B.调查人员的素质 C.抽样方式与抽样方法 D.样本容量? ? 5.3.4 若 q1 , q2 都是总体参数 q 的无偏估计量,正确的说法是 ? ? A. q1 = q, q2 = q? ? ? ? B.若 D q1 ? D q2 ,则 q1比q2 更有效( BC )( )( )? ? C. E q1 - q = 0, E q2 - q = 0()()?2 ? D. q1 和 q也是q的无偏估计量)5.3.5 在其他条件不变时,抽样推断的置信度 1 - a 越大,则 ( ACD A.允许误差范围越大 B.抽样推断的精确度越高 C.抽样推断的精确度越低 D.抽样推断的可靠性越高 5.3.6 区间估计 ( BD A.没有考虑抽样误差大小 B.考虑了抽样误差大小 C.不能说明估计结果的可靠程度 D.能说明估计结果的可靠程度 5.3.7 关于原假设的建立,下列叙述中正确的有 ( CD A.若不希望否定某一命题,就将此命题作为原假设 B.尽量使后果严重的错误成为第二类错误 C.质量检验中若对产品质量一直很放心,原假设为“产品合格(达标) ” D.若想利用样本作为对某一命题强有力的支持,应将此命题的对立命题作为原假设。 5.3.8 计算抽样平均误差时,若总体方差未知,通常有下列替代方法 ( ABD A.大样本条件下,用样本方差代替 B.用以前同类调查的总体方差代替 C.有多个参考数值时,应取其平均数代替 D.对于成数 p ,有多个参考数值时,应取其中最接近 0.5 的数值来计算30))) 学号:班级:姓名:5.3.9 用样本成数推断总体成数时, 至少要满足下列哪些条件才能认为样本成数近似于正态 分布 ( ABC ) A. np ? 5 B. n (1- p)5 C. n ? 30D. p ? 1% ( BD )5.3.10 在假设检验中, a 与b 的关系是A. a 与b 绝对不可能同时减小 B.在其他条件不变的情况下,增大 a ,必然会减小 b C.只能控制 a ,不能控制 b D.增加样本容量可以同时减小 a 与b 5.3.11 关于零假设和备择假设,正确的是 ( BCD ) A.零假设和备择假设可以交换位置 B.零假设表明结果的差异由随机因素引起 C.备择假设是研究者要证明的假设 D.零假设是受到保护的假设 5.3.12 关于 P 值,正确的说法是 ( AC ) A. P 值是最小的显著性水平 B. P 值是最大的显著性水平 C. P 值越小,拒绝零假设的证据越强 D. P 值越大,拒绝零假设的证据越强四、判断改错题(在你认为正确的题后括号内打“ 后括号内打“ × ” ,并在其正下方写出正确的答案来)√ ” 。在你认为错误的地方和题5.4.1 对两个总体方差相等性进行检验,在 a = 0.01 的显著性水平上拒绝了原假设,这表 示原假设为真的概率小于 0.01。 (×,指原假设为真时拒绝原假设的概率,即犯第一类错误的概率不大于 0.01。原假设或成 立,或不成立,时未知不确定的,不能说有多大概率为真。) 5.4.2 检验改革开放后城镇居民和农村居民收入的方差是否相等, 检验统计量时服从自由度 为 (n- 1)的 c 2 分布。 (×,采用 F 检验,即检验统计量 F 服从自由度为 (n1 - 1, n2 - 1) 的 F 分布。) 5.4.3 在假设检验问题中,显著性水平 a 是原假设 H 0 正确时,经检验接受 H 0 的概率。 (×,在假设检验问题中,显著性水平 a 是犯第一类错误的概率,即原假设 H 0 成立,经检 验拒绝 H 0 的概率。) 5.4.4 设 总 体 X 具 有 期 望 和 方 差 , X1 , X 2 , X 3是 X 的 一 个 样 本 , 则1 1 1 1 且 ( ( X 1 + X 2 + X 3 )与h2 = X 1 + X 2 + X 3 都是 X 的无偏估计, h1较h2 有效。 √ ) 3 6 3 2 5.4.5 接受原假设 H 0 , 不一定 H 0 是正确的。 ( √ ) 5.4.6 总体 X 不服从正态分布时,检验均值一定不能用 Z 检验。 (×,若总体 X 不服从 2 正态分布,但 D( X ) = s 已知,且样本容量很大时 (n ? 30) ,也可用 Z 检验。) h1 =五、简答题5.5.1 未知参数 q 的点估计与区间估计主要有哪些不同之处? 答:⑴ 定义不同。点估计就是用一个统计量 T ( X1 ,?, X n )作为未知参数 q 的估计;而区间 估计是指用两个统计量 q ( X1 ,?, X n ), q ( X1,?, X n ) 构造一个随机区间 (q , q ) ,该区间以 1 - a 的概率包含未知参数 q 。 ⑵ 估计可靠性的刻画不同。点估计没有给出估计的可靠性,而区间估计在给出随机区间的 同时,也给出这一区间包含未知参数的概率。31 学号:班级:姓名:5.5.2 若总体 X 的分布未知,而方差 s 已知,可否选用统计量 Z = 间估计?2x- m 对均值 m 进行区 s n答:当样本量 n 很大时 (n ? 30) 是可以的,因由中心极限定理,知样本均值 X 渐近正态分 布,即 X ~ N ?m, ? ? 5.5.3骣 s 2÷ X- m ÷,从而 Z = ~ N (0,1) ,故可用 Z 对进行区间估计。 ÷ ? n÷ 桫 s n有人认为:假设检验中,给定检验水平 a ,对于检验假设 H 0 ,犯弃真错误的概率为a ,则犯采伪错误的概率为 1 - a ,你说对吗? 答:如果犯弃真错误的概率为 a ,犯采伪错误的概率为 b ,一般情况下, b ? 1 a ,因为“采伪”与“弃真”并不一定是对立事件。在假设检验中,我们无论作出接受还是拒绝原假设的 判断,都是依据小概率事件在一次试验中几乎不可能发生的原理,既然是几乎,当然就有例外, 如果例外,就犯错误。 5.5.4 正态分布的主要特征有哪些? 答:(1)图形呈钟型、中间高、两头低、左右对称;(2)最高处对应于 x 轴的值就是均数 (位置参数);(3)标准差决定曲线的形状(形状参数);(4)曲线下面积为 1;(5)是一 个正态分布簇,经 Z 变换可转换为标准正态分布; (6)其他分布(如 t 分布、 F 分布、c 2 分布、 二项分布、Poisson 分布等)的基础。 5.5.5 简述评价估计量好坏的标准。 答:一般将同时满足以下三条标准的估计量称为优良估计量。? ? ⑴ 无偏性,即 E q = q ,称 q 为 q 的无偏估计量。()? ? ? ? ? ? ⑵ 有效性,即 E q1 = q , E q2 = q ,且 D q1 & D q2 ,则相对 q2 来说, q1 是 q 的有( )( )( )( )效估计量。 ⑶ 一致性,即当任意给定 e & 0 时,有n?? lim P q - q & e = 1{}即当 n?? ? 时, q 依概率收敛于 q ,则称 q 为 q 的一致估计量。5.5.6 怎样确定假设检验问题的零假设和备择假设? 答:通常零假设表示结果的差异是随机因素引起,而不是系统性或结构性因素引起;备择假 设是研究者要证明的假设,要认为其正确必须有显著证据才能被人接受;零假设是受到保护的假 设。 5.5.7 临界值检验法有那些步骤? 答:(1)确定零假设和备择假设,(2)确定检验统计量及其分布,(3)根据样本观测数据计算检 验统计量的观测值,(4)根据检验统计量的分布和显著性水平确定检验的临界值,进而确定拒绝 域,(5)判断检验统计量的观测值是否落于拒绝域,是,则拒绝零假设,否则,不能拒绝。 5.5.8 怎样理解假设检验问题的 P 值?它与显著性水平什么关系? 答: P 值是零假设为真时,检验统计量得到至小象观测值那么极端情形的概率,通常称为 观测的显著性水平,是零假设能被拒绝的最小显著性水平。32 学号:班级:姓名:六、计算题5.6.1 在一项新的安全计划制定出来之前,某厂每天的平均岗位事故数为 4.5。为了确定这 项安全计划在减少每天岗位事故数方面是否有效, 在制定新的安全计划后随机取了一个 120 天的 样本,并记录下每天的事故数。得出的样本均值和标准差分别为: x = 3.7, S = 2.6 。问:有 无充分证据(在 0.01 显著性水平下)作结论说,该厂每天岗位事故数在制定新的安全计划后有 所减少? 解:记 m 为该厂制定新的安全计划后每天岗位事故的均值,为了确定安全计划是否有效,需 检验如下假设:H0 : m= 4.5 (即平均每天岗位事故数无变化) H1 : m& 4.5 (即平均每天岗位事故数有变化)已知 n = 120 属于大样本,故 X 的抽样分布接近正态分布,有:Z=X- m ~ N (0,1) s n3.7 - 4.5 = - 3.37 2.6 120查表得 Z0.01 = - 2.23计算得: Z =Z & Z0.01所下降。说明有充分理由作结论说,该厂每天平均岗位事故数自制定新安全计划以来有5.6.2 羊毛制品,在处理前后分别抽样分析其含脂率如下: 处理前, xi :0.19,0.18,0.21,0.30,0.41,0.12,0.27 处理后, yi :0.15,0.13,0.07,0.24,0.19,0.06,0.08,0.12 假定处理前后的含脂率都服从正态分布, 且标准差不变, 试问在处理前后含脂率的平均值是否有 显著变化? (a = 0.05) 解:检验假设 H0 : m = m2 , H1 : m 1 1 检验量 T =m2n1n2 (n1 + n2 - 2) ~ t (n1 + n2 - 2) n1 + n2n1 = 7 n2 = 8x- y(n1 - 1) S12 + (n2 - 1) S22x = 0.24, y = 0.13, S12 = 0.0078,2 S2 = 0.0034,经计算得:将这些数据代如 T 得, T = 2.68 当 a = 0.05 时,查 t 分布表得ta 2 (13) = t0.025 (13) = 2.16由于T = 2.68 & t0.025 (13) = 2.1633 学号:班级:姓名:所以,拒绝原假设 H 0 ,即认为处理前后含脂率的平均值有显著变化,但由于 T & 0, x & y , 因此可认为处理后含脂率的平均值显著下降。 5.6.3 为了了解各个省份男女人口比例, 某机构进行了一项调查。 其中从云南省随机抽取了 4000 人,结果男性比例为 0.52。请在 0.05 的显著性水平下检验云南省男性比例是否显著不等于 0.5。如果样本量为 2000 人,结果仍为男性比例为 0.52,在同样的显著性水平下,你的检验结论 又是什么?你是怎样理解 52:48 这个男女比例的? 解:检验假设 H0 : p = p 0 = 0.5, H1 : pp0已知 n = 4000 属于大样本,故 p 的抽样分布接近正态分布,有:Z=p - p0 p 0 (1- p 0 ) n = 2.35~ N (0,1)计算得: Z =0.52 - 0.5 0.5? (1 0.5) 4000查表得 Z0.025 = 1.96Z & Z0.025说明有显著证据表明该省男女比例不等于 0.5。当样本量为 2000 时,用同样的方法可计算出 Z = 1.79 ,因 Z & Z0.025 ,所以不能认为有显 著证据表明该省男女比例不等于 0.5。 显著性检验结果受检验水平 a 和样本量 n 的影响, 而检验结果是否显著不等于是否重要, 男 女比例为 52:48 是否说明比例失调属于社会问题。 5.6.4 北京市劳动和社会保障局公布的 2004 年的北京市职工年平均工资为 28348 元。北京 市某大学教师想检验自己学校具有讲师职称的老师的平均工资与北京市平均工资有无显著差别, 他随机抽取了 36 名大学职称为讲师的老师的年工资作为样本,结果显示:36 人的年平均工资为 29040 元,标准差为 2300 元。请检验该大学具有讲师职称的教师的年平均工资与北京市职工年 平均工资水平是否有显著差别。 (a = 0.05) 解: H0 : m= 28348 (即两者的年平均工资水平无显著差别)H1 : m? 28348 (即两者的年平均工资水平有显著差别)已知 n = 36 属于大样本,故 X 的抽样分布接近正态分布,有: Z =X- m ~ N (0,1) s n计算得: Z =29040 - 28348 = 1.81 2300 3634 学号:查表得 Z0.025 = 1.96班级:姓名:Z & Z0.025所以没有显著证据表明该大学具有讲师职称的教师的年平均工资与北京市职工年平均工资水平有显著差别。 5.6.5 某机构对两个大城市居民的消费习惯差异感兴趣, 为了了解各项指标的差异进行了抽 样调查,其中一项指标是两个城市每天乘小汽车的里程数的差异。从城市 A 抽取 50 个居民构成 一个简单随机样本,结果显示均值为每天 12.5 公里,标准差为每天 4.3 公里;与 A 独立地从 B 城市抽取 100 个居民构成另一个简单随机样本,均值是每天 11.2 公里,标准差是每天 3.8 公里。2 2 请检验两个城市居民在使用小汽车方面是否有显著差异(假定 s A = s B ) (a = 0 。 5 .)解:检验假设 H0 : mA = mB , H1 : mA 检验量mBZ=xA - xB2 2 sA sB + nA nB~ N (0,1)经计算得:xA = 12.5, xB = 11.2,2 2 s A = S A = 4.32 , 2 2 s B = S B = 3.82 ,nA = 50 nB = 100将这些数据代如 Z 得, Z = 1.81 当 a = 0.05时,查Z分布表得za / 2 = z0.025 = 1.96 ,因为 Z & Z0.025 ,所以没有显著证据表明两个城市居民在使用小汽车方面有显著差异。 5.6.6 某公司对本公司的产品在电视上打了一段时间的广告, 管理者想知道广告是否有明显 的效果。某市场研究公司对该问题进行了研究,公司调查了 10 个人在公告播出前后的购买潜力 等级分值,分数越高说明购买潜力越高。 个体 1 2 3 4 5 6 7 8 9 10 广告后 6 6 7 4 3 9 7 6 5 6 广告前 5 4 7 3 5 8 5 6 4 6 请建立该研究问题的零假设和备择假设,并对检验问题在 0.05 的显著性水平下进行检验。 解:零假设: m ? m ,备择假设: m & m 后 后 前 前t-检验: 成对双样本均值分析 广告后 平均 方差 观测值 泊松相关系数 假设平均差 df t Stat P(T&=t) 单尾 t 单尾临界 5.9 2. 0. 9 1... 广告前 5.3 2. 学号:P(T&=t) 双尾 t 双尾临界班级:0..姓名:由于 t = 1.62 & ta (n - 1) = t0.05 (9) = 1.83 ,所以没有显著证据表明广告提高了购买潜力。 5.6.7 某经济学家在北京和上海进行一项关于高速公路选择的研究项目。 他提出一个机会模 型以获取各种不同因素对决策的影响。 “客观的政治和公众因素”包括各种政府机构、学校部门、 商业部门、企业等的意见。为了查清这些因素对高速公路决策的影响,该经济学家做了显著性检 验,零假设为客观的政治和公众因素对决策不起作用。观测的显著性水平约为 3%。由于结果是 统计显著但不是高度显著的,因此该经济学家下结论说“这些因素影响高速公路的决策,但影响 力是相对弱的” 。这结论是统计检验的结果吗? 解:3%是检验的 P 值, P 值大小只说明差别的显著性,并不说明差别的大小及重要程度, 因此不能据此说明影响力的强弱。 5.6.8 从某系一年级学生中随机抽取的 10 名学生所提供的年龄资料是:18,19,18,18, 20,17,18,19,18,19。求该系一年级学生平均年龄 95%的置信区间。 解:3%是检验的 P 值, P 值大小只说明差别的显著性,并不说明差别的大小及重要程度, 因此不能据此说明影响力的强弱。 5.6.9 某公司新推出一种营养型豆奶,为做好促销工作随机地抽取顾客作为样本,并问他们 是否喜欢此豆奶,如果要使置信度为 95%,抽样误差不超过 0.05,则在下列情况下,你建议样本 的容量为多大? ⑴ 假如初步估计,约有 60%的顾客喜欢此豆奶。 ⑵ 假如没有任何资料可用来估计大约有多少比率的顾客会喜欢此豆奶。 解: Z0.025 = 1.962⑴ s = 0.5? 0.50.25? 1.962 0.25 , n = = 384.2, 取n = 385 0.052 0.24? 1.962 0.24 , n = = 368.9, 取n = 369 0.052⑵ s = 0.6? 0.425.6.10 在对一种新生产方法进行测试过程中,随机选出 9 名员工,由他们尝试新方法。结 果这 9 名员工使用新生产方法的平均生产率是每小时 60 个零件,而抽样总体标准差为每小时 8 个零件。试求这一新生产方法的平均生产率的置信区间( a = 5%,1% ) 。 解:? X ? N (m, sn)\ h=X- m X- m = ? N (0,1) 83 s n当 a =5%时, Za 2 = 1.968 = 5.23 3 所以m 的置信区间为[54.77, 65.23] x - m 41.96 当a=%时,Z a / 2 = 2.58 , 1 x - m 42.58 8 = 6.88 3所以m 的置信区间为[53.12, 66.88]36 学号:班级:姓名:第六章一、填空题非参数统计6.1.1 现代非参数统计方法包括 估计 和 假设检验 两部分内容。 6.1.2 非参数统计主要是利用样本数据的 相对大小关系 来研究统计推断的问题。 6.1. 3 Wilcoxon 符号秩检验是检验 关于中位数对称的总体的中位数是否等于某个特定 值 。 6.1.4 Spearman 秩相关系数为 rs ?? (Ri ?1ni? R )(S i ? S )2? (Ri ?1ni? R)? (Si ?1n? 1?26? d i2 n(n ? 1)i ?1 2n。i? S)6.1.5 Pearson 相关系数 r 只能度量 X 与 Y 的 线性 关系。二、单项选择题(在每小题的 3 个备选答案中选出 1 个正确答案,并将其字母填在题干后面的括号内) 6.2.1 以下为非参数检验的是 A.正态总体的 t 检验 B.Brown-Mood 中位数检验 C.似然比检验 6.2.2 符号检验检验统计量在零假设下服从 A.泊松分布 B.正态分布 C.二项式分布 6.2.3 Wilcoxon 符号秩检验需假定样本点(符号检验不需要此假设) A. X1 ,K , X n 来自连续对称总体 B.正态分布 C.随机样本 6.2.4 游程检验统计量在大样本情况下服从 A.卡方分布 B.正态分布 C.二项式分布 6.2.5 配对 Wilcoxon 秩检验统计量在大样本情况下服从 A.卡方分布 B.正态分布 C.二项式分布 ( B ) ( C ) ( A ) ( B ) ( B )三、多项选择题(在下列 4 个备选答案中,至少有二个是正确的,请将其全部选出,并把字母填在题干后面的括号内) 6.3.1 以下为非参数检验的是 ( ABCD ) A.配对 Wilcoxon 检验 B.Wilcoxon 符号秩检验 C.符号检验 D.Mann-Whitney 检验 6.3.2 符号检验检验可以对那些位置进行假设检验 ( ACD ) A.中位数 B.均值 C.分位数 D.方差 6.3.3 符号秩检验统计量可以是 ( ABCD ) A.正秩的总和 T+ B.负秩的总和 T- C.T=min( T+ , T- ) D.以上都是 6.3.4 以下为非参数相关性检验 ( AB ) A.Spearman 相关系数 B.Kendallτ 相关系数 C.Pearson 相关系数 D.以上都是四、判断改错题(在你认为正确的题后括号内打“ 后括号内打“ × ” ,并在其正下方写出正确的答案来)6.4.1 非参数统计意味着与所有分布无关。37√ ” 。在你认为错误的地方和题 学号:班级:姓名:(×,参数检验有时会利用分布情况如分布的对称性) 6.4.2 在所有的情况下非参数统计方法都优于参数统计方法。 (×,已知具体分布形式时,使用非参数统计会损失信息) 6.4.3 从非参数角度来看,一组数据的最基本的信息就是次序。 ( √ ) 6.4.4 卡方检验与待估参数个数无关。 (×,卡方检验自由度受待估参数个数影响) 6.4.5 符号秩检验在任何情况下都优于符号检验。 (×,符号检验主要检验位置参数,符号秩检验主要检验分布是否对称)五、简答题6.5.1 比较非参数统计方法与参数统计方法的区别。 答: (1)对总体依赖不同; (2)对参数的假定不同;(3)适用的数据类型不同; (4)适用的范 围不同。 6.5.2 简述非参数检验的局限性。 答: (1)可能会浪费一些信息;特别当数据可以使用参数模型的时候。Example: Converting Data From Ratio to Ordinal Scale; (2)大样本手算相当麻烦; (3)一些表不易得到。六、计算题6.6.1 设某化妆品厂商有 A 和 B 两种品牌,为了了解客户对 A 品牌和 B 品牌在使用上的差 异,将 A 品牌和 B 品牌同时交给 45 个客户使用,一个月以后得到以下数据: 喜欢 A 品牌的客户人数:22 人;喜欢 B 品牌的客户人数:18 人;不能区分的人数:5 人。 试检验喜欢 A 品牌的客户和喜欢 B 品牌的客户比例是否相同。 解:假设检验: H0:喜欢 A 品牌的客户和喜欢 B 品牌的客户比例相同 H1:喜欢 A 品牌的客户和喜欢 B 品牌的客户比例不相同Z=22 - 20 + 0.5 = 0.791 & Z 0.05 = 1.96 40 4结论:证据不足不能拒绝零假设,没有证据显示喜欢 A 品牌的客户和喜欢 B 品牌的客户比 例不相同。 6.6.2 在试验少量酒精对反映时间的影响时,测试了 10 个人在喝了 2 杯啤酒前后的反应时 间如下(单位:秒) : 10 个人在喝了 2 杯啤酒前后的反应时间统计表 喝前 喝后 0.74 0.85 0.84 0.81 0.63 0.62 0.66 0.81 0.55 0.33 0.76 0.46 0.64 0.86 0.80 0.75 0.88 0.78 0.77 0.86该 数 据 是 否 说 明 酒 精 和 反 应 时 间 有 关 , 试 分 别 运 用 Brown-Mood 中 位 数 检 验 、 Wilcoxon (Mann-Whitney)秩和检验对该问题进行分析。 解:假设检验:H0:酒精和反应时间无关 H1:酒精和反应时间有关 Brown-Mood 中位数检验,p-value = 0.2476289 结论:证据不足不能拒绝零假设,没有证据显示酒精和反应时间有关。 Wilcoxon rank sum test with continuity correction data: x1 and x238 学号:班级:姓名:W = 29.5, p-value = 0.1303 alternative hypothesis: true location shift is not equal to 0 结论:证据不足不能拒绝零假设,没有证据显示酒精和反应时间有关。 6.6.3 某医院对 9 对双胞胎的智力进行检验,并按百分制打分。现将资料如表所示。试用 Kendall 相关检验方法检验双胞胎的智力是否相关。 智力统计表双胞胎对的编号 先出生的儿童 后出生的儿童 1 86 88 2 77 76 3 68 64 4 91 96 5 70 65 6 71 80 7 85 81 8 87 72 9 63 60解:Kendall’s tau 相关系数为 0.7222222 T = 31, p-value = 0.005886 alternative hypothesis: true tau is not equal to 0 sample estimates: P? 值小于 0.05,所以拒绝原假设。39 学号:班级:姓名:第七章一、填空题7.1.1方差分析与正交试验设计初步方差分析 是一种检验多个总体均值是否相等的统计方法。7.1.2 方差分析的英文缩写是 ANOVA 。 7.1.3 一般将方差分析中的研究对象称为 因素 ,而因素中的内容称为 水平 。 7.1.4 方差分析实际上是要检验假设 H 0 :m = m2 = ?= mm H1 : m , m2 ,?, mm 不全相等。 1 1 7.1.5 平方和分解公式的表达式是 ST = S E + S A 。 7.1.6 总离差平方和 ST 是描述 所有 数值离散程度的数量指标。 7.1.7 组内平方和 SE 反映了 样本 的随机波动。 SE 的自由度为 f E = mk- m 。 7.1.8 组间平方和 S A 反映了因素水平的不同及随机因素引起的差异 。 S A 的自由度为f A ? m ? 1。7.1.9 单因素方差分析中的检验统计量为 F =SA / fA 。 SE / f E7.1.10 在方差分析中将各个因素不同水平的搭配所产生的新影响称为 交互作用 。 7.1.11 无交互作用的双因素方差分析离差总平方和 ST 的分解式是 ST = S A + S B + S E 。 7.1.12 与无交互作用双因素方差分析有关的自由度之间的关系是 fT = f A + f B + f E 。 7.1.13 无交互作用双因素方差分析使用的 2 个检验统计量计算公式分别 是 FA ?SA / fA S /f ~ F (r ? 1, (r ? 1)( s ? 1)) , FB ? B B ~ F ( s ? 1, (r ? 1)( s ? 1)) 。 SE / f E SE / f E7.1.14 有 交 互 作 用 双 因 素 方 差 分 析 使 用 的 3 个 检 验 统 计 量 计 算 公 式 分 别 是 S A /(r ? 1) S B /( s ? 1) S /((r ? 1)( s ? 1)) FA ? , FB ? , FA? B ? A? B 。 S E /(rs (t ? 1)) S E /(rs (t ? 1)) S E /(rs (t ? 1)) 7.1.15 在正交试验中,进行方差分析使用的检验统计量为 Fj =S j /(s f j ) SE /(s f E )22= MS j / MS E 。7.1.16 当试验指标 不 服从正态分布时,可使用贡献率分析法进行分析。二、单项选择题(在每小题的 3 个备选答案中选出 1 个正确答案,并将其字母填在题干后面的括号内) 7.2.1 反映样本数据随机波动的平方和是 A. ST B. SE C. S A ( C ) ( B )7.2.2 反映因素中各水平总体均值不同及随机因素引起的数据差异的平方和是 A. ST B. SE40C. S A 学号:班级:姓名:( A )7.2.3 无交互作用的双因素方差分析离差总平方和与其它平方和的关系是 A. ST ? S A ? SB ? SE B. S A ? ST ? SB ? SE C. SE ? S A ? SB ? ST7.2.4 实验设计的三个基本要素是 A.实验对象、实验效应、观察指标 B.随机化、重复性、区组化 C.随机化、均衡性、齐同对比( B )三、多项选择题(在下列 4 个备选答案中,至少有二个是正确的,请将其全部选出,并把字母填在题干后面的括号内) 7.3.1 有交互作用双因素方差分析使用的检验统计量计算公式正确的是 A. FA ? C. FA? BS A /(r ? 1) S E /(rs (t ? 1)) S /((r ? 1)( s ? 1)) ? A? B S E /(rs (t ? 1))( ABC )B. FB ?S B /( s ? 1) S E /(rs (t ? 1)) ST /(r ? 1) D. FA ? S E /(rs (t ? 1))7.3.2 试验设计的基本原则是 A.重复性 B.随机化 C.区组化 D.不变性( ABC )四、判断改错题(在你认为正确的题后括号内打“后括号内打“ × ” ,并在其正下方写出正确的答案来)√ ” 。在你认为错误的地方和题7.4.1 方差分析是一种检验多个总体均值是否相等的统计方法。 7.4.2 总离差平方和 ST 是描述所有数值集中程度的数量指标。 7.4.3 方差分析采用 t 检验。 (×,系统因素) 7.4.5 方差分析假定各水平观察值为来自正态总体的随机样本。S A /(m ? 1) ~ F (m ? 1, mk ? m) S E /(mk ? m)( √ ) ( √ )(×,方差分析采用 F 检验 )7.4.4 方差分析就是解决随机因素是否是造成数据差异的主要原因的问题。 ( √ )7.4.6 组间方差为 SE /(mk ? m) 。 (×,组间方差为 S A /(m ? 1) , SE /(mk ? m) 为组内方差 ) 7.4.7 检验统计量为 F ? ( √ ) ( √ )7.4.8 如果 F ? Fa ,则接受原假设 H0 。 方法。 7.4.10 F 检验不显著,也可以对均值作多重比较。7.4.9 多重比较法是通过对总体均值之间的配对比较来检验是哪些均值之间存在差异的 ( √ )(×,要是 F 检验不显著,最好避免对数量很少的均值作多重比较,否则有可能出现模糊, 甚至矛盾的结}

我要回帖

更多关于 统计学的数学基础 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信