统计学问题:就大学生统计学调查课题熬夜情况提出5个,可以用商务统计解决的实际问题。

当前位置: >>
商务统计学
商务统计学习讲座雷钦礼 前言? 一、商务统计课程的性质 ? 二、商务统计学习的方法 一、商务统计课程的性质? 1、商务统计是全面系统论述商务与经济 统计活动全过程中所用统计理论与方法 的综合性课程,在调查分析师证书系列 课程中是具有提纲挈领作用的一门课程。 ? 2、商务统计课程的内容都是硕士研究生 入学考试必考的内容,是任何一个统计 人员和调查分析人员都必须掌握的统计 学的核心知识。 二、商务统计学习的方法? 1、商务统计是一门应用性统计学课程,在学 习过程中应注重各种基本概念的含义和各种方 法的基本原理与应用,要掌握每种方法的使用 条件、计算步骤、以及结果的意义与解释。 ? 2、要在理解和领会中记忆和掌握课程的内容。 如对于各种统计分布的复杂的密度函数公式就 不需记忆,但却需要熟练掌握其概念定义以及 分布函数表的使用方法。 第一章 绪论?一、统计学的性质 ?二、统计学的作用 ?三、统计学的基本概念 ?四、统计指标体系的设计 一、统计学的性质? (一)统计活动的内容与阶段 ? 对各种数据资料的搜集、整理、分析和推断的 活动过程称为统计活动,一项完整的统计活动过程 可分为统计资料的搜集整理和统计资料的分析推断 两大阶段。 ? (二)统计学的定义与分科 ? 统计学就是关于数据资料的搜集、整理、分析 和推断的科学。关于统计资料的搜集整理和分析推 断的理论与方法构成了统计学的全部内容。 ? (1)理论统计学与应用统计学 ? (2)描述统计学与推断统计学 二、统计学的作用? (一)统计学在科学研究中的作用――提出假 说并判定假说的正确与否 ? (二)统计学在生产中的作用――通过试验分 析找出最佳工艺,并对生产过程进行统计质量 控制。 ? (三)统计学在管理中的作用――抽样调查了 解社会与市场,为决策提供依据;并可建立各 种社会与经济发展模型,定量地模拟社会与经 济的运行,既可分析社会与经济的发展及其结 构变化,又可进行政策效果的评价。 三、统计学的基本概念? (一)总体和个体 组成统计活动研究对象的全部事物的全 体集合,就称为统计总体,简称总体或 母体;而总体中的各个事物则称为个体, 总体中个体的数量称为总体容量。 1、自然物体总体与人为划定个体的总体; 2、有限总体与无限总体; 3、具体总体与设想总体(抽象总体)。 三、统计学的基本概念(二)统计指标及其测度 用来测度统计活动研究对象某种特征数量的 概念称为统计指标,简称指标。其中,测度总 体特征数量的概念称为总体指标,而测度个体 特征数量的概念则称为个体指标。 指标的测度计量尺度有(1)定类尺度, (2)定序尺度,(3)定距尺度,(4)定比 尺度 。 三、统计学的基本概念(三)样本和统计推断 1、样本――从总体中随机抽出的部分 个体所组成的集合称为样本或子样,样 本中所含个体的数目称为样本容量。 2、统计推断――根据样本观测资料来 对总体的分布状况和分布特征进行推断。 3、样本数据的分类――(1)横截面 数据,(2)时间序列数据。 四、 统计指标体系及其设计(一)统计指标体系的定义 反映总体及其所含个体的各个方 面特征数量的一系列相互联系、相互 补充的统计指标所形成的体系,称为 统计指标体系。 (二)构建统计指标体系的意义 (三)指标体系中指标的分类? 1、水平指标――(1)存量指标与流量 指标,(2)实物指标与价值指标。 ? 2、比率指标――(1)比例相对指标, (2)比值相对指标,(3)动态相对指 标,(4)弹性相对指标,(5)强度相 对指标。 (四)指标体系设计的内容1、确定统计指标体系的框架; 2、确定每一个指标的内涵和外延; 3、确定每个统计指标的计量单位; 4、确定每个统计指标的计算方法。 (五)指标体系设计的原则1、目的性原则 2、科学性原则 3、可行性原则 4、联系性原则 第二章 数据采集与整理? ? ? ? 一、数据采集的方式与程序 二、现场调查 三、试验观测 四、数据的整理显示 一、数据采集的方式与程序(一)数据采集――根据统计指标体系的要求, 对所研究总体中个体的相应指标进行观测记录 取得数据的活动过程。 (二)数据采集活动的基本要求――采集到的数 据资料要具有代表性和真实性。所谓代表性, 是要求所观测到的样本必须对所研究总体具有 代表性;而所谓真实性,则是要求所采集到的 数据必须是真实的实际数据。 (三)数据采集方式的分类――现场调查和试验 观测 一、数据采集的方式与程序? (四)数据采集的程序 ? 1、制定数据采集方案――包括(1)采 集数据的目的,(2)采集总体和观测单 位,(3)观测指标数值登记表,(4) 采集方式和组织,(5)采集时间和期限。 ? 2、现场观测登记 ? 3、数据整理显示 二、现场调查? (一)调查的取样方式 ? 1、随机抽样调查 ? (1)简单随机抽样,(2)系统抽样, ? (3)分层抽样,(4)整群抽样。 2、非随机抽样调查 (1)任意抽样,(2)立意抽样, (3)配额抽样。 3、概率抽样和非概率抽样的特点比较 二、现场调查(二)现场调查的观测方式 1、访问法 (1)口头访问――当面访问或电话 访问 (2)书面访问――邮局或互联网邮 件传递,以及登门送收 2、观察法 二、现场调查? (三)现场调查的问卷设计 ? 1、提问方式 ? (1)封闭型提问 ? (2)开放型提问 ? 2、提问次序 三、 试验观测? (一)试验观测设计的原则 ? 1、均衡分散性原则 ? 2、整齐可比性原则 ? (二)试验观测的方法 ? 1、完全随机试验观测 ? 2、随机区组试验观测 ? 3、拉丁方试验观测 ? 4、正交试验观测 四、数据整理与显示? (一)构建观测资料数据库的意义与方法 ? (二)观测数据的分类显示 ? 1、观测个体的分类 ? (1)分类的功能与原则 ? (2)分类的方法 ? 2、统计表的编制 ? (1)统计表的构成 ? (2)统计表的编制规则――内容安排科学 合理,形式设计简练美观。 第三章 次数分布? ? ? ? ? ? 一、次数分布的概念 二、次数分布表及其编制 三、次数分布图 四、次数分布的理论模型及其表示方法 五、离散变量概率分布模型 六、连续变量概率分布模型 一、次数分布的概念? (一)次数分布:观测变量的各个不同取值及 其出现次数的顺序排列,称为变量的次数分布。 ? (二)总体次数分布和样本次数分布 ? (三)次数分布的作用――观测变量的次数分 布包含了观测变量取值的全部信息。根据观测 变量的次数分布,可以对观测变量的各种分布 特征进行描述和分析。 二、次数分布表及其编制? (一)次数分布表的种类 ? 1、单值分组次数分布表 ? 2、组距分组次数分布表 ? (二)组距分组次数分布表的编制方法 1、确定组数 等距分组的斯特吉斯公式:m=1+3.322lgN 2、确定组距 Max?xi ? ? Min?xi ? w 等距分组的参考组距: ? m 3、确定组限 4、计数各组的次数 5、列出次数分布表 三、次数分布图? 用线和面等形状来显示观测变量次数分 布状况的几何图形,称为次数分布图。 ? 常用的次数分布图主要有柱状图、直方 图和折线图等几种。 四、 次数分布的理论模型? (一)理论分布模型的概念与意义 ? 随机变量取某个数值或在某个区间取值是 一个随机事件,使用概率理论计算的随机变量 在各个数值上或在各个区间内取值的概率分布, 就是随机变量的理论分布,计算此理论分布的 概率理论模型就是其理论分布模型。 ? 在现实生活中,各种观测变量的概率分布都 可以用某个理论概论分布模型去近似描述。因 此就可据此理论分布模型进行分析推断。 四、次数分布的理论模型(二)理论分布模型的表示方法 1、概率分布表 2、概率分布图 3、概率分布函数式 五、离散变量概率分布模型记所考察的离散变量为x,假设该随机变量 共可取m个不同的值,它取值为xi的概率为pi, 并记随机事件x=xi 的概率为P(x=xi),则离散随 机变量的概率分布可表示为: P(x=xi)=pi ; i=1,2…,m. 在统计分析推断中,常用的离散变量概率分 布模型主要有两点分布、二项分布、超几何分 布和泊松分布等几种。 (一)两点分布假设总体中有两类共N个个体,其中取 值为“是”的有N1个,取值为“非”的有N0 个,则有:N1 P ? x ? 1? ? ? p N N0 P?x ? 0? ? ?q N (二)二项分布假设在0-1分布总体中,取“是”值的 个体比例为p,取“非”值的比例为q,现 从中有放回地随机抽取n个个体,记X为取 “是”值的个体数目,则其中恰有n1个个 体取“是”值、且有n0=n-n1个个体取“非” 值的概率为:P?x ? n1 ? ? C p qn1 n n1n0 (三)超几何分布假设0-1总体中共有N个个体,其中取 “是”值的个体有N1 个,取“非”值的 个体有N0个。现从不放回地随机抽取n个 个体,记x为取“是”值的个体数目,则 其 中 恰 有 n1 个 个 体 取 “ 是 ” 值 、 且 有 n0=n-n1个个体取“非”值的概率为:P ? x ? n1 ? ?C C Cn Nn1 N1n0 N0 (四)泊松分布泊松分布是稀有事件出现次数的理 论分布模型,如自然灾害、意外事故、 机器故障等事件出现的次数都近似地服 从泊松分布。泊松分布概率模型为:P? x ? m ? ??mm!e?? 六、连续变量概率分布模型连续型随机变量的取值范围可以是数轴上的 某个区间,也可以是整个数轴。由于它可以取 无穷多个不同的数值,所以描述其概率分布的 最完善方法是概率函数式。在理论分析中,描 述连续变量概率分布的最常用的概率函数式是 概率分布密度函数。 在统计分析推断中,常用的连续随机变量概 率分布模型主要有均匀分布、正态分布、χ 2分 布、t分布和F分布等几种。 (一)均匀分布若随机变量x在区间[a,b] 上服从均匀分布,则该 随机变量的概率密度函数为:? 1 ? , a? x? f ?x ? ? ? b ? a ? 0 , x ? a, x ? b . ?f(x)ab 图 3.4 均匀分布的概率密度曲线x (二)正态分布若随机变量x服从正态分布,则其概率密度函数就为:f(x)1 f ?x ? ? e 2? ?? x ? ? ?2 ?2? 2μ-3σ μ-2σ μ-σ μ μ+σ μ+2σ μ+3σ 图 3.5 正态分布的概率密度曲线 x (三)χ2分布若随机变量z1 、z2 、…、zn 都服从标准正态分布 N(0,1),且两两之间相互独立,则这些标准正态变量 的平方和x就服从χ2分布,其概率密度函数为:? 1 x e ? n ? 2 ?n? f ? x ? ? ? 2 ?? ? ? ?2? ?0 ?n x ?1 ? 2 2f(x), x ? 0; , x ? 0.n=1 n=4 n=10 n=200 图 3.6 χ2 分布的概率密度曲线x (四)t分布若随机变量z ~N(0,1),x~χ2(n),且二者相互独立,则:t?zxnf(t) t 分布服从学生氏t分布,概率密度函数为:? n ?1? n ?1 ? ?? ? ? t2 ? 2 ? 2 ? ?1 ? ? f ?t ? ? ? n? ?n?? ? n? ? ? ? ?2?正态分布0 图 3.7 t 分布的概率密度曲线t (五)F分布若随机变量xm~χ2(m),xn~χ2(n),旦二者相互独立,则:xm m x? xn n服从F分布,其概率密度函数为:f(x)? m n m m? n m 2 n 2 2 ?1 ? ? ? m n x ?n ? mx ? 2 , x ? 0; f ? x ? ? ? B? , ? ? ? ? ? 2 2? ? 0 , x ? 0. ?0 图 3.8 F 分布的概率密度曲线x 第四章 分布特征测度? ? ? ?一、分布中心 二、离散程度 三、偏度与峰度 四、相关程度 一、分布中心测度的意义(一)分布中心的概念――所谓分布中心,就是 指随机变量的一切取值的散布中心。 (二)测度分布中心的意义 1、随机变量的分布中心是随机变量一切取值 的一个代表,可以用来反映其数值的一般水平。 2、随机变量的分布中心可以揭示随机变量一 切取值的次数分布在直角坐标系内的集中位置, 可以用来反映随机变量分布密度曲线的中心位 置,即对称中心或尖峰位置。 二、分布中心测度指标用来测度随机变量次数分布中心的 指标可以有多种,其中在统计分析推断 中常用的主要有算术平均数、中位数和 众数等几种。 (一)算术平均数1、定义――算术平均数又称算术均值,是 随机变量的所有观测值总和与观测值个 数的比值。 2、计算方法 (1)简单算术平均数――适用于未分组整 理的各个单个观测数值,其计算公式为:x??xi ?1nin (一)算术平均数(2)加权算术平均数――适用于已分组整 理的次数分布数据,其计算公式为:x ??xi ?1 nnifi?i ?1fix ? ? xii ?1n?ffi (一)算术平均数(3)算术平均数的变形――调和平均数。对于由观测变量的 各个分组和各组变量总值顺序排列所形成的分组数据。算术 平均数的公式需变换成调和平均数的形式:x ??mi ?1ni?i ?1n1 mi xi当各组的变量总值mi相等时,就可简化为:x?n?i ?1n1 xi (一)算术平均数3、理论分布的算术平均数――数学期望 (1)定义 对于离散型随机变量,假设有n个不同的取值,其中 取某个数值xi的概率为pi,则该随机变量的数学期望可用 算术平均数公式定义为: n? ? E ? x ? ? ? xi pii ?1对于连续型随机变量,仍可用算术平均数定义其数学 期望,不过因为连续变量求和要用定积分,所以定义中 需要用定积分符号代替总和符号,即:? ? E?x? ? ? xf ?x?dx???? (一)算术平均数3、理论分布的算术平均数――数学期望 (2)例子 例如,对于服从两点分布的随机变量x,其不同的 取值只有1和0,其中取1的概率为p,取0的概率为q=1-p, 则其数学期望为:E ?x ? ? ? xi pi ? 1? p ? 0 ? q ? pi ?1n又如,对于服从位置参数为μ且尺度参数为σ2的 正态分布的随机变量x,由其概率密度函数可计算出 其数学期望就是其位置参数μ 。标准正态分布随机 变量的数学期望为0。 (一)算术平均数(3)数学期望的性质 ①若c为常数,则必有:E(c)=c ②若c为任意常数,x为随机变量,则必有: E(cx)=cE(x) ③若x1、x2、…、xm均为随机变量,则必有: E(x1+x2+…+xm)=E(x1)+E(x2)+…+E(xm) ④若x1 、x2 、…、xm均为随机变量,且相互独立,则: E(x1x2…xm)=E(x1)E(x2)…E(xm) ⑤若x是随机变量,则必有: E(OxO)≥OE(x)O (二)中位数1、定义 中位数是在按观测变量值的大小顺序排列 所形成的变量值数列中点位置上的变量值。对 于观测变量x,假设共取得n个观测值,各个观 测值按大小顺序排列为x(1)、x(2)、…、x(n), 则其中位数可定义为:, n为奇数; ? x? n ?1 ? ? ? 2 ? ? ? ? ~? x ?1 ? ? ? ? x? n ? ? x? n ? ?, n为偶数。 ? ?1 ? ? ?2 ? ? 2 ? ?2 ?? ? ? ? ? (二)中位数2、组距分组次数分布数据 的中位数计算?~ ? L? x 2f? fL?~ ?U ? x 2fm f ? fU?wfm?w (三)众数1、定义:众数是随机变量的观测值中出现次 数或密度最大的变量观测值 。 2、组距分组次数分布数据计算众数? f 0 ? f ?1 ? ?w ? f 0 ? f ?1 ? ? ? f 0 ? f ?1 ? ? f 0 ? f ?1 ? ? x ?U ? ?w ? f 0 ? f ?1 ? ? ? f 0 ? f ?1 ?? x ? L? 三、均值、中位数和众数三者 之间的关系f(x)? 对于对称分布,有:? ~?x x?x? 对于右偏分布,有:? x~ x xf(x)x? ~ x?x?x? 对于左偏分布,有:? ~?x x?x? 经验关系式:? x x ~ xx? ~ ? x? x ? x ? 3?x 四、离散程度测度的意义(一)离散程度的概念――所谓离散程度, 即观测变量各个取值之间的差异程度。 (二)离散程度测度的意义 1、通过对随机变量取值之间离散程度的 测定,可以反映各个观测个体之间的差 异大小,从而也就可以反映分布中心指 标对各个观测变量值代表性的高低。 2、通过对随机变量取值之间离散程度的 测定,可以反映随机变量次数分布密度 曲线的瘦俏或矮胖程度。 五、离散程度测度指标? 可用来测度观测变量值之间差异程度的 指标有很多,在统计分析推断中最常用 的主要有极差、平均差和标准差等几种。 (一)极差? 极差又称全距,是观测变量的最大取值 与最小取值之间的离差,也就是观测变 量的最大观测值与最小观测值之间的区 间跨度。 ? 极差的计算公式为: ? R=Max(xi)-Min(xi) (二)平均差? 平均差是随机变量 各个取值偏差绝对 值的算术平均数。 ? 由于所掌握数据形 式的不同,平均差 的计算有简单平均 差和加权平均差两 种不同的方式。d ??xi ?1ni?xnd ??xi ?1ni? x fii?fi ?1n (三)标准差? 标准差是随机变量各个取值偏差平方的 平均数的算术平方根,是最常用的反映 随机变量分布离散程度的指标。 ? 标准差既可以根据样本数据计算,也可 以根据观测变量的理论分布计算,分别 称为样本标准差和总体标准差。 1、样本标准差的计算(1)对于未分组整理的 各个观测变量值数据, 计算标准差应采用简单 平均的方法。 (2)对于已分组整理的 分组次数分布数据, 计算标准差应采用加 权平均的方法 。s?? ?x ? x ?i ?1 in2ns?? ?x ? x ?i ?1 in2fi?fi ?1ni 2、理论分布的标准差与方差(1)定义 标准差是最常用的理论分布模型正态 分布的参数之一,在理论分析中最常用 来描述随机变量分布的离散程度。标准 差的平方称为方差,与标准差有着同样 的作用。随机变量x的理论分布的方差常 记为Var(x)或σ2,其定义为: σ2=Var(x)=E[x-E(x)]2 2、理论分布的标准差与方差(2)离散随机变量的方差 对于离散随机变量x,假设共有n个不同取 值,取值xi的概率为pi,i =1、2、…、n,则方 差为: nVar?x ? ? ? ?xi ? E ?x ?? pi2 i ?1例如,对于服从两点分布的随机变量x,其 取值为1的概率为p,取值为0的概率为q=1-p, 数学期望为E(x)=p,则其方差为: Var(x)=(1-p)2p+(0-p)2q=pq 2、理论分布的标准差与方差(3)连续随机变量的方差 对于连续型随机变量x,假设其分布密度函 数f(x),则其方差的计算公式为:Var?x ? ? ??x ? E?x?? f ?x?dx ???? 2例如,对于服从位置参数为μ且尺度参数为 σ2 的正态分布的随机变量x,其数学期望等于 其位置参数μ,其方差就是其尺度参数σ 2,标 准正态分布的方差为1。 2、理论分布的标准差与方差(4)方差的性质 ①任何随机变量的方差均非负。Var(x)≥0 ②若c为常数,x为随机变量,则有: Var(cx)=c2Var(x) ③若随机变量x1、x2、…、xm均相互独立,则有: Var(x1+x2+…+xm)=Var(x1)+Var(x2)+…+Var(xm) ④若x为随机变量,c为任一常数,则有: E(x-c)2=E[x-E(x)]2+[c-E(x)]2 ⑤对于任意随机变量x,均有: Var(x)=E(x2)-[E(x)]2 (四)离散系数1、离散系数的概念― ―各个衡量随机变量 取值之间绝对差异的 指标与算术平均数的 比率,通称为离散系 数。 2、计算离散系数的意 义――消除量纲和数 量级的差异,便于不 同观测变量之间的比 较。 3、计算公式R vR ? ? 100 % x d vd ? ? 100 % x s vs ? ? 100 % x 六、测度偏度和峰度的意义? (一)概念――所谓偏度,就是观测变量取值 分布的非对称程度;所谓峰度,就是观测变量 取值分布密度曲线顶部的平坦程度或尖峭程度。 ? (二)意义 ? 1、加深人们对观测变量取值的散布状况的认 识; ? 2、将观测变量的偏度和峰度指标值与某种理 论分布的偏度和峰度指标值进行比较,以判断 观测变量的分布与某种理论分布的近似程度。 七、偏度的测度(一)直观偏度系数 ? 1、皮尔逊偏度系数? x?x sk p ? s? 2、鲍莱偏度系数~ ? ? ?~ ? Q ? ?Qu ? x x l skb ? Qu ? Ql 七、偏度的测度(二)矩偏度系数 1、矩的定义――原点矩和中心矩xm ? sm xm f ??f ? ?x ? x ? ? ?fmf2、矩偏度系数s3 sk m ? 3 s 八、峰度的测度? 矩峰度系数――随机变量的四阶中心矩 与其标准差的四次方相除,所得比率就 称为峰度系数,其计算公式为:s4 ku ? 4 s 九、相关程度测度的意义(一)相关关系的概念 对于两个观测变量,若一个变量的取值除 了受另一个变量取值的影响外,还受各种随机 因素的影响,则变量间的这种非确定性关系就 称为相关关系。 (二)相关关系测度的意义 1、了解两个观测变量之间相关关系的方向; 2、了解两个观测变量之间相互依赖关系的程度, 为构建观测变量之间相互关系模型奠定基础。 十、相关程度测度的指标? 对两随机变量之间的相关关系及其密切 程度进行测度,需要根据两变量观测值 的复合分组次数分布进行,或在理论上 根据两变量的联合概率分布模型进行。 ? 测度观测变量之间相关关系的指标主要 有协方差和相关系数两个。 (一)协方差? 1、定义――协方差是两个随机变量成对 观测值偏差乘积的算术平均数 。 ? 2、样本协方差1 s xy ? ? ?xi ? x ?? yi ? y ? n i ?1s xy ?n? ?xi ?1ni? x ?? yi ? y ? f i?fi ?1ni (一)协方差? 3、总体协方差――对于两随机变量的理论分 布,也可类似地定义其协方差。两随机变量x 和y的理论分布的协方差常记作Cov(x,y)或σxy, 其定义公式为: ? σxy=Cov(x,y)=E[x-E(x)][y-E(y)] ? 例如,对于联合分布为二元正态分布的 随机变量x和y,可得二变量的协方差为:Cov?x, y ? ? ??? ???? ??? ?x ? ? ?? y ? ? ? f ?x, y?dxdy ? ?? ?1 21 2 (一)协方差? 4、协方差的性质 ①随机变量x与y的协方差和y与x的协方差相等。 ? Cov(x, y)=Cov(y, x) ②若随机变量x和y相互独立,则有:Cov(x, y)=0 ③若λ1和λ2为任意常数,则有: ? Cov(λ1x, λ2y)=λ1λ2Cov(x, y) ④对于任意三个随机变量,均有: ? Cov(x1+x2, y)=Cov(x1, y )+Cov(x2, y) ? Cov(x, y1+y2)=Cov(x, y1)+Cov(x, y2) ⑤对于任意两随机变量,均有: ? Cov(x, y)=E(xy)-[E(x)E(y)] (二)相关系数? 1、定义――相关系数是两个随机变量的 协方差对其两标准差之积的比率 。 ? 2、总体相关系数? xy ?? ? x? y? 3、样本相关系数r?s xy sx s y (二)相关系数? 4、相关系数的取值范围 ? 相关系数r的数值介于-1和+1之间,其绝对值 介于0和1之间。即有: ? -1≤r≤+1 ? 5、相关系数的作用 (1)相关系数的符号可反映两随机变量相互依 存关系的方向。相关系数为正,称为正相关; 相关系数为负,称为负相关。 (2)相关系数的绝对值的大小则可反映两随机 变量线性相关关系的密切程度。 第五章 参数估计? ? ? ? ? ? ? ? ? 一、总体参数及其估计量 二、构造估计量的方法――矩法估计 三、判断估计量优劣的标准 四、估计量的标准误 五、抽样分布的概念 六、基本的抽样分布 七、区间估计的概念 八、区间估计的方法 九、样本容量的确定 一、总体参数及其估计量? 总体指标又称为总体参数,根据样本数据来推 断总体指标数值就称为参数估计。 ? 集中了样本中有关总体参数信息的样本指标称 为统计量,该统计量就可用来估计所求的总体 指标的数值。用来估计总体指标数值的统计量 又称为该总体指标的估计量,该估计量的数值 就称为该总体指标的估计值。 ? 总体参数值是确定的,但是未知的;样本估计 量是随机变量,其估计值是某个给定样本的计 算值。 二、构造估计量的方法―矩法估计(一)矩法估计的概念――所谓矩法估计,概括来 说就是用样本矩作为总体同一矩的估计量,用样 本矩的函数作为总体相应矩同一函数的估计量。 (二)常用的总体参数及其矩法估计量 1 n 1 n ? ? 2 ? s 2 ? ? ? xi ? x ?2 ? ??x? xi n i ?1 n i ?1?? ? p ? n1 P n N n ? N? ? Nx ? ? xi n i ?1? ? ?s? ? ? ?r?1 n ?xi ? x ?2 ? n i ?1 s xy sx s y 三、判断估计量优劣的标准? 为了保证用于估计总体指标的估计量准 确可靠,就必须要求所使用的估计量具 备一些优良的性质,这些性质就构成了 判断一个估计量优劣的标准。 ? 常用的标准主要有一致性、无偏性、有 效性、充分性和稳健性等。 (一)一致性? 对于总体指标的一个估计量,若其取值随着样 本容量的增大越来越接近于总体指标的真值, 即估计误差越来越小的可能性越来越大直至 100%,则该估计量就称为总体指标的一致估计 量,或称为相合估计量。 ? 可以证明,由矩估计法所构造出的估计量都是 所估计总体指标的一致估计量。如样本均值是 总体均值的一致估计量,样本比例p是总体比 例P的一致估计量,样本方差s2 也是总体方差 σ 2的一致估计量。 (二)无偏性? 对于总体指标的一个估计量,若其估计值的数学期 望等于该总体指标的真值,即其估计误差的数学期 望为0,则该估计量就称为是总体指标的无偏估计量。 ? 可以证明,样本均值是总体均值的无偏估计量,而 常规样本方差却并不是总体方差σ 2的无偏估计量, 修正样本方差s2是总体方差σ 2的无偏估计量。修正 样本方差即无偏样本方差为:1 2 s ? ? ?xi ? x ? n ? 1 i ?12n (三)有效性? 对于任一总体指标,若存在两个无偏估计量,其中一 个估计量的估计误差平均来说小于另一个估计量的估 计误差,则称前一个估计量比后一个估计量有效。 ? 无偏估计量的估计误差大小可用其方差衡量,所以两 个无偏估计量比较,方差较小者较为有效。 ? 对于一个总体指标来说,若在其所有无偏估计量中能 够找到一个估计量,其方差最小,则该估计量就称为 是该总体指标的最佳无偏估计量。可以证明,样本均 值是总体均值的最佳无偏估计量。 ? 对于有偏估计量,衡量其有效性可用均方误差代替方 差。估计量的均方误差为:? ? MSE ? ? E ? ? ??? ??2 (四)充分性? 对于一个总体指标,若其估计量提取了 样本中包含的有关该总体指标的全部信 息,则此估计量就称为该总体指标的充 分估计量。 ? 在多数情形下,矩法估计给出的总体指 标的估计量均是充分的。如在正态分布 总体之下,样本均值是总体均值的充分 估计量,样本方差s2 也是总体方差σ 2 的 充分估计量。 (五)稳健性? 如果用来估计总体指标的样本估计量对样 本数据的污染不敏感,也就是说估计量的 数值不受被污染数据的干扰或受其干扰不 大,那么该估计量就是总体指标的一个稳 健估计量。 ? 实践中常用的一种估计总体均值的稳健估 计量是切尾均值,切尾均值的计算公式为:1 x? ? n??n ?1?? ??j? n?? x? ? ???1 j 四、估计量的标准误(一)标准误的概念 样本估计量的标准差通常称为该估 计量的标准误差,简称标准误。即:? ?? ?? Var ? ???? ? E? ?E??? ??2标准误是衡量一个估计量抽样估计 误差大小的一个尺度。 (二)标准误的计算1、样本均值的标准误 (1)放回抽样? ?x ? n2? ?x ?s n2(2)不放回抽样? ?x ? n? n? ?1 ? ? ? N?s ? ?x ? n? n? ?1 ? ? ? N? (二)标准误的计算2、样本比例的标准误 (1)放回抽样?p ?P?1 ? P ? n? ?p ?p?1 ? p ? n(2)不放回抽样P?1 ? P ? ? n ? ?p ? ?1 ? ? n ? N?p?1 ? p ? ? n ? ? ?p ? ?1 ? ? n ? N? (三)影响标准误的因素? 1、总体中各个体之间的差异程度。总体中各 个体取值之间的差异程度大即σ2也大,各总体 指标估计量的标准误的数值也就大,抽样估计 误差也就大。 ? 2、样本容量的大小。样本容量大,总体指标 估计量的标准误则小,抽样估计误差也就越小; 反之,样本容量越小,抽样估计误差及其标准 误也就越大。 ? 3、抽取样本的方式方法。抽样方式方法不同, 总体指标估计量的标准误就会不同,抽样估计 误差的大小也就不同。 五、抽样分布的概念? 对于给定的总体和抽样方式以及样本容 量,样本指标取值的概率分布就称为抽 样分布。 ? 确定样本容量下的抽样分布称为样本统 计量的精确分布,而样本容量趋于无穷 大时的抽样分布则称为样本统计量的极 限分布。 六、基本的抽样分布(一)样本均值的抽样分布 ? 1、任意总体大样本? ?2 ? ? x ~ N ? ?, ? n ? ? ?x?? z? ~ N ?0,1? ? n? 2、正态总体小样本x?? t? ~ t ?n ? 1? s n 六、基本的抽样分布(二)样本比例的抽样分布――大样本? P?1 ? P ? ? p ~ N ? P, ? n ? ?z?P ?1 ? P ? np?P~ N ?0,1? 六、基本的抽样分布(三)样本方差的抽样分布――正态总体?n ? 1?s?22~ ? ?n ? 1?2 七、区间估计的概念记总体指标为θ ,样本估计量为 ?? ,事先给定 概率为1-α ,若根据样本估计量的概率分布可计 ? ? 算出一个区间 ?? L , ?U ? ,使得该区间包含总体参数 θ 的概率等于事先给定的概率1-α ,即有:P ??L ? ? ? ??U ? 1 ? ?成立,则该区间 ??L , ??U 就称为总体参数θ 的置信 区间,而概率1-α 就称为是置信概率或置信度。???? 八、区间估计的方法? (一)均值的区间估计 ? 1、大样本下均值的区间估计 ? 由中心极限定理可知,对于大样本而言, 样本均值的概率分布总可近似地看作是 正态分布。若事先给定置信概率为1-α , 则查标准正态分布概率数值表,可得标 准正态分布的上侧分位数zα /2 ,就可得 ? ? ? 出总体均值μ 的置信区间为: ? ? x ? z? 2 , x ? z? 2 ? n n? ? (一)均值的区间估计? 2、小样本下正态总体均值的区间估计 ? 对于来自正态总体的一个小样本,在给定 的置信概率1-α之下,查自由度为(n-1) 的t分布表,可得t分布的上侧分位数tα/2, 可得总体均值μ的置信区间为:? ? ? x ? t? 2 , n ?x ? t? 2? ? ? n? (二)比例的区间估计? 总体比例是两点分布总体的均值,其估 计量样本比例则是来自该总体的随机样 本的均值。因此,在大样本条件下,可 根据中心极限定理用类似于大样本情形 下总体均值区间估计的方法来对总体比 例进行区间估计。有:? p ?1 ? p ? ? p ? z? 2 , ? n ? p ? z? 2 p ?1 ? p ? ? ? n ? ? (三)方差的区间估计? 由抽样分布理论可知,对于来自正态总体 的一个简单随机样本,其修正样本方差s2 与总体方差σ 2 比值的(n-1)倍服从自由 度为(n-1)的χ 2 分布。若给定置信概率 1-α ,查自由度为(n-1)的χ 2 分布表可 得两个分位数χ 1-α /2和χ α /2,则可得正态 总体方差σ 2的置信区间为: 2 ? ? ?n ? 1?s 2 ?n ? 1?s ? ? , 2 ? ? ?12?? 2 ? ? 2 ? ? (四)单侧置信区间? 所谓单侧置信区间,是将待估总体指标的上置信限 或下置信限指定在其上界或下界值上,并根据给定 的置信概率求出另一置信限而得到的置信区间。记 待估计总体指标为θ ,其取值上界为 ?U ,取值下界 为 ? L ,样本估计量为 ?? ,对于给定的置信概率1-α , 若有: ?P ? L ? ? ? ?U ? 1 ? ??或者,有:? P ? L ? ? ? ?U ? 1 ? ????则称区间???L , ?U ?和 ?? L , ??U ?为总体指标θ 的单侧置信 区间。 九、样本容量的确定? 若在给定1-α 的置信概率之下,要求用样 本均值估计总体均值的抽样估计误差不超 过δ ,则由总体均值的抽样估计误差限的 计算公式,可计算出必需最小样本容量。 2 2 ? (一)放回抽样 z? 2? n0 ? ?2 ? (二)不放回抽样n1 ?2 Nz? 2? 2 2 2N? ? z? 2?2?2 z? 2? 2 ? 21?2 z? 2? 2 ? 2Nn0 ? n0 1? N 第六章 假设检验? ? ? ? 一、假设检验的原理 二、总体指标假设检验 三、分布假设检验 四、假设检验的两类错误及功效 一、假设检验的原理? (一)统计假设和检验统计量 ? 所谓统计假设,就是关于总体分布特征的某种论断。 关于总体参数假设的检验,是假设检验的核心内容。 记总体参数为θ,若要判断θ是否等于某已知数值θ0, 则该参数假设可表示为: ? H0:θ=θ0, H1:θ≠θ0 ? 其中,假设H0:θ=θ0就是所要检验的假设,称为原 假设或零假设;而假设H1:θ≠θ0则称为对立假设或 备择假设。 ? 要检验某个假设是否正确,需根据样本所提供的信 息来进行。包含总体分布特征的全部样本信息的样 本指标,是进行假设检验的依据,称为检验统计量。 (二)显著性水平和拒绝域? 进行假设检验,概率论中关于小概率事件在一次 试验中是不可能事件的原则是其所遵循的基本原 则 。 通 常 取 小 概 率 事 件 的 概 率 临 界 值 为 0.05 或 0.01,用α 表示,称为假设检验的显著性水平。 ? 在原假设成立的条件下,由检验统计量的概率分 布,对于给定的显著性水平,就可确定出由抽样 误差引起的样本估计值对总体参数原假设值的可 能的最大偏离值,作为判断原假设正确与否的临 界值。样本估计量偏离总体参数原假设值过大的 区域,就是否定原假设的区域,称为否定域或拒 绝域,而否定域以外的区域则称为接受域。 (二)显著性水平和拒绝域1、双侧检验 若要检验的假设为: H0:θ =θ 0, H1:θ ≠θ 0 则否定域应建立在 与原假设值的正 负偏离超出给定 临界值的两边, 这种检验方法称 为双侧检验。f ????α /2 θ0α /2??L 2 拒绝域接受域??U 2 拒绝域 ?? (二)显著性水平和拒绝域2、左侧检验 若要检验的假设为: H0:θ ≥θ 0, H1:θ <θ 0 则否定域应建立在 与原假设值的负 偏离超出给定临 界值的一边,这 种检验方法称为 左侧检验。f ????α θ0??L 拒绝域接受域?? (二)显著性水平和拒绝域3、右侧检验 若要检验的假设为: H0:θ ≤θ 0, H1:θ >θ 0 则否定域应建立在 与原假设值的正 偏离超出给定临 界值的一边,这 种检验方法称为 右侧检验。f ????α θ0 接受域??U拒绝域 ?? (三)假设检验的p值? 检验统计 量的取值 落在其实 际样本值 之外的概 率,就称 为假设检 验的p值。f ????α P?0??U ??s?? (四)假设检验的程序? ? ? ? (1)提出原假设H0和备择假设H1; (2)规定检验的显著性水平α ; (3)构造用于检验的样本指标,即检验统计量; (4)在原假设为真的假定下,根据检验统计量的 概率分布,确定出检验统计量的临界值,并由此 临界值构造出检验的拒绝域和接受域;或者计算 出假设检验的p值; ? (5)比较检验统计量的实际样本值与其临界值, 或者比较检验的p值与显著性水平α ,并根据比 较的结果做出拒绝或不能拒绝原假设的决策。 二、总体指标假设检验(一)均值的检验 1、单一总体均值的检验 H0:μ =μ 0,H1:μ ≠μ 0或μ <μ 0或μ >μ (1)大样本情形――正态分布z检验 x ? ?0 z? ~ N ?0,1? ? n (2)小样本情形(正态总体)――t检验 x ? ?0t? s n ~ t ?n ? 1?0 (一)均值的检验2、两总体均值的比较 H0:μ 1=μ 2,H1:μ 1≠μ 2或μ 1>μ 2或μ 1<μ (1)大样本情形――正态分布z检验z?2?x1 ? x2 ? ? ??1 ? ? 2 ? ~ N ?0,1?? 12n1 ?2 ?2n2(2)小样本情形(正态总体)――t检验?x1 ? x2 ? ? ??1 ? ? 2 ? ~ t ?n t?s 1 1 ? n1 n21? n2 ? 2 ?其中s2为用自由度加权的两样本方差的平均数。 (二)比例的检验1、单一总体比例的检验 ――大样本 (1)假设 H0: P=P0 , H1: P≠P0 或P&P0 或P&P0 (2)检验统计量――正态分布z检验z? p ? P0 ~ N ?0,1? P0 ?1 ? P0 ? n (二)比例的检验2、两总体比例的比较 (1)假设 H0: P1=P2 , H1: P1≠P2 或P1&P2 或P1&P2 (2)检验统计量――正态分布z检验z? p1 ? p2 ?1 1 ? ? p ?1 ? p ?? ? ?n n2 ? ? 1 ? ~ N ?0,1?其中p为两样本比例的加权平均数: ? ? p ? n1 p1 ? n2 p2 P n1 ? n2 (三)方差的检验1、单一总体方差的检验 (正态总体) (1)假设 H 0 : ? 2 ? ? 02 , H1 : ? 2 ? ? 02 或 ? 2 ? ? 02 或 ? 2 ? ? 02 (2)检验统计量――χ 2检验?n ? 1?s 2 ~ ? 2 ?n ? 1? ?2 ??2 0 (三)方差的检验2、两总体方差的比较 (正态总体) (1)假设 H 0 : ?12 ? ? 22 , H1 : ?12 ? ? 22 或 ? 12 ? ? 22 或 ? 12 ? ? 22 (2)检验统计量――F检验s12 F ? 2 ~ F ?n1 ? 1, n2 ? 1? s2 (四)相关系数的检验? 1、假设 ? H0: ρ =0, H1: ρ ≠0 ? 2、检验统计量――t检验t?r n?2 1? r2~ t ?n ? 2? 三、分布假设检验(一)拟合适度检验 1、拟合适度检验的概念 检验所考察总体是否服从某种特定的 分布,称为拟合适度检验。 2、拟合适度检验的假设 H0:总体服从某分布,H1:总体不服从某分布 3、检验方法――χ 2 检验? ??2 i ?1 k?f ? f ?i ie 2fie~ ? ?k ? m ? 1?2 (二)列联表检验1、检验的假设 H0:变量A和B独立,H1:变量A和B不独立 2、检验方法――χ 2 检验? ? ??2 i ?1 j ?1pq?fij?f fe ije 2 ij?~?2?? p ?1??q ?1?? 四、假设检验的两类错误与功效(一)两类错误的概念表6.5 假设检验的两类错误 原假设H0 为真 接受原假设H0 拒绝原假设H0 正确决策 第Ⅰ类错误 原假设H0 为假 第Ⅱ类错误 正确决策 (二)两类错误的概率第一类错误的概率α ,第二类错误的概率ββαμ0 μ1 图 6-3 单侧假设检验两类错误的概率 (三)假设检验的功效1、功效的概念――备择假设正确并接受了 它的概率为(1-β ),此概率就称为假设 检验的功效。 1-β 1.0 2、功效曲线0.8 0.6 0.4 0.2 330 335 340 345 350 355 360 365 370 图 6.4 双侧检验的功效曲线 (四)必要样本容量的确定1、两类错误发生概率的关系 假设检验中犯第二类错误的概率与犯第一类 错误的概率成反方向关系,如果既要提高检 验的功效而又不想使犯第一类错误的风险增 大,那么只能是增加样本容量。 2、必要样本容量的确定 对于总体均值假设H0:μ =μ 0,H1:μ =μ 1&μ 0, 使用z检验法,可得: 2 2 ?z ? z ? ?n???1 ? ? 0 ?2?? 第七章 方差分析? ? ? ? ? ? ? 一、方差分析的概念 二、方差分析的意义 三、单因子数据结构模型 四、模型参数的估计 五、单因子方差分析表 六、各水平效应的多重比较 七、随机区组试验与多因素方差分析的特点 一、方差分析的概念? 在科学实验和生产经营活动中,人们常常 需要对影响所观测变量的各种主要因素进 行分析,以便找出各个因素在什么状态下 可使所观测的变量取得最佳数值。为此, 首先需要在各种主要影响因素的不同状态 下对所研究变量的取值进行观测,然后再 对观测所得数据进行比较分析。方差分析 就是分析推断各种因素状态对所观测变量 的影响效应的一种统计分析方法。 二、方差分析的意义? 首先,需要确定的是一个因子的各个水平的作用 是否相同。如果相同,说明这个因子不管取哪种 水平对观测变量无不同影响,那么这个因子实际 上无关紧要,可纳入平均效应中去,这时称这个 因子是不显著的。自然,如果一个因子的各个水 平的作用不同,那么这时就称此因子是显著的。 ? 其次,如果所考察的因子是显著的,那么就要找 出该因子的最佳水平或者各个显著因子的各种水 平的最佳配合,以指导生产经营的实践活动。 三、单因子数据结构模型假设所考察的因子为A,有m个不同的水平A1 , A2 ,…,Am 。在各个水平下分别进行了n1,n2,…,nm 次 独立实验观测,得到变量观测值为yij,i=1,2,…,m, j=1,2,…,ni,则有数据结构模型为: yij=μ+αi+εij;i=1,2,…,m;j=1,2,…,ni. 或者写为: yij=μi+εij ;i=1,2,…,m;j=1,2,…,ni. 其中μ为平均效应,αi为因子A的第i个水平Ai对观测 变量的作用,称为水平Ai的效应,μi=μ+αi为在水平 Ai下观测变量的总体平均值,εij仍表示实验观测的 随机误差。 四、模型参数的估计(一)总均值和组均值m n 1 1 1 m yi ? ? yij y ? ?? yij ? ? ni yi ni j ?1 n i ?1 j ?1 n i ?1 (二)模型参数的矩估计ini? ? i ? yi ? ?? y ? ? i ? yi ? y1 ? ?s ? ?yij ? yi ?2 ? ?? n ? m i ?1 j ?1m ni 2 2 e 五、单因子方差分析表(一)检验的假设 H0: α 1=α 2=…=α m=0 H1: 至少α i≠0 或 H0: μ 1=μ 2=…=μ m H1: 至少μ i≠μ k (二)总变动平方和的分解 SST=SSA+SSE 即:?? ?ym ni i ?1 j ?1ij? y ? ? ? ni ? yi ? y ? ? ?? ?yij ? yi ?2 m 2 m ni i ?1 i ?1 j ?12 五、单因子方差分析表(三)方差分析表的构造单因子方差分析表 方差来源 组间 组内 总和 平方和 SSA SSE SST 自由度 m-1 n-m n-1 均方 SSA/(m-1) SSE/(n-m) F值 F p值 p(四)检验方法――F检验(单侧) 2 sa SSA ?m ? 1? F? 2? ~ F ?m ? 1, n ? m ? se SSE ?n ? m ? 六、各水平效应的多重比较(一)检验假设 H0:α i=α k H1: α i≠α k? 或 H0: μ i=μ k H1: μ i≠μ k? (二)检验方法――t检验(双侧)? yi ? yk ? ? ??i ? ? k ? ~ t ?n ? m ? t?se 1 1 ? ni nk 七、多因子方差分析的特点? 一、随机区组试验的特点及其数据分析 ? ――试验单位之间存在较大的差异 ? 二、多因子方差分析的特点 ? ――不同因子的水平组合可能存在 交互作用 第八章 回归分析? ? ? ? ? 一、回归的概念与回归模型的确定 二、样本观测模型和样本回归函数 三、一元线性回归分析 四、多元线性回归分析 五、回归诊断 一、回归的概念与模型确定设随机变量y与变量x1 、x2 、…、xk 之间存在相关 关系,则y与x1、x2、…、xk的数学模型可表示为: y=f(x1,x2,…,xk)+u 其中u为随机因素影响,若自变量x1、x2、…、xk的值 给定时,随机影响u的期望为0,则因变量y的条件数 学期望就是唯一确定的,即有: E(y/x)=f(x1、x2、…、xk)? 此条件期望就称为y的回归值,表示y的回归值与自 变量关系的函数式就称为y的回归函数。若自变量只 有一个,则称为一元回归函数;若自变量有两个或 多个,则称为多元回归函数。 一、回归的概念与模型确定回归模型的确定方法有二: (一)定性分析 (二)线性近似――实践中,常用的回归函数为 线性函数,相应的数学模型的形式为: y=β0+β1x1+β2x2+…+βkxk+u? 其中β0 、β1 、β2 、…、βk 统称为回归系数,因 变量y对自变量x1、x2、…、xk的回归函数为: E(y/x)=β0+β1x1+β2x2+…+βkxk 二、样本观测模型和样本回归函数设样本观测值为(yj ,x1j ,x2j ,…,xkj), j=1,2,…,n,则对于线性模型来说,有: yj=β0+β1x1j+β2x2j+…+βkxkj+uj , j=1,…,n.? 这n个关系式称为因变量y的观测模型。由 此观测模型可估计得出模型中各个参数的 估计值,从而得出样本回归函数为:? ? ? ? ? y ? ? 0 ? ?1 x1 ? ? 2 x2 ? ? ? ? k xk 三、一元线性回归分析(一)散点图 设 样 本 观 测 值 分 别 为 (x1 y1) 、 (x2 , y2)、…、(xn ,yn),在平面直角坐标系内 将这n对观测值用n个点表示出来,所形成 的图形称为散点图。通过观察散点图的形 状,可辅助判断回归函数的具体形式。一 元线性回归模型的形式为: y=β0+β1x+u (二)模型参数的最小二乘估 计1、最小二乘估计的原理 所谓最小二乘估计,就是寻找使样本观测 模型的随机误差平方和最小的参数值作为回归 模型参数的估计值。 2、求一元线性回归模型系数的正规方程组? ? n? 0 ? ?1 ? x ? ? y ? ? ?? 2 ? ?? 0 ? x ? ?1 ? x ? ? xy ? (二)模型参数的最小二乘估 计3、回归系数的最小二乘估计公式? ?1 ?n? xy ? ? x ? y n? x ? ?? x ?2 2? ? ? 0 ? y ? ?1 x4、样本回归方程? ? ? ? ? 0 ? ?1 x y (二)模型参数的最小二乘估 计5、残差与残差平方和的计算? ? ? e j ? y j ? y j ? y j ? ? 0 ? ?1 x j? ? ? Q ? ? e 2 ? ? y 2 ? ? 0 ? y ? ?1 ? xy jj ?1n6、回归模型随机误差的方差的估计? Q 2 2 ? ? ? se ? n?2 (三)回归的方差分析1、因变量总变动平方和的分解? ?yn j ?1j? ? ? y ? ? ? ?y j ? y ? ? ? ?y j ? y j ?2 n 2 n j ?1 j ?12即: SST=SSR+SSE 2、判定系数SSR R ? ? SST2? ? ?y ? y? ? ?y ? y?2 2 (三)回归的方差分析3、一元线性回归的方差分析表方差来源 平方和 自由度 均方 F值 p值 SSR 1 SSR F p 回归 SSE n-2 SSE/(n-2) 残差 SST n-1 总和4、检验假设 H0:ρ =0,H1:ρ ≠0 5、检验方法――F检验SSR F? ~ F ?1, n ? 2? SSE ?n ? 2? (四)回归系数的t检验1、检验的假设 H0: β1=0 , H1: β1≠0 H0: β0=0 , H1: β0≠0 2、检验的方法――t检验? ?1 ? ?1 t1 ? 1 se 2 ? ?x ? x ?t0 ?? ?0 ? ?0 1 x se ? n ? ?x ? x ?22 (五)利用回归直线进行预测所谓预测就是在给定自变量x的数值的条 件下,估计因变量y的数值,有点预测和区间 预测两种。 1、点预测 ? ? ? y ?? ?? xp 0 1 p? ?x p ? x ?2 2、区间预测 1 ?? y p ? t? 2 se 1 ? ? ? n ? ? x ? x ?2 ? ? yp ? 2 ?x p ? x ? 1 ? ? 2 ?? y p ? t? 2 se 1 ? n ? ? ? ?x ? x ? ? (六)一元线性回归模型的推 广? 实践中,有时用线性模型来描述变量x和y之 间的关系并不恰当,这时就需要考虑各种曲线模 型。对于有些曲线模型来说,容易将它们化成下 面的形式:? g(y)=β 0+β 1h(x)+u? ? 若仍假定随机误差u服从正态分布即u~N(0,σ 2), 则y对x的曲线回归问题就可化为函数g(y)对函数 h(x)的直线回归问题,从而就可用一元线性回归 的方法来处理,这实际上是一元线性回归模型和 方法的推广。 四、 多元线性回归分析?(一)多元线性回归模型的设定 ?(二)模型参数的最小二乘估计 ?(三)多元线性回归模型的假设检验 ?(四)偏相关系数和复相关系数 ?(五)利用多元线性回归模型进行预测 ?(六)多元线性回归模型的推广 五、 线性回归诊断(一)回归诊断的内容 1、线性回归分析的基本假定――对于线性回归 模型,通常假定随机误差uj满足下列假定: (1)数学期望为0,即E(uj)=0;? (2)具有同一方差σ 2,即Var(uj)=σ 2;? (3)相互独立,即Cov(ui,uj)=0;? (4)服从正态分布,即uj~N(0,σ 2)。? 2、回归诊断的内容――所谓回归诊断,主要就 是诊断样本观测数据是否满足回归分析的基本假 定,以及样本观测数据中是否存在不同于绝大部 分数据的异常数据,等等。 (二)回归诊断的方法1、残差图 进行回归诊断, 通常可用残差图进行。 所谓残差图就是以因 变量的观测值yj或自 变量值x1j、x2j、…、 xkj或因变量回归值等 为横坐标,且以残差 或其标准化数值为纵 坐标所作出的散点图。ej 100500-50-100 200300400500? yj600图 8.4 小麦亩产回归的残差图 (二)回归诊断的方法2、异方差与方差稳定性变换 所谓异方差,就是指因变量的方差不是常数, 而是随着自身取值的变化而变化,或者随着某 个或某些自变量取值的变化而变化。对于具有 这种异方差性的样本数据,其残差图通常表现 为在因变量回归值较小的一端残差点的散布范 围窄,而在因变量回归值较大的一端残差点的 散布范围宽,因而就可以用残差图来诊断是否 存在异方差性。 如果样本数据具有异方差性,那么可通过 对因变量或一些自变量作变换,来改善方差的 非齐性。这些变换统称为方差稳定化变换, (三)异常数据的诊断1、异常数据的概念 所谓异常数据是指相对于多数观测数据而 言残差绝对值较大的个别观测数据,通常称为 奇异值或奇异点。 2、异常数据的检测 异常数据在样本的散点图上表现为远离绝 大多数观测点的孤立点,在残差图上则表现为 残差值很大而远离大多数残差点的孤立点,因 此也可以用残差图来进行诊断样本数据中是否 有异常点,以及判断哪些观测数据点可能是异 常点。 第九章 时间序列分析? ? ? ? 一、时间序列的采集与分类 二、时间序列特征指标测度 三、时间序列构成分析 四、时间序列自回归分析 一、时间序列的采集与分类? 所谓时间序列,就是按照时间顺序观测取 得的某个统计指标的一系列观测值,也称 为时间数列。 ? 时间序列是对某个事物的发展过程按照时 间顺序观测所取得的一个样本,而人们所 研究事物的发展过程就是所要研究的总体。 样本作为总体的代表,可以反映出事物发 展过程的一些特点和规律。因此,类似于 截面数据,时间序列作为一种重要的统计 数据在统计分析中也具有重要的作用。 (一)时间序列的采集1、瞬间采样。若所考察的统计指标是事物的 存量指标,则可以每隔一定的时间,观测登记 一次其在当时的现存数量,称为瞬间采样。 2、累积采样。若所考察的统计指标是事物的 流量指标,则可以每隔一定的时间,计算登记 一次其在以前某段时间内的累积发生数量,称 为累积采样。 3、特征采样。对于所考察的事物,也可每隔 一定的时间,计算登记一次其在以前某段时间 内的特征值,称为特征采样。 (二)时间序列的分类1、按指标性质分类 (1)时点序列。由瞬间采样方法得到的时 间序列即存量指标的一系列顺序观测值序列, 称为时点序列。 (2)时期序列。由累积采样方法得到的时 间序列即流量指标的一系列顺序观测值序列, 称为时期序列。 (3)特征序列。由特征采样方法得到的时间 序列即特征指标的一系列顺序观测值序列,称 为特征序列。 (二)时间序列的分类2、按指标数值变化特征分类 (1)平稳序列。如果一个时间序列中 的指标数值不存在持续增长或下降的趋 势,并且其波动的幅度在不同的时间也 没有明显的差异,那么该时间序列就是 一个平稳序列。 (2)非平稳序列。如果一个时间序 列中的指标数值存在着持续增长或下降 的趋势,或者其波动的幅度在不同的时 间有明显的差异,那么该时间序列就是 一个非平稳序列。 (三)时间序列分析的意义首先,揭示事物发展变化过程中的各种特征 和特点,认识事物的运动方式,把握事物的发 展方向,掌握其发展变化的趋势和规律。 其次,运用已经掌握的事物发展变化的特点 和规律,对事物未来的发展变化进行有效的推 断和预测。 再次,揭示各种事物变动之间的相互关系 和相互作用方式,以便利用这些已经掌握的事 物之间的作用方式,对某些事物的发展变化实 施有效的控制。 二、时间序列特征指标测度?一、时间序列均值的测度 ?二、时间序列的波动性与自相关性测度 一、时间序列特征指标测度(一)时间序列均值的测度 1、趋势平稳序列均值的计算 对于不存在持续增长或下降趋势的时间序 列即趋势平稳序列,其各个数值均围绕着一个 固定的数值上下波动,其均值就代表了各个数 值的波动中心,因此计算其均值是有意义的。 设给定的均值平稳时间数列为x1、x2、…、xn, 则其均值就为:1 x ? ? xi n i ?1n (一)时间序列均值的测度2、趋势非平稳序列的平稳化变换 (1)差分变换 xt=Δ yt=yt-yt-1 (2)环比变换yt xt ? yt ?1(3)对数差分变换 xt=Δ log(yt)=log(yt)-log(yt-1) (一)时间序列均值的测度3、平均增长率的两种计算方法 (1)几何平均法 假设所给定的具有等比或近似等比增长趋 势的时间序列为y0、y1、y2、…、yn,则通过环 比变换,就可以得到一个环比发展速度序列为 x1、x2、 …、xn,则平均发展速度为:x?nx1 ? x2 ? ? ? xnnx ?yn y0 (一)时间序列均值的测度3、平均增长率的两种计算方法 (2)代数平均法 从最初水平出发,用平均发展速度等 比增长推算,令各期推算水平之和等于 各期实际水平之和,则有方程式为:y 0 x ? y 0 x 2 ? ? ? y 0 x n ? ? ytt ?1nnx n ? x n ?1 ? ? ? x 2 ? x ??yt ?1ty0 (二)时间序列的波动性与 自相关性测度1、自协方差 记给定的时间序列为x1、x2 、…、xn,则 其自协方差可定义为: 1 n ck ? ? ?xt ? x ??xt ?k ? x ? n t ? k ?1 2、自相关系数ck rk ? c0 三、时间序列构成分析(一)时间序列的构成因素与构成模型 1、趋势变动T(t) 2、季节变动S(t) 3、循环变动C(t) 4、随机变动I(t) 加法模型:Y(t)=T(t)+S(t)+C(t)+I(t) 乘法模型:Y(t)=T(t)? C(t)? S(t)? I(t) (二)长期趋势的测定1、常用的长期趋势模型 (1)直线趋势模型:T(t)=a+bt (2)指数曲线趋势:T(t)=abt (3)二次曲线趋势:T(t)=a+bt+ct2 (4)修正指数曲线:T(t)=k+abt (5)逻辑曲线模型:T(t)=k/(1+abt) T ?t ? ? k ab (6)龚珀茨曲线模型: (7)双指数曲线模型:T(t)=k+ae-α t+be-β tt (二)长期趋势的测定2、趋势模型参数的估计方法 (1)最小二乘法 例如,对于直线趋势模型: T(t)=a+bt 使用最小二乘法可得参数a和b估计值为:b? n ? ty ? ? t ? y n ? t ? ?? t ?2 2a ? y ? bt (二)长期趋势的测定2、趋势模型参数的估计方法 (2)分段总和法 例如,对于修正指数曲线趋势模型: T(t)=k+abt? 将时间序列等分为三段,各段分别求和,则得方 程组为: m ? m yt ? mk ? a ? b t ? ? t ?1 ? t ?1 2m ? 2m yt ? mk ? a ? b t ? ? t ? m ?1 ? t ?3m ?1 m 3m ? yt ? mk ? a ? b t ?t ???1 t ? 2 m ?1 ? 2m (三)季节变动的测定1、同期直接平均法 (1)计算各季(月)平均数1 m ?1 yt ? ? yt ? sj m j ?0(2)计算总平均数1 s y ? ? yt s t ?1(3)计算季节指数yt S ?t ? ? y (三)季节变动的测定2、 同期移动平均法 (1)计算各期移动平均数yt ? 2s yt ? s 2 ? 2 yt ? s 2?1 ? ? ? 2 yt ? ? ? 2 yt ? s 2?1 ? yt ? s 2(2)计算各期季节随机值 S ?t ? ? I ?t ? ?(3)计算季节指数 (4)分摊计算误差yt yt1 m ?1 yt ? sj S ?t ? ? ? m j ? 0 yt ? sj (四)循环变动的测定1、直接测定法 (1)计算各期的年距环比发展速度 yt C ?t ? ? I ?t ? ? yt ? s (2)使用移动平均法计算循环指数k 1 C ?t ? ? ?kC ?t ? j ?? I ?t ? j ? 2k ? 1 j ? ? (四)循环变动的测定2、剩余测定法 (1)计算各期的循环随机值 Y ?t ? C ?t ? ? I ?t ? ? T ?t ? ? S ?t ? (2)使用移动平均法计算循环指数k 1 C ?t ? ? ?kC ?t ? j ?? I ?t ? j ? 2k ? 1 j ? ? (五)随机变动的测定对于一个时间序列,若已分别测定 得出其长期趋势,季节变动和循环变动, 则将这三种变动逐一分离出去,所余即 为随机变动。即:Y ?t ? I ?t ? ? T ?t ? ? S ?t ? ? C ?t ? 四、时间序列自回归分析(一)时间序列自回归模型的构建 1、平稳时间序列自回归模型 yt ? ? ? ?1 yt ?1 ? ?2 yt ?2 ? ? ? ? p yt ? p ? ut 2、非平稳时间序列自回归模型 (1)差分自回归模型 ?yt ? ? ? ?1?yt ?1 ? ?2 ?yt ?2 ? ? ? ? p ?yt ? p ? ut (2)带趋势项的自回归模型yt ? ? 0 ? ?1t ? ?1 yt ?1 ? ?2 yt ?2 ? ? ? ? p yt ? p ? ut (一)时间序列自回归模型的构建3、季度或月份时间序列自回归模型 (1)季节差分自回归模型 ? s yt ? ? ? ?1? s yt ?1 ? ?2 ? s yt ?2 ? ? ? ? p ? s yt ? p ? ut(2)带季节虚拟变量的自回归模型yt ? ?1D1 ? ? 2 D2 ? ? ? ? s Ds ? ?1 yt ?1 ? ?2 yt ?2 ? ? ? ? p yt ? p ? utyt ? ? 0 ? ?1D1 ? ? 2 D2 ? ? ? ? s?1Ds?1 ? ?1 yt ?1 ? ?2 yt ?2 ? ? ? ? p yt ? p ? ut (二)时间序列自回归模型的 估计与检验1、时间序列自回归模型阶数的选择 ――从最低阶开始进行比较 2、时间序列自回归模型的估计 ――最小二乘法 3、时间序列自回归模型的检验 ――回归系数t检验 (三)应用时间序列自回归模 型进行预测根据时间序列自回归模型进行预测,也就是将 时间序列变量的现在和过去的实际值代入自回归 模型得出未来的估计值,将现在和过去的实际值 以及未来的估计值代入自回归模型,得出更远的 未来的估计值。 ? yn ?1 ? ? ? ?1 yn ? ?2 yn ?1 ? ? ? ? p yn ? p ?1? ? yn ? 2 ? ? ? ?1 yn ?1 ? ?2 yn ? ? ? ? p yn ? p ? 2 ? ? ? yn ?3 ? ? ? ?1 yn ? 2 ? ?2 yn ?1 ? ? ? ? p yn ? p ?3 ? ? yn ? h ? ? ? ? ? ? ? ? ? ?1 yn ? h ?1 ? ?2 yn ? h ? 2 ? ? ? ? p yn ? p ? h 第十章 统计决策分析? ? ? ? 一、统计决策的要素和程序 二、非概率型决策 三、先验概率型决策 四、后验概率型决策 一、统计决策的要素和程序(一)决策的概念――针对面临的问题和客 观环境,做出某种行动决定的过程,就是 决策。如果决策过程中所使用的分析推断 方法主要是统计分析推断方法,那么这种 决策就被称为统计决策。 (二)决策的类型划分 1、确定性决策 2、非确定性决策――(1)概率型决策 (2)非概率型决策 一、统计决策的要素和程序? (三)统计决策三要素――决策者面对的客 观环境具有不确定性,需要使用统计分析推 断方法对决策的行动结果进行分析,这是统 计决策的主要特征。进行统计决策,必须具 有以下三个基本要素。 ? (1)客观环境的可能状态集――Θ ={θ i} ? (2)决策者的可行行动集――A={aj} ? (3)决策行动的收益函数或损失函数 ? ――收益函数Q(θ i,aj)或损失函数 L(θ i,aj) 一、统计决策的要素和程序? (四)常用的损失函数 ? 1、线性损失函数 ?k1 ?? ? a ?, L?? , a ? ? ? ?k 2 ?a ? ? ?,L?? , a ? ? ? ? a? ? ? ? a.?2、平方误差损失函数 2 L?? , a ? ? ?? ? a ?L?? , a ? ? w?? ??? ? a ?2 一、统计决策的要素和程序? (五)收益矩阵表和损失矩阵表 ? 当客观环境的状态集和决策者的行动集都只包 含有限个元素时,决策行动的收益函数或损失 函数也可用收益矩阵表和损失矩阵表来表示。表 10.1 客观状态 θ1 θ2 ? θn 决策行动的损失矩阵表 行动方案 a1 L11 L21 ? Ln1 a2 L12 L22 ? Ln2 ? ? ? ? ? am L1m L2m ? Lnm 一、统计决策的要素和程序? ? ? ? ? ? 一个完整的统计决策过程包括有下列四个步骤: (1)确定决策目标 (2)拟定各种可行的行动方案 (3)通过比较分析选出最佳的行动方案 (4)决策的执行 统计决策的这四个步骤,又分别称为统计决策 的参谋活动阶段,设计活动阶段,抉择活动阶 段和任务执行阶段。 二、非概率型决策? (一)非概率型决策的条件 ? 非概率型决策就是决策者在仅仅知道客 观环境可能有哪几种状态、但却不知道 每一种可能状态出现概率的条件下的决 策。这也就是说,非概率决策也就是在 仅仅具备决策的三个基本要素的条件下 的决策。 (二)非概率型决策的准则? 1、大中取大准则 ? 大中取大准则也称为乐观准则,决策者按照对 客观环境状态的最乐观的设想,寻求取得最大 的收益。按照这种准则进行决策,首先可找出 每个行动方案下收益函数的最大值,然后再找 出这些最大值中的最大值,并将此最大值所属 的行动方案作为最终选择出的行动方案。如果 记大中取大准则下的最佳行动方案为a* ,则有: ? ?Q ? , a ? Max Max Q?? , a ?a? A??? ?? (二)非概率型决策的准则? 2、小中取大准则 ? 小中取大准则也称为悲观准则,决策者按照对客 观环境状态的最悲观的设想,寻求取得最大的收 益。按照这种准则进行决策,首先可找出每个行 动方案下收益函数的最小值,然后再找出这些最 小值中的最大值,并将此最大值所属的行动方案 作为最终选择出的行动方案。如果记小中取大准 则下的最佳行动方案为a*,则有:Q ? , a ? Max Min Q ?? , a ?? a? A??? ?? (二)非概率型决策的准则? 3、折中准则 ? 折中准则又称为赫维茨准则,决策者可以根据知 识和经验选取一个系数值α,0&α&1,作为对客 观环境的乐观判断与悲观判断的折中系数,然后 用此折中系数计算每一个行动方案的最大收益和 最小收益的折中值,最后选出折中值最大的行动 方案作为最终选定的行动方案。记行动方案a的 折中值为H(a),则其计算公式可表示为:H a? ? Max H ?a ? ? Max[ ? MaxQ?? , a? ? ?1 ? ? ? MinQ?? , a ?]a?A a?A? ?? ??? ?? (二)非概率型决策的准则? 4、大中取小准则 ? 大中取小准则就是从损失函数的角度出发给出 的决策准则,也称为萨维奇(Savage)准则。 按照这种准则进行决策,首先可找出每个行动 方案下损失函数的最大值,然后再找出这些最 大值中的最小值,并将此最小值所属的行动方 案作为最终选择出的行动方案。如果记大中取 小准则下的最佳行动方案为a*,则有:L ? , a ? Min Max L?? , a ?? a? A??? ?? 三、先验概率型决策? (一)先验概率型决策的条件 ? 如果决策者除了掌握有客观环境的可 能状态集、决策者的可行行动集和决策 行动的收益函数或损失函数这三个进行 决策分析的基本要素之外,还掌握有客 观环境的各种可能状态出现的先验概率 分布,那么就可以使用先验概率型决策 分析方法进行分析。 (二)先验概率型决策的准则? 1、期望损益准则 ? 所谓期望损益准则,就是以每个行动方案的期 望收益或期望损失为标准,选出期望收益最大 或者期望损失最小的行动方案,作为最终确定 的行动方案。仍记决策者选中的行动方案为a* , 则按照期望损益准则进行决策就必须有:E Q ? , a ? ? Max E ?Q?? , a ?? a? A ? 或者有:????E L ? , a ? ? Min E ?L?? , a ??a? A???? (二)先验概率型决策的准则? 2、最大可能准则 ? 可以看出,期望损益准则无疑是进行重复性决策 的一个不错的准则,但是在经济管理和商务活动 中,也有许多决策问题并不能重复出现,而只是 一种一次性决策问题。对于一次性决策问题来说, 期望损益准则就不见得仍是一个不错的决策准则。 实际上,对于一次性决策来说,平均意义的期望 收益和期望损失根本就无从谈起,所以期望损益 准则并不合适。在一次性决策中,一个可用的决 策准则就是最大可能准则。所谓最大可能准则, 就是选择在最可能出现的客观状态下收益最大或 损失最小的行动方案作为最终选定的行动方案。 (二)先验概率型决策的准则? 3、渴望水平准则 ? 所谓渴望水平准则,就是以决策者的渴望收益值为 标准,选取最大可能取得此渴望收益值的行动方案 作为所选择的行动方案。若记决策者的渴望收益值 为Q*,决策者采取行动方案a可取得的收益大于决 策者的渴望收益值的概率为P[Q(θ, a)≥Q*],则按照 渴望水平准则,决策者的最佳行动方案a*就是满足 下式的那个行动方案:P Q ? , a ? Q ? Max P Q?? , a ? ? Q? ? a? A??????? (三)决策树技术? 统计决策 还可以用 图的形式 进行,决 策实践中 常用的图 形是决策 树,其名 称来源于 图的形状 像棵树。销路好(0.87) 自销 770 调查销路好 (0.62) 调查 609.64 Ⅱ T 1 代销 561 2 1 销路差(0.13) 销路好(0.87) 销路差(0.13) 销路好(0.16) T Ⅰ 调查销路差 (0.38) Ⅱ 销路好(0.16) 代销 348 T 销路好(0.6) 自销 500 不调查 500 Ⅱ 销路好(0.6) T 代销 480 2 销路差(0.4) 600 300 1 销路差(0.4) 900 -100 2 销路差(0.84) 600 300 自销 60 1 销路差(0.84) 900 -100 600 300 900 -100图 10.2电子设备公司产品经销问题的决策树 四、后验概率型决策? (一)后验概率型决策的概念 ? 决策者事先对客观环境各种可能状态的概率分布的 估计或判断,就是先验概率分布,而通过样本调查 观测所取得的有关客观环境的信息,就是样本信息, 根据样本信息对原有的先验概率分布加以修正,所 得到的修正后的有关客观环境各种可能状态出现的 概率分布,称为后验概率分布。 ? 后验概率分布既包含了先验概率分布中有关客观环 境可能状态的信息,也综合了样本中这方面的信息。 因此,利用客观环境可能状态的后验概率分布进行 决策,必然会使决策的可靠性更高,效果更佳。利 用后验概率分布进行的决策,也称为贝叶斯决策。 (二)后验概率分布的计算? 假设客观环境共有N种可能的状态,第i种可能状 态记为Ai,该状态出现的先验概率记为P(Ai), 在该状态出现的条件之下事件B发生的概率记为 P(B/Ai),则由概率论中的贝叶斯法则可知,在观 察到事件B发生的条件下,客观状态Ai出现的概 率即后验概率为:P? Ai B ? ?P? Ai ?P?B Ai ?j? P?A ?P?B A ?n j ?1 j (三)后验概率型决策的准则? 类似于先验概率型决策,常用的后验概 率型决策的准则也有期望损益准则、最 大后验可能性准则和渴望水平准则等几 种,决策分析的方法也完全类似。 (四)信息的价值? 1、完全信息期望价值 ? 如果决策者获得的信息能够完全消除决策中的 不确定性,那么这种信息就称为完全信息。拥 有完全信息的最大期望收益就称为完全信息期 望收益,它就是客观环境各种可能状态的最大 收益的期望值。完全信息期望收益与决策者仅 掌握客观环境可能状态的先验概率分布的期望 收益之差,就称为完全信息期望价值,为:EVPI ? E Max Q?? , a ? ? Max E?Q?? , a ??a?A a?A?? (四)信息的价值? 2、样本信息期望价值 ? 由于客观环境的随机性,实践中要获得完全信 息是不可能的。然而,通过抽样观测获得样本 信息则是可能的。将样本信息与先验信息结合 就给出了客观环境可能状态的后验概率分布。 因此,用后验概率条件下的最大期望收益与先 验概率条件下的最大期望收益相减,就可以计 算出样本信息的价值,称为样本信息期望价值, 记作EVSI,其计算公式为:EVSI ? Max E ?Q?? , a ? S ? ? Max E ?Q?? , a ??a?A a?A (四)信息的价值? 3、抽样期望净得益 ? 样本信息期望价值是决策者取得样本信息后期望 收益的增加价值,决策者是否要进行抽样调查或 实验观测以取得样本信息,取决于样本信息期望 价值和取得样本信息的费用二者大小的比较,只 有当取得样本信息的费用小于样本信息期望价值 时,决策者才会去进行抽样调查或实验观测取得 样本信息。样本信息期望价值与取得样本信息的 费用之间的差额,称为抽样期望净得益。记取得 样本信息的费用为CS,则抽样期望净得益的计算 公式为: ? ENGS=EVSI-CS (五)敏感性分析? 对最优方案的稳定性即可靠性进行分析,称为 敏感性分析,就是分析客观环境可能状态出现 概率的变化对最优方案的影响。 ? 敏感性分析通常所用的方法是先根据客观环境 各种可能状态的损益值计算出引起最优行动方 案改选的转折概率,然后再将实际估定的概率 与此转折概率比较,根据二者差距的大小来判 断所选最优行动方案的稳定性。 第十一章 统计指数? 一、统计指数的概念与种类 ? 二、总指数的编制方法 ? 三、指数因素分析 一、统计指数的概念与种类? 统计指数简称为指数,有广义和狭义两种概念。 ? 在统计总体中,若所考察的数量在各个个体上 的计量单位相同,且其数值可以直接相加,则 称该数量是同度量的;否则,就称该数量是不 同度量的。 ? 广义的指数,就是指反映任意一种数量集合在 不同时间或不同空间上相对比率的指标; ? 狭义的指数,则仅指反映不同度量的数量集合 在不同时间或不同空间上相对比率的指标。 一、统计指数的概念与种类(一)按指数包括范围分类 1、个体指数 2、总指数 (二)按指数反映内容分类? 1、价值类指数 2、物量类指数 3、物价类指数 (三)按指数对比基准分类 1、时间指数 2、空间指数 二、总指数的编制方法? (一)综合指数 ? 综合指数就是将各个个体在不同时间 或不同空间上的数量分别总和,然后相 对比所得到的总和相对比率指标。 ? 综合指数是总指数的基本形式,其编 制方法则是编制总指数的基本方法。 (一)综合指数? 1、同度量总体的综合指数 ? ――直接加总对比 ? 若所考察的各个个体数量是同度量的, 则可直接加总其数值,将两个不同时间 或不同空间的总和数值相比所得比率即 为所求的综合指数。如销售额指数: ? p1q1 K pq ? ? p0 q0 (一)综合指数2、不同度量总体的综合指数 ――编制规则:先同度量化,再加总对比。 (1)寻找同度量因素的规则――同度量因素 与指数化因素的乘积必须是一个同度量的指标。 例如,销售量*价格=销售额,故销售量与 价格可互为同度量因素。在物量总指数中,销 售量是指数化因素,价格是同度量因素;而在 物价总指数中,价格是指数化因素,销售量是 同度量因素。 (2)同度量因素的使用规则――在总指数中, 分子与分母的同度量因素必须同一固定。 (一)综合指数? 3、常用的不同度量总体综合指数公式 ? (1)拉氏指数 ? ?Kq?p q ? ?p q00 1 0Kp?pq ? ?p q01 0 0(2)派氏指数Kq?pq ? ?pq1 1Kp1 0?pq ? ?pq1 1 0 1 (一)综合指数? 3、常用的不同度量总体综合指数公式 ? (3)杨格指数 ? ?Kq?p q ? ?p qa1 0 0a 1 0Kp?pq ? ?p q01 0 01 a a(4)马埃指数Kq?q ?p ? ?q ?p0? p1 ?? p1 ?Kp? p ?q ? ? p ?q0? q1 ?? q1 ? (一)综合指数? 3、常用的不同度量总体综合指数公式 ? (5)费暄理想指数Kq ??p q ??pq ?p q ?pq0 1 0 01 1KP ?1 0?pq ??pq ?p q ?p q1 0 0 01 1 0 1 (二)平均指数所谓平均指数就是将各个个体指数进行综 合平均而得出的综合比率指标,即平均比率指 标。 对各个个体指数进行综合平均,常用的平 均方法有算术平均与调和平均两种。由于各种 商品的重要程度不同,所以不论采用何种平均 方法,都应进行加权平均。又由于综合指数是 总指数的基本形式,所以平均指数的权数一般 均按照综合指数的变形形式给出。 (二)平均指数? ? 1、算术平均指数 (1)基期价值额权数算术平均指数? Kp q K ? ?pq0 000?(2)基期价值额比重权数算术平均指 数 ? KWK??W (二)平均指数? ? 2、调和平均指数 ――现期价值额权数?pq K? 1 ?K pq1 11 1 (三)各种指数公式之间的关系1、拉氏指数与派氏指数的关系 记vp 为物价个体指数的标准差系数,vq 为物 量个体指数的标准差系数,rpq为物价个体指数 和物量个体指数的相关系数,则就有:?pq ?p q01 1 1?pq ?p q1 00 0? 1 ? rpqV pVq该关系式表明,当物量变动与物价变动呈正 相关时,派氏指数计算结果大于拉氏指数;当 物量变动与物价变动呈负相关时,派氏指数计 算结果小于拉氏指数。 (三)各种指数公式之间的关系2、费暄指数与拉氏及派氏指数的关系Kq ??p q ??pq ?p q ?pq0 1 0 01 1KP ?1 0?pq ??pq ?p q ?p q1 0 0 01 1 0 13、马埃指数与拉氏及派氏指数的关系? p ?q ? q ? ? ? p q ? ? p q ? p ?q ? q ? ? p q ? ? p q ?q ?p ? p ? ? ? p q ? ? p q ?q ?p ? p ? ? p q ? ? p q1 0 1 1 0 0 0 1 0 0 1 0 1 0 1 0 0 1 0 01 1 0 1 1 1 1 0? ?K p ?L ? ? K q ?L ?K p ?P ? 1 ? K q ?L ? K q ?L ? ? K p ?L ?K q ?P ? 1 ? K p ?L ? (四)各种经济指数的编制? 1、市场物价指数――主要有工业品出厂价格指 数、农产品生产价格指数,社会商品零售物价 指数、居民消费价格指数、固定资产投资价格 指数、房地产价格指数、等等。 ? 2、社会生产指数――主要有国内生产总值指 数、农业总产值指数、工业总产值指数、建筑 业总产值指数、等等。 ? 3、证券价格指数――如各种股票价格指数等。 ? 4、进出口贸易指数――有进出口总额指数、进 出口单位价值指数和进出口数量指数三种。 三、指数因素分析(一)两因素指数因素分析 若某个指标可表示成两个因素乘积 之和,就可对其变动进行两因素指数因 素分析。 如:销售额=∑商品销售量×价格 总产值=∑产品产量×价格 总成本=∑产品产量×单位成本 (一)两因素指数因素分析1、价值额指标的两因素分析 (1)指数关系体系?pq ?p q01 1 0?p q ??pq ? ?p q ?p q0 1 0 01 1 0 1(2)增长额关系体系? p q ? ? p q ? ?? p q ? ? p q ? ? ?? p q ? ? p q ? ? ? ?q ? q ? p ? ? ? p ? p ?q1 1 0 0 0 1 1 0 0 1 1 0 0 1 0 0 1 1 (一)两因素指数因素分析2、平均指标的两因素分析 (1)指数关系体系?x f ?f ?x f ?f1 1 0 01?0?x f ?f ?x f ?f0 1 0 010?x f ?f ? ?x f ?f1 1 0 111(2)增长量关系体系?x f ? ?x f ?f ?f1 1 1 00 0? ? x0 f1 ? x0 f 0 ? ? ? x1 f1 ? x0 f1 ? ??? ? ?? ? ? ? ?f ? f 0 ? ? ? f1 ? f1 ? 1 ? ? ? ? (二)多因素指数因素分析?x f ?x f 变换得:1、同度量总体多因素分析 (1)指数关系体系1 1?0 0x0 ? f 0x1 ? f1?x0 ? f 00 1x0 ? f1?x0 ? f11 1 0 1x1 ? f1?x f ?x f1 1 0 0 01 1?0 0?x0 0x0 ? f10 0f?x f ? ?x f ? x ? f ?x f0 10 1 0 1(2)增长量关系体系? x f ? ? x f ? ?x ? f ? ? x f ?? ?? x f ? x ? f ?? ?? x f ? ? x f ?1 1 1 0 1 (二)多因素指数因素分析2、不同度量总体多因素分析 如:原材料费用总额=∑产品产量×原材 料单耗量×原材料价格 (1)指数关系体系?q m p ? ?q m p ? ?q m p ? ?q m p ?q m p ?q m p ?q m p ?q m p1 1 1 0 1 0 0 1 1 0 1 0 0 0 0 0 1 0 0 1 11 1 1 0 0 0 1 0 0 0 0 01 1 0(2)增长量关系体系1 1 0 1 0? q m p ? ? q m p ? ?? q m p ? ? q m p ? ? ?? q m p ? ? q m p ? ? ?? q m p ? ? q m p ?0 1 1 1 1 1 0 第十二章 综合评价? 一、综合评价的意义和程序 ? 二、综合评价的方法 ? 三、社会经济发展水平的综合评价 一、综合评价的意义和程序(一)综合评价的概念 所谓综合评价就是对总体或样本中各个个体多 方面的特征的综合比较。其基本方法是将反映每 个个体的各个方面特征的多个指标综合为一个可 概括全面且便于比较的综合指标,以反映其综合 水平,并将每个个体的综合指标值按大小顺序排 队得到各个个体综合水平的顺序名次。 (二)综合评价的作用 综合评价方法在世界各国社会发展水平的比较 中以及在各地区、各企业、各单位之间综合评比 中,都有着十分广泛的应用。 一、综合评价的意义和程序(三)综合评价的种类――单级综合评价和 多级综合评价 (四)综合评价的程序 1、构建评价的指标体系 2、各评价指标无量纲指数化处理 3、构建综合评价指标的合成模型 4、计算各个个体的综合评价指数值 二、综合评价的方法? (一)观测指标无量纲化方法 对评价指标体系中各个观测指标的无 量纲处理,就是通过某种变换将各个观测 指标的计量单位消掉并使其数量级统一的 变换过程。 实践中常用的无量纲处理方法主要有 标准化变换方法、规格化变换方法、功效 系数方法、指数方法、秩次方法和分段打 分方法,等等。 (一)观测指标无量纲化方法1、标准化变换方法 记观测变量xi在第j个个体上的观测 值为xij,该变量在全部个体上的平均值 为,标准差为si,则标准化变换公式为:zij ? xij ? xi si标准化变换后的指标zi,其全部n个 个体的均值为0,方差为1。 (一)观测指标无量纲化方法2、规格化变换方法 记观测变量xi在各个个体上的最小 观测值为xmin,最大观测值为xmax,则规 格化变换公式为: xij ? xmin zij ? xmax ? xmin 规格化变换后的指标值都在0和1之间。 (一)观测指标无量纲化方法3、功效系数变换方法 若根据所研究对象的特点能事先确 定出评价指标的满意值x(h)和不允许值x(s), 则可采用功效系数变换方法,其变换公 式为: xij ? x? s ?zij ?x? h ? ? x? s ? (一)观测指标无量纲化方法4、指数化变换方法 若将所要评价的总体中的某个个体 作为标准,其余各个个体的观测指标数 值都与该个体的数值对比,计算出指数, 则可实现无量纲化。记标准个体的观测 指标值为xi0,则指数化变换公式为:zij ?xij xi 0 (一)观测指标无量纲化方法5、秩次变换方法 这种变换方法是先将评价变量的各个观测 值按大小顺序排列,然后取各个个体观测值的 位次即秩次来代替原观测值,从而消除各个评 价变量的计量单位并统一数量级。 经过秩次变换后,每个评价变量的取值都 在1~n之间,其最大值为n,最小值为1。在秩 次变换过程中,如有若干个体在某个评价变量 上的取值都相同,则可将这些个体的秩次都取 定为它们所占秩次的平均值。 (一)观测指标无量纲化方法6、分段打分变换方法 这种方法是先将评价变量在各个个 体上的观测值按大小顺序排列,并将其 划分成若干个互不重叠的区间,然后每 个区间给定一个分值。 例如,按照变量值从小到大的顺序, 各个区间依次给定分值为1,2,3,……。 (一)观测指标无量纲化方法7、逆指标和适度指标的处理方法 所谓逆指标是指数值越小越好的指标,如 单位产品的成本等;所谓适度指标是指数值太 大或太小都不好而只有适度才好的指标。 对于逆指标,各种变换可作反方向处理; 对于适度指标,可先确定出指标的最佳值,然 后从最佳值处将该指标分作两部分,数值小于 最佳值的一部分按正指标进行变换处理,数值 大于最佳值的一部分按逆指标进行变换处理。 (一)观测指标无量纲化方法? 8、百分制与十分制的处理 ? 在实践中,人们习惯于按百分制或十分制对所 评价总体中的各个个体进行评分综合排队。为 了将无量纲变换后的指标换算成百分制或十分 制分数,可将上述各变换公式乘以100或10。 ? 有时候综合评价的方法不允许各个评价指标出 现0值和负值或者要求其值不低于某数,这时 可在上述各变换公式中加上一个正值的常数项, 使变换后的最小分值为正。 (二)评价指标的合成方法对于各个评价指标进行合成,就是将 无量纲化变换后的各个指标按照某种方 法进行综合,得出一个可用于评价比较 的综合指标。 实践中最常用的合成方法主要有总和 合成法、乘积合成法和混合合成法三种。 (二)评价指标的合成方法1、总和合成法 简单总和合成法y j ? ? ziji ?1 m加权总和合成法y j ? ? wi ziji ?1 m简单算术平均法1 m y j ? ? zij m i ?1加权算术平均法 ? wi zij yj ? ? wi (二)评价指标的合成方法2、乘积合成法 简单乘积合成法y j ? ? ziji ?1 m加权乘和合成法yj ? ? zi ?1 m wi ij简单几何平均法? m ? y j ? ? ? zij ? ? ? ? i ?1 ?1 m加权几何平均法? m wi ? ? y j ? ? ? zij ? ? ? ? i ?1 ?1 wi (二)评价指标的合成方法3、混合合成法――将总和合成法与乘积合 成法结合起来构造出综合评价合成模型。 可有各种不同的结合方法为:? rl y j ? ? ? ? zij ? l ?1 ? i ?1k? ? ? ??2 ?? rl y j ? ? ? ? zij ? l ?1 ? i ?1k? ? ? ?y j ? ? ziji ?1k?1?? ziji ?1r? y j ? ? zij1?i ?1 kk? zij2 ? ?i ?1 rry j ? ? ziji ?1k?1?? ziji ?1r?2 ?? y j ? ? zij1?i ?1? zij2 ? ?i ?1 (三)权数的确定方法1、专家评定法 为了提高各评价指标权数确定的准 确程度,综合评价往往需要聘请评价对 象所属领域若干专家对各个评价指标的 重要程度进行评定,给出权数。一般程 序先是由各个专家单独对各评价指标的 重要程度进行评定,然后由综合评价的 人员对各个专家的评定结果进行综合。 这种方法也称为德尔菲(Delph)方法。 (三)权数的确定方法2、层次分析法 层次分析法是通过各种评价指标两 两相互比较确定出各自的相对重要程度, 然后通过一定的客观运算来确定各评价 指标权数的方法。 层次分析法的程序有三(1)两两指 标比较,建立判断矩阵;(2)根据判断 矩阵,计算权数向量;(3)对判断矩阵 和计算结果进行一致性检验。 (三)权数的确定方法2、层次分析法 (1)两两指标比较,建立判断矩阵。 将综合评价指标体系中的各个评价指标两两 进行比较,建立起评价指标体系中各评价指标 之间相对重要程度的判断矩阵,记该判断矩阵 为A,则有: A=(aij)m×m? 其中元素aij为评价指标zi对评价指标zj相对重 要程度的比例标度,一般采用评分的方法给出。 (三)权数的确定方法2、层次分析法 建立判断矩阵的评分规则: ① 若zi与zj同样重要,则取:aij=1,aji=1; ② 若zi比zj稍微重要,则取:aij=3,aji=1/3; ③ 若zi比zj明显重要,则取:aij=5,aji=1/5; ④ 若zi比zj强烈重要,则取:aij=7,aji=1/7; ⑤ 若zi比zj极端重要,则取:aij=9,aji=1/9; ⑥ 若zi与zj比较,二者的相对重要性介于上述 各相邻判断之间,则取: aij=2,4,6,8;aji=1/2,1/4,1/6,1/8。 (三)权数的确定方法2、层次分析法 (2) 根据判断矩阵,计算权数向量。 记判断矩阵中各行元素的几何平均数为:ai ? ai1 ? ai 2 ? ? ? aim则各个评价指标的重要性权数为:wi ? aim?ak ?1mk (三)权数的确定方法2、层次分析法 (3)对判断矩阵进行一致性检验。 ①何为一致性? 若A&B,B&C,且A&C,则为一致; 若A&B,B&C,但A&C,则不一致。 ②一致性检验方法――根据判断矩阵 的最大特征根,计算出随机一致性比率 CR,若CR<0.10 ,则可认为判断矩阵具 有一致性。 第三节 社会经济发展状况的 综合评价? 一、社会经济发展水平的综合评价 ? 二、国民经济运行状况的监测评价 三、社会经济发展状况的 综合评价? (一)社会经济发展水平的综合评价 ? 1、经济业绩指数(EPI)实际经济增长率 经济业绩指数 ? 通货膨胀率 ? 失业率? 2、实际生活质量指数(PQLI)人均收入增长率? 就业率 ? 识字率 ? 平均寿命 70 ASHA指数 ? 人口出生率? 婴儿死亡率 (一)社会经济发展水平的 综合评价3、ASHA指数人均收入增长率? 就业率 ? 识字率 ? 平均寿命 70 ASHA指数 ? 人口出生率? 婴儿死亡率4、国力动态方程指数 美国学者克莱因(R.S.Klein)曾设计提出了一个 数学方程,称为国力方程,其计算公式为: P=(C+E+M)×(S+W)? 其中,P为国家的综合国力;C为国家基本实体,表 示人口和领土;E为国家经济实力;M为国家军事实 力;S为国家战略目标;W为追求国家战略的意志。 (二)国民经济运行状况的 监测评价1、国民经济运行状况监测评价的概念 对国民经济运行状况的监测评价也 称为经济景气分析,是从生产、贸易、 金融、物价、成本、利润、库存、就业、 投资、消费、国际收支等领域中选择若 干个监测指标,并将所选出的监测指标 分成先行、同步、滞后三类,分别对各 类进行综合,得出各类的综合指数,用 于对整个国民经济运行状况的评价判断。 (二)国民经济运行状况的 监测评价2、景气监测指标体系的选取 景气监测指标体系由先行指标、同步指标和 滞后指标三部分构成,其选取原则主要有四: (1)指标的经济重要性,即所选指标必须都是 可反映经济运行状况的重要统计指标; (2)指标的波动灵敏性,即所选指标要对经济 的波动需有灵敏的反映; (3)指标的数据充足性,即所选的指标要有足 够长的时间序列数据; (4)指标数据获得的适时性,即监测指标的数 据要能及时取得。 (二)国民经济运行状况的 监测评价3、景气监测综合指数的合成 对于选定的景气监测指标体系和已 取得的监测指标数据,要得出国民经济 运行状态的总体综合判断,就还必须对 这些监测指标进行综合。 在经济景气监测评价中,所使用的 综合评价指数主要有二,一是扩散指数, 二是合成指数。 (二)国民经济运行状况的 监测评价4、扩散指数 所谓扩散 指数,简单地 说,就是各类 监测指标体系 中与上期相比 本期观测值非 降的指标个数 所占的比例。 (1)无量纲化方法? 1, xij ?t ? ? xij ?t ? 1?; ? zij ?t ? ? ?0.5 , xij ?t ? ? xij ?t ? 1?; ? 0 , x ?t ? ? x ?t ? 1?. ij ij ?(2)扩散指数的计算DI i ?t ? ?? z ?t ?j ?1 ijmimi?100 % (二)国民经济运行状况的 监测评价(3)扩散指数的作用 ①根据其数值的大小来判断国民经济运行的 状态。当其数值大于50%时,经济活动中的大部 分指标都处于上升状态,国民经济处于繁荣时期; 而当其数值小于50%时,经济活动的大部分指标 都处于下降状态,国民经济处于萧条时期。 ②根据其数值的变化来判断国民经济运行状 态的转折点。如果与前期相比扩散指数的数值在 增加,则表明国民经济活动在扩张,经济景气在 上升;如果与前期相比扩散指数的数值在减小, 则表明国民经济活动在收缩,经济景气在下降。 (二)国民经济运行状况的 监测评价5、 合成指数(Composite Index) 扩散指数的数值只取决于各个监测指标的数 值与前期相比是否增加或减少,而与各个监测指 标数值的增加或减少幅度无关。因此,并不能准 确地度量国民经济扩张和收缩的程度。 合成指数也是区分先行指标、同步指标以及 滞后指标三类监测指标分别编制的,所得合成指 数分别称为先行合成指数、同步合成指数和滞后 合成指数。合成指数的计算不仅考虑了各个监测 指标数值得变化方向,而且也考虑了其变化幅度, 其编制要比扩散指数复杂的多。 (二)国民经济运行状况的 监测评价6、景气监测指标对企业经营管理的作用 扩散指数与合成指数表明了国民经济在其 周期运行过程中所处的阶段和经济扩张与收缩 的幅度,是经济景气的指示器。显然,国民经 济运行在其周期波动过程中所处的阶段不同, 整个国民经济扩张或收缩的幅度不同,企业的 生产经营决策也应有所不同。因此,每一个企 业和每一个企业家都应该十分关注整个国民经 济的景气状况,以便在自己的生产经营过程中 能及时地采取适当的对策,在激烈的市场竞争 中立于不败之地。
商务统计学调查报告 - 哈尔滨广厦学院 商务统计学调查报告 题目院别专业班级学号 学生姓名 201 年 月 日 手机对大学生的影响调查 关于 “手机对大学生的影响...商务统计学试卷C - 命题方式: 统一命题 佛山科学技术学院
学年第二学期 《商务统计学》课程期末考试试题(C 卷闭卷) 专业、班级: 题号得分一、判断...商务统计学试卷C答案 - 命题方式: 统一命题 佛山科学技术学院
学年第二学期 《商务统计学》课程期末考试试题 C 答案 专业班级:13 级经济管理 1~10...商务统计学试卷D - 命题方式: 统一命题 佛山科学技术学院
学年第二学期 《商务统计学》课程期末考试试题(D 卷闭卷) 专业、班级: 题号得分一、判断...商务统计学课后答案_理学_高等教育_教育专区
暂无评价|0人阅读|0次下载|举报文档商务统计学课后答案_理学_高等教育_教育专区。商务统计学第五版书后作业答案 ...商务统计学复习题 - 本文档是戴维安德森版的《商务与经济统计》教材的复习资料,供学生复习备考之用。商务统计学论文 - 《商务统计学》学期论文 我国居民消费结构和消费趋向 带来的市场营销机会 姓名:李佳明 班级:2012 级市场营销本科一班 学号: 我国居民...商务统计学试卷E答案 - 命题方式: 统一命}

我要回帖

更多关于 大学生统计学调查报告 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信