大学统计学计算题 计算Za/2的时候 什么情况下直接取样本n 什么情况是要计算df=n-1的

1.什么情况下,应用t检验
1. 已知总体的均值m,或者我们假设了一个总体均值m;
2. 我们知道样本的个数n,样本的的方差var,样本的均值m;
3. 我们假设总体,或者样本都是服从正太分布的。
2. 我们的目的,就是要检验这个总体均值m是否合理  
3.具体步骤:
T检验的步骤
  1、建立虚无假设H0:&1&= &2,即先假定两个总体平均数之间没有显著差异;
  2、计算统计量t值,对于不同类型的问题选用不同的计算方法;
  1)如果要评断一个总体中的小样本平均数与总体平均值之间的差异程度,其统计量t值的计算公式为:
  2)如果要评断两组样本平均数之间的差异程度,其统计量t值的计算公式为:
  3、根据自由度df=n-1,查t值表,找出规定的t理论值并进行比较。理论值差异的为0.01级或0.05级。不同自由度的显著水平理论值记为t(df)0.01和t(df)0.05
  4、比较计算得到的t值和理论t值,推断发生的概率,依据下表给出的t值与差异显著性关系表作出判断。
T值与差异显著性关系表
tP值差异显著程度
差异非常显著
t&&&t(df)0.05
差异不显著
  5、根据是以上分析,结合具体情况,作出结论。
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
统计量是随机变量的函数
常规的概率分布是考查随机变量的取值的可能性。
统计量是在此基础上做推广,对随机变量进行组合,得到统计量。根据既有的假设,我们会考虑统计量是服从某种特定的分布。
在统计量的这个模型下,考查统计值的分布,哪些是统计值:样本均值、样本方差,样本个数。
最终,可以在 A:统计量所服从的分布模型 +B:我们所现有的一个样本(得到样本均值、样本方差,样本个数),然后做推断 C:这个样本 B 在这个 假设 A下是否合理。
阅读(...) 评论()当前位置: >>
北大老师甘怡群统计讲义
北大老师甘怡群统计讲义第一章 统计和度量的基本概念fbS_ x,pT0 b \i_'统计 (Statistics)C 指组织,总结和解释信息的一整套方法和规则。 总体(population)-- 特定研究所关注的所有个体的集合。- 7l +WU.%/ 8A ZX样本 (sample)-- 从总体中选择出的个体的集合,应该能代表研究的总体。 中推论得到。 中推论得到。N2Q(w );1参数(parameter)-- 描述总体的数值。参数可以从一次测量中获得,或者从总体的一系列测量7u$G r -1统计量 (statistic)描述样本的数值。统计量可以从一次测量中获得,或者从样本的一系列测量z&'U1* D_数据(Data) 测量或观察所得。Mf&#Y !-r描述统计(Descriptive statistics) 总结,组织,和使数据简单化统计程序。 取样误差(Sampling error)样本统计量与相应的总体参数之间的差距。 机会均等。用随机取样法得到的样本叫做随机样本.1 HoL2&E*推论统计(Inferential statistics) 使我们能够通过对样本的研究将其结果推广于总体。=oi$k 4 ygun+O J@+随机取样 (random sampling) 从总体抽取样本的一种策略,要求总体中的每一个体被抽到的-- Tk2 r M变量(variable) 是一种特征或条件,其本身是变化的或对不同的个体有不同的值。 常数(constant)是一种特征或条件,其本身是不变的且对不同的个体的值也相同。 个(或更多)的处理条件。D x] f 6&9F^KTC t XG自变量(independent variable) 被研究者操纵的变量. 在行为科学研究中,自变量常常包括两b& Um9p@M因变量(dependent variable) 被观测的变量,其变化被用来评价处理的效果。 相关法(correlational method)看两个变量是否有某种特定关系。hi |\ 05 9h$HD jx\#=实验法(experimental method) 操纵一个变量,观测另外一个变量的变化。用以建立两个变量 间的因果关系。 实验法用随机分组和控制其他变量恒定的方法, 试图消除其他因素的影响或使之 减为最小。[xl& t v准实验法(quasi-experimental method) 考察已有的各组被试间的差别(如性别差异)或在不 同时间所采集数据的差异(如, 处理前和处理后). 这里的分组变量称准自变量, 每个被试的分数 称因变量。& Z! Nq i控制组(control group) 是自变量的一种处理方法,此组被试不接受任何实验处理. 有时控制 组被试接受一种中性处理或安慰剂。其目的是提供一个与实验组对照的基线水平。 实 验 组 ( experimentals,~4 Ld& pgroup ) 此 组 被 试 接 受 某 种 实 验 处 理 。 0 2ts! &@混淆变量(confounding variable) 未能控制的变量,与自变量有非预期的系统性关系。 变 量 的 预 测 。8&boAl y\假设(hypothesis) 对实验结果的预测。 在实验研究中, 假设就是对操纵自变量会如何影响因' 9@`A&U构念(Constructs) 指假设的概念,用于理论中,按其内部机制来组织观察。$ v # &: _操作定义(operational definition) 用具体的操作或程序以及由此产生的测量指标来定义构念。 因此, 一个操作定义包含两个成分:1)它描述了度量一个构念的一系列操作或程序;2)它用度 量的结果来定义构念。5 ) DP & Il9命名量表(nominal scale) 由一系列具不同名称的范畴所组成。命名量表的度量将观察所得标 定并分类, 但不会对观察所得作任何数量化的区分(无大小之分) 。 大小或数量排定秩次(rank) 。| u 4 - S顺序量表(ordinal scale)由一系列按顺序排列的范畴所组成。顺序量表的度量将观察所得按其y&X:X ? UJ等距量表 (interval scale)由一系列按顺序排列的范畴所组成,且每两个邻近范畴之间的距离 都是相等的。在等距量表中,加减运算反映数目的大小差距. 但是,乘除运算没有任何意义。 比例关系。d s209]z(比例量表 (ratio scale) 是具有绝对零点的等距量表. 在比例量表中,乘除运算反映数量间的' =X} &.O离散型变量(discrete variable) 由分离的,不可分割的范畴组成。在邻近范畴之间没有值存在。_4 6oi:[Q p连续型变量(continuous variable) 在任何两个观测值之间都存在无限多个可能值。连续型变量 可以分割成无限多个组成部分。 统计中常用的符号 n n n ? ? ? ? ? ?WR97 ;5 + 6# Z & Gh求和符号 ? summation N = 群体大小 (参数) n = 样本容量(统计量)2{ x `ae[8 3y E,G/ jH&Uz &@ M &1gg第二章 次数分布次数分布综述 次数分布表 次数分布图 茎和叶图;s ` / ht. P46j2Ay\ U .S次数分布的形状GgI b4=x7:$ rc.& !百分位数,百分位等级,插值法`UIsLQ aNW %次数分布综述 ny &3D(& i描 述 统 计 的 目 的 : 简 化 和 整 理 数 据 的 表 达 。d VTACb `n n n&_S& h =次数分布表和次数分布图就是表达一组数据是如何在某一度量上分布的。 次数分布:是指一批数据在某一量度的每一个类目所出现的次数情况 组织此类数据的第一种方法是:建立次数分布表e) ff`ek( , &yF 0(iC 8iL[* 'd p 6'次数分布表 ? ? ? ? ?^Da: nZ v&l6$ OTw7 U次数分布表的要素/? ,: 4 #N变量的值? -填充 x 列h~) \L.]每个值出现多少次(发生次数)? -填充 f 列i+_hJ_q '观察的总数?将次数行求和, 将得到 S f = N%:;) G _ yK变量的总值?最简单的方法就是求(X) 和 (f) 的乘积列, 然后将结果求和 S (Xf ) 1 : 对 于 下 面 的 次 数 分 布 表 :!v# @;_Uz[例w &q ! JSi. ii. x 4 3 2此分布中共有几个分数 (N = ?) 对这些分数求和 ∑X fJME% gO ! ) S &UtrlKDS 9f{2 4dQbc A q0(!hHmd15h0S8 Ss/1' 6@&B @ (37&f DzdJ_$*gMD0FlQ h{ 8X3Ha例 2: 某个班的 26 个学生在一次测验中的分数如下(10 分为满分) : 9,2,3,8,10,9,9,2,1,2,9,8,2, 5,2,9,9,3,2,5,7,2,10,1,2,9 将这些分数作成一个次数分布表GiCGP?B6 Y pD c s F% -f . q$b k pu.m|^|Y) ,u ZSxh Z00 #f,}s\wu4 ]# = ((R 2( et |_eLAn) } 0?+Tbr # 29~ ]f&_)L'4&cO1@`k _,E ] *q2r@y9r d!l?z{, ~XJc0&nN &Wp= ]R比例 (相对次数; Proportions). 全组中有多大比例取值为 X? p = f / N (N = 观察的总数) . 百分比 (Percentages). 全组中有多大比例取值为 X? p * 100 分组次数分布表n@|jd * D&@M h %? l((S&eR B6?)% pF- d v常常以区间的形式出现, 而不是某一特定值. 例如学生成绩, (A = 90-100, B = 80-89, ...). 编制分组次数分布表的步骤 求全距}f :lD &nl i. ii. iii. iv. v. l i. ii. iii. iv.L#B 6 aM e}jX |V 6JD定组数DQ/]r b定组距|ph9Vt写出区间上下限}I Z 83a[O统计每个区间的次数.FM .K建构这些区间有一系列的“惯常法则”gm 3N7_L wSv6V4T^p-v(rules of thumbs)分组次数分布表应该有大约 10 个区间,目的是使这组数据易于直观感受和理解 组距应该是个比较简单的数字,如 2,5,10,20 每个区间开始的分数应该是组距的倍数 所有区间的宽度应该相等H{hz6V T) w?z`h% 4c: ~ fN P{x d3KAH9H90T q&-G~Y Q5次数分布图r6nv+ G !次数分布的数据可以用图简明地概括&1N 8pnqI-$C Em s}Vp? ¨ ¨ ¨ u u u1M!kp} q 9j直方图 (histogram):用一些垂直条画在每个分数之上 垂直条的高度代表次数U . &)-JP@-qj]W{ uKK垂直条的宽度代表分数的精确区间.}?c qL N{'I只有数据是等距或等比量度时,才能用直方图_t 'k&b x 8注意:对于一个连续变量, 每个分数实际对应一段组距. 分割这些组距的界限叫做精确界IUj rpF x*限(real limits). 分割两个邻近分数的精确界限位于两个分数的中间。 在组距的底端,称为精确下限(lower real limit).每个分数有两个精确界限, 一个在组距的顶端,称为精确上限(upper real limit), 另一个{ q` PUswl注意一个组距的精确上限也是高一个组距的精确下限。9rd@F例 3: ¨ ?}F Z a7dh5绘制一个直方图来表达例 2 的分布P 26]~ E5水平轴 - X 轴 (abscissa) - X 的值c Yt i 4D jt eE_-垂直轴 - Y 轴 (ordinate) - 次数棒 图 ( 条 形 图 ; bar graph ) : 用 一 些 垂 直 条 画 在 每 个 分 数 ( 或 类 别 ) 之 上 ;j}WX#[ gTn n n njJyL D^|?垂直条的宽度代表分数的精确区间. 垂直条的高度代表次数Qq-jL( ]!( $-E $.-6'每个垂直条之间有一段空间。v osQ L-只有数据是命名或顺序量度时,才能用棒图 作 全 班 同 学 家 乡G2 / S~ zR-地区的棒图$On3z+]8 4i)6T n&Hyu g+ USh次数分布的形状 ? u/ $ 4#'*用 3 个特征可以完整地描述一个分布: 形状 (shape) 集中趋势 , (central tendency) 和 ,~ gZL`-v!r变异性(variability).对称分布(symmetrical distribution) 可以画一条垂直线穿过分布的中央,使得分布的 :`+ |w h一边恰是另一边的镜象。h 76g-V e~u偏态分布(skewed distribution)中, 分数堆积在分布的一端,而另一端成为比较尖细的尾|e62, A端(tail) 。 u u^G Y( M&------ 尾端向左: 负偏态正偏态: 尾端向右----&hf^ K&T偏态分布尾端向右的称为正偏态(positively skewed )(因为其尾端指向正数) 偏态分布尾端向左的称为负偏态(negatively skewed). 如 何 描 述 例 2例 3 分q x %4 y&xHZ | h eW-布的形状?`f% GCUb ud6d从整体上说,这个班的学生测验情况怎么样?大部分分数是偏高还是偏低?测验容易还是`(-] 6zp*8简单?双峰分布lZq@/ _@ 0W7A.茎和叶图 u/ Z% J H&茎和叶图 (stem and leaf display)- 将每一数字分解为左边部分(称为茎)和右边部分v9 6wpkR(称为叶). 如果数字是两位数, 左边的一位就是茎,右边的一位就是叶.;A u6[C例 4:考察下列茎和叶图:% ) c xG[tSD7 C &6~8 7 6 5 4 3 2M w*C ElmM`=+! U-f-J(~2q- s{n; C k) &:E\C SNH e/,\ kfvHHT ( iX =271 302 3 5r%n4 .ksB,s e aa4586D }C )6 2W# n#]+tm+4169G 1^ &U (BYk): tN n226@55aS8..&k ,,CY$Lv5ZS-ca) b) c)以 10 为组距宽度,作相应的分组次数分布表 以 10 为组距宽度,作相应的次数分布直方图jX7F &$Pde~Z5Hm!c如 果 给 定 分 组 次 数 分 布 表 , 能 否 作 出 茎 和 叶 图 ? 为 什 么 ?z _$Nu ,K@K!r/4iG9&#r#oJ#=`z# jGNNgBa2Xq+|%,x [}$cp#Gw^w )}L Ajx .& GbM `*- ,M ]百分位数 ? ?-Q93&? ys5以上是描述观察的整体,而我们也可用次数分布来描述某一个别点在一个集合中的位置3d NQ,9一个分数的等级(rank) 或百分位数等级(percentile rank) 某一分布中分数在某一值 :hVpX 7F!之下或等于该值的个体所占的百分比._R3 Pj+)Z例 4:此表是一次词汇测验的分数: X 5 4 3 f 2 10 p .05 .25 16 % 5 25 cf 40 38pB% kr j 1___________________________________________ c%q? qqMT~k hd G x100 .40(X$Ik ! 795'p1.J |K402870=3! :S=P22 18 4.20 .1020 1012 430 10\P \D RCP,l#tlT sYs-cf = 累积次数(cumulative frequency) 1) 2)6 -d i*i 0*{;L{O?VTc% = 累积百分比(cumulative percentage)':;!i s m95 百分位数等级的所对应的测验分数是多少?BvT0F)?Z[B如果你在测验中得到 4 分, 你的百分位数等级是多少? 如何确定百分位数f4 V cjU^lPeJ N lV注意: 对于连续型数据, 必须考虑其精确上限和精确下限`f(K 1M 6&+L h4h;Ks1)-对于分数 4, 其对应的累积百分比是 95%.但注意:分数 4 意味着一个人得分在 3.5 和4.5 之间. 累积百分比表明组距的精确上限。 因此, 的百分位数是与 4.5 相对应 95 (而不是 4.0) .yV;] I + [2) 9jN*? nGM0找出分布中 4 分的精确上限和精确下限的累积次数.V|D( EjF 9QD _#,},- 对于分数 4.5, 其对应的累积百分比是 95对于分数 3.5, 其对应的累积百分比是 70)/ _Z /NQ对于分数 4.0, 其对应的累积百分比是多少呢?9U Pm J{f1l插值法(Interpolation) - 有时你所感兴趣的值并未出现在表内。此时你需要做基于经验k: 68,]m #的猜测. 其中的一个方法是插值法。3V@? hF 4esU早上 8:00 温度是 20 度,到中午 12:00 温度是 28 度 上午 9:00 是多少度呢? 1) 步骤:n & \ Y D& aL Vh{UV gx) jg找出两个量数组距的宽度A% + /68如, 时间 8 到 12 点;温度 60 到 68 度 4 小时; 8 度 2)- LjA ((:{ 56x Hu找出组距中已知值的位置i1v,E/=已知值与组距顶端的距离/ 组距宽度L&fa~ , P= 12:00 - 9:00 = 3 小时 / 4 小时 = .75 = (分数) X (另一量表组距宽度) = .75 X 8 度 = 6 度-9[Rb CA b N .Xo3) 用所得位置 (分数) 来确定另一量表中对应的所求值与组距顶端的距离? ]&lJ p$C Csqy:$再求得插入值--& 28 - 6 = 22 度 (9:00 的温度)E* {V[X nGYG:I; S~&J例 4: X 5 4 3 2 19 ;K8( v___________________________________________ f 2 10 16 8 4 p .05 .25 .40 .20 .10 % 5 25 40 20 10 cf 40 38 28 12 4 c%n&w#: 7 O vx 8 ms +JQ100=Bd' .t6a e95 70 30 10' ? uOG84E% J|0v 0!@& W )_ &#f%w1CtldK' cM*17o- 对于分数 4.5, 其对应的累积百分比是 95 . ~qyE4fL;:My5G?t J对于分数 3.5, 其对应的累积百分比是 70rF + v *co对于分数 4.0, 其对应的累积百分比是 X?rgt#8k c 7第三章 集中趋势1X+k,5, { ,(Central Tendency)f&F f3R?B~2 &QObL内容 v v v v v v v]/Dr X\ _d均值 (mean) 众数 (mode)Nh+ vr]zQ中数 (median)+};B*0I:/HIj n{ t.[r选择适当的集中量数 集中趋势与分布形状` @Q p4s=#e5eqB17z -7^DX学习目标学会计算均值,中数和众数W &GDF}7 `对 于 给 定 的 分 数 分 布 , 确 定 如 何 选 用 适 宜 的 集 中 量 数. &OX o62f54L 5/ gf 集中趋势 vHM * HQ D &}oU%5& ,{3 Z目的:选择一个最能代表整个分布的数值B)KV_n &3三种集中趋势量数P eg& O oGe-,& x B1.均值 (Mean) v v v x= v vn XYWb}算术平均数(arithmetic average) 总体的均值公式: X/ N? ? = μ X /n?S& pdtx V: ( hp uBp72+ =v & &样本的均值公式:M2[aN I~vRC dJ&I 2 . L如何计算分布的均值:$~y2U= 1\:$LD ^U公式: m = SX / N =均值具有下列特征:,{B @D3qg1) 如果改变一个给定的分数,增加一个被试, 或减少一个被试, 均值应当有变化.& (Mtz vM2) 如果对每一个分数都加上 (或减去) 一个常数, 均值也会加上 (或减去) 这个常数。 3) 如果对每一个分数都乘以 (或除以) 一个常数, 均值也会加上 (或减去) 这个常数。 2.中数(median)Vg= CA D7v&#!, R]3i &M _v `P7中数(median) 是将分数分布均分为两部分的那个分数. 分布有 50% 的个体等于或小于中数. 中数等价于百分位数(percentile)是 50. 如何计算中数??{ K|wf'b3 S& $(m h^1)如果分数的个数是奇数个,将其按从小到大的顺序排列. 找出中间的分数 2)如果分数的个数是 偶数个,将其按从小到大的顺序排列.然后找出中间的两个分数。将其相加后再除以 2 3)当分布的 中间分数有相等的分数时,用中间分数的精确上下限作插值法g _ O6Tr\ { &Zd0!7$D例:计算下列连续型变量的中数_?d FM&o&@a) b) c)^u $ w b%8, 10, 12, 15, 18, 19, 60l pOst MT8, 10, 12, 15, 16, 18, 19, 60W0TjKI@8, 10, 12, 15, 15, 15, 18, 18, 19, 60O s DX^;!\________________________________________ X 60 19 18 15 ? 12 10 87vdQcC QJ!$l N/!CvM $f 1 1 2 3 1 1 1% 10 10 20 30 50 10 10 10c% 100 80 70 60W Dajo { g& +r Y::&5 01[x2 mI?sr F Uh cgfno# ,gw Magf Fw @I) q30 20I2N 7Bqf=}G;9?)10TxaH c[Yv;2.众数 (mode)KT)b^ .X第四章 差异量数(Variability)_ jWu9y HF分布的第三个特征 ----变异性(Variability).y! P?T (7变异数是对于分布的延伸和聚类状态程度的定量化描述a`O{ yCXNex变异数越高,表明分数间的差别大, 变异数越低,表明分数间越近似.&-&2&wT R三种变异数: 全距 (range) 标准差 (standard deviation) 和四分位距 , , (interquartile range) .|$igJd8}yR1.全距 (range)v^^\cJ3N-全距是分布分数最大值(maximum) X 的精确上限与分布分数最小值(minimum) X 的精确下限 的差值。)?B p q y注意:如果分数是连续型,必须用精确上下限。SU&7 .xVKpd t[l__X 8 5 1 4f 1cf 15 4c% 60 710 6225 11100 9 44 68 4@c NG DPNMV23 592 20若 X 是离散型: range =? 若 X 是连续型: range =?Xj&k &w:'j- 用全距描述分数变异性的局限:- 该统计量只依据分布中的两个极端值,未利用到分布的大部分信息 .% +\'X$m ?k 0NeT2. -四分位距(interquartile range)( *V EEAA D@1R OXv $4l度量变异数的另一种方法. 50% , 25%和75%的百分位数代表什么? 14 P r 9j:Sf |_W'74用 50%,25%和 75%的百分位数分布被分成 4 部分M; ). jV 52Z: 03- _ 0;_X 5 2Cih |1C aVf 4 4 12.5% 12.5 25 1c% 7 754 4 8 12.54 12.512.5 25i QWM ^100 6 62.5 34 412.5 12.587.5 37.5$ 3u Zr+Y四分位距就是 75%百分位数与 25%百分位数间的距离. 它代表分布中间 50%的距离. 如果上例是连续型变量,dYc !-+rv*aVjDs&median = Q2 = 4.0 -& 用插入法% ^ E&' G:25%tile = Q1 = 2.5 -& 区间 2 的精确上限 75%tile = Q3 = 5.5 -& 区间 5 的精确上限R dO D`= ERvxG qC'Z%YzFu0&6N&四分位距 (IQR) = 5.5 - 2.5 = 3.0 SIQR = (Q3 - Q1) 2 w w w w w w wbDu![Tk[ [ `r 5 ]jHvx& N$w Eksemi-interquartile range:四分位距的一半(interquartile range).v[ O# :A'zYTJK2(~第四讲 标准差和 Z 分数 标准差和总体方差 标准差和样本方差 标准差的特性 Z 分数概述J ^R $n$To-=/,CW&4PlL;R &R]L|Z5y -ry差异量数的比较YfX ,-0Gh4J[/|zZ 分数与分布中位置h :t\y -R=用 Z 分数将分布标准化9 cz9 ?:_标准差 (standard deviation) ? ? ?|(6M &PT ?e?l!c}p量度了分布中的每一个个体与某一标准偏移的距离,这个标准就是均值。 最重要,最常用的差异量数. 考虑了分布中的所有信息nrl9^k,- &S :FKl 6;=4ZNrD? m)方差/标准差的逻辑步骤 1.离差M S{ IWKBdKx.t gSZkVfX - m = 离差分数(deviation score)v :( V - &&} & w /J例: 全班男同学的体重 (公斤) mean = m = 67M ~d =4 2]/69, 67, 72, 74, 63, 67, 64, 61, 69, 65, 70, 60, 75, 73, 63, 63, 69, 65, 64, 69, 65hY qF &3Cr JS & 0FS (X - m) = (69 - 67) + (67 - 67) + .... + 65 - 67) = ?r ?6VH= 2+ 0 +5 +7+ -4 +0+ -3 +-6 +2 + -2 +3 + -7 + 8 +6 + -4 + -4 +2 + -2 + -3 +2 + -2 = 0oCp#z un2S注意:如果分数的值大于均值,离差是正数@Z.:Q ) LY 如果分数的值小于均值,离差是负数 离差的和必定为 0。 HzX{Y &wX g}I! g_- 0-fq- zE& 3因此,要去掉符号. 将离差平方,再取其和的平方根。 2 . 和方 x 69 67 …k9 3Z}O N/g ,@ B\4:和方的操作定义:SS = S (X - m)2 X -m 2 0 … 4 038 jyA@!en.b ef Y 2-(X -m)2hPO g5o eOpFyd ^mlr…tg E |0WZS=362?!&$,X F~ PX aXw ds+ .SS = 362_47B: 4C /x和方的计算公式为: N 上例中: X 1 6 4 3 8Cx *& p bmSS = SX2 - (SX)2:Em-ioQ6e91& -0: G7此二者为等价。计算公式的优点为 可直接利用 X 值。w& kA? 4& H_QX2-&a 4s ope/A]Q Dc|]7c & =(Z Hj 94u;vRp,uhH @p&FXV b77 6 S X=s j@&U ? )UC: n\H&^j0 ( ZT 2:S X2 =`YZ*XpSS=SX2-(SX)2$ USy NQXl*r ?&9d注意:以下方差/标准差部分,总体和样本有区别 3.总体方差和标准差 总体方差= s2 = SS/N#yGi 0{a7b- YoXcm:总体方差(Population Variance) 和方的平均, 即和方除以总体的容量. :bv gFs6?k Zp) {Ux e总体标准差:将总体方差求平方根。 s = sqroot(s) 上例中: s2 = ? s= ? step,* 8 o& g (| y % 0g8ADhstandard deviation = sqroot(variance) = sqroot(SS/N)d5q@b6 1 V* 130a#$#oR 6goW CDy求总体标准差步骤: 1:y (G&v &&eX计算和方SScV[e 89- 可用定义公式或计算公式 step 2: 确定方差 - 计算均方 yb,A uG% f@A m ZN4?tr~=]j_yj将SS除以Nv &#2ATstep 3: 确定标准差 mTG6& NO GFT.R ^?:| j取方差的平方根9 fpyOB&F|Uc 8 _b4. n n nR~cmX!样本的方差和标准差A- X ) kvo^m+ 2-'rv }注意与总体标准差的不同:s =样本的标准差(sample SD) 用 (不是 m) 来计算 SSy lK\ hd{[ h^]oT)} I+O1需要考虑样本常常比其所属的总体较少变异性,标准差的计算需做校正.+6s YB? &- 如果样本有代表性, 那么样本与总体的就会非常近似, 两个分布的形状也应该近似。但是, 样 本的变异程度仍然低于总体的变异程度. sample variance = s2 = __SS _ n-1 对& &3E [lC v] k\-U : $- 因此,样本方差的分母是 n - 1 而不是 nHw4 viX 1!.W8? z[ K3于样本标准差也是同样u 2= &R= `Lsample standard deviation = s = sqroot(SS/(n - 1))0$fN E ~]Q[1bG rEqg2# ?% y\y&用 n-1 作分母,意思是利用自由度来校正样本离差,以利于对总体参数的无 1 偏差估计。&u Fdb r 自由度?3T CF\^en - 1 意思是除了一个值,其余都可变化。 5 + 4 + 6 + 2 + X = 25 X=8k`i en a+c7! i -H|O E8R~ Rs如: sample mean =5,如果前 4 个分数是: 5, 4, 6, 2 最后一个是什么?H&/X4 t@Q p[NE jDfab&X 必须固定在 8。q4: G \f e 例 1:求标准差: 1, 2, 3, 4, 4, 5, 6, 7 第一步: 计算和方 列表:.8(^_r F U .6I& l8fYemU-Qv =&# 0第二步: 确定样本方差 sample` Q D@ K#|variance=s2=_SS_z&N Dn-1%v EQjp&3= 28/(8-1) = 28/7 = 4.0C;z a-R^ MP U '`X9^第三步: 确定样本的标准差 standard deviation = sqroot(28/(8 - 1) = sqroot 4.0 = 2.0 ng%z;aM `_l g neyeO xl%9'2= sqroot(SS/(n - 1))]v 1N !e4l+ b:,A qu9u&Q? _/{U:粗略估计均值和标准差wWQ\G7]4&'N|B?^jr(| ,m=? s=?6)3O J@B4{ 56Ih9 =&1M q.T I %I标准差的性质l'2DDW tB1) 对分布中的每一个分数加上一个常数不会改变其标准差.Sn} 19)Az&-x' 1oL NmQ?) :&Sz-FO2) 对分布中的每一个分数乘上一个常数, 所得分布的标准差是原分布的标准差乘上这个常数.C=&`pq7M#{br3 - y` . Wmt f比较三种离中量数 -L *y w cq/ n极端分数: 全距(range) 受影响最大, IQR 受影响最小WS4`a !\样本大小: 全距(range) 可能随 n 的增加而增加 , IQR & s 不会C4&w tm -3样本选取: 从同一总体中多次取不同样本, (range) 没有稳定的值, 但 IQR 和 S 是 全距ZY ?I - )稳定的,不应波动很大。- 对于有不确定值的分布, 全距 或 S 都无法求得, IQR (或 SIQR) 是唯一的选择。sMHX j7 |:gS hx' c4Z 分数(Z-Scores): 分数的位置和标准分布% FAp 1t T&bD 5p\$ 5Z 分数的目标:对分布中的每一个原始分数,描述其在分布中的位置。 参照点:均值 uR(0 r% \h&^{~ Z8用离差(x - m) 或 (x - )描述分数的位置*$]KQ}当只涉及一个分布时, 用离差是简便易行的. 但当我们需要比较两个不同分布中的分数的相对 位置, 用离差就不够了. uc r]O&M: j用 Z 分数描述分数的位置E^^ s_; DBe例: 你参加了 ACT 和 SAT 两种测验. ACT:26 SAT:620。 申请学校只需任选寄送其中一种, 你会送哪一种?B} $/ PF: / bJjkN _$5直接的比较不可能,因为两个分数分布的均值和标准差不同. 1) 2) 3) 看分布图,将两个分数定位再试图比较―还是很困难 计算百分位数等级(percentile ranks) 计算标准差h+ Z( S]C X 5SK$J& p2/ 7l AI~l'u#k 7 YIOE 要比较两个分布,一个方法就是将两个分布都转换成标准分布。pgp1 )&:Av b ~ h Y$标准分布(standardizeddistribution)-[vi -s由转换分数组成,m 和 s 已经确定,而无论其原始分数如何. 其作用是使不同的分布有可比性。{CVSU/& (BL\L1j0dun%可将其转换为 Z 分数. 这里需要做的是将每个分数转换为 z-score, 从而将整个分布标准化. 种。DOP\ g/标准分数(standard score) is 是一种转换分数提供其分布位置的信息. Z 分数是标准分数的一Im!a_ %@yz-score 指出了每个 X 值在分布中的精确位置。z-score 的符号(+ 或 -) 表明其比均值大或小. z-score 的数值部分用 X 与 m.间标准差个数的形式指出了其与均值的距离。 对于 Z 分数分布, mean = 0,standard deviation =1.i|x G7F5s T 5' ]+F 7 S] n`c%szZ 分数为 1, 表示数据点恰位于均值的一个标准差之上。 如 何 转ebeKw gSDWZ 分数为 -1, 表示数据点恰位于均值的一个标准差之下。Dug )j1 Ce换? & Q&` E ppopulationsampleb0T_Z-^ H Z=deviation=standard deviation=w\-)Q7?twKv$d 187i如果总体/样本的均值和标准差已知,分布中的所有原始分数都可转换为 Z 分数。如果分布中的总体/样本的均值和标准差已知,Z 分数也可转换回原始分数。] %,7L 6&Z = (X - m) --& (Z)( s) = (X - m) --& X = (Z)( s) + m s Z 分 数 分 布 的KmZW?(:&如果某人说他的 SAT 分数高于均值 2 SD。他得了多少分?~C Y%2属性vykDWeU
形状 - Z 分数分布的形状与原始分数分布完全相同。每个分数所在的相对位置亦完全相同。 均值- 当原始分数转换成 Z 分数, mean = 0.kKes &/ bQ&i#y VBl标准差 -当原始分数转换成 Z 分数, standard deviation = 1.}& #m .!u;~ T &rjP'转换程序实际上是对分布轴的一种重新标定。-- 将 X 轴中心重新标定为 0,再将每个 SD 间隔 标定为 1.IG{ 0I ; 4例: 美国男人的身高和体重kn]4%T Jj!~:X0 T lMc7?g oMoSperson 2 74 75 25 d)`' PkQ( Lheight 7sum
74 1848weight1 2234 69 height2
70 203 144671306 yyM83g - Pheightm = 710 / 10 = 71.0 SS = 50486 - (710)2 / 10 = 76.0s = 2.8 = 200.0SS = 408346 - (2000)2 / 10 = 8346.0s = 28.9sswln#13 d,C[ ] &weightm = 2000 / 10Z = (X - m) s Z1 = (66 - 71)/2.8 = -1.8 Z2 = (71 - 71)/2.8 = 0 Z3 = (74 - 71)/2.8 = 1.1 Z4 = (69 - 71)/2.8 = -0.7 Z5 = (70 - 71)/2.8 = -0.4 Z6 = (74 - 71)/2.8 = 1.1 Z7 = (73 - 71)/2.8 = 0.7 Z8 = (69 - 71)/2.8 = -0.7 Z9 = (69 - 71)/2.8 = -0.7 Z10 = (75 - 71)/2.8 = 1.4 Z = (X - m) s Z1 = (203 - 200)/28.9 = 0.1 Z2 = (174 - 200)/28.9 = -0.9 Z3 = (223 - 200)/28.9 = 0.8 Z4 = (175 - 200)/28.9 = -0.9 Z5 = (144 - 200)/28.9 = -1.9 Z6 = (219 - 200)/28.9 = 0.7 Z7 = (184 200)/28.9 = -0.6 Z8 = (237 - 200)/28.9 = 1.3 Z9 = (204 - 200)/28.9 = 0.1 Z10 = (237 200)/28.9 = 1.3/&_ ow,sthe sums of the z-scores = 0 ; mean of the z-scores = 0M\ ]#8 ;the standard deviations = 1f8: \?j&? @y这样我们可以比较每个人身高和体重各自的相对位置 Person #4:!o$ _-qX-SL T : Mi$Person # 8:ER (PVB rGkJ:&z C /学习重点 w w w w w w w wq^\ 36#l5 3quI M]i&方差/标准差的逻辑步骤 总体和样本的方差 自由度'.!lAb和方的定义公式和计算公式I4S J[ f7J# z |总体和样本的标准差;e. x %Q& ~F{? P &计算 Z 分数js]/B * &S根据 Z 分数推知原始分数 标准分布及其应用;[r QcR'fl!K *r第六讲: 概率(Probability) 概率简介g* _%JcKr 4 ` k,概率与正态分布 概率与二项分布Re O9^ D0Tb R 5o~,\ I百分位点和百分位等级'%C^n #7z7 J !c{; 概率(Probability) u u0$UJF U*q推论统计所必需的概念, 根据样本的信息对总体作出判断。| IW-f B在可能有几种后果发生的情况下,概率被定义为某一种后果发生的可能性大小. 如果几种iI8$); oV)M后果分别是 A, B, C, D, 等等,那么: 概率 of A = 所A 后果的次数 有= 可f/N 能ePktlXVY后果次数的总和){ |2 -! $+6q X D y]? 1. 2. ?为获得正确定义的概率, 个体的选取 (取样) 一定要通过随机取样K5X O 9/ 5:E+xf$S^ *随机取样应满足以下两个条件:总体中的每个个体有同样的机会被选择|hn2m qNVst如果样本中要选择多于一个的个体,每次选择的概率应当恒定o&/ e!VH回置取样(Sampling with replacement) - 一种取样方法, 在选择下一个个体(下次取R FAx=样之前) ,将每个已选择个体放回总体之中lIw3 B 8@&次数分布与概率的关系 .40 2 8&-QeWg + o___________________X .20f_ 1p_ 452 .10,&-)I b} J.05410.25316此表中比率栏与概率相同. 此比率对应这些间隔中曲线下方的面积。@jk D E Tr1,A[ 6?j ]选择到 3 的概率是多少? 选择到 5 的概率是多少?gjt&K'k&p (3) = f / N = 16 / 40 = .40,e.&U M E) OP [X-Zp(5) = f / N = 2 / 40 = .051Kvmz pT wO ]Rj& w #%dk - 6_'选择到大于 2 的值的概率是多少?* C JzTy&p(X & 2) = ?.05 + .25 + .40 = .70YFV5$J 9 H%]E V G,Vy选择到小于 5 的值的概率是多少? p(X & 5) = ?ZQ^ 88& | ,Y 7/ ejkkm.10 + .20 + .40 + .25 = .95sqjK]d { {选择到大于 1 而小于 4 的值的概率是多少?? p(4 & X & 1) = ?VzBX B\&oYv&DC &dH&.20 + .40 = .60-8rt0|w9&q?d|; Sw%概率与正态分布(Normal Distribution)! P *f 0P wi^O[ -正态分布是最常见的分布,单峰和具对称性. 它可定义为下列方程:s VDZ2 &T&Y=].vstA/o(;#_$k\ \ffu&83 f O 1正态分布的注意点 o o o o 于 1. ozQzE]i'/Q} ( C1=并非所有的单峰,对称曲线都是正态分布,但很多是;4& %A/ 2在本课程中, 无须担心所研究分布与正态分布有多接近, 在本课程所遇到的问题中,多数6 r * z, ?%情况下,分布是正态上述的平滑的曲线 是指密度曲线 (而并非次数曲线)&Gk] /tt $曲线下方的面积总和必定为 1. 因为 曲线下方的面积相当于概率 (或比率)总概率 应当等&w W! x&G正态分布常常转换为 z 分数.{ Z DP 0iY1 FzA ,TI+v \h[ tn对于一个正态分布:d+ %L&2& |~34.13% 的分数会落入均值与一个标准差之间. 与第三个标准差之间。deTT$ g& `2o3 M G [Aw13.59% 的分数会落入第一个标准差与第二个标准差之间。2.28% 的分数会落入第二个标准差$ Yk 6i !一个重要的工具是正态分布表. 在大部分教科书的附录中 (pg. 414). 利用此表可查到曲线下方 的面积(亦即抽样的概率) 与曲线纵高 (以 z-分数位为单位). 正态分布表的应用: 0.8413:PH ; nf E\ ( =pE2u) 2(A)z0.000.01 : 0.300.31: 1.00:(B) 主 体 的 比 例 0. : 0.:_R-zjYd M(C) 尾端的比例 0. : 0.: 0.1587:3^ pPm 9 ot6注意 z = 1.0 = .5000 + .3413 = median + 34.13% 建议: 画出分布图,目测距离 .5c2C|]%sY b正态分布表可以将 z-分数转换成概率和从概率查到相应的 z-分数.- O c Z shHp1 ~+Q1)用正态分布表由z分数查概率的步骤:a~{p BkP =step 1: 画出分布图, 标出均值和标准差MEe4_pstep 2: 标出所要查的分数点, 查核其与均值的相对位置以及到均值的粗略距离 step 4: 将 X 分 数 转 换 为 Z-LC ey R (step 3: 重读一次题目看清你所需要的分数区间概率. 将图中的相应面积涂为阴影. 分5Rl0v'*数iuQv& 5ustep 5: 在正态分布表中使用正确的栏目 (以及符号) 找出概率 例 1:K!: 5\G9m .l'dL 5IQ 为 130 或以上的 概率是多少?p(X & 130)? IQ: m = 100, s =15z = (130 - 100)/15 = 2.0-查表--& p = 0.0228 表 p = 0.1587R t47- 9 i q J-fG'[IQ 为 70 或以下的 概率是多少?p(X & 70)? IQ:m = 100, s =15, z = (70 - 100)/15 = -1.0--查:f. %BU'2)用正态分布表由概率查 z 分数的步骤: step 1: 画出正态分布图+`D c-y A6gSoyf{step 2: 将所求的概率相应区域涂为阴影.~ , ) o{M/step 3: 在正态分布表上找到所求的概率的适当栏(有时需换算) step 4: 用查到的 z-分数标记阴影区域的边界 step 5: 计算所对应的原始分数 (X).D x b X z^S3 ( :t[ ckU4D &R tVgu, G t Z例 2:LmLA 8 H@相当于人群顶端 5%的 IQ 是多少 ? 分布最前面的尾端. p = 0.05 查表 ---& z = 1.65 故 X = (1.65)(15) + 100 = 124.75 3)找出 X 落在两个分数之间概率 step 2: 将两个分数转换成 Z-分数 step 4: 将两个概率相加或相减A4& q_ 07# ;eP@ ls& &\N\Y~T2step 1: 绘出曲线将所需的区域涂上阴影li^J F K&M&A 2h &@!step 3: 查表求这两个 z-分数的概率}hGTO)! Icy S@E W0D例 3:\lv+t = b z在 SAT 中得到 300 到 650 的概率是多少? SAT: m = 500, s =100p(z & (650 - 500) = p(z & 1.5) = 0.p(z & (300 - 500) = p(z & -2.0) = 0.02284 -p zu v1100p(300 & z & 650)= .9332 - .0228 =.9104 4)落在两点之外的百分比. 例 4:H2+ h em,&& $ N w qJ/l U在 SAT 中得到 300 以下或 650 以上的概率是多少?SAT: m = 500, s =100 p(z & (650- 500) = p(z &1.5) = 0.p(z & (300 - 500) = p(z &-2.0) = 0.0228u GtY #k100 p(300 & z &650) = .0668 + .0228 =.0896`aO& E C9第七章 : 概率和样本:样本均值的分布 综述,_ O 0 zD 7 2,\&~K样本均值的分布 标准误的特性 一.综述 本章: 逻辑?ny e:+&f?l nXe!概率和样本均值的分布N B $rX]ChNT' | 3Y| l上一章:总体中某一特定分数或一组分数出现的概率 推论统计的目标?O9i? 4*j{Uwa4w 3(f#I总体中特定样本发生的概率。 与推论统计关系更密切.m&w -tq6n*L Pv qR [ Pm dL!tXBfpb从同一总体取 3 次不同样本. 每一个都不同. 不同形状, 不同均值, 不同 方差. 如何对总体均值 作 出 最 佳 估 计 ?J z u {Dr-可能取多少个样本?P Ty N,(注意是回置取样,sampling with replacement) ? ?k 0uH ;?!C 1 m 1b二.样本均值的分布(distribution of sample mean)de-K V3P) *所有这些可能的样本会组成一个简单,有序,可预测的模式 (样本分布).c QVD#!B因此, 我们可以用样本均值的分布(distribution of sample mean)的特征为依据来预测。 样本均值的分布(distribution of sample mean) :总体中可抽取的所有可能的特定容量(n)HbZ 8:- )k? ?的随机样本的集合的样本均值。样本分布: 总体中可抽取的所有可能的特定容量的样本所形成的统计分布。P9T ] {8' |我们所要做的就是考察所有可能的样本 (n 一定,这点很重要) 然后根据其特性作出预测。 如何作到?ZHG1+? M y, -2^Y:一个具体例子:;r!ueI&考虑下列总体: 2, 4, 6, 8$K=J n &= 5, 但假定我们不知道, 想根据样本进行估计: 这个总体很小, ? 我们知道其均值 (和方差): 大,样本间相似的机会越高(样本与总体相似的机会也越高) step 2: 考虑所有可能的样本, 并考察其分布 ____________________________________ 分数 样本 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 2 2 2 2 4 4 4 4 6 6 6 6 8 8 8 8 f2 样本均值 first 2 4 6 8 2 4 6 8 2 4 6 8 2 4 6 8N,77?IiH._ n-Xg1) @LQ WEmi GI _; /9@W :( 1&step 1: 选取样本容量。 本例中 n = 2 C 以后还会讨论样本容量, 而一般原则是:样本容量越] !C505 a:`03um3 isecond 2 3 4 5 3 4 5 6 4(s sM & m()*=m NCQHpn*&^ h$$B $} 8_A^6c ! h V/##`9:s?QdQ?~1!:GpWLH 9V Z Nu b2teRg#}[,n jEYZ5 6 7 5 6 7 8 13ovNW_$n8NB s'55d5g F?I'C&:5s ! 7 ,T/5a f:u UWz/Id S4*UC tJ@7样本均值的分布24354637i|v 4` ;i281O@tyL]}2step 3: 现在可以回答这个问题: 选取一个均值大于 7 p( & 7)的样本的概率是多少?`a%bw ek? E考察样本均值的分布, 我们发现 16 个当中有 1 个 a 其均值大于 7. 实际情况比上例复杂的多。我们必须借助样本均值的一些特性. 1. 形状:bWZ [ 4e${ bwy $V& c D&\.2;5 O [ 样本均值的分布形状一定是正态分布.当 n 较大时(30 以上),样本均值的分布几乎是完全的正态 分布. 如果在同一总体中选择一组样本, 当堆积在总体均值 2. 均值:3 x 6 87 \ c-l4gi R#+附近(如果不是这样,取样一定有偏差)? 大部分均值应这些样本均值的平均应该等于总体均值. 的意思因为这个值会在总体均值gk'rdl 4K的附近.? 样本均值的平均 叫做的期望值. 期望值在上例中, 的期望值(一组样本均值的均值) 是:L5+; hz VQ *H@::2 + 3 + 4 + 5 + 3 + 4 + 5 + 6 + 4 + 5 + 6 + 7 + 5 + 6 + 7 + 8 = 80 = 5。0 16l!p&J O wc6n1@2/ 6A#}16! UU4&8+o注意: 如果 n 足够大, 那么分布是正态, 也一定是对称和单峰, 则 mean = median = mode 3. ? 值 ? 方差: 样本均值分布的标准差 叫做 与 的标准距离.Z]i=yB !NEvnu MW) G的标准误 (standard error of ;SE)|O{!=r? 的标准误= = 和 总体均值的差值.? 这个统计量描述了与均值的标准(或称典型, 平均)距离. 在这里, 它也是样本 均GYQ Pr{cm h这个统计量的主要目的和用途是 告诉我们样本均值对总体均值的估计是否准确. 换言之,~33O[ 2c/ G取样误差是多大.标准误的数值取决于两个特征: 总体方差和样本容量 1) 总体方差 - 总体方差越大, 样本均值的方差越大. 大与 总体均值的差异大Jqw u, \;?a` tB u X3e`?总 体 方 差 小 与 总 体 均 值 的 差 异 小?总体方差JU,zw E0 2) 样本容量 - 样本容量(n) 越大,样本越能准确地代表总体. 这个规律叫做大数定律(law of large numbers) .W*AWh`yD K假定总体是 1,000 个学生. 欲知总体的 SAT 分数. -如果随机抽取 5 个学生. 会不会更准确些? -如果随机抽取 100 个学生呢? 的标准误= = ? n@ @yD #]6R|&P-!z- 如果随机抽取 1 个学生,用这个学生的分数预测总体分数的准确性怎样?p& 2[ @xl+@ogdB m[} C将这两个特征合并起来,就是标准误的定义公式.h|Upl&D ^&\o%rL z U中心极限定律 (Central Limit Theorem)中包含所有这些特性 (形状, 均值, 方差)/ j/# S GG中心极限定律(Central Limit Theorem): 对于任何均值为 μ ,标准差为σ 的总体, 样本Bgh+ &_容量为 n 的样本均值的分布,随着 n 趋近无穷大时,会趋近均值为μ ,标准差为 的正态分布_因此,当 n, )? 足够大时(30 或以上):@M [| S 2~N(^ |&*S3)7]三.样本分布与概率例 1:一位老师对班上学生的 IQ 感兴趣. 她班上有 9 位学生, 她认为他们都很聪明. 这班学生 IQ 的均值大于等于 112 的概率是多少? IQ test: μ= 100, σ= 15 ~N(@ k v:h(O W `NNr *~ E), ) = N(100, 5)? 首先我们需要知道样本的分布 (注意: 即使 n 小于 30, 我们仍然假定正态分布.)lS5c\x DE我们需要知道对应这个样本均值的 z 分数: Z = 这个答案是否合理?Xo O S`:P( & 112) = P(Z & (112 - 100)/ 5 ) = P(Z & 2.4) = 0.0082n gc')x| .b#=BI1L % N- 最初看起来似乎不对- 应当大于 z = 1 对应的概率, 因为 115 对应于 z = 1 布的标准误是 5 和均值是 100. - 所以 112 应当位于 z &2 之外pZ& K&O@ a-- 但是, 必须注意这不是正确的分布, 我们需要考察样本均值的分布 -我们知道样本均值分q#6 ='例 2: 如果班上有 25 位学生,如果让其均值位于顶端 10%的 IQ 分布,均值应该有多大? 首先我们需要知道样本的分布 (注意: 即使 n 小于 30,我们仍然假定正态分布.) ~ N (μ, ) = N (100, 3)X&1 |N\ / 9El&& |ZJL! u B [然后我们需要找出对应于这个全距的均值: 这个公式与我们从前遇到的很类似 : = Z * + μ = (= ? Z )( ) + μ?/ Z V7 )- kiG 3M T 4 J37& / A{bA~( nstep1:查 正 态 分 布 表 : 90%概 率 对 应 的Z分 数 是1.285K c|I`step 2: = 1.28 *+ 100 = (1.28)(3)+100 = 103.84 n =,( % h %V& 1所以, 对于 25 个人的样本, 他们的均值必须在 103.84 以上才能位于分布顶端的 10% 假 定 上 例 中 样 本 较 小 , 16?wc&6y ^&5| n答 案 会 不 会 改 变 ?&X( _-{step 1: l 查正态分布表:90% 概率对应的 Z 分数& E\ .'Mstep 2: =1.28*(15/sqrt(16)+100=(1.28)(3.75)+100 =104.80 对 于 不 同 的 样 本 容TAXKNN9kRO所以, 对于 25 个人的样本, 他们的均值必须在 104.80 以上才能位于分布顶端的 10% 量 :WZ =t . ={%J-C,G xn=9, =1.28*(15/sqrt(9))+100 =(1.28)(5)+ 100=106.40 n=4, =1.28 * + 100 = (1.28)(7.5) + 100 = 109.60 n=1 , =1.28 * + 100 =.jS 26U$`- $TT$(1.28)(15)+100=119.202 /h oN 注意: 如果 n = 1, 标准误等于总体标准差= @ ZA qL所以, 样本容量越小, 取样误差 (标准误, ) 越大.9N^XA 3-yL_;C_ X 3四.标准误的解释: A) B)K-Y)/4hHH取样误差: 任何一个样本可能大于或小于估计值。f(Cf)k X标准误: 大部分均值会与μ 相当接近 , 但也有一些会非常不同. 样本均值的方差代表μ 代表μ 的准确程度间的关系.* A~, vzc 9% 3}%F 5e和 之间的标准距离。它的定义是样本容量和C) 信度: 标准误变小时,我们用 作为μ 的估计值的信心增加。-信度大略是指同一总体的不同样本 (具同样的样本容量) 彼此间的近似程度. 如果大部分样本 具有相似的统计量(e.g., 均值, 标准差), 那么其信度就高。如果大部分样本具有不同的统计量, 其信度就低.Hw'+-# U~ u- 从上面的例子中可以看出, 当 n 增大时,样本 统计量能更好地对总体参数进行估计. 因此, 多次重复取样, 且样本容量相对较大,我们会得到相近的统计量(都在总体参数附近). D) 稳定性: 标准误越小, 添加或去掉一个分数或改变某一 分数会改变 μ 的估计值. 误 的 影 响 又 如 何 呢V )#1% g A)T= ^3sTC8- 我们已经讨论过添加或去掉一个分数或改变某一 分数对总体均值和标准差的影响,而对标准 ?9 #x`RK'5总体 X ~ N(50, 10) [μ= 50; [σ= 10] 比较这两个样本: = = 10/2 = 5 =Y!. q{[ ZdXen@)zp^样本 1: 1 = 50, n = 4( ${ G+-&+}H & /l?g'样本 2: 2 = 50, n = 100 =E$' v.FL )10/10=1hT&w 'h0z假定我们在每个样本中添加一个新的分数 20.8fm- y.`L 9样本 1: 新的均值是:50 * 4 = 200 --& (200 + 20)/5 = 44@^e8s7V k样本 2: 新的均值是:50 * 100 = 5000 --&
= 49.7uy v N &R所以样本 2 比样本 1 稳定. 一般说,标准误越小,样本越稳定.m] _& OKiRgj4 )Tq二项分布(Binomial Distribution) 二项分布: ? ? ? ?4B1jA 1 wa|fhV $z8\&L如果在某种特定的情境下,只有两种可能的结果. 其结果就形成一个二项分布。 例如, 投掷硬币得到正面或反面, 对是否题的回答, 一个人的生或死等等。 二项分布表示为: B(n,p), 其方程非常复杂。/ A=/!*h1~ ^6 P$jgm&S9mvY&c如果 n 足够大,二项分布可以近似为正态分布。& Jz b5/}x sPUwr&F \二项分布的概率两个类目: A 和 B.R |R U Rp = p(A) = A 的概率 q = p(B) = B 的概率 p +e i& : Z}D6 csl&q=??----&?&mO(` +n =样本中所包含个体(或观察)的数目 X =样本中事件类目 A 发生的数目 例:;Z4t; X Y $4ROOY _bM+二项分布表达了与从 X = 0 到 X = n 的每一个 X 值有关的概率。J XQmS aD5Y 4 AQ4m ,彩票:设每张彩票能赢 100 万元。每张彩票要花一元。100 万次中有 1 次赢的机会, 则 P(a) = 1/1,000,000 ,P(b) = 999,999/1,000,000. 故赢的概率是.000001 输的概率是 .999999 neoM# D24DN n r+lzIo& I a-V考虑买多少张彩票中彩的机会比较大 . ( 买 多 少 张 彩 票 )k X) 2i10,1,000,000& / *jK WzP( 赢 至 少1次)0.010.00.12074注意即使你花 100 万元买彩票,你能赢 100 万元的机会也只有大约 63%.(dr['^w [dXXm['K s-例23vY] v * [z掷硬币. A = 正面; B = 反面 s p = p(A) =^271s DZ( /1/2q=p(B)=1/2wFC 1$ S9假设 n = 2 (即, 将硬币掷 2 次), 有多少可能的结果 B(2, 0.5)? -4. 第 1 次 面 面 0 反面wXnj4 8 8VA K& ] /]第 2 次正面 1 反面次数正面 正面正面 1 反面2 正 反两次掷到正面的概率是多少? 掷不到正面的概率是多少?1z 5QdS*T)T%& Z,6PR 6只一次掷到正面的概率是多少?8&'~v 4R M *至少一次掷到正面的概率是多少?? t1 正面 正面 正面 正面 : 反面ik1as O,ytn ff-DP假设 n = 6.有多少可能的结果? 64 种 (公式是: 2n) t2 t3 正面 正面 正面 正面 : 反面 t4 正面 正面 正面 正面 : 反面 : 反面 t5 正面 正面 正面 正面 : t6 正面 正面 反面 反面 : 反面 反面 #正面 正面 反面 正面 反面a@=SRq# x- z yw Y06 5 5 4 :W{ t .XVk K PV*uM P: }Q x&9bTt&, \\4Wt { ; / a0NpP;Hs @e @0u_6RYv什么条件下,二项分布可以近似为正态分布? 看 n = 6 时的情况 (pn = .5*6 = 3).{\Mlx5 f ,MU) %4+ b&Q PlC F b& E当 n 足够大 (pn & 10) 和(qn & 10),二项分布可以近似位正态分布. Mean: m = pnx4U F(Q=yz G ~Standard deviation: s = z=2l Z ] ]{ U]&- rw+Tp利用正态分布表.Au6tI n7E(注意: 正态分布中 X 的值是一段, 而并非一点, 所以当二项分布近似为正态分布时, 需要考虑精 确上下限。因为我们是在用连续型分布 (正态) 来估计离散型分布的值. 于 15 个学生概率的概率是多少? n = 100BTu2aZV [Q 7/ XO例 1: 有时学生入学后会中途退学. 如果每个人中途退出的概率是 0.10, 在 100 人的班上,有多$EPa &X2^p = 0.10q = 0.90np = .10*100 = 10nq = 90y4[ O} 7d | W\A ):mx = pn = 10D {'qJS 2sx == sqroot (100*.10*.90) = sqroot (9) = 3Zw.q; x^Mlc[|cwXp(X & 15 的精确下限)= P(X & 14.5)] S G gHG} uG_C3QlA= P(Z & 14.5-10) 3.01jei$qL\Y W= P(z & 1.5)z dyL8a l.i51zW-\XA= 0.0668@k{ ;zP^rt.% &Gg s) 例2:= MW o_77e假设你参加一个 48 道题的多项选择题测验, 只有 4 种可能的答案. 你全凭猜测作答. 猜对 14 道 题的概率是多少?CT@0q22k;Tp = P(正确) = 1/4 pn = (1*48)/4 = 12q = P(错误) = 3/4`pR oCqjFqn = (3*48)/4 = 36A 7p, J.SR注意这里 pn 和 qn 都大于 10,所以可以假定分布近似正态. 注意这里分数 14 其实是对应 从 13.5 到 14.5 之间这段距离. = 0.50 --& 0.3085 ss8K P ,km = pn = 12 s = sqroot (pqn) = sqr(48*.25*.75) = sqroot (9) = 3 查表 X - m = 13.5 - 12.0 3X - m = 14.5 - 12.0 = 0.83 --& 0.2033 s] & ec4 q= h3 两个 z 分数间的面积是: 0.3085 - 0.2033 = 0.1052fyyO'V~n-DH85&|)d?&在次数分布中, 众数是具有最多次数的那个分数或类目。 众数是 5$q_a)T)M?(a 3 b}注意:一个次数分布可能有多个众数. 众数是 2 和 8k {'G5S(z t S 6 T):5 i \q![ d如何选择适当的集中量数? 必适合:J-- v[ g-均值:是首选, 它考虑了分布中的每一个分数, 与分布的变异性也有关系。 但在下列情况它未EB-HQ ,a=!C众数:对于命名型量表无法计算均值和中数, 只能用众数作集中量数。 中数:在下列情况中数最为适合: 1) 2) 3) 有未确定的值EB~Pm s& a;a& ?在分布中有少数极端值 (有长尾的偏态分布)6{Psh=t EFzZ/-6 C!R所考察分布是 'open-ended' - (如. 问卷中有个选项 '5 个或更多')1f7 F% *azyq~E4) 如果数据是顺序量表.\ !UWf7y分布形状与集中趋势量数的关系 对称分布? 正偏态分布? 负偏态分布? 对称的双峰分布?U W VW!^} ;& x- xX4axir}fx5(L LB| &c\. & p eJdfrTm B g第六讲: 概率(Probability) 概率简介C 6=k _t6^1 = N^z%4'概率与正态分布 概率与二项分布R-J%Z5i ,Ov8g6 9N pJ百分位点和百分位等级D%w 4&-B 3NJ) 6L7R =概率(Probability) u u? = Xp +推论统计所必需的概念, 根据样本的信息对总体作出判断。^fi-Wx H p在可能有几种后果发生的情况下,概率被定义为某一种后果发生的可能性大小. 如果几种&?QF ty7qg后果分别是 A, B, C, D, 等等,那么: 概率 of A =A 后果的次数=f/N%# JL ;! 所有可能后果次数的总和]|hh 6 2c&!}luf= /1/? 3. 4. ?为获得正确定义的概率, 个体的选取 (取样) 一定要通过随机取样J KU& dQ u@%-ms oW~随机取样应满足以下两个条件:总体中的每个个体有同样的机会被选择g2 y^j _/y如果样本中要选择多于一个的个体,每次选择的概率应当恒定O8O, s)nk回置取样(Sampling with replacement) - 一种取样方法, 在选择下一个个体(下次取* |A 9'样之前) ,将每个已选择个体放回总体之中fQ/*3O,r 66次数分布与概率的关系 .40 2 8`w pUc ( u`___________________X .20f_ 1p_ 452 .10t M d x' _.05410.25316此表中比率栏与概率相同. 此比率对应这些间隔中曲线下方的面积。_t^iw&5& cJ-Coo _l选择到 3 的概率是多少? 选择到 5 的概率是多少?j I `u m {p (3) = f / N = 16 / 40 = .40@ H4 /: 5Q0;/ D4^ t?p(5) = f / N = 2 / 40 = .05bO[dn,u6{[!8 (@b[t&T&eA# oX?f选择到大于 2 的值的概率是多少?;z(Vt}y[&p(X & 2) = ?.05 + .25 + .40 = .70Xt-C -/121 0 B fAi,选择到小于 5 的值的概率是多少? p(X & 5) = ?dzu3 &M+ y7+i+:65 5.10 + .20 + .40 + .25 = .95: O\% #1选择到大于 1 而小于 4 的值的概率是多少?? p(4 & X & 1) = ?HhFDjp( /W[L x\+.20 + .40 = .60G wDM oc} ;n}d *o NdQ概率与正态分布(Normal Distribution)N** Q &OP)r - be6正态分布是最常见的分布, 单峰和具对称性. 它可定义为下列方程: Y=-d2! dW.u '@ 5,VVIv*j,h[7 j @#/T正态分布的注意点 o o o o 于Nn)c SpGX1并非所有的单峰,对称曲线都是正态分布,但很多是X} k=j{ & E在本课程中, 无须担心所研究分布与正态分布有多接近, 在本课程所遇到的问题中,多数E &IW%]情况下,分布是正态上述的平滑的曲线 是指密度曲线 (而并非次数曲线)1.v\C曲线下方的面积总和必定为 1. 因为 曲线下方的面积相当于概率 (或比率)总概率 应当等 1.]4 T5 1 6o_ J1G{C /正态分布常常转换为 z 分数.r '`Dzo5.K}p9[``&K~F [Mwn对于一个正态分布:{- )' v_34.13% 的分数会落入均值与一个标准差之间. 与第三个标准差之间。g}h O& PK #13.59% 的分数会落入第一个标准差与第二个标准差之间。2.28% 的分数会落入第二个标准差\ Ze *acc一个重要的工具是正态分布表. 在大部分教科书的附录中 (pg. 414). 利用此表可查到曲线下方 的面积(亦即抽样的概率) 与曲线纵高 (以 z-分数位为单位). 正态分布表的应用: 0.8413:9`&;# & +%P QR G0](A)z0.000.01 : 0.300.31: 1.00:(B) 主 体 的 比 例 0. : 0.:L*+ +J_(C) 尾端的比例 0. : 0.: 0.1587:{? # h{ E&注意 z = 1.0 = .5000 + .3413 = median + 34.13% 建 议 : 画 出 分 布 图正态分布表可以将 z-分数转换成概率和从概率查到相应的 z-分数. , 目 测' yd`o~k Z~距离.`CJa
99wUS` GdC G1)用正态分布表由 z 分数查概率的步骤: step 1: 画出分布图, 标出均值和标准差:m,|&8 -s'H u!&step 2: 标出所要查的分数点, 查核其与均值的相对位置以及到均值的粗略距离 step 4: 将 X 分数 转换为 Z-分数 例 1:)NpX Hi&`step 3: 重读一次题目看清你所需要的分数区间概率. 将图中的相应面积涂为阴影.&i$W)a1T ;^; l' ?75step 5: 在正态分布表中使用正确的栏目 (以及符号) 找出概率ss-1 a v--$ peK8`EIQ 为 130 或以上的 概率是多少?p(X & 130)? IQ: m = 100, s =15z = (130 - 100)/15 = 2.0-查表--& p = 0.0228 表 p = 0.1587D Wyz 9DS1S -t*sr|76 aIQ 为 70 或以下的 概率是多少?p(X & 70)? IQ:m = 100, s =15, z = (70 - 100)/15 = -1.0--查&';`XFyy 92)用正态分布表由概率查 z 分数的步骤: step 1: 画出正态分布图S& u T+mJ$\[B[ 89apstep 2: 将所求的概率相应区域涂为阴影.cq,; fMstep 3: 在正态分布表上找到所求的概率的适当栏(有时需换算) step 4: 用查到的 z-分数标记阴影区域的边界 step 5: 计算所对应的原始分数 (X).dRH lg -Y: bu M=& .g VXvA-2a) i_例 2:Kix!q1j.Lv相当于人群顶端 5%的 IQ 是多少 ? 分布最前面的尾端. p = 0.05 查表 ---& z = 1.65 故 X = (1.65)(15) + 100 = 124.75 3)找出 X 落在两个分数之间概率 step 1: 绘 出 曲 线] d,c }0uoW ]+4M H将所需的区域涂上阴影EL g 5QFG} Hstep 2: 将两个分数转换成 Z-分数 step 4: 将两个概率相加或相减Pe, 2BDC d6 # lOstep 3: 查表求这两个 z-分数的概率)F b9h3Mos:L-T q^{o例 3:W F&fB \ ]在 SAT 中得到 300 到 650 的概率是多少? SAT: m = 500, s =100p(z & (650 - 500) = p(z & 1.5) = 0.p(z & (300 - 500) = p(z & -2.0) = 0.0228%3 *#& gu100p(300 & z & 650)= .9332 - .0228 =.9104 4)落在两点之外的百分比. 例 4:B8?+)hA [ tU6O ,E在 SAT 中得到 300 以下或 650 以上的概率是多少?SAT: m = 500, s =100 p(z & (650- 500) = p(z &1.5) = 0.0668 假设检验初步 (II) 假设检验 ?-x{--vGa9 oj GAm @'s2100p(z & (300 - 500) = p(z &-2.0) = 0.0228mx~j Ec-100 p(300 & z &650) = .0668 + .0228 =.0896z a6&08 }显著性水平:显著性水平规定了当虚无假设正确时,样本结果非常不可能出现的概率值。 当实验产生非常不可能(以 alpha 为标准)的数据时, 我们就会拒绝虚无假设.? ?IS UM zq:#mXE kn&:所以, alpha 水平 也规定了 I 类错误的概率 - 即, 当 H0 事实上正确时, 拒绝 H0 的概率。 在心理学中,a 通常定在 0.05。,#'ehBe0 '?k9w Ve`=$,看下列样本均值分布图.a =发生 I 类错误概率 0.025 = 0.05 端有 0.05 。 ? ? ? nkpR N# @jK一般性备择假设 H0: 无差异 H1: 有差异 双尾考验 a = 0.05 在每个尾端有 0. +v 7r^ 0 K(z具体的备择假设 H0: 无差异 H1:有差异, 新的一组的均值更高 单尾考验 a = 0.05 这一尾S69. WF'如何解释这些图?GL m(-&A 3如果样本均值落入阴影区域之内,那么我们就拒绝 H0. 这些阴影区域叫做临界区域。ZqKhXc Z^如果样本均值落在阴影区域之外, 那么我们可能不会拒绝 H0.% 2 ^vX(Q 4&z 5} D{临界区域由极端的样本值组成,如果虚无假设正确的话,不大可能得到。临界区域的大小-&5u lf 7!是由 alpha 水平决定的。 落入临界区域之内的样本数据会使得虚无假设被拒绝。: HU*_j_jB mzC*a_有方向性的假设检验e~uXt :sD单尾考验6* G=Q: ^总体 分布总体 m = 65 , s = 10.假定 抽取样本 n = 25, 对其进行处理后得到 = 69. 处r理有没有效果? 会影响总体中的个体吗? 我们应该考察那一个分布?总体分布?样本均值分布? +9 :cR^f样本均值的样本应该考察样本均值. 在样本中找到样本均值. 查该样本得到大于等于这个均值的概率 假定 a = 0.05 再假定我们的备择假设是--处理应当提高操作成绩 (使均值提高) 现在我们需要求标准误. = = 10/5 = 2gN }4~ U这里的临界区域是什么? 这是个单尾考验.所以, 查正态分布表, 得到对应 a = 0.05 的区域 z = 1.65 (保守的, 实际是 1.645)将其转换为样本 均值= Z + m = (1.65)(2)+65 = 68.3 因此,对 于 X = 69, 应当拒绝 H0`I A`' c处理这一问题的另一个办法是应用 z 分数.'s\T]3_n因为我们知道对应于临界区域的 z 分数是 1.65, 这样我们 只需要计算对应于这一样本均值的 z 分数,来看它是否 is 大于或小于这一临界 z 分数.M nlIY DRj'Z = = (69 - 65) / 2 = 2.0 因为 & Z 临界, 那么,我们可以拒绝 H0JJ d&4Sa在这个例子中, 我们假设处理会在某一特定方向上造成差异 (即,处理会使均值增加)., z-2} , n但是,假设检验最提出的方式是作一个更一般的假设:处理应当改变均值, 或增加或减少.N0OmfR54O@}w cq$;F双尾考验kXp) @ n)V E总体 样本总体 m = 65,s = 10. 假定抽取一个样本 n = 25, 对其进行处理后得到 = 69.} ukx op 5处理有没有效果? 会影响总体中的个体吗?应当考察哪个样本? 还是总体?还是样本均值? 样本 均值 的样本 要作 双尾考验。应该考察 样本均值. 在样本中找到样本均值. 查该样本得到等于或大于这个均值的概率 假定 a = 0.05 再假定我们的备择假设是--处理应当改变操作成绩,所以我们3I:W-R SZ现在我们需要求标准误.= = 10/5 = 2 这里的临界区域是什么? 这是个双尾考验.所以,查正态分布表, 得到对应 a = 0.05 的区域 z = 1.96 将其转换为样本 均值 = Z + m = (1.96)(2)+65 = 68.9 因此,对于 X = 69, 应当拒绝 H0 假设检验的前提l7.F ;a&I7 @U+& ! 41) 随机样本 - 样本必须对总体有代表性。随机取样有助于确保取样的代表性. 察的概率应当保持恒定.C [ DAWj&)2) 独立观察 C 也与样本代表性有关, 每个观察应该与所有其它观察是独立的。一个特定的观sH j3#y & 13) s 已知且保持恒定 - 原总体的标准差必须保持恒定. 为什么? 一般的说,处理就是假定对总 体中的每一个个体都加上(或减去) 一个常数。 所以总体的均值可能因处理而导致变化。 但是, 记 住对每一个个体都加上(或减去)一个常数 并不改变其标准差. (或二者都有).mB h 7V1wf4)取样样本是相对正态的 C 或者因为原始观察的样本是相对正态的, 或者因为中心极限定理nUC b ] H X违反以上任何一个前提会严重地危及依据样本对总体作出推论的有效性(应付种种违反前提的情 况, 其它类型的推论统计需要用到)。07d# ]Y D8u]A, X :o统计效力 ?}(q+ Z}T6XType II error(b)--H0 实际上是错误的, 但是实验结果没有拒绝它。$ |z8 ,2# 4统计考验的效力是该考验能够正确地拒绝一个错误的虚无假设的概率. 所以效力是 1 - b. 所以, 考验的&效力& 越高,侦察到处理效应的能力越大.ac&BY0.} p O4 tvx{5q}!D) Xv 7为了考察效力, 我们需要考虑 H0 错误的情形。 当有两个总体存在时, 被处理的总体和虚无总体, 效力就是当虚无假设不正确时,获得落在临界区域内的样本数据的概率. 所以有两个总体存在时,效力与两个总体之间的差异多大有关。J`] s MUDP HS5`W[&l S.两个总体间差异大 注意阴影区域 很大 正确地拒绝虚无假设的计划机会很大1 )?I *2 两个总体间差异小注意阴影区域 很小正确地拒绝虚无假设的计划机会不大 影响效力的因素v 5' 'K=,*w e&h) E1) 增加 a 会增加效力.E;Q/&!N( ZhUXA= s%6&i 's.n&2) 单尾考验比双尾考验的效力高, 如果能够设定正确的尾端。 单尾 考验 a = 0.05 临界区域 (a) 全部在样本的一边 3) 增加样本容量会减少标准误从而增加效力。 n 小 a = 0.05 相对大的标准误%s& X7(Ex _ I Bi b9% &\ #nT~3双尾 考验 a = 0.05 临界 区域 (a)平均分布在 样本的两边结果是效力较小R d_V& D0%|fs0Xz)2 9RN 大 a = 0.05 相对小的标准误 结果是效力较高%eXb x+5f)| o m C BVt第九章 C t 统计量简介(?JqRs M#与前面章节的重大差别:7Z[ _YNL前面章节:总体 m 和 s 均为已知 什么可以作为 s 的估计值? t 与 z 的不同适用条件:t $&k ph I本章:处理总体 s 未知的情况 (实际情况大部分是这样) ,必须用 s 的估计值.nt85`~{ &G O:v AM0样本标准差 = s = sqrt(SS/n-1) (第四章)Ua& .&K&l&3 k sV29xX标 准 误 的 公 式 几 乎 是 同 样 , 计 算 出 的 考 验 统 计 量 也 就 非 常 接 近 . Z 0 -&Evs 已知: 标准误= =s 未知:frj!D0估计标准误= s = =:D2YA%O {考验统计量: z 分数 z = (估计) 标准误考验统计量 t-分数 t =o/} ?(BR _Kl(} 4o1Kz 或 t = 样本均值- 总体均值KA %G[Q&vc规则: 当 s2 值已知, 用 z 分数. 当 s2 值未知, 用 s2 来估计 s2 ,则用 t-统计量. 同样的规则 在对总体均值(如, 置信区间)进行估计时也适用.? # p[:[i qt 统计量是当 s2 值未知时,用来考验关于总体均值的假设。 t 统计量的公式在结构上与 z 分 数公式非常相似,只是 t 统计量用估计的标准误. 因为我们在用样本标准差(s)估计总体标准差 (s), 需要考虑这毕竟是一个估计. 所以必须考虑自由度. 制,所以样本有 n - 1 个自由度 。A%W.JJ fI 9自由度 描述了样本中可以自由变化的分数的数目。因为样本均值对于样本中的分数值构成了限R & 7.82;n 的数目越大, 样本对总体的代表性越好, 也就意味着 s 是 s 的更好估计值。 自由度 df 的函数。 n 的数目越大(或 df 越大), t-分布就越接近正态分布. 布表 (附表 2)y |h16 4MC Pq( e =N其对考验统计量的意义是: t-分布的形状是样本容量 n 的函数。更确切地说, t-分布的形状是09) p3P这里要介绍一个新的分布 (或一族分布, t-分布). 这意味着不能再用正态分布表, 而应该用 t 分m ^- e =^ 0Ae 9b.:单尾的比率 0.250P *5 U \XbO+ !7cbq/0.1000.0500.0250.0100.005b @d? b双尾的比率 dfL(-W,LVP]`&e] g/ NS0.5000.2000.1000.0500.0200.010(3jKk 1 2 3 4 5 6 ::& EvZ-hijH1.00 0.816 0.765 0.741 0.727 0.718 :: 分3.078 1.886 1.638 1.533 1.476 1.440 :: 布 表6.314 2.920 2.353 2.132 2.015 1.943 :: 与 :: 正12.706 4.303 3.182 2.776 2.571 2.447 :: 态31.821 6.965 4.541 3.747 3.365 3.143 :: 分^m _H d S+63.657 9.925 5.841 4.604 3.707 4.0326 b@ -d?^a,F-(8S.H&6B? 4CT({ w-?0e p2+8d*UBw Tt布表不同。.&C WWn :]1. ? ? ?t 分布表与正态分布表为什么不同?& XU]3D.因为正态分布表是对一个分布 (即正态分布) 的描述。 而 t-分布表其实描述了几个不同的! 0=s/ VAt 分布。对于每一个不同自由度, 都存在一个不同的 t 分布 (即使当 df 变 大时,差别实际上变得很1 d=B 8Q小). 所以, 表中的每一行都对应于不同的 t-分布。因此 表中没有足够的空间列出对应于每个可能的 t-分数的概率. t 分布表中列出的只是最C ; FMQ N常用的临界区域的 t-分数 (即, 对应于那些最常用的 alpha 水平). t 分布表也是分为单尾和双尾临界 t 值。 2. 如何用 t 分布表?i& 8Dx ij v G ni S+ i回忆上一章的内容。 我们决定是否拒绝 H0 的一个方法是找出对应于临界区域的临界 z 分数 (如, a =0.05 单尾考验的临界 z 分数是 1.65), 然后考察计算出来的实际 z 分数,看它是否大于 (或等于)临界 z. 如果是, 我们就拒绝 H0, 如果不是, 我们就不拒绝 H0. z 的临界值是 1.65.t &$t=记住 对于 z 分数 我们用正态分布表。正态分布表只是描述一个分布. 对于单尾考验 a = 0.05,o S+ UK 6t 分布表的逻辑也是一样。但临界值会随 t-分布函数而变化。 因此也随 df 值而变化.ctl8b& x GV 8G[X~Yt 考验的步骤: step 1:[,5O k _f陈 述H0和H1; &确 定 显 著 性 标 准 :a=?v-XF iustep 2: 确定考验是单尾还是双尾 step 3: 确定考验的自由度 df step 4: 查表求临界 t-分数M^ ? c ~&? m _, c ZS1K P -Z; 0step 5: 计算样本的实际 t-分数 step 7: 对 H0 作出结论aSt t Bdt) `step 6: 比较样本的实际 t-分数与临界 t-分数I .l &M yOX&vX?6k pYSB 2&OyV-( tobs=observedt ; tcrit= 表 中 的 临 界t分 数 )[ P\x \ynJ|cf% qS R例1:%[ d XN:一位老师给 9 位学生一个 20 分的是非题测验。他想了解学生的成绩是否比猜测更差。9 位学生 的分数是: 6, 7, 7, 8, 8, 8, 9, 9, 10. (用 a = 0.05 的显著性水平). step 1: H0:B @9Zw};l 2qd-] Ul&m&10Ku_pH gH1: m & 10; aFmh#5Te=0.05Q=7LOTC Zw(单凭猜测的成绩是 20 分的一半,即 10 分). step 2: 单尾考验(成绩比猜测更差) step 3: df? n = 9, so df = 9 - 1 = 8X C % #,yQ`x% q ~ NI8gMQ6! 5Sstep 4: 查表求临界 t-分数: df = 8, 单尾考验, a = 0.05, tcrit = -1.86 (考察的是比猜测更差, 所以临界 t 是负值) step 5: 计算 tobs.$ / qi 5i L\n:&C E2 O 45S|i(注意这里涉及了许多以前的知识,计算均值, 标准差, 估计标准误,) = (SX)/n = 72/9 = 8.0 s =t-,& g ?)H(n)SH] V-BSS = (SX2) - (SX)2/ n = 588 - 722/9 = 12.0 sqroot(SS/n-1) ={} nm N$dcgsqroot(12/8)=1.225NViP {标准误 = s/sqroot(n) = 1.225/sqroot(9) = 0.41 tobs = = (10 - 8) / 0.41 = -4.88?VTT\sO&zfpzFX~\&step 6: tobs = -4.88 & tcrit = -1.86 例 2WdMf E[.a0Fstep 7: 拒绝 H0 C 所以学生们的成绩好过单凭猜测.sZ$a lh' zNQ- YS一位老师给 9 位学生一个 20 分的是非题测验。他想了解这组学生是否与过去学生的成绩不同。 过去学生的平均成绩是 9.0。 9 位学生的分数是: 6, 7, 7, 8, 8, 8, 9, 9, 10. 现在的学生是否与过 去的学生成绩不同?(用 a = 0.05 的显著性水平). step 1:-ae s!BYH0:p U% ZL H1:4o5I % pe6step 2:(&L gi^ y#step 3: df? step:s%i ~=zstep 4: 从表中查出临界 t 值: df = 8, 双尾考验, a = 0.05, t 临界= 5: 计 算 tobs$.S~ O9e&-Y ?e/ = SS = s=5 zCKG[+g-aQf9qT '1^Z-Q Z &]u$估计标准误 = tobs = step 7:L 8; $I9W9_ Y d(step 6: tobs =a 0 QU* i( J#=m 9估计(Estimation)X,V6 v u *&估计的逻辑与假设检验不同/mIf#Y}e假设检验:试图否定虚无假设。 何时需要作估计? 1) 2) 3)=&?M2 Z估计: 对于总体参数的值作有根据的猜测。& X 5qNw 0Pof rT6想了解总体的基本信息, 但不能测量到所有个体, 所以抽取一个样本. 如果已经知道处理有效应,进而想知道效应有多大 经过假设检验后拒绝了 H0a? U%i& n ' 9OkE Sp v $9% hMR qw| W^&所以我们拒绝处理没有造成差别, 但我们希望知道到底有多少差别。&Gh V6- dgy hN%zD集中讨论两类总体均值估计:&E )]S@&@L1) 均值的点估计 (point estimates): 用单一数值作为未知数量的估计Xv& VzN8w2) 均 值 的 区 间 估 计 ( interval estimates ) 用 某 一 数 值 的 范 围 作 为 未 知 数 量 的 估 计 . : G9q\yrRf置信区间 (confidence intervals; C.I.) :当一个区间与一个特定的置信度 (或概率)一起出现时 , 称为置信区间.5Y[x ?r两类估计都由同样的方程所决定, 其差别是对于点估计, 只计算一个单一的数值, 但对于区间估 计,应计算两点之间的区间。&mof0 &i 4 ( g$8z &考虑下列总体分布.8d[f e&bF E=U,0Bn K假定我们猜测均值是 85。这个猜测的置信性如何?] q #( &(假定我们猜测均值是在 71 和 99 之间的某处? 这个猜测的置信性如何?e& yKG .也许你觉得后者的置信度较高. 这个差异对应于点估计和区间估计间的差别.L;{5\F &A2-S&|&iL u点估计 不足B6m w99,?I区间估计7`[iP's P没有包括任何估计准确性的信息.没有一个特定的值,只有一个可能的值的区间@/ *qy | a1. u均值的点估计. 总ov hoM X)体均值的最佳单一值估计?eZ hn\i-U 如果我们可以得到所有可能随机的样本, 那么最佳的估计就是样本均值分布的均值 总体! ;3 @$uww2 u &= dT样本均值9GQ K* L '假定我们只有一个样本. 最佳的猜测是什么? 样本均值.i YQJ 0oq?q% aV nb7o?这个猜测是否最佳的猜测?ak iM 3e'x S1) 这是我们已知的唯一, 最佳的猜测.J T J2)大部分样本均值会相当接近总体均值, 所以有很大的机会样本均值会很接近. 如何有更大的机会使估计准确? 我们可以用区间估计。F2Sj-Y XX 6~R #仍然考虑样本均值分布. 以 z 分数为例, 取±1 z 单位. 这是我们发现大约 68% 的均值落入这 个范围. 所以我们可以相当确信总体均值会在这个范围内。(&T6P0 rCkw 7 _ 8估计的逻辑步骤:]Le5 ?PKStep 1: 开始作出合理的估计 z (或 t) 值在估计中应该是什么. 对于点估计, z = 0, 恰好在中间` i~: Q&.tM s{MpE'对于区间估计, z (或 t) 值取决于估计要求的置信度0Q&n& FSStep 2: 接受关于 z (或 t) 值&合理的& 估计, 然后将其代入公式 以求得未知的总体参数.mk Y ^- zU8cNs V 3V例:X = 85, s = 5, n = 25,sSZ M;~s(2 vmy 6Gg dz = (X - m)/σ X---&(z)( σX) = X - m---&m = X - (σX)(z)T ),{ | ~ Ostep 1: 要估计 m, 我们要对 z 有一个估计. 最佳猜测是 当 z = 0 时. 代入公式. m = X - 0 * (5 / sqroot 25) = 85.0v Mt 7#r#_oA h C- gstep 2: 可以看出 m = X 是合理的估计.,t{ zP#J.%l ]`p& \ b~2 U| 6Y^2.区间估计J4#c}x7oX&用同样的公式, 将负号变成正负号. 这样才能得到区间的最小值和最大值. m = X ± (z)( σX)7 ; # `Wl&?5a l%g+估计第一步是要确定置信度。 假定选择 90%. 需要找出样本均值周围 90%所对应的两个 z 分 数。 双尾各 5%, 所以 z 分数是 ± 1.65.#? 7 / NZ+MOm = X + (z)( σX) = 85 + (1.65)(5/sqroot 25) = 86.65 m = X - (z)( σX) = 85 - (1.65)(5/sqroot 25) = 83.35 上例 是 z 分数. 同样的逻辑也适合于 t-统计量.&2ke _ ? N / AQ F!-n|P z @N! nmT nG+[c ,其它估计公式:d{L 0n 37Bx单一样本 (s 未知): m = X + (tcrit)(σX)))rr vL & &两个独立样本: m = (X 1 - X 2) + (tcrit)(sx1-x2)&gzAU[ ehp两个相关样本: m = D-bar + (tcrit) (est std error of D)P}5 mK JTW SBV @[= d'方差分析 (Analysis of Variance) 考虑以下情境:d -,Yz QyP9^THm 2 =一位研究者感兴趣影响儿童阅读能力的因素.研究者认为儿童的年龄和每次阅读时间可能是重要 的影响因素。研究者设计了以下实验:选取三个年龄组的儿童: 3 岁, 8 岁, 和 14 岁.将每个年 龄组的儿童随机分配到三个阅读条件. 组 1 阅读时间为 5 分钟; 组 2 为 15 分钟; 对于组 3 为 30 分钟.两个星期之后测试了这些儿童的阅读能力。 阅读时间 5 分钟 年龄 8 岁 14 岁 3 岁; ]oQ |v(W ? aKd 0` L 0W& w/: 915 分钟&!&*hy~ [30 分钟h&S:! J $/ k^$L q'这个研究有 3 X 3 样本 (即 9 个). 如何分析数据? 差分析 (ANOVA).T 4 { 3/At-检验和 z-检验不能用于多于 2 组的数据. 处理这类数据需要用 一种新的推论统计程序: 方Y ZfAW:{nANOVA 能够处理数据的类型: 在上例中有两个自变量 (称为因素): 年龄和阅读时间. 两个都是 组间 (独立样本) 变量. ANOVA 亦可用于分析包含组内 (重复测量) 因素的研究设计, 同时包含 组间和组内因素的混合设计(e.g. 假设上例中我们用同一些儿童作纵向研究。年龄是组内变量, 阅读时间是组间变量).% q :u uUG在方差分析中,因素就是自变量. 包含一个自变量的研究称为单因素设计 (single-factor design) . 具有多于一个自变量研究称为因素设计(factorial design). 构成因素的个别处理条件称为因素的水平.A o/( bk Z v上述研究称为因素设计, 两个组间因素,每一个因素有 3 个水平 (称为 3 X 3 组间设计). 最基本的 ANOVA.集中讨论单因素, 独立测量的研究设计. 1. 2. 3. 4.8 L) F:= ? `# .4:,'& gw\ D~!ANOVA 的逻辑 ANOVA 的符号. 事后检验_y tt: 0akeC% &]^ANOVA 的过程和例题2fV\ d?SB&Nr]{' E1.ANOVA 的逻辑Z&*D (与假设检验的逻辑是同样的, 只是具体内容有变化 step 1: 陈述 H0 (和 H1 ??) ,确定标准: a = ? step 2: ANOVA 检验总是 单尾 step 3: 指 出}#OZ ~+Sw D #H=X HW$9z A d^A检验的df(有两个df)93* lj3? -step 4: 查表找出临界 F 统计量'*M%3EvAstep 5: 对于样本,计算 F 统计量 step 7: 对于 H0 作出结论~Enhk M 7dstep 6: 比较 F 统计量 和临界 F 统计量TB :t 3 d/P uWP}I/=单因素, 独立测量研究设计的例子: 方法 A:让学生只读课本, 不去上课. 方法 B:上课,记笔记,不读课本. 方 法L [QN |{]gag &) `c u检验三个不同的学习方法的效应。将学生随机分配到 3 个处理组G l* ovx go[.kV _1C : 不 读 课 本 , 不 去 上 课 ,只 看 别 人 的 笔 记|d /9 KStep 1: 陈述假设和设定标准 (选择 a) H0: m1 = m2 = m3 m1 不0bf u F x9i'/d ,Y/H1: 其中一个组与另一个(或更多)的组均值不同。备择假设 可能的形式很多: 等 于 m2 =! L5I Zx} Dm3v 9_N9& .4m1 = m3 不等于 m2 m1 = m2 不等于 m3m+3QC D{J vT m i\ cm1 不等于 m2 不等于 m3Hhtfb. &因此,只需给出虚无假设就够了Uc\2f 4x v/step 2: ANOVA 检验总是单尾. 因为不存在负的方差. F 分布表也只有单侧的 Alpha.(F 分布图)L $IQ dX7step 3: 找出检验的 df. 注意要考虑几个 df ( step 4: 从表找出临界 F 统计量 分子的 df 分母的 df 1 2 3 :: ..1334.12 :: ::F }}GyC )aW &D | Pv'Nc 2Bsb:h?12 200499934 21654035_&Xf&K T.1228.712305764- #^ 20 &W-19..5530.92 :: ::19..2829.46 ::0k by4q R]19.2599.2519..0128.24j(W TI PKf PF M@与 t 分布表类似, F 分布表也是描述一族 F 分布. 对应于 a = 0.01.qB{cl-?4/%mff t?k-需要用到两个 df,用一个找出正确的行另一个找出正确的列.上面一行对应于 a = 0.05, 下面一行Y+?~%{[ [step 5: 计算样本 的 F 统计量观测值 概念的水平的讨论: ANOVA 非 常=AZgl cz)8@Z {N ;\V类似两个独立样本的t检验rw/! h Wtobs= 得到的样本均值间差异 期望的机会差异e (FQUH2sGt/[ nG }对于 ANOVA 检验统计量 (称为 F 比率) 类似 F = 样本均值间方差 (差异) 期望的机会(误差)方差(差异)b l 7 :E O&XL5Dd`oU $ c? k#$M -%vtI U为什么用方差?H4 m&K 4A b(&lI! .因为有多于两个组.-wX 7 &HW V如何计算一个分数来描述差异间分布? 差异不能够分割, 但是方差能够分割。这就是 ANOVA 方差分析名字的由来. 首先考虑方差的来源.C E : d^ asL#=t $ KPS什么造成样本的不同(处理间变异) ? 处理/组效应 - 处理造成的差异 个体差异效应 - 个体差异变异 随机误差/ IPV# bL } JNbW qg 5wM b 1L~K #6H &z P每一个样本内部的变异 (处理内变异) 个体差异效应 随机误差r 2I ': Z _ Dq -[Sl Jry 1& U_I q/& PF 比率 可以表达为:R q^qA' 5vv[F 比率 =样本均值间的方差 (差异) 期望的机会 (误差)方差(差异)v H6&i\ I BCPm &/ 4;4$? E-yW\F 比率 =处理间方差N emc|c% jA处理内方差$ P M S O&68 6Y9qJF比 率=处 理 效 应+个 体 差 异+随 机 误 差]J3| YD个体差异 + 随机误差L tRrC@M ,P: b b) f] (注意: 有时分母叫做误差部分,其量度了由于机会造成的方差TUZGN\ a5f=1[如果 H0 为真,处理效应的值应该如何? H0: m1 = m2 = m3 如 果 效MK%qS,c 8&Rt] x{C如果没有差异, 效应方差 = 0 应 方#SJB d ~ m差=0,F比率值?ez Ro i|e&`_/D $F 比率 = 0 + 个体差异 + 随机误差 = 1 = 1.0 个体差异 + 随机误差 1?mh /t K .,w k jw Hx]如果 H0 为假, F 比率应该大于 1.M R .:M\ &_fstep 6: 比较 F 统计量的观测值与临界 F 统计量W-O6'65SV如果 F 统计量的观测值 (Fobs) 在统计上显著地大于 1.0 则拒绝 H01 F0# e&% HaI *2.ANOVA 的专用符号8;Q @7G&_K = 处理条件(或组)的数目A=9.~ @ M#n = 每一个组的数目(如果它们相等) ni = 第 i 组的数目(如果 它们不等) N = Sni = 总的样本容量 Ti = SXijC$Q+ ` .Zw _Dr 1eEj % y G& G8V:eF _h+ 6gG = SXij =总的和\ | i PsM YG-bar = G / N = 总的均值 在上例中: 研究方法 0 1 3 1 0 SS1 4 3 6 3 4 =hP: .J& 3$&9]& p & *=SSi = 每一个组的和方 = S(Xij - i)2m@eCQ M $do\OB h~y M&方法 A 只读课本 1 2 2 0 0&LnjgH+ ps方法 B 只作笔记方法 C 借别人笔记kU X}q j0 dV3 -jn (mO4 ,a2@\An*x WoP.zC }/Y[[YT1 = 5T2 = 20 6T3 = 5/ Nx/chE W+SS2=6SS3=4N ^Li/ nen1 = 5 1=1 SX2 = 106n2 = 5 2=4:& ! SAHn3 = 5 3=1USxm $ #QV|s'N`rt =G = 30 = 总的和3PSbL &`N = 15 = 总的样本容量-FZ/ Ht `'G-bar = 30/15 = 2 = 总的均值E~{ P|a4K = 3 =处理条件 (或组) 的数目L z?8 $jG-t,`- Va3.ANOVA 的过程和例题 F 比率 = 处理内方差cR = x.$处理间方差](=Z z?Q#s& 9 -~PI&pi[ aKU需要找出两个方差.2DC ,Tya P9n最基本公式 s2 = SS/df. SS 和 = SX2 - (G2/N) 需 要 将 其n&(*_) eY-0`5 w t 3SS 和 = 106 - (302/15) =106 - 60 = 46 分 解 为# ~| EuCJ%组间变异和组内变异.P1 [9gA y SS 和 = SS 组间 + SS 组内M p) SuvK Pj如何得到 SS 组内? 将每一个组 SS 相加 = 6 + 6 + 4 = 16 如何得到 SS 组间? 快捷的方法是: SS 和- SS 组内 n u u1c?n-G X p # ulCY 9!`O@SSwithin = SSS 每一个 处理内部 = SSSi=rc] f-2Hy^ kM J) 0J'~ 47 bT&若数据足够,不推荐用这种方法,因为: 无法检查计算错误l9e 7b;dYtK- RdAq未涉及 SS 组间 是如何组成. 计算公式k )@sO T N直接计算 SS 组间的两个公式 :定义公式和计算公式 定义公式uP&3qb(o; *d:D8 *g' #SS 间 = S[ni( - G-bar)2] = 5 + 80 + 5 - 60 = 30 s2 = SS/df.SS 间 = S(T2/ni) - G2/NH{2$V j`= 5(1 - 2) 2 + 5(4 - 2) 2 + 5(1 - 2)2 = 5 + 20 + 5 = 30RV M- }`v-= 52/5 + 202/5 + 52/5 - 302/15SS 和 = SS 组间 + SS 组内 = 16 + 30 = 46rN = F} j J0= = o已计算出 SS, 找出 df: df 和 = N - 1-D55B ` 5共有两个 (或三个) 自由度, 一个组间方差 df,一个组内方差 df (以及一个总的 df).yI9y& bC mq nfs= Ddf 组内 = = N - K df 组间= K - 1 在例子中:!v w # Dr MK\|1|S,df 和 = df 组内 + df 组间^ ^ J pZ] ` N: ~ *df 组内 = 15 - 3 = 12 df 组间= 3 - 1 = 2$| dne{c 0& 3A $hS ;df 和 = 15 - 1 = 14, = 12 + 2 现在计算方差. 这里称为均方. 方差 = 均方 = MS = SS/df MS 组间= SS 组间/df 组内 --& 上例中 = 30/2 = 15lI 2=3s 9zja }5`08\ ; 8]'VP &&uos \.^a& 9LT Hv注意: 有时 MS 组间称为误差的均方. --& 上例中 = 16/12 = 1.33 处理内方差} ' , R%3MS 组内 = MS 误差 =误差的均方 = SS 组内/df 组内#R+5jGG`I'& L% 4 Il9[F 比率 = 处理间方差 = MS 组间 MSw 组间l qg tmj{'@Yw Tv22l上例中的 F 比率是: 15/1.33 = 11.28 将结果总结到方差分析表中: 来源 处理间 处理内 总的,D1(_ 5 & w +voJU- Ny 8p1&wQ^( WSS 30 16 46df 2 12 14MS 15.0 1.33Go nFUk-$VeEY 5 AF = 11.28zA \ o) :3&\ /CM| @Q 查 F 表 确定 Fcrit 对假设作出结论 df 组间 = 分子的 df --&bE |m_c? 7%d_-A/ Snndf 组内 = 分母的 df (误差) 上w'6 @=例中:L Xx WY$\df 组内 = 12; df 组间 = 2 分子的 df 分母的 df 1 2 3 :: 12 13 :: ..1334.12 :: 4.75 9.33 4.67 9.07 :: :: ::9k)0 dK SRa =&*$12 200499934 21654035s[v D|P zK.1228.712305764PRS] 4 R ^19..5530.92 :: 3.88 6.93 3.80 6.70 ::l.K PqI J19..2829.46 ::19.2599.2519..0128.24*y c{GT 0~+_fEK2::%C dl uIj3.49 5.95 3.41 5.74 :: ::T/Ax : !l03.26 5.41 3.18 5.203.11 5.06 3.02 4.86a n.N KQPYgZ1O o如果选择 a = .05, Fcrit = 3.88 如果选择 a = .01, Fcrit = 6.93 报告结果uOo^ 7\~cj9F 比率的观测值 11.28 大于 Fcrit., 所以拒绝 H0 (m1 = m2 = m3).9r- ^9`x u% * A\CB qaF(df 组间,df 组内) = Fobs, p & ?# pL;~pEn@`&单因素方差分析发现学习方法有显著的效应, F(2,12) = 11.28, p & 0.01.&\:J~D]注意:电脑的结果输出 会给出实际 p-值. 假设检验的逻辑 是必须事前预设 Alpha 水平. 如果选 择了 .01, 就必须 将其用于所有的检验.所以,如果有两个实验, 电脑程序得到实验 1 的 p 值 = .001,实验 2 的 p -值 = .01. 它们都在统计上显著. 假设检验是 yes/no 决策. 上例中,结论 都是 YES.实验 1 的结果并不比实验 2&更显著&. 4. 事后检验(Post hoc tests)c E] ^Ii '1IC ,DJ :ANOVA 的结果是检验 H0: m1 = m2 = m3 ,这是一个两点 (拒绝/不拒绝) 决策. 并未提供哪个 备择假设得到支持. 也就是说, 只知道一些组与其它组不同, 但并知道差别在哪些组之间. 们能够比较各组, 发现差异产生在什么地方.^ \ }cw&- R所以从 ANOVA 得到显著差异的结果 (拒绝 H0)后,一定要做作 some 事后检验. 事后检验 使我n&eW*= m事后检验就是比较每一个处理组与另一个处理组, 一次比较两个. 这称为成对比较. 在上例中, 可以比较 m1 与 m2, m1 与 m3, 以及 m2 与 m3. 这样的做法有没有问题?y 2[i^ H?R qc O @X / Lh \ .9]t: Hy每一个比较 都是一个单独的假设检验, 每一个都有犯 I 类错误的风险. 所以,比较对数越多, 作 结论的风险越大。即容易发现实际不存在的差异。 这称为实验导致的(experimentwise)alpha 水平 (或族系(familywise) 误差) αEW = 1 - (1 - a)c c = 比较对数V`5 0& & I*$# Z!@i 6\对于上述例子, 如果选择 a = 0.05 作 3 对比较%~ vS*1H sαEW = 1 - (1 - a)c = 1 - (.95)3 = 1 - .857 = .1433')z=^C9I 类错误的机会增加到 14.7%而不再是 5%,多数事后检验设计中都控制了实验导致误差.-A(G% u $n;#& j}zc这里介绍两个事后检验: Tukey's HSD 检验 (honestly 差异显著性) 检验和 Scheff 检验. a) Tukey's HSD 检验UzmRj) $c&j= P^ v g qe可以计算出单一的值确定处理均值间的最小差异,考查此差异在统计上是否显著. 此检验要求各组有相等的样本容量. HSD = q * sqrt(MS 组内/n)\SyeX O & `,W'1u vA mL 0 A 89=q 值 可以从表中查出(附表 6). 需要用到 K 和 df 组内, 以及α EW^eo 3d% ;UB'J{ u k 在上例中(用αEW=.05):n l N2I 56 HSD = q * sqrt(MS 组内/n)=(3.77) sqrt(1.33/5) = (3.77)(.516) = 1.94 比较 1: H0: m1 = m2 2 -1 = 4.0 - 1.0 = 3.0 比 较P - SoMI $L YCCV/77qv u C h\KHSD = 1.94 & 3.0,拒绝 H0[?d [OCkuj2:H0:m1=m32JK^_ 3 -1 = 1.0 - 1.0 = 0.0 比较 3: H0: m2 = m3 2 -3 = 4.0 - 1.0 = 3.0r't?9= MtHSD = 1.94 & 0.0,不能 拒绝 H0bQ e b`KHz p&+ Ru *!y#C =HSD = 1.94 & 3.0, 拒绝 H0A@2a [kK--所以 B 与 A 和 C 不同,而 A 与 C 没有差异&(p- .k DtLt$y^ pBI 8b)Scheff?检验`&w QrO#Z 用 F 比率检验差异. 这是最保守的检验 (降低 I 类错误的风险, 但增加 II 类错误的风险). 特别 适用于 n 不等的情况[e6WuU`vz F;.$- 3 97重新计算 MS 组间, 每次只检验一个比较.注意:用整体的 df 组间 和整体的 MS 组内.H\T & a ]]M| ` _= I研究方法 0 1 3 1 0 4 3 6 3 4w^ S C E方法 A 只读课本 1 2 2 0 0uw\#3n}P1方法 B 只作笔记方法 C 借别人笔记&2p4 #S R--t- ^cEj;q.*+V pVq(+# Nj~K etv $I4 )& kT1 = 5 SS1 = 6 n1 = 5 1=1. D B F.T2 = 20 SS2 = 6 n2 = 5 2=4 SS 30 16 46 df 2 12 14T3 = 5 n3 = 5 3=1 MS 15.0 1.33o& !m,jnJ ;,JSS3 = 4' &zImfva&e| EX& !v?+$来源 处理间 处理内 总的Z qs ZuK%ZR-MAa H} DF = 11.28_ h1ah8/[U wB8v 96& v比较 1: H0: m1 = m2g r|+ $`C T-SS 组间 == 52/5+202/5-252/10 = 22.5 MS 组间 = = 22.5/2 = 11.25 MS 组内 = = 16/12 = 1.33kib# F( ( `[UNSJ~L&= ) @Fa3&SF 比率 = MS 间 = 11.25/1.33 = 8.46 MS 组内 查 F 表. a = .05, Fcrit(2,12) = 3.88 8.46 & 3.88, 拒绝 H0 比较 2: H0: m1 = m3 SS 组间== + - = 0+'# ;K8q DGyZxw avf{ cjBn* +jY]Vi!Ad[ +Y-m NMS 组间 = = 0/2 = 0^5CY P.DMS 组内 = = 16/12 = 1.33D rp&F 比率 = MS 间 = 0/1.33 = 0 MS 组内 查 F 表. a = .05, Fcrit(2,12) = 3.88 0 & 3.88, 不能拒绝 H0 比较 3: H0: m2 = m3 SS 组B _wJ d&b Py E&&' n j S #UT %kwU| nZS7*i'间==52/5}

我要回帖

更多关于 统计学计算题 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信