魔方第一步十字公式怎么得出第二步的?????求公式

张老师漫谈六西格玛张老师漫谈六西格玛一个六西格玛爱好者的胡言乱语关注专栏更多最新文章{&debug&:false,&apiRoot&:&&,&paySDK&:&https:\u002F\u002Fpay.zhihu.com\u002Fapi\u002Fjs&,&wechatConfigAPI&:&\u002Fapi\u002Fwechat\u002Fjssdkconfig&,&name&:&production&,&instance&:&column&,&tokens&:{&X-XSRF-TOKEN&:null,&X-UDID&:null,&Authorization&:&oauth c3cef7c66aa9e6a1e3160e20&}}{&database&:{&Post&:{&&:{&title&:&列联表篇之十:属性相同双向有序表的Kappa分析&,&author&:&zhang-zi-da-26&,&content&:&\u003Cp\u003E在本单元第二篇《\u003Ca href=\&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F\&\u003E列联表篇之二:四格表的分析\u003C\u002Fa\u003E》中介绍的Kappa分析称为Cohen's Kappa,它只能分析二维的表格,只能是两个人(方法)对对象的评价,或一个人(方法)前后两次评价,或一个人(方法)的评价与标准结果的对比。今天另外介绍一种Kappa分析,可以适用于多人(方法)评价的分析,这就是Fleiss' Kappa分析,此法在属性数据的测量系统分析中运用非常广泛。\u003C\u002Fp\u003E\u003Cp\u003E在介绍Fleiss' Kappa之前,先介绍一下Cohen's Kappa分析的显著性检验。这主要是因为上次文章发出后,有人留言询问显著性检验问题,在这里答复一下。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003ECohen's
Kappa分析的显著性检验\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003E《\u003Ca href=\&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F\&\u003E列联表篇之二:四格表的分析\u003C\u002Fa\u003E》中的例3:某个考试共有80道单选题,每题的有A、B、C、D四个答案,为考察某个考生的成绩是不是随便猜的,可以用Kappa分析做一个较确切的判断。数据表如下:\u003C\u002Fp\u003E\u003Cimg src=\&v2-b1072abce72cdf44e01a0ad8a7ab7e69.png\& data-rawwidth=\&562\& data-rawheight=\&190\&\u003E\u003Cp\u003E把这个表中的值改成概率,即格子中的数字除以总样本量80,变成下面的表:\u003C\u002Fp\u003E\u003Cimg src=\&v2-851c418bcc574fa253d004.png\& data-rawwidth=\&562\& data-rawheight=\&190\&\u003E\u003Cp\u003E令\u003Ci\u003Epij\u003C\u002Fi\u003E为第\u003Ci\u003Ei\u003C\u002Fi\u003E行第\u003Ci\u003Ej\u003C\u002Fi\u003E列的格子的概率,\u003Ci\u003Epi\u003C\u002Fi\u003E为每行的概率之和,\u003Ci\u003Eqj\u003C\u002Fi\u003E为每列的概率之和,\u003Ci\u003Ek\u003C\u002Fi\u003E为行数或列数。则Kappa值的标准差为\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-72fe4efb13956.png\& data-rawwidth=\&389\& data-rawheight=\&88\&\u003E\u003Cp\u003E已算得\u003Ci\u003EPe\u003C\u002Fi\u003E=0.25,带入上式可得\u003C\u002Fp\u003E\u003Cimg src=\&v2-9aa5bfa9f322b3fb476b7.png\& data-rawwidth=\&603\& data-rawheight=\&237\&\u003E\u003Cp\u003E检验的假设为\u003C\u002Fp\u003E\u003Cp\u003E\u003Ci\u003EH\u003C\u002Fi\u003E0:\u003Ci\u003Eκ\u003C\u002Fi\u003E=0\u003C\u002Fp\u003E\u003Cp\u003E\u003Ci\u003EHa\u003C\u002Fi\u003E:\u003Ci\u003Eκ\u003C\u002Fi\u003E≠0\u003C\u002Fp\u003E\u003Cp\u003E计算统计量为\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-dea415cdd22b637c17a346.png\& data-rawwidth=\&238\& data-rawheight=\&53\&\u003E\u003Cp\u003E采用正态近似,\u003Ci\u003Ep\u003C\u002Fi\u003E值约为0,因此拒绝原假设。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003EFleiss'
Kappa分析\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003EJoseph L. Fleiss ( – )是哥伦比亚大学公共卫生学院生物统计学教授。Cbr\u003E– 1992还担任生物统计学分部主任。他因心理健康统计学领域的工作,尤其是在评估诊断分类的可靠性,以及分类的测量、模型和误差控制方面而闻名。(本段摘译自Wikipedia)\u003C\u002Fp\u003E\u003Cp\u003E为了更好地理解Fleiss' Kappa分析的要领,我特意找到了他的著作《Statistical\u003Cbr\u003E Methods
Proportions》,就是这一本,足足有790页。但吊诡的是,我居然没有在书中找到Fleiss' Kappa分析的内容。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-3d6bd4c958475c.png\& data-rawwidth=\&367\& data-rawheight=\&583\&\u003E\u003Cp\u003E如前所述,Fleiss' Kappa适用于二维以上的列联表的一致性分析。虽然在教科书中双向有序表的分析一般都是推荐Kappa分析,但根据Wikipedia的说法Fleiss' kappa(也包含Cohen's Kappa)可以用于二分类数据或名义尺度的评价,但不适用与顺序或等级评价数据。了解了其具体的计算过程,大家会明白这句话的含义。如果不希望浪费因子的顺序信息,可以考虑采用前面介绍的Kendall或Spearman相关分析。\u003C\u002Fp\u003E\u003Cp\u003EFleiss' Kappa与Cohen's Kappa的分析思路是一样的,Kappa值的定义为:\u003C\u002Fp\u003E\u003Cimg src=\&v2-accb197acd16f53cf8951cbbed53cd3f.png\& data-rawwidth=\&96\& data-rawheight=\&54\&\u003E\u003Cp\u003E看起来很面熟吧?但计算要比Cohen's Kappa复杂很多。我们用Wikipedia上的例子来说明Fleiss' kappa的计算过程。\u003C\u002Fp\u003E\u003Cp\u003E例1:(本案例数据来自Wikipedia):14个评价者(\u003Ci\u003En\u003C\u002Fi\u003E)将10个“物品”(\u003Ci\u003EN\u003C\u002Fi\u003E)归到5类(\u003Ci\u003Ek\u003C\u002Fi\u003E)中。 分类为列,物品为行,每个格子里列出每个物品被归到各个分类的评价者数量。\u003C\u002Fp\u003E\u003Cimg src=\&v2-82ccf445bccde.png\& data-rawwidth=\&510\& data-rawheight=\&344\&\u003E\u003Cp\u003E需要注意的是:Fleiss' kappa不强调针对每一个物品的评价者都是相同的,比如第一行和第二行的评价者可以是完全不同的人,只要保证每一个物品的评价次数一致就可以。\u003C\u002Fp\u003E\u003Cp\u003E首先计算行和列的\u003Ci\u003EP\u003C\u002Fi\u003E,定义\u003Ci\u003EPi\u003C\u002Fi\u003E为行的概率,\u003Ci\u003EQj\u003C\u002Fi\u003E为列的概率,它们可以用下面的公式求出:\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-14ae1eeced4da7b82ad6.png\& data-rawwidth=\&462\& data-rawheight=\&75\&\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-63d16c4f485e1dba7d88a95d616e0c2d.png\& data-rawwidth=\&124\& data-rawheight=\&64\&\u003E\u003Cp\u003E根据这两个公式分别计算出行和列的概率为下表:\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-54045e4bbb8dccb5dfbc9.png\& data-rawwidth=\&602\& data-rawheight=\&375\&\u003E\u003Cp\u003E以第二行和第三列为例,具体的计算过程为:\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-01f4254fafde81bf9533a.png\& data-rawwidth=\&605\& data-rawheight=\&94\&\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-e57b23e41c09a8696afe05e.png\& data-rawwidth=\&331\& data-rawheight=\&70\&\u003E\u003Cp\u003E下面计算实际的\u003Ci\u003EP\u003C\u002Fi\u003E0与期望的\u003Ci\u003EPe\u003C\u002Fi\u003E:\u003C\u002Fp\u003E\u003Cimg src=\&v2-0ee2cccb6c9cf76c240e29.png\& data-rawwidth=\&378\& data-rawheight=\&70\&\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-fd54788eddc56b3dd171c011d6a775a4.png\& data-rawwidth=\&88\& data-rawheight=\&68\&\u003E\u003Cp\u003E根据前一步的计算结果,可以很容易地计算出:\u003C\u002Fp\u003E\u003Cimg src=\&v2-51da913add5cb890a11eb3.png\& data-rawwidth=\&227\& data-rawheight=\&65\&\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-98d3ac79c90791bf8abde.png\& data-rawwidth=\&162\& data-rawheight=\&68\&\u003E\u003Cp\u003E最后计算出Kappa值为\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-b39bb2f7109ea.png\& data-rawwidth=\&287\& data-rawheight=\&53\&\u003E\u003Cp\u003E看来这个评价的一致性很一般,有必要优化评价的标准。\u003C\u002Fp\u003E\u003Cp\u003E另外,还可以算每个分类的Kappa值,用下面这个公式:\u003C\u002Fp\u003E\u003Cimg src=\&v2-ba338aa90c.png\& data-rawwidth=\&241\& data-rawheight=\&56\&\u003E\u003Cp\u003E据此可以算出每一个分类的Kappa值分别为:\u003Cbr\u003E0.201、0.080、0.172、0.030、0.508。\u003C\u002Fp\u003E\u003Cp\u003E下面问题又来了,显著性检验怎么做?\u003C\u002Fp\u003E\u003Cp\u003E这个计算有点复杂,我来计算,你们看看就行了。\u003C\u002Fp\u003E\u003Cp\u003E首先看看各个分类Kappa值的标准误(注意是标准误,不是标准差),它们是一样的,即:\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-ff34b517c478cc3bdba1d60d.png\& data-rawwidth=\&176\& data-rawheight=\&72\&\u003E\u003Cp\u003E本例可以算出各分类Kappa的标准误均为0.03315。采用正态近似,计算各个分类的\u003Ci\u003Ez\u003C\u002Fi\u003E值分别为6.072、2.403、 5.176、0.916、15.314,计算出\u003Ci\u003Ep\u003C\u002Fi\u003E值(双尾)分别为0、0.016、0、0.359、0,可知出分类4的Kappa值不显著外,其它分类均显著。\u003C\u002Fp\u003E\u003Cp\u003E总Kappa的标准误公式比较复杂,见下式:\u003C\u002Fp\u003E\u003Cimg src=\&v2-a2df63efe2f34a2762402.png\& data-rawwidth=\&553\& data-rawheight=\&86\&\u003E\u003Cp\u003E本例计算得0.017,\u003Ci\u003Ez\u003C\u002Fi\u003E值为0.210\u002F0.017=12.35,\u003Ci\u003Ep\u003C\u002Fi\u003E值为0。Kappa值虽然显著,但0.21显然也小了,一致性并不能令人满意。\u003C\u002Fp\u003E\u003Cp\u003E例2:《\u003Ca href=\&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F\&\u003E列联表篇之二:四格表的分析\u003C\u002Fa\u003E》中的例3只分析了一个学生的试卷,如果想知道所有30个学生的答案的一致性,我们可以把30个学生的答案汇总起来,用Fleiss'\u003Cbr\u003E kappa值来做出判断。(为了展示方便,我只截取20题的答案进行分析)\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-4c1c180cef4dd5b911ccf5.png\& data-rawwidth=\&521\& data-rawheight=\&535\&\u003E\u003Cp\u003E运用上面的计算公式,可以算得总Kappa值为0.333,显然一致性不是很好,说明学生间还存在不小的差异。\u003C\u002Fp\u003E\u003Cp\u003E显著性计算意义不大,就不再计算了。\u003C\u002Fp\u003E\u003Cp\u003E看到这里可能有人会意识到还有一个重要的问题,这些学生的答案跟标准答案之间的一致性如何呢?其实在属性数据的测量系统分析中就有这样的问题存在。\u003C\u002Fp\u003E\u003Cp\u003E具体的做法是将每一个试卷与标准答案放到一起计算Fleiss'\u003Cbr\u003E kappa值,类似于两个评价者的分析,这样一共得到30个Kappa值,其均值就是总Kappa值。如果手工计算的话,计算量还是很大的,我们只有知道原理就行了,剩下的就交给统计软件吧。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003EKappa分析的反例\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003E在使用Kappa分析时要小心,有时数据看起来一致率很高,但计算出的Kappa值却很小,下面就是Wikipedia上的一个反例。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-57bacbaa5b31.png\& data-rawwidth=\&199\& data-rawheight=\&145\&\u003E\u003Cp\u003E这张表的一致率为2\u002F16=0.125,计算出的Kappa值为0.01,说明一致性很差。但把这张表调整一下,变成下面这样:\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-b998ddfcabc.png\& data-rawwidth=\&201\& data-rawheight=\&144\&\u003E\u003Cp\u003E从数据上看一致率为14\u002F16=0.875,应该是很好的,但Kappa值却为-0.07。\u003C\u002Fp\u003E\u003Cp\u003E有不少人提出了Kappa分析的反例,在四川大学王军的硕士论文《Kappa系数在一致性评价中的应用研究》中,总结了三种反例,并提出了应用Kappa分析的注意事项。限于篇幅,本文不做进一步展开,感兴趣者可以查阅该论文。\u003C\u002Fp\u003E\u003Cp\u003E总之,任何一种方法都存在应用的限制和不足,在应用时要小心应对,不要机械地直接接受结果。还记得我强调过多次的建议吗?统计结论完全不等于实际结论,对于统计结论的取舍要结合实际情况作出判断。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E请关注我的微信公众号:张老师漫谈六西格玛\u003C\u002Fp\u003E&,&updated&:new Date(&T06:27:21.000Z&),&canComment&:false,&commentPermission&:&anyone&,&commentCount&:0,&likeCount&:0,&state&:&published&,&isLiked&:false,&slug&:&&,&isTitleImageFullScreen&:false,&rating&:&none&,&sourceUrl&:&&,&publishedTime&:&T14:27:21+08:00&,&links&:{&comments&:&\u002Fapi\u002Fposts\u002F2Fcomments&},&url&:&\u002Fp\u002F&,&titleImage&:&&,&summary&:&&,&href&:&\u002Fapi\u002Fposts\u002F&,&meta&:{&previous&:null,&next&:null},&snapshotUrl&:&&,&commentsCount&:0,&likesCount&:0},&&:{&title&:&抽样分布篇之十一:抽样分布的终极分布是什么,你知道吗?&,&author&:&zhang-zi-da-26&,&content&:&\u003Cp\u003E这篇文章源于某个微信群里的一个问题,是关于\u003Ci\u003EF\u003C\u002Fi\u003E-检验的,在回答问题的时候突然冒出一个想法:这么大的样本量用正态近似应该怎么算呢?我们在学习的时候老师都说过,抽样分布在样本量趋于无穷大的时候逼近正态分布。\u003C\u002Fp\u003E\u003Cp\u003E为此我查阅了几本《概率论与数理统计》的教科书,多数都没有提及,所以我估计很多人并不知道。另外这个知识点也不是重点,即使有人学过,可能也没有特别留意。当然关注抽样分布的正态近似意义也不是很大,因此这篇小文就当做资料吧,有人想知道的时候可以来查查。\u003C\u002Fp\u003E\u003Cp\u003E推导过程咱就没必要谈了,直接上结论。当样本量很大时,三大抽样分布趋于正态分布,但不一定是标准正态分布,这个是要注意的。\u003C\u002Fp\u003E\u003Cp\u003E当自由度\u003Ci\u003En\u003C\u002Fi\u003E非常大时,\u003Ci\u003Et\u003C\u002Fi\u003E分布渐趋\u003Ci\u003EN\u003C\u002Fi\u003E(0,\u003Ci\u003E n\u003C\u002Fi\u003E\u002F(\u003Ci\u003En\u003C\u002Fi\u003E-2)),而\u003Ci\u003En\u003C\u002Fi\u003E\u002F(\u003Ci\u003En\u003C\u002Fi\u003E-2)趋于1,因此可以用\u003Ci\u003EN\u003C\u002Fi\u003E(0,1)也就是标准正态分布来近似。\u003C\u002Fp\u003E\u003Cp\u003E当自由度\u003Ci\u003En\u003C\u002Fi\u003E非常大时,卡方分布渐趋\u003Ci\u003EN\u003C\u002Fi\u003E(\u003Ci\u003En\u003C\u002Fi\u003E, 2\u003Ci\u003En\u003C\u002Fi\u003E)。\u003C\u002Fp\u003E\u003Cp\u003E在分子和分母的自由度分别为\u003Ci\u003Em\u003C\u002Fi\u003E、\u003Ci\u003En\u003C\u002Fi\u003E且非常大时,\u003Ci\u003EF\u003C\u002Fi\u003E分布渐趋以下的正态分布\u003C\u002Fp\u003E\u003Cimg src=\&v2-22bdd21ecefc8ab.png\& data-rawwidth=\&214\& data-rawheight=\&50\&\u003E\u003Cp\u003E假设\u003Ci\u003Em\u003C\u002Fi\u003E=\u003Ci\u003En\u003C\u002Fi\u003E且非常大时,上式可简化为N(1,4\u002F\u003Ci\u003En\u003C\u002Fi\u003E)。\u003C\u002Fp\u003E\u003Cp\u003E写到这儿,文章可以结束了。\u003C\u002Fp\u003E\u003Cp\u003E不对!还有个问题,自由度达到多少才可以很好地用正态来近似呢?\u003C\u002Fp\u003E\u003Cp\u003E有人注意到了这个问题,防灾技术学院的王福昌等就对此进行了研究,其论文《\u003Ci\u003Eχ\u003C\u002Fi\u003E2分布、\u003Ci\u003Et\u003C\u002Fi\u003E分布和\u003Ci\u003EF\u003C\u002Fi\u003E分布的近似计算》发表在《防灾科技学院学报》2008年3月第10卷第1期上,本文直接引用其结论。\u003C\u002Fp\u003E\u003Cp\u003E选择自由度5、10、20、50,对比\u003Ci\u003Et\u003C\u002Fi\u003E分布和正态分布的概率密度曲线如下图:\u003C\u002Fp\u003E\u003Cimg src=\&v2-20dc81a80e9ad5f74bbd9fb.png\& data-rawwidth=\&558\& data-rawheight=\&465\&\u003E\u003Cp\u003E可以看到,自由度为50时,两个分布基本重合,如果再对比一下自由度为30的曲线,其重合程度也是可以接受的,这就是我们常说样本量在30以上是大样本的原因之一吧。\u003C\u002Fp\u003E\u003Cp\u003E以SQRT(\u003Ci\u003En\u003C\u002Fi\u003E\u002F(\u003Ci\u003En\u003C\u002Fi\u003E-2))作为标准差,分别取1、2、3倍标准差的点,计算其右侧累积概率。对比如下表(论文中的表有错误,还是我自己来做吧。这样明显的错误编辑怎么没发现呢?唉……)。\u003C\u002Fp\u003E\u003Cimg src=\&v2-dd6c15a020de484dc25dfc5de31645d3.png\& data-rawwidth=\&549\& data-rawheight=\&112\&\u003E\u003Cp\u003E
注:正态近似的计算没有采用论文中的多项式近似公式计算,因此计算结果略有偏差。\u003C\u002Fp\u003E\u003Cp\u003E以\u003Ci\u003En\u003C\u002Fi\u003E为均值SQRT(2\u003Ci\u003En\u003C\u002Fi\u003E)作为标准差,分别取1、2、3倍标准差的点,计算其右侧累积概率。选择自由度为20、50、100、200,对比曲线图下图:\u003C\u002Fp\u003E\u003Cimg src=\&v2-7c76b1eb28ebb.png\& data-rawwidth=\&558\& data-rawheight=\&482\&\u003E\u003Cp\u003E量化的对比见下表:\u003C\u002Fp\u003E\u003Cimg src=\&v2-0b8a4a15ab3ac6abcfa17dfbf42d53ce.png\& data-rawwidth=\&555\& data-rawheight=\&113\&\u003E\u003Cp\u003E采用同样的方法,取\u003Ci\u003Em\u003C\u002Fi\u003E=\u003Ci\u003En\u003C\u002Fi\u003E,\u003Ci\u003EF\u003C\u002Fi\u003E分布正态近似的对比曲线如下图:\u003C\u002Fp\u003E\u003Cimg src=\&v2-8a4d4ffbc850eeb.png\& data-rawwidth=\&558\& data-rawheight=\&495\&\u003E\u003Cp\u003E量化的对比见下表:\u003C\u002Fp\u003E\u003Cimg src=\&v2-69e6a76c7dbbda.png\& data-rawwidth=\&562\& data-rawheight=\&113\&\u003E\u003Cp\u003E由上面的对比分析可见,随着样本量的增加,\u003Ci\u003Et\u003C\u002Fi\u003E分布很快收敛于正态分布,而另外两个分布收敛的速度则比较慢。这是由于\u003Ci\u003Et\u003C\u002Fi\u003E分布是对称分布,且本身就是用于修正小样本状态下正态分布估计的差异的,因此\u003Ci\u003Et\u003C\u002Fi\u003E分布与正态分布关系比较密切就可以理解了。\u003C\u002Fp\u003E\u003Cp\u003E另外两种分布属于偏态分布,具体来说是右偏分布,而且样本量越小,其分布越偏,因此当样本量增大时,这种偏态分布向对称的正态分布的收敛就显得比较慢了。\u003C\u002Fp\u003E\u003Cp\u003E当然现在的软件计算概率分布已经非常方便了,即使是EXCEL都可以很容易计算,因此没有什么必要再考虑采用正态近似了。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Cbr\u003E请关注我的微信公众号:张老师漫谈六西格玛\u003C\u002Fp\u003E\u003Cp\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003C\u002Fp\u003E&,&updated&:new Date(&T05:47:33.000Z&),&canComment&:false,&commentPermission&:&anyone&,&commentCount&:0,&likeCount&:8,&state&:&published&,&isLiked&:false,&slug&:&&,&isTitleImageFullScreen&:false,&rating&:&none&,&sourceUrl&:&&,&publishedTime&:&T13:47:33+08:00&,&links&:{&comments&:&\u002Fapi\u002Fposts\u002F2Fcomments&},&url&:&\u002Fp\u002F&,&titleImage&:&&,&summary&:&&,&href&:&\u002Fapi\u002Fposts\u002F&,&meta&:{&previous&:null,&next&:null},&snapshotUrl&:&&,&commentsCount&:0,&likesCount&:8},&&:{&title&:&列联表篇之十一:有序数据的Kendall协和系数&,&author&:&zhang-zi-da-26&,&content&:&\u003Cp\u003E上一篇《\u003Ca href=\&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F\&\u003E列联表篇之十:属性相同双向有序表的Kappa分析\u003C\u002Fa\u003E》中提到,“Fleiss' Kappa(也包含Cohen's Kappa)可以用于二分类数据或名义尺度的评价,但不适用与顺序或等级评价数据”。这样就损失了数据的顺序信息,当然我们也可以用Spearman's rho和Kendall's tau来分析相关性,可以弥补Cohen's Kappa对忽略变量等级的缺陷。但对上一篇多评价者的数据,这两种相关性分析就不适用了,为此本文介绍Kendall \u003Ci\u003EW\u003C\u002Fi\u003E协和系数(Kendall's coefficient of concordance)可以用来解决这个问题。\u003C\u002Fp\u003E\u003Cp\u003E在介绍方法之前,我们还是来认识一下Kendall这个统计学家吧。\u003C\u002Fp\u003E\u003Cp\u003ESir Maurice George Kendall ( – ),英国统计学家,不列颠学会会士。与他同姓的还有一位统计学家David George Kendall( – ),也是英国人,皇家学会会士。两个人没有血缘关系,不要搞混了。\u003C\u002Fp\u003E\u003Cp\u003EMaurice Kendall爵士在统计学上的贡献最有名的就是前面介绍的Kendall's tau秩相关检验和本文要介绍的方法。在二战期间,他白天是英国航运公会的助理总经理,晚上还担任空袭警报员。即便如此,他仍挤出时间完成了《高级统计学原理》第一卷(1943年)和第二卷(1946)以及一系列关于Fisher's \u003Ci\u003EK\u003C\u002Fi\u003E-统计量的延伸研究论文。这是一个令人敬佩的统计学家。(本段信息来自Wikipedia)\u003C\u002Fp\u003E\u003Cp\u003EKendall协和系数W检验也属于一种配对的秩和检验,在《\u003Ca href=\&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F\&\u003E列联表篇之七:属性不同双向有序表的Kendall's tau相关分析\u003C\u002Fa\u003E》中介绍的方法适用于单个评价者与标准的比较、两个评价者之间的比较,类似于连续数据的单样本\u003Ci\u003Et\u003C\u002Fi\u003E检验、配对双样本\u003Ci\u003Et\u003C\u002Fi\u003E检验。而本文介绍的方法适用于多个评价者之间的比较,类似于连续数据的单因子ANOVA。\u003C\u002Fp\u003E\u003Cp\u003E需要注意的是,在这样的比较中,评价者不能改变样本的性质,应保持每个评价者针对完全相同的样本进行评价。即使是像品酒这样的破坏性试验,也要保证分给每一个品酒师的样品是来自同一批次的产品,如从搅拌均匀的同一瓶酒中倒出。当然样品与样品之间不必要求条件相同,完全可以选择不同品牌的酒、不同酒精度、不同年份的酒来进行品酒试验。\u003C\u002Fp\u003E\u003Cp\u003E以下我瞎编的这个案例送给我重庆的好哥们何洋,希望能对火锅的辣度评级有所帮助。\u003C\u002Fp\u003E\u003Cp\u003E例:重庆火锅享誉世界,但不同的人对辣度的接受程度不同,为此很多火锅店定义了辣度等级,比较常见的是微辣、中辣、特辣等等。但由于没有统一的标准,不同的火锅店之间的辣度存在差异,有些店的微辣可能跟其它店的中辣差不多,甚至各个火锅店的辣度名称也不一样,因此制定辣度标准就显得很有必要了。重庆火锅协会对此进行了研究,希望能够制定出统一的辣度标准,以此指导火锅店的产品开发。\u003C\u002Fp\u003E\u003Cp\u003E国际上表示辣度的量化值是“斯高维指数” (Scoville Heat Unit,简称SHU),这是由美国化学家斯高维于1912年制定的。这其实是一个感官指标,一个斯高维单位辣度是将一个单位的辣椒素用一万倍的糖水稀释至可辨不出辣味。具体方法是将被测物一单位的辣椒素溶解到糖水里,然后交给数个人品尝,之后逐渐增加糖水量,直到无法尝出辣味为止,此时糖水量的总和即为被测物的斯高维辣度单位。当然这种方法的准确性很低,后来采用高效液相色谱的方法来获得准确的测量。这个指标一直在广泛使用,国外的有些辣椒产品包装上会标注SHU值。\u003C\u002Fp\u003E\u003Cp\u003E重庆火锅协会结合国内外的辣度评级标准,初定了火锅的辣度等级,分为五级,并制定了评级标准。为了验证初定辣度标准的合理性,火锅协会邀请了8位专家,在小天鹅、德庄等火锅店随机选取了10种样品,由8位专家分别品尝评级。下表是评级的结果:\u003C\u002Fp\u003E\u003Cimg src=\&v2-5443dff4868c69cdbaddd.png\& data-rawwidth=\&377\& data-rawheight=\&261\&\u003E\u003Cp\u003E\u003Ci\u003E注\u003C\u002Fi\u003E:\u003Ci\u003E表中数据是我随便编的\u003C\u002Fi\u003E,\u003Ci\u003E大家重点关注计算方法\u003C\u002Fi\u003E。\u003C\u002Fp\u003E\u003Cp\u003E我们先看看Fleiss' Kappa值,用上一篇的方法,可以算得:\u003C\u002Fp\u003E\u003Cimg src=\&v2-e66657d47dda56f554499c.png\& data-rawwidth=\&406\& data-rawheight=\&150\&\u003E\u003Cp\u003E显然总的Kappa值并不高,说明8位专家评价的一致性不是很好高,其中等级4的Kappa值最低,等级3也较低。原因可能是标准制定的不够明确,也可能是专家对标准的理解不一致。\u003C\u002Fp\u003E\u003Cp\u003EKendall协和系数(有些地方也翻译成一致性系数)关注的是不同的评价者评价的趋势是否一致,也就是辣的大家都评辣(虽然具体评级上有差异),不辣的都评不辣。其检验的原假设为专家评级之间不相关,换句话说就是专家的评级与样本没有关系,对同一个样品的评级也完全不同,而备择假设则是专家评级是一致的(正相关)。\u003C\u002Fp\u003E\u003Cp\u003E首先要将每个专家对样本的评级排秩:\u003C\u002Fp\u003E\u003Cimg src=\&v2-ddffd43f4f25be1f80b927ac442c669e.png\& data-rawwidth=\&450\& data-rawheight=\&278\&\u003E\u003Cp\u003E令\u003Ci\u003ERij\u003C\u002Fi\u003E为第\u003Ci\u003Ei\u003C\u002Fi\u003E个样品第\u003Ci\u003Ej\u003C\u002Fi\u003E个专家评级的秩,\u003Ci\u003EN\u003C\u002Fi\u003E为样本量,\u003Ci\u003En\u003C\u002Fi\u003E为评价者数量。首先计算每个样品的秩和:\u003C\u002Fp\u003E\u003Cimg src=\&v2-e50cf604a18df8edc6cb3.png\& data-rawwidth=\&97\& data-rawheight=\&64\&\u003E\u003Cp\u003E\u003Ci\u003ER\u003C\u002Fi\u003E均值为:\u003C\u002Fp\u003E\u003Cimg src=\&v2-26cecfddf6d87c2acabc30a.png\& data-rawwidth=\&103\& data-rawheight=\&76\&\u003E\u003Cp\u003E计算离差平方和:\u003C\u002Fp\u003E\u003Cimg src=\&v2-7e2d194fdd687e.png\& data-rawwidth=\&138\& data-rawheight=\&65\&\u003E\u003Cp\u003E当表格中不存在结时,则\u003Ci\u003EW\u003C\u002Fi\u003E系数为:\u003C\u002Fp\u003E\u003Cimg src=\&v2-faa6d91fb450b2a1bcc813f.png\& data-rawwidth=\&370\& data-rawheight=\&57\&\u003E\u003Cp\u003E据吴喜之《非参数统计方法》中的说法,这个系数是Kendall,Babington-Smith和Wallis于1939年分别独立地给出的,称之为Kendall协和系数检验统计量。\u003C\u002Fp\u003E\u003Cp\u003E当每个专家的评级存在结时,需要对上式进行修正。令\u003Ci\u003Egj\u003C\u002Fi\u003E为第\u003Ci\u003Ej\u003C\u002Fi\u003E个专家下结的数量,如专家A下的评级存在3个结,分别是2.5、4.5、8.5。令\u003Ci\u003Eti\u003C\u002Fi\u003E为第\u003Ci\u003Ei\u003C\u002Fi\u003E个结所包含的样品个数,如专家A下的3个结包含的样品个数分别为2、2、4。可得第\u003Ci\u003Ej\u003C\u002Fi\u003E个专家下总的修正值为:\u003C\u002Fp\u003E\u003Cimg src=\&v2-ef5fa41de1e3b803e5ac2d2ad12504b5.png\& data-rawwidth=\&135\& data-rawheight=\&75\&\u003E\u003Cp\u003E由此得到修正的\u003Ci\u003EW\u003C\u002Fi\u003E系数为:\u003C\u002Fp\u003E\u003Cimg src=\&v2-5d5db490ef7a2b5b209e.png\& data-rawwidth=\&462\& data-rawheight=\&74\&\u003E\u003Cp\u003E根据上式可计算出本例的\u003Ci\u003EW\u003C\u002Fi\u003E系数为0.879831。这个系数的取值范围为[0,1],等于1说明完全相关,即专家对样品的评级完全相同;等于0说明完全不相关,即专家对样品的评级完全不相同。越接近1说明相关性越强。\u003C\u002Fp\u003E\u003Cp\u003E在样本量较小时,Kendall与1970年给出了\u003Ci\u003EW\u003C\u002Fi\u003E系数的分布表,可以通过查表来做显著性检验。Kendall也证明,当\u003Ci\u003EN\u003C\u002Fi\u003E固定,\u003Ci\u003En\u003C\u002Fi\u003E趋于无穷时:\u003C\u002Fp\u003E\u003Cimg src=\&v2-487ce7dc8af26bead92fff.png\& data-rawwidth=\&197\& data-rawheight=\&36\&\u003E\u003Cp\u003E自由度为\u003Ci\u003EN\u003C\u002Fi\u003E-1。\u003C\u002Fp\u003E\u003Cp\u003E本例中的检验统计量为8×(10-1)×0..35,远大于自由度为9,显著性水平为0.05卡方分布的临界值16.92,因此我们拒绝原假设,专家们对火锅辣度的评级具有相关性。\u003C\u002Fp\u003E\u003Cp\u003E结合Fleiss' Kappa分析和Kendall's \u003Ci\u003EW\u003C\u002Fi\u003E系数检验,我们可以看出专家对火锅的辣度基本有一致的看法,但在具体准确的评级上却不是很一致,下一步需要进一步细化辣度评级标准,提高评级的一致性。\u003C\u002Fp\u003E\u003Cp\u003E熟悉测量系统分析的各位同好看到这里应该会想到,这样的分析类似于属性数据的测量系统分析,只是没有做重复性。其实在具体试验中完全可以参照测量系统分析的方法,让各位专家对同一个样品进行多次评级,这样就可以更全面地对辣度标准的适用性进行评价。\u003C\u002Fp\u003E\u003Cp\u003E在属性数据测量系统分析中,我所介绍的Kendall秩相关系数、协和系数、Cohen's Kappa和Fleiss' Kappa都有。吃透了我这几篇文章,相信会进一步加深你对属性数据测量系统分析的理解。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E请关注我的微信公众号:张老师漫谈六西格玛\u003C\u002Fp\u003E&,&updated&:new Date(&T05:21:40.000Z&),&canComment&:false,&commentPermission&:&anyone&,&commentCount&:0,&likeCount&:2,&state&:&published&,&isLiked&:false,&slug&:&&,&isTitleImageFullScreen&:false,&rating&:&none&,&sourceUrl&:&&,&publishedTime&:&T13:21:40+08:00&,&links&:{&comments&:&\u002Fapi\u002Fposts\u002F2Fcomments&},&url&:&\u002Fp\u002F&,&titleImage&:&&,&summary&:&&,&href&:&\u002Fapi\u002Fposts\u002F&,&meta&:{&previous&:null,&next&:null},&snapshotUrl&:&&,&commentsCount&:0,&likesCount&:2},&&:{&title&:&列联表篇之十二:k×2单向有序列联表的Cochran-Armitage趋势检验&,&author&:&zhang-zi-da-26&,&content&:&\u003Cp\u003E在《列联表篇之四:单向有序列联表的秩和检验》一文的开篇,提到单向有序表分两种,其中一种是分组或因子是有序的,结果是无序的。文中提到这种列联表的分析方法仍采用卡方检验,这是一般常用的方法。\u003C\u002Fp\u003E\u003Cp\u003E对于其中k×2的一类单向有序表,其结果是二分类的,我们可以用卡方检验来比较各组率的差异,也可以进一步用《列联表篇之三:比率的多重比较》中的方法来找出具体差异的位置。但如果你还想看看各组率是否呈现某种趋势的变化,比如下面这张表,我们希望知道是不是员工星级越高,投诉率就越低,投诉率与员工星级之间存在什么样的关系,这时常用的卡方检验就不太适用了,而Cochran-Armitage趋势检验可以帮助我们做出判断。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-cb953a1c78dae7616516.png\& data-rawwidth=\&397\& data-rawheight=\&133\&\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-2e9e0eb7f9cb.png\& data-rawwidth=\&447\& data-rawheight=\&236\&\u003E\u003Cp\u003ECochran-Armitage趋势检验是一种线性趋势检验,但线性不是指比率的变化呈线性变化,而是指经过logistic变换(见下式)后呈现出线性变化趋势。\u003C\u002Fp\u003E\u003Cimg src=\&v2-b6daf0c281e848ad1ecee878190feb2c.png\& data-rawwidth=\&175\& data-rawheight=\&63\&\u003E\u003Cp\u003ECochran-Armitage线性趋势检验是由Cochran于1954年提出,由Armitage于1955年完善,因此此方法以两个人的名字命名。\u003C\u002Fp\u003E\u003Cp\u003EWilliam Gemmell Cochran ( –)是一位杰出的统计学家,虽然出生于苏格兰,但在美国度过了他的大部分生涯。他在格拉斯哥大学和剑桥大学学习数学,年在洛桑农业试验站(还记得吗?这是现代统计学奠基者之一Fisher完成很多开创性工作的地方)工作。其后去了美国,帮助建立了几个统计系,其中工作过最长时间的是哈佛大学,自1957年直至1976年退休。 他的著作包括:实验设计(与Gertrude Mary Cox合著)、抽样技术(第三版)等。\u003C\u002Fp\u003E\u003Cp\u003EPeter Armitage (~),大英帝国司令勋章(CBE)获得者,是一位致力于医学统计学的统计学家。就学于赫德斯菲尔德学院,后在剑桥大学三一学院学习数学。他属于二战时期成熟起来的数学家,曾就职于武器采购局、 英国供应部,在那里他与George Barnard共同研究统计问题。战后继续学习,于年在英国医学研究委员会担任统计学家。在伦敦卫生和热带医药学院担任生物统计学教授。其后去牛津大学担任生物数学教授、应用统计学教授以及新的统计系主任直至1990年退休。年担任皇家统计学会主席,年担任国际临床生物统计学学会主席。他还是生物统计学百科全书的主编。\u003C\u002Fp\u003E\u003Cp\u003E注:以上统计学家简介来自Wikipedia。\u003C\u002Fp\u003E\u003Cp\u003E之所以不厌其烦地介绍相关的统计学家,是希望向他们表达敬意。当然我完全可以将这些内容放到最后,放到这里有点强迫阅读的意思。\u003C\u002Fp\u003E\u003Cp\u003E言归正传,我们来看看这个线性趋势检验是如何计算的。\u003C\u002Fp\u003E\u003Cp\u003E首先看假设,原假设当然只有一种,即\u003C\u002Fp\u003E\u003Cp\u003E\u003Ci\u003EH\u003C\u002Fi\u003E0:\u003Ci\u003Ep\u003C\u002Fi\u003E1=\u003Ci\u003Ep\u003C\u002Fi\u003E2=...=\u003Ci\u003Epk\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003Cp\u003E备择假设有三种:\u003C\u002Fp\u003E\u003Cp\u003E单侧(上升趋势) \u003Ci\u003EHa\u003C\u002Fi\u003E:\u003Ci\u003Ep\u003C\u002Fi\u003E1&\u003Ci\u003Ep\u003C\u002Fi\u003E2&...&\u003Ci\u003Epk\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003Cp\u003E单侧(下降趋势) \u003Ci\u003EHa\u003C\u002Fi\u003E:\u003Ci\u003Ep\u003C\u002Fi\u003E1&\u003Ci\u003Ep\u003C\u002Fi\u003E2&...&\u003Ci\u003Epk\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003Cp\u003E双侧 \u003Ci\u003EHa\u003C\u002Fi\u003E:\u003Ci\u003Ep\u003C\u002Fi\u003E1&\u003Ci\u003Ep\u003C\u002Fi\u003E2&...&\u003Ci\u003Epk\u003C\u002Fi\u003E 或 \u003Ci\u003Ep\u003C\u002Fi\u003E1&\u003Ci\u003Ep\u003C\u002Fi\u003E2&...&\u003Ci\u003Epk\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003Cp\u003E在线性趋势检验中,需要运用到变量在卡方检验中没有用到的顺序信息,这就面临着如何对变量赋值的问题。在列联表中,有很多变量是属于主观评价的顺序,如本文的例子。变量的相邻等级之间的距离是否相等我们并不清楚,换一句话说就是我们不知道变量的分布。有人提出了三种赋值方法:\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E等距赋值\u003C\u002Fb\u003E:即不管相邻等级之间的距离有什么不同,都给它们赋予相同的距离,如本例的四个等级可以为1、2、3、4,也可以是1、3、5、7,也可以是0.1、0.2、0.3、0.4,这些赋值最终的分析结果都是一样的。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E均秩赋值\u003C\u002Fb\u003E:即按照每个等级的平均秩次来赋值,如本例的四个等级可以赋值为\u003Ci\u003Ex\u003C\u002Fi\u003E1=(1+\u003Ci\u003En\u003C\u002Fi\u003E1)\u002F2=130,\u003Ci\u003Ex\u003C\u002Fi\u003E2=\u003Ci\u003En\u003C\u002Fi\u003E1+(1+\u003Ci\u003En\u003C\u002Fi\u003E2)\u002F2=274.5,\u003Ci\u003Ex\u003C\u002Fi\u003E3=\u003Ci\u003En\u003C\u002Fi\u003E1+\u003Ci\u003En\u003C\u002Fi\u003E2+(1+\u003Ci\u003En\u003C\u002Fi\u003E3)=965.5,x4=\u003Ci\u003En\u003C\u002Fi\u003E1+\u003Ci\u003En\u003C\u002Fi\u003E2+\u003Ci\u003En\u003C\u002Fi\u003E3+(1+\u003Ci\u003En\u003C\u002Fi\u003E4)\u002F2=1306。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003EMERT法\u003C\u002Fb\u003E:采用极大极小效率原理进行赋值的一种方法,比较复杂,本文不做展开。\u003C\u002Fp\u003E\u003Cp\u003E 那么问题来了,这三种赋值方法应该怎么选呢?有人对此进行了研究。\u003C\u002Fp\u003E\u003Cp\u003E南方医科大学的何春拉等运用Monte\u003Cbr\u003ECarlo方法进行了模拟试验,对各种赋值方法在不同参数组合下的I类错误和检验效能进行了对比分析,其结论是:“综合模拟结果和应用的便利性,有序分类数据的Cochran-Armitage趋势检验采用\u003Cb\u003E等距赋值\u003C\u002Fb\u003E更值得提倡”。感兴趣者可参考原文《Cochran-Armitage趋势检验不同赋值的模拟研究》,中国卫生统计2012年12月第26卷第6期,p.843-845。\u003C\u002Fp\u003E\u003Cp\u003E为了方便起见,在本文的例子中对变量赋值为1、2、3、4。\u003C\u002Fp\u003E\u003Cp\u003E设\u003Ci\u003Eyi\u003C\u002Fi\u003E为所关注的事件的发生频数,本例为投诉数;\u003Ci\u003Eni\u003C\u002Fi\u003E为各等级的样本量,\u003Ci\u003Exi\u003C\u002Fi\u003E为各等级的赋值,我们可以得到:\u003C\u002Fp\u003E\u003Cimg src=\&v2-bfa300b54a137ed953014a.png\& data-rawwidth=\&203\& data-rawheight=\&241\&\u003E\u003Cp\u003E本例中可以算得N=1370,\u003Ci\u003Ep\u003C\u002Fi\u003E均值=0.0547,\u003Ci\u003Eq\u003C\u002Fi\u003E均值=0.9453,\u003Ci\u003Ex\u003C\u002Fi\u003E均值=2.4022。\u003C\u002Fp\u003E\u003Cp\u003E
采用正态近似,运用下式计算检验统计量:\u003C\u002Fp\u003E\u003Cimg src=\&v2-b28a04c45e31d8ff148ce83a.png\& data-rawwidth=\&202\& data-rawheight=\&126\&\u003E\u003Cp\u003E根据此公式计算本例的\u003Ci\u003Ez\u003C\u002Fi\u003E-统计量,先计算其中的求和部分:\u003C\u002Fp\u003E\u003Cimg src=\&v2-d4aecf483a0b54af2c3ad98acb5d946d.png\& data-rawwidth=\&552\& data-rawheight=\&156\&\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-6bdafc7eafb492334bbdbab7.png\& data-rawwidth=\&324\& data-rawheight=\&46\&\u003E\u003Cp\u003E本例的备择假设为前面所列的下降趋势,\u003Ci\u003Ep\u003C\u002Fi\u003E(\u003Ci\u003Ez\u003C\u002Fi\u003E&-3.80576,小于0.05,因此我们拒绝原假设,投诉率随着员工星级的提高而下降。\u003C\u002Fp\u003E\u003Cp\u003EJMP(SAS的子品牌)计算结果:\u003C\u002Fp\u003E\u003Cimg src=\&v2-d2a6b424f4c6fa63def7e313d6c44a2d.png\& data-rawwidth=\&251\& data-rawheight=\&74\&\u003E\u003Cp\u003E下面再看一个非等距赋值的例子。\u003C\u002Fp\u003E\u003Cp\u003E在有些实验中,是在连续因子取几个水平,考察不同水平下结果的变化。这是试验设计中常用的方法。如果输出结果为离散变量,如成品率、成活率等等,希望考察这些得率随着因子水平的变化所呈现出的变化趋势时,可以采用本文介绍的方法。\u003C\u002Fp\u003E\u003Cp\u003E在分析时,可以直接将因子水平的数值带入公式计算,而不需要另外赋值。\u003C\u002Fp\u003E\u003Cp\u003E例2:(随便编的数据)某产品的合格率可能与反应温度有密切关系,为此取温度的不同水平做试验,得到的合格率如下表,现需要判断合格率是否随着试验温度的上升而提高。\u003C\u002Fp\u003E\u003Cimg src=\&v2-fbde4ff2846edae840b825a.png\& data-rawwidth=\&526\& data-rawheight=\&134\&\u003E\u003Cp\u003E本例采用上升趋势的假设。\u003C\u002Fp\u003E\u003Cp\u003E利用表中的数据可以算得N=266,\u003Ci\u003Ep\u003C\u002Fi\u003E均值=0.1654,\u003Ci\u003Eq\u003C\u002Fi\u003E均值=0.8346,\u003Ci\u003Ex\u003C\u002Fi\u003E均值=1087.03。\u003C\u002Fp\u003E\u003Cimg src=\&v2-d4f9bfba8f39f.png\& data-rawwidth=\&339\& data-rawheight=\&49\&\u003E\u003Cp\u003E\u003Ci\u003Ep\u003C\u002Fi\u003E(\u003Ci\u003Ez\u003C\u002Fi\u003E&2..00229,小于0.05,因此我们拒绝原假设,合格率随温度的上升而提高。\u003C\u002Fp\u003E\u003Cp\u003EJMP计算结果:\u003C\u002Fp\u003E\u003Cimg src=\&v2-ec4b4c52fea203ae833089.png\& data-rawwidth=\&234\& data-rawheight=\&69\&\u003E\u003Cp\u003EJMP默认用列联表第一列的数据(实际是用不合格的数据)来计算\u003Ci\u003Ez\u003C\u002Fi\u003E值,无法手工设置,因子得到的\u003Ci\u003Ez\u003C\u002Fi\u003E值与手工计算结果相反,只要将负号去掉就可以了。\u003C\u002Fp\u003E\u003Cp\u003E在Wikipedia中,提供了另外一种计算方法,两种算法是等效的。本文所推荐的方法更通用,既适用于等距赋值,也适用于不等距赋值,同时计算也更方便。\u003C\u002Fp\u003E\u003Cp\u003E当然这里的案例还可以用logistic回归来进行分析,具体内容将在logistic回归单元再讨论。\u003C\u002Fp\u003E\u003Cp\u003E看过《列联表篇之八:属性不同双向有序表的线性趋势检验》的同好可能会问,其中将卡方值进行分解的方法是否也适用于本文的案例呢?答案是可以,第二军医大学的何清波、苏炳华两位老师的论文《有序分组资料的线性趋势检验的确切概率计算》对此进行了详细讨论,文中既详细介绍了如何对本文所讨论的列联表进行卡方值分解和显著性检验,也给出了样本量较小时的精确计算方法。文章发表于《数理统计与管理》1992年第11卷第6期,感兴趣者可以找来看看。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E请关注我的微信公众号:张老师漫谈六西格玛\u003C\u002Fp\u003E&,&updated&:new Date(&T04:59:13.000Z&),&canComment&:false,&commentPermission&:&anyone&,&commentCount&:0,&likeCount&:1,&state&:&published&,&isLiked&:false,&slug&:&&,&isTitleImageFullScreen&:false,&rating&:&none&,&sourceUrl&:&&,&publishedTime&:&T12:59:13+08:00&,&links&:{&comments&:&\u002Fapi\u002Fposts\u002F2Fcomments&},&url&:&\u002Fp\u002F&,&titleImage&:&&,&summary&:&&,&href&:&\u002Fapi\u002Fposts\u002F&,&meta&:{&previous&:null,&next&:null},&snapshotUrl&:&&,&commentsCount&:0,&likesCount&:1},&&:{&title&:&统计基础篇之十四:二项分布、泊松分布到底该如何近似计算?&,&author&:&zhang-zi-da-26&,&content&:&\u003Cp\u003E本文来自公众号一位朋友的提问:“1.请问应该依据什么判断二项分布应该使用泊松作为极限分布还是使用正态分布呢?2.如果已经判断应该用泊松作为该二项分布的极限分布,是否还应判断此泊松分布是否应该极限于正态分布呢? 如果不需再判断,那么应该在什么时候判断泊松分布是否极限于正态分布呢?”这个问题让我一下愣住了,文章中不是已经说了吗?为什么还有这样的问题?\u003C\u002Fp\u003E\u003Cp\u003E当我回头再看看前面的文章,又翻了几本教科书后,感觉这个问题确实没有说清楚。\u003C\u002Fp\u003E\u003Cp\u003E绝大部分教科书在谈到问题1时,基本上都是这句话:当\u003Ci\u003Ep\u003C\u002Fi\u003E很小,\u003Ci\u003En\u003C\u002Fi\u003E很大,且\u003Ci\u003Enp\u003C\u002Fi\u003E趋于常数时,可以用泊松分布来近似二项分布。但问题是\u003Ci\u003Ep\u003C\u002Fi\u003E多小算很小,\u003Ci\u003En\u003C\u002Fi\u003E多大算很大呢?这个问题很多教科书和教材没有给出说法。\u003C\u002Fp\u003E\u003Cp\u003E好在现在有计算机,有软件,计算概率是个很轻松的事情,我们不妨来选几个参数来对比一下。\u003C\u002Fp\u003E\u003Cp\u003E一般来说,\u003Ci\u003Ep\u003C\u002Fi\u003E小于0.1叫很小,\u003Ci\u003En\u003C\u002Fi\u003E大于100叫很大,我们可以选择\u003Ci\u003Enp\u003C\u002Fi\u003E(=\u003Ci\u003Eλ\u003C\u002Fi\u003E)为10、5、1三种常数时,\u003Ci\u003En\u003C\u002Fi\u003E为100、200、400、800四种样本量来模拟对比,此时\u003Ci\u003Ep\u003C\u002Fi\u003E应跟着样本量的增大而减小以保持\u003Ci\u003Enp\u003C\u002Fi\u003E不变。\u003C\u002Fp\u003E\u003Cp\u003E下表为\u003Ci\u003Enp\u003C\u002Fi\u003E=10是二项分布与泊松分布的对比。概率非常小的时候,两种分布的偏差比较大,我们可以暂时不考虑,重点观察概率较大的部分是否存在较大的偏差。\u003C\u002Fp\u003E\u003Cimg src=\&v2-7b84cb7847afd1f8d92cbf8f38a9c7ef.png\& data-rawwidth=\&542\& data-rawheight=\&488\&\u003E\u003Cp\u003E
表1:\u003Ci\u003Enp\u003C\u002Fi\u003E=10二项分布与泊松分布对比\u003C\u002Fp\u003E\u003Cp\u003E我们可以看到,随着样本量的增加,两种分布的偏差在减小。如果说样本量为100的时候偏差还不太能够接受,那么样本量达到200时,主要部分的偏差已经可以控制在5%以内了。如果你计算的\u003Ci\u003Ex\u003C\u002Fi\u003E值比较靠近中间位置,用泊松分布就可以比较好地对二项分布近似了。\u003Ci\u003En\u003C\u002Fi\u003E达到800(此时p=0.0125)时,偏差就非常小了。\u003C\u002Fp\u003E\u003Cp\u003E下面两张表分别是\u003Ci\u003Enp\u003C\u002Fi\u003E=5,\u003Ci\u003Enp\u003C\u002Fi\u003E=1的对比,请自行判断。\u003C\u002Fp\u003E\u003Cimg src=\&v2-daad41d9ccf4eb73ec1c6.png\& data-rawwidth=\&545\& data-rawheight=\&307\&\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-fc97850edff1a4b559ea5c7acf35f91e.png\& data-rawwidth=\&544\& data-rawheight=\&304\&\u003E\u003Cp\u003E综合这三张表可以看出,当\u003Ci\u003En\u003C\u002Fi\u003E越大,两种分布的偏差越小,\u003Ci\u003Ep\u003C\u002Fi\u003E越小,两种分布的偏差也越小。即使是\u003Ci\u003Ep\u003C\u002Fi\u003E=0.1,\u003Ci\u003En\u003C\u002Fi\u003E=100时,在概率较大的区域(6≤\u003Ci\u003Ex\u003C\u002Fi\u003E≤15),两种分布的偏差也是可以接受的。当然如果你想保险一些,可以把\u003Ci\u003En\u003C\u002Fi\u003E的界限选大一些,\u003Ci\u003Ep\u003C\u002Fi\u003E的界限选小一些。\u003C\u002Fp\u003E\u003Cp\u003E下面再谈第二个问题。几乎所有的教材上都是这么说的:二项分布当\u003Ci\u003Enp\u003C\u002Fi\u003E和\u003Ci\u003En\u003C\u002Fi\u003E(1-\u003Ci\u003Ep\u003C\u002Fi\u003E)均大于或等于5时,泊松分布当\u003Ci\u003Eλ\u003C\u002Fi\u003E≥20时,用正态分布可以很好地近似计算。\u003C\u002Fp\u003E\u003Cp\u003E我们先看看二项分布的正态近似。用正态分布来近似,其均值为\u003Ci\u003Enp\u003C\u002Fi\u003E,方差为\u003Ci\u003Enp\u003C\u002Fi\u003E(1-\u003Ci\u003Ep\u003C\u002Fi\u003E),下表列出了二项分布选择几种参数(\u003Ci\u003En\u003C\u002Fi\u003E均为100)时与正态分布的对比。由于正态分布是连续分布,因此采用累积概率分布来计算,默认计算左侧的概率。\u003C\u002Fp\u003E\u003Cimg src=\&v2-9edbdb6a5fd7e3923c84d.png\& data-rawwidth=\&492\& data-rawheight=\&504\&\u003E\u003Cp\u003E别被表中1千多万倍的偏差吓住了,这些概率都小到可以忽略不计了,偏差大一些对于近似计算来说无关紧要。我们要重点关注均值以及3\u003Ci\u003Eσ\u003C\u002Fi\u003E以内的概率偏差。看看表中标红的部分,偏差不小,而且正态分布总是小于二项分布。下图更直观一些。\u003C\u002Fp\u003E\u003Cimg src=\&v2-f0ebe3bec815.png\& data-rawwidth=\&493\& data-rawheight=\&287\&\u003E\u003Cp\u003E图1:二项分布与正态分布累积概率对比\u003C\u002Fp\u003E\u003Cp\u003E这种情况是由于二项分布是离散数据分布,其分布曲线不是连续的,而正态分布曲线则是连续的。在下图中我们可以看到,一般取离散概率台阶的中点连线画出拟合的连续曲线,这样计算出来的左侧概率就小不少。\u003C\u002Fp\u003E\u003Cimg src=\&v2-eaf4a151c1a084a19e50adb.png\& data-rawwidth=\&485\& data-rawheight=\&293\&\u003E\u003Cp\u003E图2:概率分布拟合\u003C\u002Fp\u003E\u003Cp\u003E为了解决这个问题,需要进行连续性校正(correction for continuity),计算左侧概率时\u003Ci\u003Ex\u003C\u002Fi\u003E要加0.5。相反的,计算右侧概率时,\u003Ci\u003Ex\u003C\u002Fi\u003E要减0.5。下表就是连续性校正后计算出的概率对比。\u003C\u002Fp\u003E\u003Cimg src=\&v2-de3fb9e439fdc9c137115d.png\& data-rawwidth=\&498\& data-rawheight=\&501\&\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-c3bff42ab2ce6.png\& data-rawwidth=\&500\& data-rawheight=\&293\&\u003E\u003Cp\u003E图3:连续性校正后二项分布与正态分布累积概率对比\u003C\u002Fp\u003E\u003Cp\u003E经过连续性校正后,两种分布的概率值偏差变得很小了。当然如果\u003Ci\u003Enp\u003C\u002Fi\u003E刚好等于5时,且\u003Ci\u003Ep\u003C\u002Fi\u003E很小时,二项分布的对称性不是很好,见下图。此时用正态近似要小心一些。\u003C\u002Fp\u003E\u003Cimg src=\&v2-aa35f835d2de41566ccb1ea0b09fd8e0.png\& data-rawwidth=\&485\& data-rawheight=\&293\&\u003E\u003Cp\u003E图4:\u003Ci\u003En\u003C\u002Fi\u003E=100,\u003Ci\u003Ep\u003C\u002Fi\u003E=0.05二项分布与正态分布概率密度对比\u003C\u002Fp\u003E\u003Cp\u003E如果\u003Ci\u003Enp\u003C\u002Fi\u003E仍为5,但\u003Ci\u003Ep\u003C\u002Fi\u003E值大一些,\u003Ci\u003En\u003C\u002Fi\u003E小一些,如\u003Ci\u003En\u003C\u002Fi\u003E取20,\u003Ci\u003Ep\u003C\u002Fi\u003E取0.25,此时分布的对称性就要好一些。\u003C\u002Fp\u003E\u003Cimg src=\&v2-eed3eb187fc30e4caa9fea.png\& data-rawwidth=\&485\& data-rawheight=\&293\&\u003E\u003Cp\u003E图5:\u003Ci\u003En\u003C\u002Fi\u003E=20,\u003Ci\u003Ep\u003C\u002Fi\u003E=0.25二项分布与正态分布概率密度对比\u003C\u002Fp\u003E\u003Cp\u003E下面我们在看看泊松分布的正态近似问题。此时正态分布的均值和方差都等于\u003Ci\u003Eλ\u003C\u002Fi\u003E。取\u003Ci\u003Eλ\u003C\u002Fi\u003E=20、25、30,我们看看近似的效果。(为了控制文章的篇幅,直接进行连续性校正)\u003C\u002Fp\u003E\u003Cimg src=\&v2-73f51a7dcb567d945e63a47.png\& data-rawwidth=\&624\& data-rawheight=\&506\&\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cimg src=\&v2-2bd56e611df01ecc90990.png\& data-rawwidth=\&624\& data-rawheight=\&521\&\u003E\u003Cp\u003E用下图可以直观地看出,两种分布之间的差异已经很小了。\u003C\u002Fp\u003E\u003Cimg src=\&v2-ba65ec8dadc3aeb0f2f96e.png\& data-rawwidth=\&507\& data-rawheight=\&293\&\u003E\u003Cp\u003E图6:\u003Ci\u003Eλ\u003C\u002Fi\u003E=20,25,30时,泊松分布与正态分布对比\u003C\u002Fp\u003E\u003Cp\u003E本文的分析帮助我厘清我们最熟悉的几个分布之间的关系,经典的说法其实是给出了最低的要求,但如果对精度要求较高,特别是在需要运用分布两端的概率时,建议不要运用近似方法。好在现在用软件计算概率非常方便,这也是技术进步给我们带来的好处。\u003C\u002Fp\u003E\u003Cp\u003E当然有的时候计算精确概率的运算量巨大,比如列联表中Fisher精确检验,当样本量很大时,其计算量成指数级增长。此时用正态近似则可以大大节省计算量,而且精度也能得到保证。\u003C\u002Fp\u003E\u003Cp\u003E有一点建议给大家,如果在假设检验时用正态近似计算出的\u003Ci\u003Ep\u003C\u002Fi\u003E值与\u003Ci\u003Eα\u003C\u002Fi\u003E值很接近,不妨再计算一下精确概率,以求获得更准确的结果。\u003C\u002Fp\u003E\u003Cp\u003E古人云:“尽信书不如无书”,在看书时多问几个为什么,自己亲自动手验证一下,可以加深对内容的理解,将其变成自己的东西,这样也不容易遗忘。\u003C\u002Fp\u003E\u003Cp\u003E有思考的读书会使你获取更多。让我们以此共勉吧!\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E请关注我的微信公众号:张老师漫谈六西格玛\u003C\u002Fp\u003E&,&updated&:new Date(&T07:10:44.000Z&),&canComment&:false,&commentPermission&:&anyone&,&commentCount&:0,&likeCount&:9,&state&:&published&,&isLiked&:false,&slug&:&&,&isTitleImageFullScreen&:false,&rating&:&none&,&sourceUrl&:&&,&publishedTime&:&T15:10:44+08:00&,&links&:{&comments&:&\u002Fapi\u002Fposts\u002F2Fcomments&},&url&:&\u002Fp\u002F&,&titleImage&:&&,&summary&:&&,&href&:&\u002Fapi\u002Fposts\u002F&,&meta&:{&previous&:null,&next&:null},&snapshotUrl&:&&,&commentsCount&:0,&likesCount&:9},&&:{&title&:&列联表篇之十三:分层数据的CMH检验&,&author&:&zhang-zi-da-26&,&content&:&\u003Cp\u003E到上一篇为止,我们讨论的都是二维表的分析方法。但有时数据除了我们研究的变量外,还混杂或隐含了其它的变量,如果将这些变量纳入分析中,则有可能得出完全不同的结论,著名的Simpson悖论就是这个问题的典型案例。\u003C\u002Fp\u003E\u003Cp\u003E在《六西格玛管理统计指南》p.193中,我们可以看到下面这个经典的例子(摘引自同一页)。\u003C\u002Fp\u003E\u003Cp\u003E美国法律学家辛普森(Simpson),在研究美国佛罗里达州的犯罪问题时发现,白人杀手被处死刑的比率要高于黑人杀手;但如果把被害人的肤色也考虑进来时,他发现,不论被害者是白人还是黑人,白人杀手被处死刑的比率要低于黑人杀手,这就得出了矛盾的结论,他认为这是个悖论,故此类现象统称为“Simpson悖论”。\u003C\u002Fp\u003E\u003Cimg src=\&v2-3b2e5f10bd37fc492149edf1e489cbfb.png\& data-rawwidth=\&397\& data-rawheight=\&93\&\u003E\u003Cp\u003E从表中可以看出,黑人凶手被判处死刑的比率低于白人凶手。但是如果加上被害人的肤色,则有更详细的数据。\u003C\u002Fp\u003E\u003Cimg src=\&v2-7c9c33afdad941cd8f52420.png\& data-rawwidth=\&481\& data-rawheight=\&116\&\u003E\u003Cp\u003E加入被害人信息后,不论被害人是白人或黑人,白人凶手被处死的比率都低于黑人。形成这种悖论的原因是,当被害人是白人时,凶手被处死的比率要高于被害人是黑人时凶手被处死的比率。由于白人凶手杀害的更多的是白人,因此造成“白人杀手被处死刑的比率要高于黑人杀手”。辛普森所指出的问题是非常重要的一个概念,但他的原始数列并不具有统计意义上的显著性(卡方检验不显著)。\u003C\u002Fp\u003E\u003Cp\u003E对于这种分层的列联表,通常可以各层单独做卡方检验,就像书中螺栓合格率的案例。但除此之外,我们还想知道在数据分层条件下,总体的状态如何,此时分层的作用就像是试验设计中的区组化,虽然层可能对卡方检验结果有影响,但我们并不关注它,而是考虑排除其影响后卡方检验的显著性。这种方法就是Cochran-Mantel-Haenszel检验,简称CMH检验或MHC检验。\u003C\u002Fp\u003E\u003Cp\u003ECMH检验由William Gemmell Cochran(在《列联表篇之十二:k×2单向有序列联表的Cochran-Armitage趋势检验》中有介绍)于1954年提出,并由Nathan Mantel和William Haenszel在其1959年4月发表的论文《Statistical aspects of the analysis of data from retrospective studies of disease》进行了完善。\u003C\u002Fp\u003E\u003Cp\u003ENathan Mantel (–)是美国生物统计学家,曾长期工作于国家癌症研究所。William Haenszel( –)是美国流行病学家,曾建立国家第一个癌症及其可能原因的跟踪系统。1952年~1976年工作于国家癌症研究所,期间还担任伊利诺伊大学流行病学教授。两人因其合作完成的Mantel-Haenszel检验,也就是本文所述的CMH检验方法而闻名。\u003C\u002Fp\u003E\u003Cp\u003E我们以《六西格玛管理统计指南》p.190-192中螺栓合格率的例子来看看CMH是如何做检验的。\u003C\u002Fp\u003E\u003Cp\u003E在这个案例中,书中已经得出结论:如果不考虑将螺栓细分为螺钉和螺母,则两个车间的不合格率存在显著差异,且B车间的不合格率更低一些;但数据细化以后,以螺钉和螺母作为层,则看到无论是哪一种产品,都是车间A的不合格率更低。两种检验的结论完全不同。下一步我们还想采用CMH检验来看看在数据有分层的情况下,两个车间的不合格率的差异如何。\u003C\u002Fp\u003E\u003Cimg src=\&v2-5b70b85bfeed.png\& data-rawwidth=\&478\& data-rawheight=\&115\&\u003E\u003Cp\u003E这个表格包含两个四格表,将其一般化,我们得到\u003Ci\u003Ek\u003C\u002Fi\u003E层四格表。\u003C\u002Fp\u003E\u003Cimg src=\&v2-a3ae09aeff0f28fd2bd3071def69c294.png\& data-rawwidth=\&309\& data-rawheight=\&91\&\u003E\u003Cp\u003E其中\u003Ci\u003Ei\u003C\u002Fi\u003E=1,…,\u003Ci\u003Ek\u003C\u002Fi\u003E。\u003C\u002Fp\u003E\u003Cp\u003E首先引入一个新的概念,优势比(Odds Ratio,OR),又称比值比、胜算比等,这个名称将来在Logistic回归中会经常用到。\u003C\u002Fp\u003E\u003Cp\u003E所谓Odds,就是每一个分组的胜率(或败率,取决于\u003Ci\u003EA\u003C\u002Fi\u003E代表的是成功还是失败),即:\u003C\u002Fp\u003E\u003Cp\u003E\u003Ci\u003E
Odds\u003C\u002Fi\u003E(\u003Ci\u003EX\u003C\u002Fi\u003E1)=\u003Ci\u003EA\u003C\u002Fi\u003E\u002F\u003Ci\u003EB\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Ci\u003E
Odds\u003C\u002Fi\u003E(\u003Ci\u003EX\u003C\u002Fi\u003E2)=\u003Ci\u003EC\u003C\u002Fi\u003E\u002F\u003Ci\u003ED\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003Cp\u003E而Odds Ratio就是\u003C\u002Fp\u003E\u003Cp\u003E\u003Ci\u003E
OR\u003C\u002Fi\u003E=\u003Ci\u003EOdds\u003C\u002Fi\u003E(\u003Ci\u003EX\u003C\u002Fi\u003E1)\u002F \u003Ci\u003EOdds\u003C\u002Fi\u003E(\u003Ci\u003EX\u003C\u002Fi\u003E2)=(\u003Ci\u003EA\u003C\u002Fi\u003E\u002F\u003Ci\u003EB\u003C\u002Fi\u003E)\u002F(\u003Ci\u003EC\u003C\u002Fi\u003E\u002F\u003Ci\u003ED\u003C\u002Fi\u003E)=\u003Ci\u003EAD\u003C\u002Fi\u003E\u002F\u003Ci\u003EBC\u003C\u002Fi\u003E\u003C\u002Fp\u003E\u003Cp\u003E若\u003Ci\u003EOR\u003C\u002Fi\u003E=1,则\u003Ci\u003EX\u003C\u002Fi\u003E1和\u003Ci\u003EX\u003C\u002Fi\u003E2的胜率(或败率)没有差别;\u003C\u002Fp\u003E\u003Cp\u003E若\u003Ci\u003EOR\u003C\u002Fi\u003E&1,则\u003Ci\u003EX\u003C\u002Fi\u003E1的胜率(或败率)高于\u003Ci\u003EX\u003C\u002Fi\u003E2;\u003C\u002Fp\u003E\u003Cp\u003E若\u003Ci\u003EOR\u003C\u002Fi\u003E&1,则\u003Ci\u003EX\u003C\u002Fi\u003E1的胜率(或败率)低于\u003Ci\u003EX\u003C\u002Fi\u003E2。\u003C\u002Fp\u003E\u003Cp\u003E 对于分层的\u003Ci\u003Ek\u003C\u002Fi\u003E个四格表,需要计算一个公共的优势比。\u003C\u002Fp\u003E\u003Cimg src=\&v2-8ee74d27c44f9412fddad3.png\& data-rawwidth=\&117\& data-rawheight=\&79\&\u003E\u003Cp\u003E我们用CMH检验来验证这个公共的优势比的显著性,其假设为:\u003C\u002Fp\u003E\u003Cp\u003E\u003Ci\u003EH\u003C\u002Fi\u003E0:\u003Ci\u003EOR\u003C\u002Fi\u003E=1,\u003Ci\u003EHa\u003C\u002Fi\u003E:\u003Ci\u003EOR\u003C\u002Fi\u003E≠1。\u003C\u002Fp\u003E\u003Cp\u003E下一步是建立检验统计量,这里直接给出结果:\u003C\u002Fp\u003E\u003Cimg src=\&v2-0ea4aaca1edbe.png\& data-rawwidth=\&271\& data-rawheight=\&77\&\u003E\u003Cp\u003E其中减0.5为连续性校正。这个统计量服从自由度为1的卡方分布。\u003C\u002Fp\u003E\u003Cp\u003E
回到例子中,可以算得:\u003C\u002Fp\u003E\u003Cimg src=\&v2-8d73df8c770dfaef5cd7d37e41144a9f.png\& data-rawwidth=\&318\& data-rawheight=\&73\&\u003E\u003Cp\u003E检验统计量为:\u003C\u002Fp\u003E\u003Cimg src=\&v2-69aeb10adfc9ddf9496f06.png\& data-rawwidth=\&521\& data-rawheight=\&106\&\u003E\u003Cp\u003E自由度为1的卡方分布计算出\u003Ci\u003Ep\u003C\u002Fi\u003E值为0.0000139,因此拒绝原假设。表格中\u003Ci\u003EAi\u003C\u002Fi\u003E为不合格数,因此\u003Ci\u003EOR\u003C\u002Fi\u003E代表的是不合格比值之比,因其小于1,因此我们可以得出结论,总的来说,车间A的不合格率要低于车间B。\u003C\u002Fp\u003E\u003Cp\u003E下面的这个案例来自1987年3月发表于西安医科大学学报上的文章。\u003C\u002Fp\u003E\u003Cimg src=\&v2-ef6c8d7faefe4f.png\& data-rawwidth=\&435\& data-rawheight=\&237\&\u003E\u003Cp\u003E这篇文章是根据1985年9月Nathan Mantel(就是CMH检验的创立者)来华讲学的录音稿整理出来的。\u003C\u002Fp\u003E\u003Cp\u003E文中的案例:在一次研究口服避孕药与心肌梗塞发病关系的回顾性调查中,共调查了1976名妇女,资料如下表:\u003C\u002Fp\u003E\u003Cimg src=\&v2-4bd2f2e83f92a1e8f08ec9.png\& data-rawwidth=\&465\& data-rawheight=\&265\&\u003E\u003Cp\u003E根据表中数据计算出的卡方值为5.84,自由度为1,显著性水平为0.05的卡方分布临界值为3.84,因此拒绝原假设。认为病例组口服避孕药者所占的比例大于对照组。\u003C\u002Fp\u003E\u003Cp\u003E病因的研究是非常复杂的,会受到很多混杂的因素影响,如果在研究中简单地汇总出四格表,则有可能会掺入混杂的因素,造成判断的错误。\u003C\u002Fp\u003E\u003Cp\u003E在这个案例中,一个很明显的混杂因素在于不同年龄组心肌梗塞发病机会不等,同时年龄因素也可能影响研究对象对避孕药的暴露程度,故在资料分析中应把年龄看作一个可能影响研究结果的混杂因素。按年龄分层后,资料的分布如下表。\u003C\u002Fp\u003E\u003Cimg src=\&v2-eb91f3f49e6b3abb4db8c.png\& data-rawwidth=\&322\& data-rawheight=\&508\&\u003E\u003Cp\u003E忽略计算过程,得出OR=3.97,卡方值为34.7(作连续性校正后为32.79)。消除年龄因素的影响后,病例组中口服避孕药所占的比例大约相当于对照组的4倍。由于CMH降低了混杂因素造成的偏性,显著地增加了资料的说服力,使口服避孕药与心肌梗塞发病见的联系更加明确了。\u003C\u002Fp\u003E\u003Cp\u003E在应用CMH检验时,需要注意几个问题:\u003C\u002Fp\u003E\u003Cp\u003E1.CMH检验不假定因子之间的交互作用;\u003C\u002Fp\u003E\u003Cp\u003E2.样本量要比较大。\u003C\u002Fp\u003E\u003Cp\u003E本文讨论的是最基本的\u003Ci\u003Ek\u003C\u002Fi\u003E×2×2表的CMH,后来人们又发展出了针对其它类型分层表的分析方法。对于双向有序表,采用的是非零相关统计量(Nonzero Correlation);单向统计表(列变量有序)采用的是行平均秩分差异统计量(Row Mean Scores Differ);双向无序表,采用的是一般联系统计量(General Association)。限于篇幅和手头资料的匮乏,本文就不再展开讨论了。 \u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E请关注我的微信公众号:张老师漫谈六西格玛\u003C\u002Fp\u003E&,&updated&:new Date(&T07:10:40.000Z&),&canComment&:false,&commentPermission&:&anyone&,&commentCount&:0,&likeCount&:3,&state&:&published&,&isLiked&:false,&slug&:&&,&isTitleImageFullScreen&:false,&rating&:&none&,&sourceUrl&:&&,&publishedTime&:&T15:10:40+08:00&,&links&:{&comments&:&\u002Fapi\u002Fposts\u002F2Fcomments&},&url&:&\u002Fp\u002F&,&titleImage&:&&,&summary&:&&,&href&:&\u002Fapi\u002Fposts\u002F&,&meta&:{&previous&:null,&next&:null},&snapshotUrl&:&&,&commentsCount&:0,&likesCount&:3},&&:{&title&:&列联表篇之十四:列联表单元小结&,&author&:&zhang-zi-da-26&,&content&:&\u003Cp\u003E很长时间没有更新了,很抱歉。\u003C\u002Fp\u003E\u003Cp\u003E一段时间没动笔,感觉手也有点生了,不知道如何下笔了。为了让手感热起来,还是考虑从写这篇小结开始吧。\u003C\u002Fp\u003E\u003Cp\u003E在开始写这个单元时,我担心没什么可写的,因为我们在六西格玛的课程中学到的非常少。但随着写作的深入,发现越往下写,需要写的东西就越多。很多方法过去没有接触过,于是查资料,找案例(有很多案例是自己瞎想出来的),然后根据自己的理解把方法介绍给大家,希望能够开拓大家的视野,为各位的数据分析提供哪怕一点点的帮助。\u003C\u002Fp\u003E\u003Cp\u003E当然现学现卖总会有不少理解不到位的地方,也希望各位能批评指正,以尽可能准确。\u003C\u002Fp\u003E\u003Cp\u003E现在完成的只是其中的一部分,当然对于大多数的列联表分析,这些也差不多够了。\u003C\u002Fp\u003E\u003Cp\u003E首先明确一下什么是列联表。根据Wikipedia的解释,列联表(也称为交叉表格)是:\u003C\u002Fp\u003E\u003Cblockquote\u003E一种矩阵形式的表格,用于表达多变量之间的\u003Cb\u003E频数分布\u003C\u002Fb\u003E。其应用非常广泛,如调查研究、商业智能、工程和科学研究。列联表分析提供了两个变量之间交互作用的基本情景,也有助于找到其交互作用。列联表一词最早来自于K·皮尔逊1904年发表的论文《On the Theory of Contingency and Its Relation to Association and Normal Correlation》中,该文收录于德莱普公司(Drapers'
Company)《Research Memoirs Biometric Series I》。\u003C\u002Fblockquote\u003E\u003Cp\u003E首先需要明确的是,列联表中不能判断两个变量是否存在因果关系,这需要人为来判断。最典型的例子就是吸烟和肺癌之间的因果关系,即使卡方检验证明吸烟的人患肺癌的比例明显高于不吸烟的人,但吸烟是否患肺癌的原因却经历了很长时间的研究才达成共识,而Fisher自始至终也不同意两者之间存在因果关系。为了说明方便,通常会把分组变量或处理(原因)变量设为行变量、把结果变量设为列变量。\u003C\u002Fp\u003E\u003Cp\u003E历经百年,各领域的统计学家提出了非常多的列联表分析方法。卡方检验是列联表分析的起点,也是其后很多方法的基础,是首先需要掌握的方法。\u003C\u002Fp\u003E\u003Cp\u003E根据行变量和列变量的性质不同,列联表可以分成以下几类,分析方法也各有其适用性。\u003C\u002Fp\u003E\u003Cimg src=\&v2-6b38334aa7eecf62135f11ecca9aad0f.jpg\& data-rawwidth=\&550\& data-rawheight=\&439\&\u003E\u003Cp\u003E在所有类型的表中,如果不考虑因子是否有序,则均可用卡方检验来分析。当样本量较小以及某些条件下,应采用Fisher精确检验,以获得精确的结论。特别的,对于\u003Ci\u003Ek\u003C\u002Fi\u003E×2表,在卡方检验确认率的差异显著后,可以继续进行多重比较,以确认具体的差异点。具体内容参考《\u003Ca href=\&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F\&\u003E列联表篇之三:比率的多重比较\u003C\u002Fa\u003E》。\u003C\u002Fp\u003E\u003Cp\u003E卡方检验一般只会告诉你两个变量是否独立,或者反过来说是否关联。但关联的程度有多紧密,则需要参考关联系数。对于四格表,需要参考φ系数;大于四格表,可参考\u003Ci\u003EC\u003C\u002Fi\u003E系数和Cramer's
\u003Ci\u003EV\u003C\u002Fi\u003E系数。这些系数越接近1,则关联越紧密。具体内容参考《\u003Ca href=\&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F\&\u003E列联表篇之一:双向无序列联表的分析\u003C\u002Fa\u003E》。\u003C\u002Fp\u003E\u003Cp\u003E配对表的最大特征是采用同一个样本,由不同的人、不同的方法、不同的时间等等进行评价或试验,考察结果的差异性或一致性,也可以用于考察试验结果与标准(医学上通常有所谓的金标准)的差异性或一致性。四格表的Mcnemar检验以及\u003Ci\u003Er\u003C\u002Fi\u003E×\u003Ci\u003Ec\u003C\u002Fi\u003E表(大于四格)的Bowker检验着重于考察差异性,而Kappa分析则是考察一致性,其中Cohen's
Kappa用于两个评价的一致性分析,而Fleiss'
Kappa用于多个评价的一致性分析。具体内容参考《\u003Ca href=\&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F\&\u003E列联表篇之二:四格表的分析\u003C\u002Fa\u003E》、《\u003Ca href=\&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F\&\u003E列联表篇之九:属性相同双向有序表的Bowker检验\u003C\u002Fa\u003E》和《\u003Ca href=\&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F\&\u003E列联表篇之十:属性相同双向有序表的Kappa分析\u003C\u002Fa\u003E》。\u003C\u002Fp\u003E\u003Cp\u003E所谓有序,是指变量是分为等级的,如一等品、二等品、三等品,一星~五星等等。也有可能是连续数据中的几个特定水平,如压力值取1000帕、1500帕、2000帕等几个等级。\u003C\u002Fp\u003E\u003Cp\u003E列变量有序,行变量无序的表,最常见的是秩和检验和Riddit检验,多个变量时多用Logistic回归。具体内容见《\u003Ca href=\&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F\&\u003E列联表篇之四:单向有序列联表的秩和检验\u003C\u002Fa\u003E》、《\u003Ca href=\&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F\&\u003E列联表篇之五:单向有序列联表的Ridit分析\u003C\u002Fa\u003E》。\u003C\u002Fp\u003E\u003Cp\u003E列变量无序,行变量有序的表,目前的方法主要适用于列变量为二分类变量,即分析比率的差异。如果不考虑行变量的有序性,则采用常规的卡方检验和多重检验;如果考虑,则采用Cochran-Armitage趋势检验来分析比率是否存在线性的变化趋势。具体内容参考《\u003Ca href=\&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F\&\u003E列联表篇之十二:k×2单向有序列联表的Cochran-Armitage趋势检验\u003C\u002Fa\u003E》。\u003C\u002Fp\u003E\u003Cp\u003E双向有序表分为属性相同和属性不同两类。\u003C\u002Fp\u003E\u003Cp\u003E属性不同的表格意指两个变量的性质不同。因为都是有序变量,可以用相关系数来描述两个变量的关系,而最常用的是Spearman's
rho相关系数和Kendall'
tau相关系数,当然Logistic回归也是常用的方法。当然这两种相关系数不能判断两个变量的关系是否线性,还需要采用线性趋势分析来进一步确认。具体内容参考《\u003Ca href=\&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F\&\u003E列联表篇之六:属性不同双向有序表的Spearman相关分析\u003C\u002Fa\u003E》、《\u003Ca href=\&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F\&\u003E列联表篇之七:属性不同双向有序表的Kendall's tau相关分析\u003C\u002Fa\u003E》和《\u003Ca href=\&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F\&\u003E列联表篇之八:属性不同双向有序表的线性趋势检\u003C\u002Fa\u003E》。\u003C\u002Fp\u003E\u003Cp\u003E属性相同的表格类似于配对表,如果对同一个样本采用两次评价,则可以用Cohen's
Kappa来分析其一致性;如果是多次评价,则需要采用Fleiss'
Kappa来分析。Kappa分析忽略了变量的有序性,而相关系数分析可以弥补这一缺陷。对于两次评价的双向有序表,可以采用Spearman's
rho相关系数和Kendall'
tau相关系数来分析;对于多次评价,则可以采用Kendall协和系数来分析。具体方法参考《\u003Ca href=\&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F\&\u003E列联表篇之十一:有序数据的Kendall协和系数\u003C\u002Fa\u003E》。\u003C\u002Fp\u003E\u003Cp\u003E本单元还介绍了\u003Ci\u003Ek\u003C\u002Fi\u003E×2×2分层列联表的Cochran-Mantel-Haenszel检验,具体方法参考《\u003Ca href=\&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F\&\u003E列联表篇之十三:分层数据的CMH检验\u003C\u002Fa\u003E》。\u003C\u002Fp\u003E\u003Cp\u003E本单元到此告一段落,当然不排除以后还会有补充和修改。下一个单元可能是方差分析、也可能是非参数检验、或者是过程能力分析。目前还没想好,敬请期待吧。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E请关注我的微信公众号:张老师漫谈六西格玛\u003C\u002Fp\u003E&,&updated&:new Date(&T02:42:03.000Z&),&canComment&:false,&commentPermission&:&anyone&,&commentCount&:0,&likeCount&:1,&state&:&published&,&isLiked&:false,&slug&:&&,&isTitleImageFullScreen&:false,&rating&:&none&,&sourceUrl&:&&,&publishedTime&:&T10:42:03+08:00&,&links&:{&comments&:&\u002Fapi\u002Fposts\u002F2Fcomments&},&url&:&\u002Fp\u002F&,&titleImage&:&&,&summary&:&&,&href&:&\u002Fapi\u002Fposts\u002F&,&meta&:{&previous&:null,&next&:null},&snapshotUrl&:&&,&commentsCount&:0,&likesCount&:1},&&:{&title&:&数据收集篇之十一:MSA的这两张图你会看吗?&,&author&:&zhang-zi-da-26&,&content&:&\u003Cp\u003E回过头来再谈谈MSA的问题。\u003C\u002Fp\u003E\u003Cp\u003EMSA从两个方面考察测量系统,就是大家非常熟悉的准确性和精确性。准确性关注的是测量值与真实值之间的差异,即测量值均值问题;精确性关注的是测量系统在各种不同条件下测量的一致性,即测量值的波动问题。前者多以偏倚及其线性和稳定性来表示,后者以重复性和再现性来表示。这都是大家非常熟悉的内容,本文并不试图介绍其原理。想了解具体的试验和分析方法,可参阅AIAG的《测量系统分析中参考手册》第四版(以下简称手册)。\u003C\u002Fp\u003E\u003Cp\u003E在MSA中有两张图很重要,一张是偏倚及其线性的分析,另一张则是精确性包括重复性和再现性的分析。看懂这两张图可以快速准确定位测量系统的问题点,对测量系统改进能够起到事半功倍的效果。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cb\u003E偏倚及其线性分析\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Cp\u003E熟悉测量系统分析的人都知道,偏倚的显著性受到多次测量的均值和偏差的影响。在多次测量的标准差一定的条件下,均值与参考值差异越大,偏倚就越显著。同理在均值与参考值差异一定的条件下,标准差越小,则偏倚越显著。\u003C\u002Fp\u003E\u003Cp\u003E一般我们采用常规的单样本\u003Ci\u003Et\u003C\u002Fi\u003E检验来判断偏倚是否显著。手册中给出了比较复杂的检验方法,主要在标准差的估计上采用了极差法,需要查附录C中的修正系数表,\u003Ci\u003Et\u003C\u002Fi\u003E检验的自由度也可以从这个表中查到。这两种方法的差异以后择机专门讨论。\u003C\u002Fp\u003E\u003Cp\u003E偏倚与重复性有很密切的关系,因为重复性属于相同条件下多次测量的变异。如前所述,如果重复性不好,则重复测量的变异大,这会造成偏倚显著性判断上的错误,将本来显著的偏倚判断为不显著。这种变异主要来自于测量仪器,即仪器的能力存在问题,在手册中列出的问题点也大多来自仪器。\u003C\u002Fp\u003E\u003Cp\u003E偏倚的线性与测量仪器的量程有关,在量程范围内选择几个典型值,每个值进行多次测量,然后通过回归分析来确定偏倚是否存在线性的变化,即斜率是否显著。相信大家对此也很熟悉了。\u003C\u002Fp\u003E\u003Cp\u003E打了这么多埋伏,现在开始进入正题。\u003C\u002Fp\u003E\u003Cp\u003E下图是一个测量系统偏倚及其线性的分析,数据来自马逢时老师的《六西格玛管理统计指南》。\u003C\u002Fp\u003E\u003Cimg src=\&v2-07eac2671f2.jpg\& data-caption=\&\& data-rawwidth=\&558\& data-rawheight=\&419\&\u003E\u003Cp\u003E让我们先看看量具偏倚这一部分,这是每个参考值点以及总平均值的偏倚显著性检验,其假设为:\u003C\u002Fp\u003E\u003Cp\u003E\u003Ci\u003EH\u003C\u002Fi\u003E0:偏倚为0\u003C\u002Fp\u003E\u003Cp\u003E\u003Ci\u003EHa\u003C\u002Fi\u003E:偏倚不为0\u003C\u002Fp\u003E\u003Cp\u003E从图上看,参考值为20时偏倚显著,总平均的偏倚也显著。如果都不显著,则说明在量程内,偏倚为0。\u003C\u002Fp\u003E\u003Cp\u003E量具线性采用的线性回归分析,其回归方程为:\u003C\u002Fp\u003E\u003Cimg src=\&v2-eefe25b71e7e329d8c66aed.jpg\& data-caption=\&\& data-rawwidth=\&98\& data-rawheight=\&29\&\u003E\u003Cp\u003E其中\u003Ci\u003Exi\u003C\u002Fi\u003E为基准值, \u003Cequation\u003E\\bar{y}\u003C\u002Fequation\u003E 为偏倚均值。\u003Ci\u003Eb\u003C\u002Fi\u003E为斜率,\u003Ci\u003Ea\u003C\u002Fi\u003E为截距。\u003C\u002Fp\u003E\u003Cp\u003E线性回归的假设为:\u003C\u002Fp\u003E\u003Cp\u003E\u003Ci\u003EH\u003C\u002Fi\u003E0:\u003Ci\u003Ea\u003C\u002Fi\u003E=0,\u003Ci\u003Eb\u003C\u002Fi\u003E=0\u003C\u002Fp\u003E\u003Cp\u003E\u003Ci\u003EHa\u003C\u002Fi\u003E:\u003Ci\u003Ea\u003C\u002Fi\u003E≠0,\u003Ci\u003Eb\u003C\u002Fi\u003E≠0\u003C\u002Fp\u003E\u003Cp\u003E从图上看,斜率和截距的\u003Ci\u003Ep\u003C\u002Fi\u003E值均小于0.05,说明线性偏倚的线性显著,即偏倚与量程之间存在线性关系。基准值每增加1,则偏倚会增加0.020222,即线性变异占整个过程变异的2%。\u003C\u002Fp\u003E\u003Cp\u003E图中,线性度= |斜率|×(6×已知的过程波动)=0.=0.242664,式中假设已知的过程波动为2。此线性度表明在总的过程波动6×2=12的范围内,测量值偏倚的波动范围为0.24之内。\u003C\u002Fp\u003E\u003Cp\u003E细心的人从左边的图形上会发现,偏倚的回归拟合并不线性,这在斜率不大的情况下(这需要具体业务上的判断),这种非线性可以暂时不考虑;但如果斜率很大,非线性就会对测量系统的校准带来很大的影响,需要对此加以关注。\u003C\u002Fp\u003E\u003Cp\u003E我们将本例的数据运用回归分析来进行多项式拟合,我们可以看到二次项也是显著的,说明偏倚不是线性的。\u003C\u002Fp\u003E\u003Cimg src=\&v2-f3c102bffbd3.jpg\& data-caption=\&\& data-rawwidth=\&550\& data-rawheight=\&74\&\u003E\u003Cimg src=\&v2-0db747c1aa24ffa4318ff.jpg\& data-caption=\&\& data-rawwidth=\&527\& data-rawheight=\&353\&\u003E\u003Cp\u003E在实际工作中,需要评估这种非线性,如果对结果会造成较大的影响,则需要对测量设备进行维修,以消除偏倚及其非线性。如无法修理,或报废成本过高,则可以考虑缩小量程,只使用无偏倚的那一小段量程,待条件成熟再更换。\u003C\u002Fp\u003E\u003Cp\u003E要记得我们是不希望有偏倚的,因此最理想的结果应该是这样的。\u003C\u002Fp\u003E\u003Cimg src=\&v2-c68dff2b881da400e080d.jpg\& data-caption=\&\& data-rawwidth=\&498\& data-rawheight=\&375\&\u003E\u003Cp\u003E所有的偏倚均不显著,斜率和截距也都不显著,说明偏倚是一条水平线(虽然图上看起来不水平),测量系统不需要校正。\u003C\u002Fp\u003E\u003Cp\u003E下面这种情况也比较好。\u003C\u002Fp\u003E\u003Cimg src=\&v2-24ed13ce3c6dc88dc77df.jpg\& data-caption=\&\& data-rawwidth=\&500\& data-rawheight=\&376\&\u003E\u003Cp\u003E这}

我要回帖

更多关于 第一步第二步第三步 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信