怎样把不卡方检验渐进显著性的P值写进文章

  【摘 要】 写作是一个复杂的过程,本研究以某地方高校非英语专业大一新生为对象,调查了解他们在大学英语作文中的复杂词汇使" />
免费阅读期刊
论文发表、论文指导
周一至周五
9:00&22:00
非英专新生英语作文复杂词汇与写前计划策略关系研究
  【摘 要】 写作是一个复杂的过程,本研究以某地方高校非英语专业大一新生为对象,调查了解他们在大学英语作文中的复杂词汇使用及写前计划策略运用情况并分析两者间的相关关系。结果发现学生英语作文中的词汇使用与某些策略成正相关。本研究也证实科学合理的策略培训对学生在英语作文中积极使用复杂词汇有帮助,能从一个方面提高学生写作,同时对大学英语教学改革起到一定的帮助。 中国论文网 /9/view-6939925.htm  【关键词】 非英语专业学生;词汇频率概貌;复杂词汇;写前计划策略   【Abstract】This research conducts an investigation among the freshmen of the non-English majors and then studies the interrelationship between sophisticated lexis in these Chinese EFL learners’ writing and pre-writing plan strategies. The result suggests that the meta-cognitive strategies and the socio-affective strategies are positively related to the sophisticated lexis in the timing writing. The research facilitates the reform of college English teaching and the improvement of students’ writing.   【Key Words】non-English majors, the lexical frequency profile (LFP), sophisticated lexis, pre-writing plan strategies   【中图分类号】G64.24 【文献标识码】A 【文章编号】(-02   1.研究背景   英语写作作为语言水平的一个重要组成部分,是全面衡量学生语言能力的重要考核标准,但在大学英语学习中,学生的写作始终是个薄弱环节。影响学生英语写作的原因有多种,其中之一是学生在英语作文中使用的英语词汇贫乏,词汇基本来自于中学所学且重复率高,在大学英语作文中使用的大学所学词汇寥寥无几。国内外许多学者就写作水平与作文中复杂词汇做过实验研究,如Linnarud(1986)在定义了高级词汇后发现,高水平(母语)写作者使用的复杂(高级)词汇要显著地多于低水平(二语)写作者(秦晓晴,文秋芳,2007:65)。Laufer()为把学生作文中的词汇有效分出不同程度,通过实验把词汇区分为常用词汇、次常用词汇及复杂词汇,并于1995年与Nation共同开发出词汇频率概貌(the Lexical Frequency Profile, 简称LFP)以方便测量研究作文中的词汇的复杂性(秦晓晴,文秋芳,2007:65)。   写作也是一个复杂、循环的心理活动过程,在不同理论指导之下,写作研究者对写作教学提出过不同的方法。20世纪70年代,在交际理论影响下(Communicative Competence Theory),有学者提出过程教学法(the Process Approach)并把写作过程分为三个子过程――写前计划(planning)、成文(translating)和修改(reviewing)。国内对二语写作的过程教学的研究也已起步:吴锦、张在新2000研究验证了写前计划的可行性(王文宇,王立非,);李志雪(3)就写前计划变量与写作成绩进行了定量研究,发现写作成绩受计划元认知知识、写前计划策略和写前计划时间的影响。本文试图通过定量研究的方法,探讨写前计划阶段学习策略对作文中词汇复杂性的影响。   2.研究设计   2.1研究目的和问题   为了了解非英语专业学生英文写作中词汇使用情况,本文就以下问题进行了问卷调查并对这些学生的英语作文进行了分析:   (1)被调查的非英专业新生英语作文中的词汇频率概貌分布情况如何?   (2)英语作文中复杂词汇与写前计划学习策略是否存在相关关系?   (3)若有,相关关系又如何?   2.2研究对象及写作任务   本次研究对象是某高校内非英语专业的大一新生,这些学生是通过高考之后按成绩录入该校。在中学阶段的英语学习中,他们已经接受了系统、全面的相关语言知识的教育,具有良好的语言应用能力,有了一定的英语写作基础,而且由于在大一期间都要参加大学英语四级的考试,因而使他们在大学英语学习阶段具有较强的动机(韩宇,),让本次试验具有可行意义。本次研究对象分为两组:控制组和实验组,目的是为了调查相关的写前计划策略与作文中词汇复杂性的关系。研究对象被要求先在30分钟内写一篇大学英语四级考试的命题作文,接着根据他们在写作时的实际情况填写“有关英语写作写前计划阶段的学习策略和技巧的问卷调查表”。   2.3 研究工具   在对写作者作文中词汇复杂性的调查中,运用了Laufer与Nation在1995年开发的词汇频率概貌表(LFP)和词汇频率概貌分析软件RANGE。运用Laufer & Nation的LFP调查研究对象作文中的词汇情况原因有二:(1)该表是经过严格的试验后,从常用词汇、次常用词汇及复杂词三个层次进行了详细的描述和区分;(2)该表具有较强可操作性,且性度和效度均很好(李艳,葛诗利,)。在RANGE软件对作文中词汇进行三个层次分析时,会自动分析出每个层次中形符(token)、类符(types)和词族(families)各自的数量及比例,本研究取类符(types)项进行分析。
  调查问卷是关于写作者在写前计划阶段可能运用到的写作元认知策略、认知策略和社会情感策略。所有问题都以五级量表的形式设置选项(“1”为“很不符合”,“5”为“很符合”),被测者据自己实际情况选择适合自己的选项。   对于各种数据的分析,本次研究中使用了统计软件MATLAB 7.0。该软件计算分析了两个组的作文在各个词汇层次的使用情况及策略的运用情况,并计算分析了两者间关系。MATLAB 7.0默认有效置信度为0.05;T检验结果显示两组数据间的差异性是否显著;P值计算出的数值显示零假设条件下的犯错概率,P值小于0.1或0.05时是显著,而且数值越小越好,犯错概率就越小。   3.研究结果   把两组实验之初和实验之后的四级限时作文用RANGE软件和MATLAB 7.0进行自动分析对比,得出两组两次的限时作文词汇使用情况(见表1实验前和表2实验后)。   从表1中“总数”栏可知,实验组实验前的作文在词汇广度上好于控制组。在各个词汇层,实验组虽然常用词汇的数量和比率均高于控制组但差异不显著,次常用词汇的数量和比率与控制组相当,复杂词汇的数量和比率略低于控制组且具有显著差异。   表1 实验前,限时作文中词汇使用情况   词汇层次 实验组(类符/%) 控制组(类符/%) T检验结果 P值   常用 398/73.4 381/72.4 不显著 0.06   次常用 58/10.7 57/10.8 显著 0.048   复杂 86/15.8 88/16.8 显著 0.05   总数 542 526   (注:P≤0.05)   表2 实验后,限时作文中词汇使用情况   词汇层次 实验组(类符/%) 控制组(类符/%) T检验结果 P值   常用 413/71.2 410/74.3 显著 0.0004   次常用 48/8.3 55/10.0 显著 0.0005   复杂 119/20.6 87/15.8 显著 0.0001   总数 580 552   (注:P≤0.05)   实验后的表2显示,实验组作文中的词汇广度仍好于控制组,与实验前一样;两组在复杂词汇层产生了明显的差异和差距。经过实验,两组在各层词汇的使用上有了变动。在常用词汇上实验组的数量虽然略多过控制组,但比率要低于控制组,结合“总数”项可知,这是因为实验组学生作文的词汇广度增加的幅度更大。在次常用词汇上,实验组的数量和比率都低于控制组且有显著差异。值得注意的是在复杂词汇上,实验组在数量和比率上均高过控制组,而且具有显著差异,这说明实验具有成效。   表2中实验后的数据还可见如下情形,实验组在试验中经过一些策略训练后,在作文中词汇的使用上,实验组的作文中对复杂词汇的使用无论是数量还是比率上均有显著的增加。控制组在试验中没有进行有效地引导和培训,学生作文中的常用词汇的数量和比率都高过实验前;控制组的作文对复杂词汇的使用在数量和比率上都少过实验前,也即控制组在复杂词汇的使用上出现了滞后现象。两个表格的数据对比说明,策略训练的实验对提高学生作文中复杂词汇的使用有效果。   综合表1和表2可见:(1)无论是实验组还是控制组,随着大学阶段英语学习的深入,学生们的作文在词汇广度上趋向使用更多的词汇(实验组增加了38个类符,控制组增加了26个类符);(2)实验前和实验后,两个组的限时作文中常用词汇的数量和比率均居各词汇层首位,远远高于次常用词汇和复杂词汇,学生在作文中倾向于使用常用词汇。这也解决了本研究提出的第一个问题,即非英专业大一学生在作文中词汇的使用情况――经过一段时间的学习后,学生们限时作文中的词汇广度加深,但仍倾向使用常用词汇。   了解非英专业大一学生在实验前后两次作文中的变化之后,再通过统计软件分析对比两个组在实验前后填写的关于“写前计划阶段策略的运用情况”的问卷调查,得到一系列数据和结果,见表3,4。   表3 实验前,两组写前计划阶段策略分析对比   策略 实验组(M) 控制组(M) T检验结果 P值   认知策略 2.62 2.55 不显著 0.0045   重复 2.79 2.68 不显著 0.0364   精细加工 2.58 2.51 不显著 0.0012   元认知策略 2.79 2.65 不显著 0.0432   计划 2.51 2.39 不显著 0.0023   监控 2.86 2.75 不显著 0.0027   调节 2.90 2.86 不显著 0.0043   社会情感策略 3.03 2.82 不显著 0.0002   实验前的问卷分析对比表3显示:虽然实验前两个组在写前计划阶段各项策略的均值不一样(实验组各项均值都略高于控制组),但各项均不存在显著差异,两组使用各种策略的水平相当。   实验后问卷的数据分析表显示,除认知策略外,两组在元认知策略和社会情感策略均出现了显著差异。表中数据也说明,实验后,实验组与控制组在认知策略及其下属各项的均值虽不相同,但两组不存在显著差异,这说明两组在该项策略的使用上没差别;在元认知策略及其下属各项的均值中,实验组的数值均高于控制组,而且两组出现了显著差异,这表明实验组比控制组更多的使用元认知策略;在社会情感策略上,控制组的均值要高过实验组,两者呈现显著差异,这说明控制组在该项策略的使用上比实验组更频繁。   表4 实验后,两组写前计划阶段策略分析对比   策略 实验组(M) 控制组(M) T检验结果 P值   认知策略 2.66 2.58 不显著 0.0043
  重复 2.82 2.62 不显著 0.0000   精细加工 2.62 2.55 不显著 0.0126   元认知策略 2.77 2.65 显著 0.0653   计划 2.56 2.34 显著 0.0634   监控 2.94 2.70 显著 0.0523   调节 3.23 2.65 显著 0.0624   社会情感策略 2.67 3.37 显著 0.0734   表3和表4的数据进行对比分析后可见:对实验组进行近三个月的策略培训后,在认知策略和元认知策略及其各分项上,其均值都要高过实验前,这说明经过培训后实验组在使用这两项策略上更积极、频繁;在社会情感策略的均值上,实验组实验后的数值低于实验前,这表明实验组在该项策略的使用上比实验前要少。控制组在策略使用上没有受到有效的指导,实验后与实验前各项策略的均值相比较,有的没变化(如元认知策略项),有的有提高(如认知策略及其下属的精细加工),有的有降低(如认知策略下属的重复项及元认知策略的下属各项);尤其值得注意的是,在社会情感策略上,控制组在实验后的数值比实验前有明显的增加。   结合限时作文词汇分析表(表1,2)和写前计划阶段的学习策略分析表(表3,4)可以看到第二个研究问题的答案:限时作文中复杂词汇的使用与写前计划阶段的学习策略有一定的相关关系――限时作文中复杂词汇的使用与元认知策略及其下属各项成正相关关系,与社会情感策略成负相关关系。   4.结语   大学英语写作教学是大学英语教学的一个重要部分,对学生在限时作文中词汇贫乏、简单、重复的现象,应在教学中引导学生注意并解决。为了能让大学生在大学英语写作中正确使用复杂、丰富的词汇,体现出作文中词汇的广度,从而在一定程度上提高写作水平,应在教学中指导学生重视写前计划,提高对写前计划阶段各学习策略的认识,给学生提供更多机会积极发挥其主观能动性,在大学英语写作过程中找出适合学生自己的策略,增强作文的词汇复杂性提高英语写作能力。   最后需要补充的是,因为各种原因,本次实验只在有限的学生中展开,可能在实验数据的产生中有局限性,所以对本次课题的研究还可以进一步深入探讨。   参考文献   [1] 秦晓晴,文秋芳. 中国大学生应用写作能力发展规律与特点研究 [M]. 北京:中国社会科学出版社,2007.   [2] 王文宇,王立非. 二语写作研究:十年回顾与展望 [J]. 外语界,2004(3):51―58.   [3] 李志雪. 英语专业学生写前计划变量对其写作成绩影响的定量研究 [J]. 外语教学与研究,2008(5):178―183.   [4] 李艳,葛诗利. 大学英语作文自动评分中分级词表的效度研究 [J]. 外语与外语教学,2008(10):48―52.   [5] 韩宁. 大学二年级非英语专业学生的英语学习动机调查 [J]. 内蒙古师范大学学报(哲学社会科学版),2008(6):74-78.   [6] 吴红云. 二语写作元认知理论的实证研究 [M]. 北京:外语教学与研究出版社,2008.   [7] Cohen, A. D. 2000. Strategies in Learning and Using a Second Language. Beijing: Foreign Language Teaching and Research Press.   [8] O’Malley, J. Michael and Chamot, Anna Uhl. 2007. Learning Strategies in Second Language Acquisition. Shanghai: Shanghai Foreign Language Education Press.   [9] 鲍贵,王霞. RANGE在二语产出性词汇评价中的应用 [J]. 北京:外语电化教学,2005(8):54―58.   [10] Laufer, B. (1994). The Lexical Profile of Second Language Writing: Does It Change over Time? [J] RELC Journal, 21-33.   [11] Laufer, B. & Nation, P. 1995. Vocabulary Size and Use: Lexical Richness in L2 Written Production [J]. Applied Linguistics 16:307-322   [12] Laufer, B. & Nation, P. 1999. A Productive-size Test of Controlled Productive Ability [J]. Language Testing 16:33-51.
转载请注明来源。原文地址:
【xzbu】郑重声明:本网站资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有,如有不愿意被转载的情况,请通知我们删除已转载的信息。
xzbu发布此信息目的在于传播更多信息,与本网站立场无关。xzbu不保证该信息(包括但不限于文字、数据及图表)准确性、真实性、完整性等。单量表数据处理操作手册 1、搞清楚问卷的维度和计分办法 2、搞清楚哪些题目是反向计分题(5号字体,1.5倍行距,指导语黑体,应当插入页码,每页都要有计分对应的选项) 3、数据库建立(注意:1、先对问卷进行编码,也应在数据库中录入;2、做一个数据库的说明,记录特殊的编码规则,如1代表什么,2代表什么,88代表什么,99代表什么) 4、检查异常值(1、肉眼检查,删除大面积未作答或规律作答被试;2、频数分析analyze-descriptive statistics-frequences-把要检查的题全部选上-ok,从结果中逐一检查输入的异常值,如果有异常值进行记录,然后用transform-recode into same variables-输入1-1,2-2,3-3,4-4,5-5,all other values-system missing)
5、反向计分题进行转换,步骤transform-recode into same variables-输入需要反向计分的题项1-5,2-4,4-2,5-1,all other value-system missing 6、替代缺失值 transform-replace missing values-选中需要替代的题项到“new variables”方框中,如果不生成新的变量,需要对每一个题项的后面的“_1”删除,否则会再数据库的后面才重新生成了n个新变量。 7、计算维度分和总分,步骤:1、打开数据库的variables view窗口;2、在需要计算维度的问卷题项后面建立插入几个新变量,分别把这几个新变量的名字改为维度名(一般为英文)(注意:在label中用汉字标注维度名称);3、transform-compute variables-在target variables里面输入“维度名”,numeric expression里面(注:如果计算均值,那么需要输入一个英文括号,在括号里面输入这个维度的题项进行相加,然后注意这个维度的题项数(除以就是“/”);如果不计算均值,那么直接将这个维度的题项进行相加),然后点击“ok”!用这样的办法分别对其它的维度和总分进行计算即可。 8、研究对象的统计。步骤:1、打开数据库的variables view窗口,将要统计的背景变量的measure从原来的scale改为nominal;2、analyze-tables-custom tables-将需要统计的变量分别拖入到行或列(为了方便先点一下compact,变为紧缩模式)注意:需要制作的表格先在草稿纸上画出来,确保美观。
藏大 藏医学院 大一 54 44 大二 62 33 大三 28 62 大四 59 19
9、对问卷的统计分析 9.1基本情况分析: (1)检出率法也叫高低分组法步骤 对问卷基本情况的描述通常有两种办法,(1)检出率法也叫高低分组法;(2)常模比较法,如果没有常模,就采用别人的文献进行比较;常模比较法的步骤?先对本研究中的问卷维度进行描述,步骤;analyze-descriptive statistics-descriptives-将这个问卷的维度和总分选入varialbes中,点击ok;?将结果复制到word文件中,保留均值和标准差两列,其余列删除,再插入两列,将需要对照的文献中的均值和标准差进行手工录入,再在后面插入两列,用于存放t和p值;?计算p和t,步骤:analyze-compare means-one sample t-test-将第一个维度选入到test variables中,test values中输入对照文献中对应的维度的均值,点击ok即可!其余维度分别进行这一操作。
均值 对健康担心 精力 对生活的满足和兴趣 忧郁或愉快的心境 对情感和行为的控制 松弛与紧张 主观幸福感总分 3.4 3.8 3.9 75.4442 标准差 均值(常模)
标准差(常模)
1.88 0.85 0.54 10.25074
(2)常模比较法步骤
?打开数据库的variables view 窗口,在每个维度后面插入一个新的变量,命名名为“原来名+2”,在values中定义1为低分组,2为中间组,3为高分组(有些问卷给了分组的办法,按照所给的进行分组,如果没给分组办法,根据计分办法进行分组。比如5点量表,那么低分组为:最小-2.499,中间组为:2.5-3.499,高分组为:3.5-最大)?transform -recode into different
variables -将原来维度选入到右边的窗口中,在output variables 中输入“原来名+2”然后再点击“old and new values”标签,打开的对话框中输入(假如5点计分,输入最小-2.499为1,2.5-3.499为2,3.5-最大为3),注意:如果每个维度分组办法一致,一次操作就可以搞定,如果不一致那就需要多次同样的操作?对分组后的新维度进行描述统计,步骤:analyze-descriptive statistics-frequences-把新维度全部选进去-ok。④将产生的表格复制到word文件中,进行编辑。 9.2人口统计学变量的分析 9.2.1变量有两个水平的进行独立样本t检验
以“性别”(男、女)为例进行t检验,(1 )analyze-compare means-independent sample t-test-将所有维度和总分选入到test variable中,将性别选入到grouping variables中,点击define values,输入“1”和“2”(注意:输入值与定义值一致)点击ok;(2)将生成的两个表格复制到word中,删除表格名和标准误一列,然后拖入两列,用于存放t、p;(3)将第二个表格中的t值(第五列)和sig值(第七列)复制到第一个表格中,注意:“方差方程的levene检验”中的sig值。大于0.05,就复制上面的,小于0.05,复制下面的,然后删除第二个表格即可。
对健康担心 性别 男 女 精力 男 女 对生活的满足和兴趣 男 女 忧郁或愉快的心境 男 女 对情感和行为的控制 男 女 松弛与紧张 男 女 主观幸福感总分 男 女 N 118 244 118 244 118 244 118 244 118 244 118 244 118 244 Mean 3.1 4.7 3.9 5.0 3.6 4.1 75.2 Std. Deviation 1.10 .9 .8 1.23 .7 .7 10.25 t -.336
注:*表示小于0.05水平;**表示小于0.01水平 保留三位小数,并在小数点前补零
9.2.2变量有两个以上水平的进行单因素方差分析
以年级为例进行单因素(1 )analyze-tables-custom tables将所有维度和总分选入到行中,将年级拖入到列中,选中行中的任何一个,点击“summary statistics”,将“std deviation”选入到右侧方框中,点击“apply to all”,然后点击“ok”(2)将生产的表格复制到word中,在这个表格的后面插入三列用于存放F和p、post hoc值,在自变量各个水平上插入圆括号1234......(3)analyze-compare means-one way anovoa-将所有维度和总分选入到dependent list中。将“年级”选入到factor中点击“post hoc”选中lsd 和 tamhanes-t2-点击option选中“homogeneity of variance test”点击“continue”-“ok”(4)将生成的三个表格复制到word中,将第二个表格中的F和p值分别复制到步骤(2)表格中,再看哪些F值显著,如果第一个维度显著,这时候看刚刚复制的三个表格中的第一个表格(方差齐性检验)中的第一个维度的sig值是否大于0.05,如果大于0.05就看第三个表格中的lsd,如果小于0.05就看tamhanes-t2;(5)看了lsd或tamhanes-t2后,在(2)中生成的表格中的最后一列中post hoc用1>2,3<4,这样的形式来表示。
对健康担心 精力 对生活的满足和兴趣 忧郁或愉快的心境 对情感和行为的控制 松弛与紧张 主观幸福感总分 大一① 3.57±1.18 4.50±0.86 3.31±0.72 5.12±0.94 4.00±0.58 3.86±0.81 大二② 3.59±1.48 4.45±0.86 3.33±0.93 5.03±1.12 3.83±0.76 4.14±0.86 大三③ 3.83±1.19 4.58±0.86 3.50±0.80 5.35±0.93 4.03±0.69 4.21±0.80 大四④ 3.76±1.35 4.48±0.93 3.28±0.77 4.92±1.13 3.86±0.75 4.03±0.79 74.44±9.89 F 0.861 0.362 1.378 2.809 1.775 3.342 2.443 p 0.462 0.781 0.249 0.039 0.152 0.019 0.064 事后检验
①<②,①<③ ①<③,②<③, ④<③ 74.58±9.30 74.81±11.53 77.96±9.86关注今日:32 | 主题:197275
微信扫一扫
【求助】Kruskal-Wallis 检验是报告显著性还是调节显著性呢?P=1.00?
页码直达:
这个帖子发布于2年零130天前,其中的信息可能已发生改变或有所发展。
问题已解决悬赏丁当:5
我用Kruskal-Wallis 检验比较3个独立样本,得出结果如下图,在文章里比较低危组和中危组(第一行)是报告显著性还是调节显著性呢?P=1.00?好像还没有看过啊!求大神指导,最近都在赶论文,快崩溃了!
不知道邀请谁?试试他们
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
这个所谓的调整,现在是有争议的你就直接用显著性P写进文章而可进行调整的是显著性水准(而不是各次比较的显著性P值)你仅3个组的两两比较,3次次数不多,可以不调整,或者调整为α'=0.5/3=0.017中间的两两比较仍然显著上下两个不显著
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
多说一句:之所以现在有争议主要是对调整公式看法不一你上面的资料所用软件显然是用了Bonferroni校正法但这法太过保守!而把调整对象改成显著性水准α'再提出个灵活原则这样就方便一些
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
山水约定 这个所谓的调整,现在是有争议的你就直接用显著性P写进文章而可进行调整的是显著性水准(而不是各次比较的显著性P值)你仅3个组的两两比较,3次次数不多,可以不调整,或者调整为α'=0.5/3=0.017中间的两两比较仍然显著上下两个不显著 虽然我还是不是很懂,但是非常谢谢山水老师!!!
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
关于丁香园对p值的讨论p值可能是现代科学论述中使用最广泛的检验统计值。它经常被新研究生和读者错误地用来解读已知研究的全部实验数据。最初它是假设检验决策的有用工具,后来成为一验即灵的检验方法,以确定结果是否显著,甚至很不幸地沿用在文章是否发表的决策上。因此,我们想对p值提供一个简短明了的描述,以及使用和解释它应有的正确方式。这篇文章将为作者提供p值作为当前科学领域的工具的最新解释。请注意,如果您的手稿中存在对p值的明显误解,那么您被审稿人立即拒稿也是合情合理的。p值最初被计算为检验统计量,用来描述一组基于零假设的给定数据。皮埃尔·西蒙·拉普拉斯(Pierre-Simon Laplace)——也是对表面张力的用数学语言描述的提出者——原本在试图计算p值用来将性别分布进行归类为&real&。因此,这个概念起源于p值可以检测差异是否是真实存在,或者只是出于巧合。p值的效用,在于建立起一个基于样本数据结果,以判断拒绝或接受假设的通用的标准化决策过程。根据罗纳德·费舍尔(Ronald Fisher)的建议,将零假设的拒绝阈值设置为&0.05。重要的是,这是科学家指定和使用的完全任意的值,而不是统计学家。那么,考虑到p值的效用,究竟是在计算什么?p值是对数据的描述;这不是对这个假设的描述。该值表示,在假设零假设为真实情况下,试验结果为极端数据的概率。这是决定是拒绝还是接受零假设的有用工具。科学家们已经达成了一个拒绝零假设的阈值的共识。这直接反映了错误地拒绝零假设(第一类错误)或错误地接受零假设(第二类型错误)的概率。因此,它是判断明显差异为&real&的可能性的直观指标。不幸的是,这种直观性经常导致p值的普遍性滥用,最近的研究进展,如再现性危机,已经改变了对p值的使用和报告的态度。了解这些变化对于文章的成功发表至关重要。最近,由于p值的争议不断,美国统计局觉得发表一个关于使用p值的声明迫在眉睫。以下是摘自美国统计局对p值的声明[1]:“P values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone.”“p值不测量研究假设是真实的概率,或者样本源自随机数据的概率。”“Scientific conclusions and business or policy decisions should not be based only on whether a p value passes a specific threshold.”“科学结论、商业决策或者政策制定不应仅仅基于p值是否通过特定的阈值。”“A p value, or statistical significance, does not measure the size of an effect or the importance of a result.”“p值,或统计学显著性,不测量效应的大小或结果的重要性。”这三个判断对现代如何使用p值至关重要。现在我们将根据上述信息为您的手稿中使用p值提供一些指导。1、p值越来越多地被报告为精确值(比如,p=0.012)而不是阈值(p & 0.05)。编辑委员会和审稿人越来越多地认识到阈值可以使任意指定的,他们希望将p值视为一个连续的尺度,代表着数据拒绝零假设的力度。阈值作为显著性水平的指示标准仍然适用,但是除非另有规定,否则应该报告试验统计的确切值。2、p值不能单独报告。鉴于p值不提供关于结果的效应量(effect size)、可概括性(generalizability)或重要性的证据,审稿人期望看到相应的统计证据。这可以包括报告效应量,置信区间(confidence intervals)和标准误差。同样地,由于上述原因,使用诸如&highly significant&“高度显著”的短语是不合适的。3、不要试图规避统计学显著性。基于对p值被广泛滥用于确定一项研究是否成功或失败的共识,审稿人对试图篡改其p值的作者是不予原谅的。这种现象通常被称为&p-hacking&“p值篡改”。下面举两个例子——大家会发现时不时在一些地方看到:1)先说实验数据发现了一个差异,随后再接着说&but this difference did not reach statistical significance.&(“但是这个差异没有达到统计学意义。”);2)使用诸如“marginally significant”&边缘重要性&这样的短语。这两种写法都是错误而不可取的。4、假设陈述应尽可能具体。p值基于归谬法(reduction ad absurdum logic)。因为零假设被认为是不可能的,备择假设或实验假设则会被接受。维护这一逻辑结构至关重要;因为只存在两个解释,只有备择假设和零假设是可能的。因此,零假设通常是无效果的假设。确保您的备择假设是一个合适的对立陈述。(本文转自科学网)}

我要回帖

更多关于 如何进行显著性分析 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信