概率赌大小的概率与什么密切相关

怎么用编程实现概率大小问题?_知识号
说三道四 最新新闻话题新闻专题评论
> 新闻内容
怎么用编程实现概率大小问题?
比如游戏中经常见“合成A宝石的几率为10%,合成B宝石的概率为20%”,为保证公平性,怎么才能实现A、B的概率,并且数学上可以证明实现B的概率确实比A大?编程语言RubyPython游戏开发编程JavaC(编程语言)概率C++谢伟幸,什么都不是~这方面的知识我是没有的,我只能借花敬佛。看完MiloYip的这篇博客我觉得,
比如游戏中经常见“合成A宝石的几率为10%,合成B宝石的概率为20%”,为保证公平性,怎么才能实现A、B的概率,并且数学上可以证明实现B的概率确实比A大? 编程语言RubyPython游戏开发编程JavaC(编程语言)概率C++谢伟幸,什么都不是~这方面的知识我是没有的,我只能借花敬佛。看完Milo Yip的这篇博客我觉得楼主会挺满意的了http://www./miloyip/archive//1717109.html 康清波,Image Processing & Information Hiding用C语言的话,合成某宝石的几率为10%:srand( time(NULL) );int random = rand()%9;产生0的概率就是1/10. cecwxf,RFID/智能设备/BSP/IT/电子rand()
srand() 知乎用户,pythoner我以计算数学+计算机软件+生物信息的背景,说点自己的看法:1 我猜测你不只是想知道这一个概览计算的具体问题的答案,你可能是想知道一类问题的答案,它就是 --- 数值平衡 !2 典型的应用场景,就是你所说的游戏关卡设计等; 比如,一个游戏有10大角色,5大门派;这么大一个游戏系统,甚至是虚拟现实,如何保证玩家选择任意一种门派+角色,都有相对公平的成长能力和战斗力呢? 就是靠数值平衡来保证的!3 一般游戏公司的数值平衡,都是找有经验的人带本科计算数学毕业,或硕士计算数学毕业的,经过几个项目的锤炼,基本可以独当一面了。 林树喜,喜欢异想天开,胡思乱想。 喜欢新事物,…什么意思?是算概率,还是算随机数啊。怎么有点混啊? 肖东爽,前端工程师不同的语言不太一样吧,JS的随机函数会生产一个0到1之间的数 richard_ma,Linuxer 科普控 军事控 经济爱好者 数学…产生随机数的概率应该是符合正态分布的吧 Tianji Li,我在知乎上之乎者也。。。。。…1. 用你选择的语言的随机函数产生一个0到1之间的数(叫做rthres)2. if rthres 小于 10%
生成宝石;4. else5.
do something else or nothing. Zagfai Kwong,ID. 13426: 寧靜致遠真實合成 取樣
浏览:236发布: 5:48:51
浏览:280发布: 15:08:28
浏览:135发布: 4:03:34
浏览:182发布: 18:08:58
浏览:165发布: 1:47:10
浏览:149发布: 13:20:28
浏览:224发布: 9:24:00
浏览:231发布: 13:07:10
浏览:162发布: 20:25:10
浏览:196发布: 13:12:26---03月07日 00:53经典概率问题:赌徒谬误 | 科学人 | 果壳网 科技有意思
经典概率问题:赌徒谬误
超生游击队员李四已经连生4个闺女了,但他实在太想要一个男娃,虽然家产都快被村里计生委的人给罚光,就差没上房揭瓦了,但还是要生,他想,都连生4个了,下个肯定是个带把的。
老赌棍张三没事总喜欢上一个黑赌场里下两注,但今天他赌红眼了,因为庄家已经连开10把大了,他也连输了10把,他不相信第11把还开大,还想一把就把之前输的全赢回来,于是把唯一的存折都给压上了,买小。
以上两件事的结果会如何呢?我不知道。他们不一定会赢,但也不会像一些人猜测的一样(虽然很多小说的情节是这样的),一定会输。他们输赢的概率都是1/2。很明显,结果绝对不会像他们想的那样赢定了,孤注一掷也是非常不明智的选择。
独立事件:我和你没有半毛钱关系
我们得知道什么叫做独立事件,事件A的结果并不影响事件B,那A和B就是独立事件。国足输球跟万里之外太阳黑子活跃很明显就是独立事件,虽然他们可能会声称太阳黑子改变地球重力场导致他们发挥失常。
那么生孩子是不是独立事件呢,当然是的。这不过是精子卵子结合的生理过程,这一次和上一次能有什么关系(也许偶然生孩子会改变人的生理结构于是影响概率,但这牵涉到科学问题就另说了)?掷骰子也是一样,就算是连开100把大,下一把开大的概率还是1/2。
如果还是觉得疑惑,想想看如果1年前连开10把大会不会让现在开小的概率增加呢?现在直觉也会告诉我们,显然不会。那么1分钟前开了10把大又怎么会使开小的概率增加呢?
事实上很多人都没有意识到独立事件的概率是毫无关系的,即使它们发生的时间如此接近。
比如说买彩票,很多人喜欢研究走势,他们认为上次开出的数字这次很可能不出现,事实似乎也证明了他们的想法,于是他们更加相信每次开奖间存在某种规律,只要抓住这个规律就能发大财。可惜的是,每一期彩票间当然也是独立事件。
为什么上次开出的数字这次一般都不出现?
我猜肯定有人要问这个。
这个问题其实真的很简单。因为本来出现的概率就不高,每次出现的概率,比如数字5,出现的概率只有1/10,上次碰巧出现了,但这次概率仍然只是1/10,自然出现的概率不高。
NBA比赛里,经常有球员连续命中,这时候篮球解说一般就会认为这球员手热得发烫,然后认为以后的进攻机会最好都要给这个球员。常看CCTV5的都知道,我们的张指导就是这样。现在,你知道他有多外行了吧……
你可能感兴趣
经济学爱好者
引用 小耿 的回应:篮球的情况比较复杂。有时候一个球员“感觉到了”,一段时间内确实手很准。运动是受到情绪和外界环境影响而波动的,情绪处在高波段时的球员,应该更多出手,这样球队整体效率更高。有人做过统计,那些连续命中所谓手烫的群员在下一次投篮的命中率和他们平时的命中率是一样的
神经生物学硕士
篮球的情况比较复杂。有时候一个球员“感觉到了”,一段时间内确实手很准。运动是受到情绪和外界环境影响而波动的,情绪处在高波段时的球员,应该更多出手,这样球队整体效率更高。
显示所有评论
全部评论(81)
神经生物学硕士
篮球的情况比较复杂。有时候一个球员“感觉到了”,一段时间内确实手很准。运动是受到情绪和外界环境影响而波动的,情绪处在高波段时的球员,应该更多出手,这样球队整体效率更高。
经济学爱好者
引用 小耿 的回应:篮球的情况比较复杂。有时候一个球员“感觉到了”,一段时间内确实手很准。运动是受到情绪和外界环境影响而波动的,情绪处在高波段时的球员,应该更多出手,这样球队整体效率更高。有人做过统计,那些连续命中所谓手烫的群员在下一次投篮的命中率和他们平时的命中率是一样的
有人相信luck,和他讲逻辑,他跟你急
你应该解释一下这个如何和如果你把大小的结果排成一个序列,序列无限长时, 大小出现的次数一样
引用 小耿 的回应:篮球的情况比较复杂。有时候一个球员“感觉到了”,一段时间内确实手很准。运动是受到情绪和外界环境影响而波动的,情绪处在高波段时的球员,应该更多出手,这样球队整体效率更高。同样认为篮球的情况要复杂。
人不是机械,会受各种因素影响,“发挥”的情况是客观存在的。
一点不觉得张指导外行。非要说概率的话,球员每场比赛的命中率并不恒定,有些场次高,有些场次低,在一个水平上波动。如果一场比赛里面一个队员前几次投篮连续命中,就有较大把握相信,今天他的命中率(这个命中率还未知是多少,打完比赛才确定)是高于他自己的平均水平的。(有点贝叶斯的味道,我觉得)那么,为什么不把进攻机会给他?
最后一个讽刺的例子举坏了。。。手热的时候,进球的概率,要高于其运动生涯均值。作为教练,当然要把球交给他,只要他的本场临时命中率高于其他人。
引用 ET民工 的回应:最后一个讽刺的例子举坏了。。。手热的时候,进球的概率,要高于其运动生涯均值。作为教练,当然要把球交给他,只要他的本场临时命中率高于其他人。同意,我觉得只是每一次出手投篮的得分可能性是50%不变,但只能独立计算才行,如果统计了本场比赛该球员的所有投篮,命中率应该是比别的球员高才对,于是能得到更多投篮机会。比如,乔丹老是能得到投篮机会,生涯平均得分30.12,是NBA最高,但那是因为他技术好,篮球出手之前的得分可能性是50%,但技术好的话,往往能更好地把握好这50%的得分机会,当然这不是“手热”。但他的最高单场得分是69分,已经是他平均得分的两倍多了,这不是手热怎么也说不过去。总之,打球跟赌大小没什么可比性,就像赌大小跟打麻将没什么可比性一样,赌大小的胜负可能性是随机的,打麻将却不是,因为打麻将是有技巧、今天的心情,对手的强弱等复杂因素在里面的,这和打球是差不多的。所以运动员需要训练,打麻将也会越打越好,赌大小却完全不用训练。呃……我自己看了一下我写这些都觉得混乱,语言表达能力差,各位将就一下,我不懂统计概率这类东西,属于纯外行,请大家指正
"每一次出手投篮的得分可能性是50%不变"——不正确。虽然投篮只有进球或者不进球,但是概率并非各50%。就好像下一秒自己只有摔倒或者不摔倒两种可能性,但是并非各50%概率一样。通常所谓的概率,都是基于大数定律在统计的方式下得到的。
经济学爱好者
请自行搜索关键词 手热效应 。在一个更早的统计中,上一次命中的队员下一次投篮的命中率甚至有所降低,这是进攻和防守队员博弈的结果。统计已经表明手热效应是不存在的。但不是说某个队员不会在某场比赛爆发。问题的关键是,你无法确认现在正是这个队员要爆发的场次。所以传球最佳的方案不是传给手热的队员,而是传给出机会的队员。
引用 小耿 的回应:篮球的情况比较复杂。有时候一个球员“感觉到了”,一段时间内确实手很准。运动是受到情绪和外界环境影响而波动的,情绪处在高波段时的球员,应该更多出手,这样球队整体效率更高。 的确是这样的,整体感觉是一种身体的最佳记忆状态
作者过于看重理性因素而忽视了非理性因素。无论赌博、运动,非理性因素对发挥都起到极大甚至决定性的作用。
找到一本书《Nudge》(助推),貌似讲了手热效应,先看看:)
国足输球跟万里之外太阳黑子活跃很明显就是独立事件,虽然他们可能会声称太阳黑子改变地球重力场导致他们发挥失常。我喷了
引用 哆啦嘟嘟 的回应:国足输球跟万里之外太阳黑子活跃很明显就是独立事件,虽然他们可能会声称太阳黑子改变地球重力场导致他们发挥失常。我喷了同上。
哈哈,除了平常发挥状态以外,运动员确实存在神人附体状态和萎顿无能状态两种暂时状态,然而这两种状态的开始时刻和结束时刻也都是服从指数分布的,所以,不能根据现在的神人状态决定下次更应该信赖哪位,而应该更信赖其谁更可能进入神人状态并持续一段时间,归根结底,拼的是“兰姆达”。改天可以仔细计算一下……引用 小耿 的回应:篮球的情况比较复杂。有时候一个球员“感觉到了”,一段时间内确实手很准。运动是受到情绪和外界环境影响而波动的,情绪处在高波段时的球员,应该更多出手,这样球队整体效率更高。
有些人把球员状态和“手热现象”混淆了。状态有起伏是的,但是你并没有办法确定一个球员是处于什么状态。所谓手热现象,是说仅凭这个球员连续多次投中,就预测他下一次投中的概率会高于他的总体命中率,而统计数据分析发现的事实就是,下一次投中的概率与总体命中率并无显著差异。
作者的观点是没错,可是再某些特定情况发生的时候,概率是会变的。比如,投篮的说法并没有错,当一个球员总是投进的时候,他的心态和各种身体因素会很好的协调,因而投进的几率会变高。再比如,庄家连开12把大,说明这个机器本身的概率可能被操纵了。再比如,一个地方某种遗传病的几率是1/1000,如果一对正常夫妇已经生出了一个有病的小孩,那么生出第二个小孩有病的几率就不再是1/1000。会有一个条件的概率(这对夫妇的基因已经存在某种问题)。很多事件实际并不是独立的,需要考虑到多方面因素。
有个问题我一直不明白,对于博弈者,就像前言说说,如果连出了10次大,那么,因为每个事件是独立事件,所以第11次出大的可能还是50%,但是,11次全部出大的几率是( 1/2 )的11次方,这种几率是很小的,那么我们决策时到底考虑哪一个呢?
命中率是对过去的总结,没有理由在这里做为例子。
继字辈 16:57 回应:有个问题我一直不明白,对于博弈者,就像前言说说,如果连出了10次大,那么,因为每个事件是独立事件,所以第11次出大的可能还是50%,但是,11次全部出大的几率是( 1/2 )的11次方,这种几率是很小的,那么我们决策时到底考虑哪一个呢?-------------在前10次出现大的情况下,第11次出现大的概率,是条件概率。因为第11次与之前独立,所以此概率仍为50%。如果单纯的问连续11次出现大的概率,就是( 1/2 )的11次方了。
前面挺有道理,不过后面投篮却不一定,因为各个投篮之间不是简单的独立事件。
个人认为投篮事件并不能看成是连续的独立事件
我还是纠结开大开小那个问题,在开第11次前,考虑连续出现大的概率是( 1/2 )的11次方也没错啊,基于此,当然应该选择小了。
张指导表示这不“合理”
呃,说完全题外的话,在篮球游戏NBA 2K11里面,制作方采用这个手烫的设定,有红手,如果一个球员连续进球,那么会更容易进球。反之连续不中的话,就会蓝手。
籃球中的手感和概率怎能混為一談?
篮球这个东西还真是存在手热的情况
显示所有评论
(C)2015果壳网&京ICP备号-2&京公网安备统计学常用概念:T检验、F检验、卡方检验、P值、自由度(统计学,方差,自由度,卡方检验) - 生物信息 - 生物秀
标题: 统计学常用概念:T检验、F检验、卡方检验、P值、自由度(统计学,方差,自由度,卡方检验)
摘要: [统计学常用概念:T检验、F检验、卡方检验、P值、自由度(统计学,方差,自由度,卡方检验)]1,T检验和F检验的由来
一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方法,进行统计检定。通过把所得到的统计检定值,与统计学家建立了一些随机变量的概率分布(probability
distribution)进行比较,我们可以知道在多少%的机会…… [关键词:方差 统计学 自由度 卡方检验 正态分布 概率 统计量 检定]……
1,T检验和F检验的由来
一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方法,进行统计检定。
通过把所得到的统计检定值,与统计学家建立了一些随机变量的概率分布(probability
distribution)进行比较,我们可以知道在多少%的机会下会得到目前的结果。倘若经比较后发现,出现这结果的机率很少,亦即是说,是在机会很
少、很罕有的情况下才出现;那我们便可以有信心的说,这不是巧合,是具有统计学上的意义的(用统计学的话讲,就是能够拒绝虚无假设null
hypothesis,Ho)。相反,若比较后发现,出现的机率很高,并不罕见;那我们便不能很有信心的直指这不是巧合,也许是巧合,也许不是,但我们没
F值和t值就是这些统计检定值,与它们相对应的概率分布,就是F分布和t分布。统计显著性(sig)就是出现目前样本这结果的机率。
2,统计学意义(P值或sig值)
结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法。专业上,p值为结果可信程度的一个递减指标,p值越大,我们越不能认为样本中变量的关联
是总体中各变量关联的可靠指标。p值是将观察结果认为有效即具有总体代表性的犯错概率。如p=0.05提示样本中变量关联有5%的可能是由于偶然性造成
的。即假设总体中任意变量间均无关联,我们重复类似实验,会发现约20个实验中有一个实验,我们所研究的变量关联将等于或强于我们的实验结果。(这并不是
说如果变量间存在关联,我们可得到5%或95%次数的相同结果,当总体中的变量存在关联,重复研究和发现关联的可能性与设计的统计学效力有关。)在许多研
究领域,0.05的p值通常被认为是可接受错误的边界水平。
3,T检验和F检验
至於具体要检定的内容,须看你是在做哪一个统计程序。
举一个例子,比如,你要检验两独立样本均数差异是否能推论至总体,而行的t检验。
两样本(如某班男生和女生)某变量(如身高)的均数并不相同,但这差别是否能推论至总体,代表总体的情况也是存在著差异呢?
会不会总体中男女生根本没有差别,只不过是你那麼巧抽到这2样本的数值不同?
为此,我们进行t检定,算出一个t检定值。
与统计学家建立的以「总体中没差别」作基础的随机变量t分布进行比较,看看在多少%的机会(亦即显著性sig值)下会得到目前的结果。
若显著性sig值很少,比如<0.05(少於5%机率),亦即是说,「如果」总体「真的」没有差别,那麼就只有在机会很少(5%)、很罕有的情况
下,才会出现目前这样本的情况。虽然还是有5%机会出错(1-0.05=5%),但我们还是可以「比较有信心」的说:目前样本中这情况(男女生出现差异的
情况)不是巧合,是具统计学意义的,「总体中男女生不存差异」的虚无假设应予拒绝,简言之,总体应该存在著差异。
每一种统计方法的检定的内容都不相同,同样是t-检定,可能是上述的检定总体中是否存在差异,也同能是检定总体中的单一值是否等於0或者等於某一个数值。
至於F-检定,方差分析(或译变异数分析,Analysis of
Variance),它的原理大致也是上面说的,但它是透过检视变量的方差而进行的。它主要用于:均数差别的显著性检验、分离各有关因素并估计其对总变异
的作用、分析因素间的交互作用、方差齐性(Equality of Variances)检验等情况。
3,T检验和F检验的关系
t检验过程,是对两样本均数(mean)差别的显著性进行检验。惟t检验须知道两个总体的方差(Variances)是否相等;t检验值的计算会因
方差是否相等而有所不同。也就是说,t检验须视乎方差齐性(Equality of Variances)结果。所以,SPSS在进行t-test
for Equality of Means的同时,也要做Levene"s Test for Equality of Variances 。
在Levene"s Test for Equality of Variances一栏中 F值为2.36,
Sig.为.128,表示方差齐性检验「没有显著差异」,即两方差齐(Equal
Variances),故下面t检验的结果表中要看第一排的数据,亦即方差齐的情况下的t检验的结果。
在t-test for Equality of Means中,第一排(Variances=Equal)的情况:t=8.892, df=84, 2-Tail Sig=.000, Mean Difference=22.99
既然Sig=.000,亦即,两样本均数差别有显著性意义!
到底看哪个Levene"s Test for Equality of Variances一栏中sig,还是看t-test for Equality of Means中那个Sig. (2-tailed)啊?
答案是:两个都要看。
先看Levene"s Test for Equality of Variances,如果方差齐性检验「没有显著差异」,即两方差齐(Equal Variances),故接著的t检验的结果表中要看第一排的数据,亦即方差齐的情况下的t检验的结果。
反之,如果方差齐性检验「有显著差异」,即两方差不齐(Unequal Variances),故接著的t检验的结果表中要看第二排的数据,亦即方差不齐的情况下的t检验的结果。
你做的是T检验,为什么会有F值呢?
就是因为要评估两个总体的方差(Variances)是否相等,要做Levene"s Test for Equality of Variances,要检验方差,故所以就有F值。
另一种解释:
t检验有单样本t检验,配对t检验和两样本t检验。
单样本t检验:是用样本均数代表的未知总体均数和已知总体均数进行比较,来观察此组样本与总体的差异性。
配对t检验:是采用配对设计方法观察以下几种情形,1,两个同质受试对象分别接受两种不同的处理;2,同一受试对象接受两种不同的处理;3,同一受试对象处理前后。
F检验又叫方差齐性检验。在两样本t检验中要用到F检验。
从两研究总体中随机抽取样本,要对这两个样本进行比较的时候,首先要判断两总体方差是否相同,即方差齐性。若两总体方差相等,则直接用t检验,若不等,可采用t"检验或变量变换或秩和检验等方法。
其中要判断两总体方差是否相等,就可以用F检验。
若是单组设计,必须给出一个标准值或总体均值,同时,提供一组定量的观测结果,应用t检验的前提条件就是该组资料必须服从正态分布;若是配对设计,
每对数据的差值必须服从正态分布;若是成组设计,个体之间相互独立,两组资料均取自正态分布的总体,并满足方差齐性。之所以需要这些前提条件,是因为必须
在这样的前提下所计算出的t统计量才服从t分布,而t检验正是以t分布作为其理论依据的检验方法。
简单来说就是实用T检验是有条件的,其中之一就是要符合方差齐次性,这点需要F检验来验证。
1、问:自由度是什么?怎样确定?
答:(定义)构成样本统计量的独立的样本观测值的数目或自由变动的样本观测值的数目。用df表示。
自由度的设定是出于这样一个理由:在总体平均数未知时,用样本平均数去计算离差(常用小s)会受到一个限制——要计算标准差(小s)就必须先知道样本平均
数,而样本平均数和n都知道的情况下,数据的总和就是一个常数了。所以,“最后一个”样本数据就不可以变了,因为它要是变,总和就变了,而这是不允许的。
至于有的自由度是n-2什么的,都是同样道理。
在计算作为估计量的统计量时,引进一个统计量就会失去一个自由度。
通俗点说,一个班上有50个人,我们知道他们语文成绩平均分为80,现在只需要知道49个人的成绩就能推断出剩下那个人的成绩。你可以随便报出49个人的成绩,但是最后一个人的你不能瞎说,因为平均分已经固定下来了,自由度少一个了。
简单点就好比你有一百块,这是固定的,已知的,假设你打算买五件东西,那么前四件你可以随便买你想买的东西,只要还有钱的话,比如说你可以吃KFC可以买
笔,可以买衣服,这些花去的钱数目不等,当你只剩2块钱时,或许你最多只能买一瓶可乐了,当然也可以买一个肉松蛋卷,但无论怎么花,你都只有两块钱,而这
在你花去98块那时就已经定下来了。 (这个例子举的真不错!!)
2、问:X方检验中自由度问题
答:在正态分布检验中,这里的M(三个统计量)为N(总数)、平均数和标准差。
因为我们在做正态检验时,要使用到平均数和标准差以确定该正态分布形态,此外,要计算出各个区间的理论次数,我们还需要使用到N。
所以在正态分布检验中,自由度为K-3。(这一条比较特别,要记住!)
在总体分布的配合度检验中,自由度为K-1。
在交叉表的独立性检验和同质性检验中,自由度为(r-1)×(c-1)。
3、问:t检验和方差分析有何区别
答:t检验适用于两个变量均数间的差异检验,多于两个变量间的均数比较要用方差分析。
用于比较均值的t检验可以分成三类,第一类是针对单组设计定量资料的;第二类是针对配对设计定量资料的;第三类则是针对成组设计定量资料的。后两种设计类
型的区别在于事先是否将两组研究对象按照某一个或几个方面的特征相似配成对子。无论哪种类型的t检验,都必须在满足特定的前提条件下应用才是合理的。
若是单组设计,必须给出一个标准值或总体均值,同时,提供一组定量的观测结果,应用t检验的前提条件就是该组资料必须服从正态分布;若是配对设计,每对数
据的差值必须服从正态分布;若是成组设计,个体之间相互独立,两组资料均取自正态分布的总体,并满足方差齐性。之所以需要这些前提条件,是因为必须在这样
的前提下所计算出的t统计量才服从t分布,而t检验正是以t分布作为其理论依据的检验方法。
值得注意的是,方差分析与成组设计t检验的前提条件是相同的,即正态性和方差齐性。
t检验是目前医学研究中使用频率最高,医学论文中最常见到的处理定量资料的假设检验方法。t检验得到如此广泛的应用,究其原因,不外乎以下几点:现有的医
学期刊多在统计学方面作出了要求,研究结论需要统计学支持;传统的医学统计教学都把t检验作为假设检验的入门方法进行介绍,使之成为广大医学研究人员最熟
悉的方法;t检验方法简单,其结果便于解释。简单、熟悉加上外界的要求,促成了t检验的流行。但是,由于某些人对该方法理解得不全面,导致在应用过程中出
现不少问题,有些甚至是非常严重的错误,直接影响到结论的可靠性。将这些问题归类,可大致概括为以下两种情况:不考虑t检验的应用前提,对两组的比较一律
用t检验;将各种实验设计类型一律视为多个单因素两水平设计,多次用t检验进行均值之间的两两比较。以上两种情况,均不同程度地增加了得出错误结论的风
险。而且,在实验因素的个数大于等于2时,无法研究实验因素之间的交互作用的大小。
问:统计学意义(P值)
答:结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法。专业上,P值为结果可信程度的一个递减指标,P值越大,我们越不能认为样本中变量的
关联是总体中各变量关联的可靠指标。P值是将观察结果认为有效即具有总体代表性的犯错概率。如P=0.05提示样本中变量关联有5%的可能是由于偶然性造
成的。即假设总体中任意变量间均无关联,我们重复类似实验,会发现约20个实验中有一个实验,我们所研究的变量关联将等于或强于我们的实验结果。(这并不
是说如果变量间存在关联,我们可得到5%或95%次数的相同结果,当总体中的变量存在关联,重复研究和发现关联的可能性与设计的统计学效力有关。)在许多
研究领域,0.05的P值通常被认为是可接受错误的边界水平。
4、问:如何判定结果具有真实的显著性
答:在最后结论中判断什么样的显著性水平具有统计学意义,不可避免地带有武断性。换句话说,认为结果无效而被拒绝接受的水平的选择具有武断性。实践中,最
后的决定通常依赖于数据集比较和分析过程中结果是先验性还是仅仅为均数之间的两两>比较,依赖于总体数据集里结论一致的支持性证据的数量,依赖于以
往该研究领域的惯例。通常,许多的科学领域中产生P值的结果≤0.05被认为是统计学意义的边界线,但是这显著性水平还包含了相当高的犯错可能性。结果
0.05≥P>0.01被认为是具有统计学意义,而0.01≥P≥0.001被认为具有高度统计学意义。但要注意这种分类仅仅是研究基础上非正规的
判断常规。
5、问:所有的检验统计都是正态分布的吗?
答:并不完全如此,但大多数检验都直接或间接与之有关,可以从正态分布中推导出来,如t检验、F检验或卡方检验。这些检验一般都要求:所分析变量在总体中
呈正态分布,即满足所谓的正态假设。许多观察变量的确是呈正态分布的,这也是正态分布是现实世界的基本特征的原因。当人们用在正态分布基础上建立的检验分
析非正态分布变量的数据时问题就产生了,(参阅非参数和方差分析的正态性检验)。这种条件下有两种方法:一是用替代的非参数检验(即无分布性检验),但这
种方法不方便,因为从它所提供的结论形式看,这种方法统计效率低下、不灵活。另一种方法是:当确定样本量足够大的情况下,通常还是可以使用基于正态分布前
提下的检验。后一种方法是基于一个相当重要的原则产生的,该原则对正态方程基础上的总体检验有极其重要的作用。即,随着样本量的增加,样本分布形状趋于正
态,即使所研究的变量分布并不呈正态。
6、问:假设检验的内涵及步骤
答:在假设检验中,由于随机性我们可能在决策上犯两类错误,一类是假设正确,但我们拒绝了假设,这类错误是“弃真”错误,被称为第一类错误;一类是假设不
正确,但我们没拒绝假设,这类错误是“取伪”错误,被称为第二类错误。一般来说,在样本确定的情况下,任何决策无法同时避免两类错误的发生,即在避免第一
类错误发生机率的同时,会增大第二类错误发生的机率;或者在避免第二类错误发生机率的同时,会增大第一类错误发生的机率。人们往往根据需要选择对那类错误
进行控制,以减少发生这类错误的机率。大多数情况下,人们会控制第一类错误发生的概率。
发生第一类错误的概率被称作显著性水平,一般用α表示,在进行假设检验时,是通过事先给定显著性水平α的值而来控制第一类错误发生的概率。在这个前提下,
假设检验按下列步骤进行:
1)、确定假设;
2)、进行抽样,得到一定的数据;
3)、根据假设条件下,构造检验统计量,并根据抽样得到的数据计算检验统计量在这次抽样中的具体值;
4)、依据所构造的检验统计量的抽样分布,和给定的显著性水平,确定拒绝域及其临界值;
5)、比较这次抽样中检验统计量的值与临界值的大小,如果检验统计量的值在拒绝域内,则拒绝假设;
到这一步,假设检验已经基本完成,但是由于检验是利用事先给定显著性水平的方法来控制犯错概率的,所以对于两个数据比较相近的假设检验,我们无法知道那一
个假设更容易犯错,即我们通过这种方法只能知道根据这次抽样而犯第一类错误的最大概率(即给定的显著性水平),而无法知道具体在多大概率水平上犯错。计算
P值有效的解决了这个问题,P值其实就是按照抽样分布计算的一个概率值,这个值是根据检验统计量计算出来的。通过直接比较P值与给定的显著性水平α的大小
就可以知道是否拒绝假设,显然这就代替了比较检验统计量的值与临界值的大小的方法。而且通过这种方法,我们还可以知道在p值小于α的情况下犯第一类错误的
实际概率是多少,p=0.03α,那么假设不被拒
绝,在这种情况下,第一类错误并不会发生。
7、问:卡方检验的结果,值是越大越好,还是越小越好?
答:与其它检验一样,所计算出的统计量越大,在分布中越接近分布的尾端,所对应的概率值越小。
如果试验设计合理、数据正确,显著或不显著都是客观反映。没有什么好与不好。
8、问:配对样本的T检验和相关样本检验有何差别?
答:配对样本有同源配对(如动物实验中双胞胎)、条件配对(如相同的环境)、自身配对(如医学实验中个体的用药前后)等。(好像没有解释清楚啊,同问这个,到底什么区别呢?)
9、问:在比较两组数据的率是否相同时,二项分布和卡方检验有什么不同?
答:卡方分布主要用于多组多类的比较,是检验研究对象总数与某一类别组的观察频数和期望频数之间是否存在显著差异,要求每格中频数不小于5,如果小于5则合并相邻组。二项分布则没有这个要求。
如果分类中只有两类还是采用二项检验为好。
如果是2*2表格可以用fisher精确检验,在小样本下效果更好。
10、问:如何比较两组数据之间的差异性
答:从四个方面来回答,
1).设计类型是完全随机设计两组数据比较,不知道数据是否是连续性变量?
2).比较方法:如果数据是连续性数据,且两组数据分别服从正态分布&方差齐(方差齐性检验),则可以采用t检验,如果不服从以上条件可以采用秩和检验。
3).想知道两组数据是否有明显差异?不知道这个明显差异是什么意思?是问差别有无统计学意义(即差别的概率有多大)还是两总体均数差值在哪个范围波动?
如果是前者则可以用第2步可以得到P值,如果是后者,则是用均数差值的置信区间来完成的。当然两者的结果在SPSS中均可以得到。
11、问:回归分析和相关分析的联系和区别
答:回归分析(Regression):Dependant variable is defined and can be forecasted
by independent variable.相关分析(Correlation):The relationship btw two
variables. --- A dose not define or determine B.
回归更有用自变量解释因变量的意思,有一点点因果关系在里面,并且可以是线性或者非线形关系;
相关更倾向于解释两两之间的关系,但是一般都是指线形关系,特别是相关指数,有时候图像显示特别强二次方图像,但是相关指数仍然会很低,而这仅仅是因为两
者间不是线形关系,并不意味着两者之间没有关系,因此在做相关指数的时候要特别注意怎么解释数值,特别建议做出图像观察先。
不过,无论回归还是相关,在做因果关系的时候都应该特别注意,并不是每一个显著的回归因子或者较高的相关指数都意味着因果关系,有可能这些因素都是受第三,第四因素制约,都是另外因素的因或果。
对于此二者的区别,我想通过下面这个比方很容易理解:
对于两个人关系,相关关系只能知道他们是恋人关系,至于他们谁是主导者,谁说话算数,谁是跟随者,一个打个喷嚏,另一个会有什么反应,相关就不能胜任,而回归分析则能很好的解决这个问题
回歸未必有因果關係。回歸的主要有二:一是解釋,一是預測。在於利用已知的自變項預測未知的依變數。相關係數,主要在了解兩個變數的共變情形。如果有因果關係,通常會進行路徑分析(path analysis)或是線性結構關係模式。
我觉得应该这样看,我们做回归分析是在一定的理论和直觉下,通过自变量和因变量的数量关系探索是否有因果关系。楼上这位仁兄说“回归未必有因果关系……如
果有因果关系,通常进行路径分析或线性结构关系模式”有点值得商榷吧,事实上,回归分析可以看成是线性结构关系模式的一个特例啊。
我觉得说回归是探索因果关系的并没错,因为实际上最后我们并不是完全依据统计的结果来判断因果性,只有在统计结果和理论及现实比较吻合的基础上我们才肯定
这种因果关系。任何统计方法只是一种工具,但是不能完全依赖于这种工具。即使是SEM,我们也不能说完全认定其准确性,因为即使方法是好的,但是变量的复
杂关系呈现的方式也是多种多样的,可能统计只能告诉你一个方向上的最优解,可未必是最符合实际的,更何况抽样数据的质量好坏也会使得结果不符合事实,从而
导致人们怀疑统计方法的准确性。
统计只说明统计关联。
不证明因素关系。
回归有因果关系,相关未必。
回归分析是处理两个及两个以上变量间线性依存关系的统计方法。此类问题很普遍,如人头发中某种金属元素的含量与血液中该元素的含量有关系,人的体表面积与身高、体重有关系;等等。回归分析就是用于说明这种依存变化的数学关系。
任何事物的存在都不是孤立的,而是相互联系、相互制约的。身高与体重、体温与脉搏、年龄与血压等都存在一定的联系。说明客观事物相互间关系的密切程度并用适当的统计指标表示出来,这个过程就是相关分析.
随机抽样与统计推断的逻辑
前天麦小兜问我怎样构造置信区间,在电话里我似乎没有解释清楚,这里重新整理出一份笔记。同时有感于在国内做课题时,同行们的窘态历历在目(他们不知道如何去检验一个变量是否符合正态分布),故记之,以勉励自己尽力思考清楚所学所用之物。
学过统计学的人都知道可以对一个未知总体(population)进行随机抽样,通过对样本(sample)的描述、计算(例如计算样本均值、
样本方差),进而推断总体的一些特征(对某些假设进行检验,构造置信区间等等)。当然,很多现代的推断方法都是“菜谱(cook
book)”性质的,不需要非专业人士进行详细掌握,例如,搞经济学的人往往在不知道什么是F分布的情况下也能知道如何检验F统计量并对结论进行解释,甚
至不用亲手计算F统计量。但是,如果仔细思考一下其中的关系,可以看到这种随机抽样--推断中包含着某种哲学,而这种哲学在某些地方的确显式出了人类的智
本质上,这种方法是用一组我们掌握了100%信息的数据(样本),对一组我们几乎不掌握信息或只掌握部分信息的数据(总体),进行拟合的过程。
换句话说,以有知推未知的过程。因为是对“未知”的推断,我们不可能有100%的把握,但同时是用“有知”的数据,所以我们不会一点把握都没有。也许通过
一个极为简单例子我们可以看到背后的这种思维。下面就开始这个练习。
[例子]:假设一个学校有20000名学生,从中随机抽取1000名学生,问,这个学校20000名学生的某门课的平均成绩是否为70/100?注意,这里并没有作出有关总体的分布的假设。
[问题1]:我们能够用样本进行统计推断了吗?
似乎还不可以,逻辑上缺一步。这里值得注意的是,所抽取的1000学生是否是“随机样本”?答案是否定的。
随机抽样的思想是:抽出来的样本(sample)的分布是和总体(population)的分布是一致的,这一点对于每一个观测值而言,能够成
立。但随机样本还要求每个观测值(observation)相互独立(independent),在这里狭义的理解便是,每一个观察值被取到的概率是相同
的。但是在上面例子里,这个条件显然并不能被满足(很多囫囵的学者往往忽略这个条件)。如果你收集了1000个学生的成绩单,那么这1000个学生的成绩
被抽到概率取决于其被取到的顺序。由于一次抽取1000个学生的成绩,每个学生被抽到的次数只是一次,不能被重复抽样。于是,样本中第一个学生被抽到的概
率是1/20000,第二个学生被抽到的概率则是1/19999,第三个学生是1/19998,……第1000个学生为1/19000。也就是说,在一些
学生被抽走之后,下一个学生被抽到的概率绝对不会等于1/20000。只有在有放回(with
replacement)的抽样中,我们才能说每个学生被抽中的概率是1/20000,也才能保证,我们抽取的是随机样本(random
sample)。但是那样的话,我们又很可能抽不到1000个样本,因为一个学生被抽到大于一次重复的可能性不是零。
幸运的是,注意到这一千个概率值相差并不大(因为总体值够大),那么,可以近似地认为这1000个学生的成绩是随机样本(random
sample)。在做了这样的近似之后,我们方可以进行统计推断。这种近似在统计学中很普遍。例如,中心极限定理(central limit
Theorem)说的是,大多数分布可以近似的看作正态(normal)分布,这使得正态分布在统计学中占有极为重要的地位。这些分布的一个重要特征便
是,变量可以看成是观测值的和(的函数),例如,二项分布可以看成是一组伯努里试验(bernolli
tiral)结果的和。另外,例如泊松(poisson)分布可以看成是二项(binomial)分布,而后者又可近似看作正态分布。
但是,完成了这个近似,我们还需要更多的假设才能进行统计推断和检验(inference and test)。例如,我们必须了解总体的分布情况,即使不知道所有参数的具体值。(目前假设我们只讨论参数(parametric)方法)
[情形一]:我们确切知道这20000学生的成绩符合(正态)分布,均值未知(unkown mean)但是方差已知(known variance)。
[问题2] 对于符合任意分布的样本,样本均值和样本方差符合什么样的规律?
利用简单的数学期望的性质可以得到如下关系:
(1)样本均值的期望=总体均值。
(2)样本均值的方差=总体方差/样本数(样本均值的波动没有单个观测值变化大)
通过这些变量,我们可以构造统计量Z:
(3)Z=(样本均值-总体均值)/根号(总体方差/样本数)。根据(1)(2)和中心极限定理,对于任何总体,Z统计量符合标准正态分布。值得注意的是,对于这个Z统计量,我们掌握了大量的信息。例如,对于任意给定的A值,我们完全可以计算出符合
(4)Pr(Z<|z|)=A%的z值。
但是由于Z是变量,我们并未掌握100%的信息。
注意(3)和(4)式的含义,由于我们可以算出样本均值和样本方差,总体方差,那么z便是由总体均值唯一决定的函数。于是,我们可以反算出总体均值的函数表达式,因为总体均值仅仅是z的反函数。给定A,我们知道z的取值范围,也就知道了总体均值的变化范围。这个变化范围就是我们所说的置(自)信区间(confidence interval),例如Pr(c1<总体均值<c2)=90%,c1是5%百分位(percentile)的数值,c2是95%百分位的数值。也就是说,总体均值落在c1,c2区间的概率是90%。
于是我们可以进行假设检验:H0:总体均值=70VS H1:not H0。(assume:size=10%)。
这个时候,我们知道Pr(c1<总体均值<c2)=90%,那么只要总体均值c2我们就可以在10%的水平上推翻H0。
[情形二]我们不知道总体方差,也不知道总体均值。
再看式子(3),我们知道不能用正态分布来进行推断了,于是得用新的方法,即t分布。
根据定义,样本方差=sum(观测值i-样本均值)^2;i=1,2,1000。
样本均值=sum(观测值i)/样本数 i=1,2,……1000。
可以证明(过程复杂,需要用到正交矩阵运算),(样本方差/总体方差)符合(样本值-1)个自由度的卡方(chi-squared)分布。同时,样本方差和样本均值是独立变量。
那么构造新的t变量:t=Z/根号(卡方/自由度)。
值得注意,分子分母各是一个分式,各自的分母都带有一个未知数,即总体方差。但幸运的是,这两者互相销去。于是,t只是由总体均值唯一决定的函数。
那么我们又可以进行构造置信区间的练习。这里需要指出的是,(i)对于符合任意分布的总体而言,Z符合标准正态分布,因为样本均值是所有观测值
的“和”(乘以一个常数),只要样本数够大,中心极限定理保证了其近似于标准正态分布。(ii)但是,如果总体不符合正态部分,那么我们无法进行t检验。
因为无法保证样本方差符合卡方分布,于是也就无法保证t符合t分布。
总结一下这里的哲学。我们用了一个掌握了100%信息的样本,计算了几个值(样本均值,样本方差)。然后构造出了一个我们掌握了很大信息的统计
量Z,或t。再用这些信息去了解我们掌握了少数信息的总体。耐人寻味的地方在于,这个符合标准正态分布的统计量Z,和t,其中的信息一些来自样本,一些来
自于总体。这个我们了解一部分的量,恰恰成为我们这种统计推断的桥梁。因为直接分析总体的话,我们的信息不够--我们几乎什么都不知道。而直接分析样本,
尽管我们有充分信息,这个样本却与总体均值的关系不够紧密,我们只知道(1)式和(2)式。于是Z和t变量便起到了“曲线救国”的作用。但是,正因为如
此,我们只能说,我们有A%的把握相信,总体均值落在(c1,c2)区间内。
当缺乏更多的信息时,我们就需要增加更多的步骤,例如,构造t变量需要证明样本均值和样本方差是独立变量,还需要了解卡方分布。但是,前人们已
经发现了这样一些分布,为这种方法铺平了道路。在我看来,这些人真真正正地极大推动了人类思想史的发展。这些人如何想出卡方分布这样一个分布?如何找到正
态分布和t分布之间的关系?这些本身就值得惊叹。
[情形三]我们不知道总体的分布,也不知道任何参数。
前面说过,如果不知道总体的分布,只要知道总体方差,Z变量符合标准正态分布。但现在我们不知道总体方差,我们就甚至连参数方法都不能用了,应
该采用非参数方法(nonparametic method)或半参数方法(semi-parametric
method)。但是逻辑仍然是一致的,即需要通过一个中间的统计量来联系样本和总体,例如,位序检验(rank test),规模检验(size
test)都需要构造一个新的统计量。以上内容转载自:http://log.medcl.net/item/2013/03/rpm-t-test-f-test-and-was-statistically-significant-p-value-or-sig-value/http://
相关热词:
..........
生物秀是目前国内最具影响力的生物医药门户网站之一,致力于IT技术和BT的跨界融合以及生物医药领域前沿技术和成功商业模式的传播。为生物医药领域研究人员和企业提供最具价值的行业资讯、专业技术、学术交流平台、会议会展、电子商务和求职招聘等一站式服务。
官方微信号:shengwuxiu
电话:021-}

我要回帖

更多关于 3骰子买大小概率 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信