SAS分析 频数分析法缺失=1 什么意思

您的访问出错了(404错误)
很抱歉,您要访问的页面不存在。
1、请检查您输入的地址是否正确。
进行查找。
3、感谢您使用本站,3秒后自动跳转至网站首页Amazon CAPTCHA
请输入您在这个图片中看到的字符:
& , , Inc. or its affiliates 上传我的文档
 下载
 收藏
该文档贡献者很忙,什么也没留下。
 下载此文档
第九章 调查数据的整理与分析
下载积分:30
内容提示:第九章 调查数据的整理与分析
文档格式:PDF|
浏览次数:7|
上传日期: 15:44:15|
文档星级:
全文阅读已结束,如果下载本文需要使用
 30 积分
下载此文档
该用户还上传了这些文档
第九章 调查数据的整理与分析
关注微信公众号苹果/安卓/wp
积分 121, 距离下一级还需 24 积分
权限: 自定义头衔
道具: 彩虹炫, 涂鸦板, 雷达卡, 热点灯, 金钱卡, 显身卡下一级可获得
道具: 匿名卡
购买后可立即获得
权限: 隐身
道具: 金钱卡, 彩虹炫, 雷达卡, 热点灯, 涂鸦板
无聊签到天数: 1 天连续签到: 1 天[LV.1]初来乍到
本帖最后由 wanghaidong918 于
12:19 编辑
为了在频数表中出现全部类别,但实际发生的可能只有部分类别。但需要在缺失类别计数为0.
大家有什么好办法。
例如,有“高”“中”“低”三个类别,但实际数据中只发生“高”,如何做出频数表,包含所有预定的类别,但未发生的类别记录为0.
载入中......
本帖被以下文库推荐
& |主题: 2294, 订阅: 26
我一般的策略是使用标记数据集!
生成一个包括全分类的数据集,与现有合并!
baoaibaobao 发表于
我一般的策略是使用标记数据集!
生成一个包括全分类的数据集,与现有合并!有参考程序吗?
SAS程序员持续招聘中。。。。。
有程序可参考么
SAS程序员持续招聘中。。。。。
本帖最后由 jingju11 于
21:17 编辑
In PROC FREQ, an option SPARSE but you have to specify at least one time for those missed categories. For example:
Group /response /count
1 / medium/ 0
1 / low /0
The added lines won't impact on the frequency table but tell SAS indeed some more categories exist in the data.
input group response $
& &tables group* response/chisq sparse list out =a;
& &weight count /
复制代码
那如果low根本不出现怎么办?
SAS程序员持续招聘中。。。。。
这正是我们所要解决的问题,不是吗?如果你告诉我你的数据格式和表格的形式,一维或者二维,或许问题变得简单很多。有一点你应该清楚:SAS是死的,如果你不给它足够的信息,它不会凭空捏造的。你也不希望它可以捏造信息。
input group response $
1 high 100
1 medium 0
& &tables group* response/chisq sparse list out =a;
& &weight count /
如何把low出现在频数表中。
SAS程序员持续招聘中。。。。。
本帖最后由 jingju11 于
21:18 编辑
set old end =E
proc freq data = ---;复制代码
本帖最后由 readhistory 于
09:35 编辑
如果不用count变量,用group和response的原始值‘High’,‘Medium’,‘Low’.
如何构建数据集用下面的程序?
& &tables group* response/chisq sparse list out =a;
再比如,我还有by变量。怎么构建一个完整的,含有所有预设类别的数据集?
SAS程序员持续招聘中。。。。。
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
如有投资本站或合作意向,请联系(010-);
邮箱:service@pinggu.org
投诉或不良信息处理:(010-)
论坛法律顾问:王进律师iData_运用SAS对不完整数据集进行多重_省略_的多重填补及其统计分析过程_-博泰典藏网
典藏文档 篇篇精品
iData_运用SAS对不完整数据集进行多重_省略_的多重填补及其统计分析过程_
导读:中国卫生统计2004年2月第21卷第1期?计算机应用?,运用SAS对不完整数据集进行多重填补―――SAS9中的多重填补及其统计分析过程(,第二军医大学卫生统计学教研室(200433)曹阳张罗漫,在所有的实验研究和调查研究领域,数据缺失是一个普遍存在的问题,缺失数据会增加分析任务的复杂性、造成结果偏倚、降低统计工作的效率,完全观测与不完全观测之间存在系统差异的情况下,运用常规统计分析方法对不完整?56?中国卫生统计2004年2月第21卷第1期 ?计算机应用?运用SAS对不完整数据集进行多重填补―――SAS9中的多重填补及其统计分析过程(一)第二军医大学卫生统计学教研室(200433) 曹 阳 张罗漫  在所有的实验研究和调查研究领域,数据缺失是一个普遍存在的问题。缺失数据会增加分析任务的复杂性、造成结果偏倚、降低统计工作的效率。尤其是在完全观测与不完全观测之间存在系统差异的情况下,运用常规统计分析方法对不完整数据集所做出的结果,不能代表整体。在近二、三十年来,多重填补(mul-tipleimputation,MI)方法被认为是解决这一问题的首选方法,该方法由DonaldB.Rubin在20世纪70年代首先提出〔1,2〕。与通常用平均值代替缺失值或其他简单填补(simpleimputation)方法的不同之处在于,MI方法对每一个缺失值用一套可能的值进行填补,以反映缺失值的不确定性,从而产生若干个完整数据集;然后,用针对完整数据集的统计方法对每一个填补数据集分别进行统计分析,把得到的结果进行综合,进而产生最终的统计推断(图1)。这种方法能够反映出由于数据缺失造成的统计推断结果的不确定性〔3〕。随着计算方法的不断成熟和相应统计软件(如Amelia、So-las、Norm、Iveware和Emcov等)的出现,该方法已被越来越多地应用于生物医学、行为科学和社会科学领域。由用户定义)。它所使用的方法结合了这m个数据集中的变异性。在对每一个填补数据集用SAS/STAT中的标准过程进行分析之后,就可以用MIANALYZE过程进行综合统计推断。MI过程中提供了3种方法对缺失值进行填补。对于单调缺失(monotonemiss-ing)模式,可使用基于多元正态性假设的参数回归方法或采用趋势得分(propensityscore)的非参数方法;对于任意缺失(arbitrarymissing)模式,可使用基于多元正态性假设的马尔科夫链蒙特卡罗(Markovchain5〕MonteCarlo,MCMC)方法〔4.。在SAS8中,MI和MIANALYZE过程还只是两个实验过程,所以在SAS的用户参考手册中并没有对其进行介绍。在SAS9中,MI和MIANALYZE已经成为STAT模块中的两个正式过程。和SAS8相比,SAS9的MI过程中,对MCMC和MONOTONE语句新增加了REGPMM选择项,可以用预测均数匹配(predictivemeanmatching)法把一个缺失值用接近预测值的数值进行填补。此外,还增加了CLASS语句,对分类变量进行定义。在MONOTONE语句中,新增加了LOGISTIC和DISCRIM选择项,分别用Logistic和判别方法填补缺失值。DATA=选择项的功能也得到了增强,在输出数据集时可以同时包括每一个观测的参数估计值和相应的标准误。SAS9的MIANA-LYZE过程中,新增加了TEST和CLASS语句。下面,对这两个过程分别加以介绍〔6〕。MI过程简介MI过程的语句构成及语法如下:PROCMI;  BY变量名或变量列表;  CLASS变量名或变量名列表;图1 多重填补步骤及其统计推断原理  在SAS/STAT软件中,从8.0版本中开始引入对缺失数据进行多重填补及其统计分析的MI和MI-ANALYZE两个过程,并在8.1和8.2版本中对这两个过程的功能做了进一步修订。MI过程用于对含有p个变量的不完全数据集产生m个填补数据集(m值  EM;  FREQ变量名;  MCMC;  MONOTONE;  TRANSFORM变换方法(变量名或变量列表)<...变换方法(变量名或变量列表)>;ChineseJournalofHealthStatistics,February2004,Vol.21,No.1?57?  VAR变量名或变量列表;BY语句指明了分组变量,MI过程根据这一变量将数据集分成若干组分别进行多重填补。CLASS语句是SAS9中新增添的语句,它定义了VAR语句中的哪一个变量是分类变量,这一变量可以是数字型也可以是字符型。EM语句是在假设数据集服从多元正态分布的基础上,根据EM(expectationandmaximization)法则计算含有缺失值数据集的极大似然估计。FREQ语句指明了频数变量,该变量表示了数据集中其他变量的每一个观测值出现的次数。MCMC语句指明对于任意缺失模式的数据集,基于数据服从多元正态性假设,采用MCMC方法进行填补。MONOTONE语句用于对单调缺失模式数据集中的连续型变量或CLASS语句中指明的分类变量进行填补,既可以使用参数的回归方法,也可以用基于趋势得分的非参数方法。MCMC语句和MONOTONE语句不能同时使用。如果程序中没有使用这两条语句,默认使用的是MCMC方法。TRANSFORM语句指明了在填补过程之前进行变量变换的变量。在填补数据集之前,填补值被转换回原来的数量单位。VAR语句指明了要进行分析的变量。如果省略了VAR语句,则对所有的数值型变量都进行分析。在MI过程中,可以只使用一句PROCMI语句。MI过程中主要选择项的说明1.PROCMI语句中的选择项(1)ALPHA=α,指明在进行均数的区间估计时,其置信水平为(1-α)×100%,0<α<1,缺省值为α=0.05。(2)DATA=数据集名称,指明MI过程进行分析的数据集,缺省状态下,使用最近一次创建的数据集。(3)MAXIMUM=数值1,指明对变量进行填补时,填补值的上限,如果将要填补的值超了这一上限,MI过程将重新抽取一个填补值。如果只定义了一个数值,则所有变量的填补值的上限都由这一数值决定。如果定义了一个以上的数值,则该选择项必须配合VAR语句一起使用,数值的顺序与VAR语句中的变量名一一对应。缺失值“.”表示对应的变量的填补值没有限制。缺省状态下是“MAXIMUM=.”,即对所有变量的填补值没有上限限制。MAXI-MUM=选择项与MINIMUM=、ROUND=选择项相关联,这些选择项可以让填补值和观察到的变量值更趋于一致。只有在使用单调回归方法或没有PMM选择项的MCMC方法时才能使用这些选择项。如果只对第一个变量定义了填补值的上限,则必须在这个值后面定义一个缺失值,否则MI过程会对所有的变量都使用这一限制。例如“MAXIMUM=100.”表示只对第一个变量设置最大填补值为100的限定,而对后面的所有变量的填补值没有限定。“MAXIMUM=.100”表示只对第二个变量设置最大填补值为100的限定,而对其他变量的填补值没有限定。(4)MINIMUM=数值1,指明对变量进行填补时,填补值的下限,其使用说明同MAXI-MUM=。(5)NIMPUTE=数值,定义填补的次数,默认为5次。可设置NIMPUTE=0,不对数据集进行填补,而只显示数据缺失模式、简单的描述性统计量和期望最大化估计值。(6)OUT=数据集名称,创建经过填补后的数据集。在这一数据集中增加了一个索引变量“-Imputa-tion-”,用于指明是第几次填补。在每一次填补中,原始数据集中的缺失值都被填补值替换。(7)SEED=数值,设定一个正整数值,MI过程使用这一数值作为伪随机数的种子。缺省状态的取值是通过计算机当时的时间计算出的数值。如果为了在同样的条件下重复结果,必须在每次分析时使用同样的种子,而不能依赖于计算机的时间。(8)SIMPLE,显示简单的单变量描述性统计量和通过可利用的观测计算得到的变量间的两两相关系数。(9)SINGULAR=p,这是SAS9中新增添的选择项,它确定了标准化变量的协方差矩阵奇异性评判标准,默认值是SINGULAR=1E-8。2.EM语句中的选择项EM法则是一种用于不完整数据集参数模型中极大似然估计的技术。EM语句要求对一个含有缺失值的数据集,在多元正态分布假设基础上,计算均数和协方差矩阵的极大似然估计。MI过程用可利用观测或完整观测的均数和标准差作为EM法则的初始估计值。在EM语句中可以使用下面的选择项:(1)CONVERGE=p,设置收敛标准,0<p<1。当各次迭代间的参数估计值的变化小于p时,可以认为迭代是收敛的。当参数的绝对值大于0.01时,变化是指迭代间的相对变化,否则指的是绝对变化。缺省状态下,p值为0.0001。(2)MAXITER=正整数值,指定EM法则的最大迭代次数,缺省值是MAXITER=200。3.MCMC语句中的选择项MCMC语句定义了运用MCMC方法进行填补时?58?中国卫生统计2004年2月第21卷第1期 的具体内容,可以使用的主要选择项如下:(1)CHAIN=SINGLE MULTIPLE,指明是对所有的填补使用同一条链,还是每次填补使用单独的链。缺省值是CHAIN=SINGLE。(2)IMPUTE=FULL MONOTONE,指明是对所有的缺失数据进行填补,还是只对部分缺失数据进行填补以把数据集转换成单调缺失模式。缺省值是IM-PUTE=FULL。当指明了IMPUTE=MONOTONE时,按照VAR语句中列出的变量顺序把数据集填补为单调缺失模式。(3)INITIAL=EM,指明MCMC过程中初始的均数和协方差估计值。缺省值为INI-TIAL=EM,即使用EM的估计值作为MCMC过程的初始值。(4)OUTEST=数据集名称,创建一个TYPE=EST的数据集,用于存放每一次填补后的参数估计值。在这个数据集中有一个-Imputation-变量,用于表示是哪一次填补的结果。(5)OUTITER=数据集名称,创建一个TYPE=COV的数据集,其中存放了填补步中每一次迭代使用的参数。数据集中用-Imputation-和-Iteration-分别表示填补的次数和迭代的次数。可使用的选择项有MEAN、STD、COV、LR、LR-POST和WLF,分别表示均数、标准差、协方差、-2logLR值、后验模型的-2logLR值以及最差线性函数值。如果没有对选择项进行定义,数据集中只存放每次迭代所使用的均数。4.MONOTONE语句中的选择项MONOTONE语句中指明了对单调缺失的数据集的填补方法。在使用这个语句时,必须使用VAR语句,而且被填补数据集中呈现单调缺失模式的变量的顺序必须与VAR语句中所列出的变量顺序相一致。当同时使用MCMC语句和MONOTONE时,MI过程不执行MCMC语句。MONOTONE语句中可使用的选择项如下:(1)DISCRIM<(被填补变量)>,用判别函数方法填补分类变量。要与CLASS语句一起使用。(2)LOGITIC<(被填补变量)>,用Logistic回归方法填补分类变量。要与CLASS语句一起使用。(3)REG REGSSION<(被填补变量)>,用回归方法填补连续变量。DETAILS选择项用于显示每一次填补中回归模型的回归系数。当使用回归方法时,可以在ROCMI语句中使用MAXIMUM=、MINIMUM=和ROUND=等选择项,以使填补值与观测值更加一致。用。(4)REGPMM REGPREMEANMATCH<(被填补变量)>,用预测均数匹配法填补连续变量。(5)PROPENSITY<(被填补变量)>,用趋势得分法填补连续型变量或分类变量。5.TRANSFORM语句TRANSFORM语句定义了数据变换的方法和进行变换的变量。在MI过程使用回归方法和MCMC方法时,假设数据服从多元正态分布。有时数据集中有些变量明显不服从正态分布,这时应该把它们转换成服从多元正态分布。使用了TRANSFORM语句之后,指定的变量在填补前进行了变换,过程中显示的所有结果都是变换后的数值。如果定义了OUT=选择项,则相应的变量被反变换后再创建填补后的数据集。可用使用的变量变换方法有:(1)BOXCOX,Box-Cox变换,原变量Y被转换为λ(Y+c)-1,其中c是一个常数,使得Y+c>0,λλ是个大于0的常数;(2)EXP,指数变换,原变量Y被转换为e是常数;(Y+c),c(3)LOG,对数变换,原变量Y被转换为log(Y+c),其中c是常数,使得Y+c>0;(4)LOGIT,logit变换,原变量Y被转换为log(Y/c),c是大于0的常数,并且0<Y/c<1;1-Y/c(5)POWER,幂变换,原变量Y被转换为(Y+λc),其中c是常数,使得Y+c>0,λ是不等于0的常数。涉及c和λ的地方可用C=数值和LAMBDA=数值这两个选择项。实  例结合下面的数据集,对SAS中的MI过程加以应*------一个关于健康状况的数据集-----*
本数据集是根据一些男性健康状况的数据改编的虚拟数据集, 数据集中的变量分别为: Oxygen(氧气摄入量,ml/公斤体重/分钟), Time(跑完2.4公里所花费的时间,单位为分钟), Rate(奔跑时的心率)。*----------------------------*;dataEinputOxygen TimeRate@@;43.509 10.27 175 44.313 10.14 182(下转第63页)ChineseJournalofHealthStatistics,February2004,Vol.21,No.1?63?些国家把它作为国家形象来抓,如美国、英国、日本、荷兰等地区电子病历已有了相当程度的研究和应用。国际上,公认电子病历应当具有三个内涵〔4〕:第一具有信息共享系统:医院的各个部门、科室在任何地方、任何时候都能调阅到病人所在医院的全部病历记录;第二具有预警系统:药物配制禁忌、医疗方法不正当的提示,是医疗的智能化;第三医疗信息资料库支持:内有电子图书、电子杂志以及关于病例治疗最新方法。在国内,电子病历开发和应用虽然频见媒体,但还没有真正意义上的电子病历,尚处起步阶段。电子病历是一个涉及医学、医疗设备、法规、加/脱密技术、计算机和网络技术等多领域的综合性大项目,综合性强、技术性高,需要政府、企业、科技人员等广泛参与,摆脱低层次重复,科学规划,分步实施。参 考 文 献1.卫生部和国家中医药管理局.医疗机构病历管理规定.http://www./yzgl/index.htm.2.中国人民解放军总后勤部卫生部.医疗护理技术操作常规.第4版.人民军医出版社,1998,8.3.刘志文,吴一民.基于XML标准的电子病历实现技术.微型机与应用,-39.4.北京尚无电子病历只是病历电脑化管理./11/30/harticle.shtml.足病历在存储、传输、操作等方面需要的,特别是具有数据库DBA(DataBaseAdministration)权限的用户可以任意察看、篡改病历内容。一种可行的解决办法是:对病历段的内容、签名、日期等关键字段进行加密和保护,使没被授权的用户看不懂病历―――实现保密,恶意篡改会破坏密文甚至使之不能正确脱密还原―――留下痕迹,从而实现了保密和防篡改。病历的加/脱密算法应该保密性强、速度快,其使用对合法用户而言是透明的、觉察不到的。5.病历检索对数字病历的要求在病历(病案)检索方面,病历检索人员不关心病历被修改了几次、做了什么修改,而关心修改后的终稿。这就要求电子病历系统能够在计算机内部对病历信息进行“组装”:去掉被删除的部分,插入(含增加)修改时增加的部分,替换掉被替换的部分,生成用于检索的内容。文本具有比图片、特殊标记高得多的检索价值。另外,电子病历的开发还要关注到互联网的普及,以便支持医师在互联网上书写病历;不能指望每位医师都是打字高手,应该尽可能减少格式性、重复性、关联性内容的输入工作量,使医疗质量和工作效率都得到提高;电子病历的使用也要得到相关法规和部门的支持和认可。电子病历的研究开发已经得到了国际范围的广泛关注,一(上接第58页)55.018 8.73 163 59.571 .   .48...12.04177.60.24737...13611.02.9.0113.929.04171183.17839.0.724..45.2.1.6..ample进行多重填补的最基本的程序如下:procmidata=Exampleseed=1000out=outEvarOxygenTimeR程序运行结果略。原来的数据集被填补了5次,输出到名为outExp的数据集中。参 考 文 献1.RubinDB.Multipleimputation:aprimer.StatisticalMethodsinMedicalResearch,):3-15.2.RubinDB.Inferenceandmissingdata.Biometrika,):581-592.3.JamesMR.Inferenceforimputationestimators.Biometrika,):113-124.4.BarnardJ,RubinDB.Small-sampledegreesoffreedomwithmultipleim-putation.Biometrika,):948-955.5.RosenbaumPR,RubinDB.Thecentralroleofthepropensityscoreinob-servationalstudiesforcausaleffects.Biometrika,):41-55.6.SASInstituteInc.SAS/STAT9User'sGuide.NorthCarolina:SASIn-stituteInc,2003.46.924.10.13.9.1589.17.13.1.6515117145..45...9.5218647.;50.假设数据集中的数据服从多元正态分布,而且数据缺失模式为任意缺失。运用MI过程对数据集Ex-包含总结汇报、行业论文、高中教育、计划方案、农林牧渔、旅游景点、出国留学、求职职场以及iData_运用SAS对不完整数据集进行多重_省略_的多重填补及其统计分析过程_等内容。
相关内容搜索}

我要回帖

更多关于 频数分析 x 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信