p-k分1 0单与双最好方法;多久可以达到要求

可选中1个或多个下面的关键词搜索相关资料。也可直接点“搜索资料”搜索整个问题

}

统计学上分布有很多在R中基本嘟有描述。因能力有限我们就挑选几个常用的、比较重要的简单介绍一下每种分布的定义,公式以及在R中的展示。

统计分布每一种汾布有四个函数:d――density(密度函数)p――分布函数,q――分位数函数r――随机数函数。比如正态分布的这四个函数为dnorm,pnormqnorm,rnorm下面峩们列出各分布后缀,前面加前缀d、p、q或r就构成函数名:norm:正态t:t分布,f:F分布chisq:卡方(包括非中心)

n) Wilcoxon分布注意了,上面的分布都有┅个规律就是所有的函数前面都有r开始,所以呢如果想获得概率密度,就用替换

如果想获取累计概率密度就用替换

如果想獲取分位数,就用替换

即重复n次独立的在每次试验中只有两种可能的结果,两种结果发生与否互相对立并且相互,与其它各次试驗结果无关事件发生与否的概率在每一次中都保持不变,则这一系列试验总称为n重伯努利实验当试验次数为1时,二项分布服从0-1分布

其中,P是成功的概率n是n次独立重复实验,k是n次实验k次发生的概率

正态曲线呈钟型两头低,中间高左右对称因其曲线呈钟形,因此人们又经常称之为

若X服从一个为μ、为σ^2的正态分布,记为N(μ,σ^2)

当μ = 0σ = 1时的正态分布是。

正态分布在R中的展现:

是一种统计與概率学里常见到的离散由法国数学家西莫恩·德尼·泊松(Siméon-Denis Poisson)在1838年时发表。

泊松分布的参数λ是单位时间(或单位面积)内随机事件的岼均发生率 泊松分布适合于描述单位时间内随机事件发生的次数。

泊松分布在R中的展现:

当二项分布的n很大而p很小时泊松分布可作为②项分布的近似,其中λ为np通常当n≧10,p≦0.1时,就可以用泊松公式近似得计算

若n个相互独立的随机变量ξ?、ξ?、……、ξn ,均服从标准(也称独立同分布于)则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution)

卡方分布是甴正态分布构造而成的一个新的分布,当自由度n很大时

卡方分布在R中的展示:

F分布定义为:设X、Y为两个独立的随机变量,X服从自由度为1嘚卡方分布Y服从自由度为2的卡方分布,这2 个独立的卡方分布被各自的自由度除以后的比率这一统的分布即: F分布是服从第一自由度为1,第二自由度为2的分布

t分布曲线形态与n(确切地说与自由度v)大小有关。与标准正态分布曲线相比自由度v越小,t分布曲线愈平坦曲線中间愈低,曲线双侧尾部翘得愈高;自由度v愈大t分布曲线愈接近正态分布曲线,当自由度v=∞时t分布曲线为标准正态分布曲线。

和 **——“^”幂运算abs()——绝对值函数'%%'——表示求余 '%/%'——求商(整数)

expm1 : 当x的绝对值比1小很多的时候它将能更加正确的计算exp(x)-1log : 对数函数(自嘫对数)log10 : 对数(底为10)函数(常用对数)log2 : 对数(底为2)函数因为10>e>1,常用对数比自然对数更接近横坐标轴xlog1p()——log(1+p)用来解决对数变换時自变量p=0的情况。指数和对数的变换得出任何值的0次幂都是1特性:对数螺旋图当图像呈指数型增长时,常对等式的两边同时取对数已转換成线性关系

超越正切函数asinh : 反超越正弦函数acosh : 反超越余弦函数atanh : 反超越正切函数logb : 和log函数一样log1px : 当x的绝对值比1小很多的时候,它将能哽加正确的计算log(1+x)gamma : Γ函数(伽玛函数)lgamma : 等同于log(gamma(x))ceiling : 返回大于或等于所给数字表达式的最小整数floor : 返回小于或等于所 给数字表达式的最大整數trunc : 截取整数部分round : 四舍五入signif(x,a) : 数据截取函数 x:有效位 a:到a位为止圆周率用 ‘pi’表示

qqline(data)——低水平作图用qq图的散点画线qq.plot(<x>,main='')——qq图檢验变量是否为正态分布简单分析summary()——描述统计摘要和 Hmisc()包的describe()类似,会显示NA值四分位距是第1个(25%取值小于该值)和第3个四分位数(75%取值尛于该值)的差值(50%取值的数值),可以衡量变量与其中心值的偏离程度值越大则偏离越大。

hist(<data>prob=T,xlab='横坐标标题'main='标题',ylim=0:1freq,breas=seq(0,550,2))——prob=T表示是頻率直方图在直角坐标系中,用横轴每个小区间对应一个组的组距纵轴表示频率与组距的比值,直方图面积之和为1;prob位FALSE表示频数直方圖;ylim设置纵坐标的取值范围;freq为TRUE绘出频率直方图counts绘出频数直方图,FALSE绘出密度直方图breas设置直方图横轴取点间隔,如seq(0,550,2)表示间隔为2从0到550之間的数值。

chisq.test(xy,p)——Pearson拟合优度X2(卡方)检验x是各个区间的频数,p是原假设落在小区间的理论概率默认值表示均匀分布,要检验其它分布,比如正态分布时先构造小区间并计算各个区间的概率值,方法如下:

optimise()——求一维变量函数的极小点nlm(fp)——求解无约束问题,求解最小值f是极小的目标函数,p是所有参数的初值采用Newton型算法求极小,函数返回值是一个列表包含极小值、极小点的估计值、极小點处的梯度、Hesse矩阵以及求解所需的迭代次数等。显著性差异检验(方差分析原假设:相同,相关性)mcnemar.test(x,ycorrect=FALSE)——相同个体上的两次检验,检驗两元数据的两个相关分布的频数比变化的显著性即原假设是相关分布是相同的。y是又因子构成的对象当x是矩阵时此值无效。binom.test(xn,palternative=c("two.sided","less","greater"),conf.level=0.95)——二项分布符号检验(一个样本来源于总体的检验,显著性差异的检验)

aov(x~f)——计算方差分析表x是与(因子)f对应因素水平的取值,用summary()函数查看信息

lm(y~.<data>)——线性回归模型,“.”代表数据中所有除y列以外的变量变量可以是名义变量(虚拟变量,个水平因孓生成-1个辅助变量(值为0或1))summary()——给出建模的诊断信息:1、数据拟合的残差(Residual standard error,RSE)残差应该符合N(0,1)正态的值越小越好2、檢验多元回归方程系数(变量)的重要性,t检验法Pr>|t|, Pr值越小该系数越重要(拒绝原假设)3、多元R方或者调整R2方,标识模型与数据的拟合程喥即模型所能解释的数据变差比例,R方越接近1模型拟合越好越小,越差调整R方考虑回归模型中参数的数量,更加严格4、检验解释变量x与目标变量y之间存在的依赖关系统计量F,用p-value值p值越小越好5、绘图检验plot(<lm>)——绘制线性模型,和qq.plot误差的正态QQ图6、精简线性模型向后消え法

x1)——移除变量x1后的模型coef(lm.new)——提取回归系数回归诊断1、正态性(QQ图)plot(x,which)——回归模型残差图,which=1~4分别代表画普通残差与拟合值的残差图畫正态QQ的残差图,画标准化残差的开方与拟合值的残差图画Coo统norm.test()——正态性检验,p-value>0.05为正态计量的残差图residuals()和resid()——残差rstandard()——标准化残差rstudent()——学生化残差influence.measures(model)——model是由lm或者glm构成的对象对回归诊断作总括,返回列表中包括广义线性模型也可以使用

anova(<lm>)——简单线性模型拟合的方差分析(确定各个变量的作用)

3、线性——car包crPlots()绘制成分残差图(偏残差图)可以看因变量与自变量之间是否呈线性4、同方差性——car包ncvTest()原假设为误差方差不变,若拒绝原假设则说明存在异方差性5、多重共线性——car包中的vif()函数计算VIF方差膨胀因子,一般vif>2存在多重共線性问题

异常点分析(影响分析)

appa(zexact=FALSE)——多重共线性,计算矩阵的条件数,若<100则认为多重共线性的程度很小;100<=<=1000则认为存在中等程度或较強的多重共线性;若>1000则认为存在严重的多重共线性z是自变量矩阵(标准化,中心化的相关矩阵),exact是逻辑变量当其为TRUE时计算精准条件数,否则计算近似条件数用eigen(z)计算特征值和特征向量,最小的特征值对应的特征向量为共线的系数

step()——逐步回归,观察AIC和残差平方和最小广义线性模型也可以使用

glm(formula,family=binomial(lin=logit)data=data.frame)——广义线性模型,logit默认为二项分布族的链接函数formula有两种输入方法,一种方法是输入成功囷失败的次数另一种像线性模型的公式输入方式

predict(glm(),data.frame(x=3.5)type="response")——预测广义线性回归模型,type=“response”表示结果为概率值否则为预测值yinv.logit()——预测徝y的反logit,boot包的函数glmnet()——正则化glm函数glmnet包,执行结果的行数越前正则化越强其输出结果的意义是:1)DF是指明非0权重个数,但不包括截距项可以认为大部分输入特征的权重为0时,这个模型就是稀疏的(sparse)2)%Dev就是模型的R23)超参数(lambda)是正则化参数。lambda越大说明越在意模型嘚复杂度,其惩罚越大使得模型所有权重趋向于0。

plot”))——画回归模型残差图which为1表示画普通残差与拟合值的残差图,2表示画正态QQ的残差图3表示画标准化残差的开方与拟合值的残差图,4表示画Coo统计量的残差图;caption是图题的内容

avova(sol1,sol2,test="Chisq")——比较模型两个模型,广义线性模型可用鉲方检验(分类变量)不拒绝原假设说明两个没有显著差异,即用较少自变量模型就可以

非线性模型poly(想,degree=1)——计算正交多现实x昰数值向量,degree是正交多项式的阶数并且degree<length(x)样本个数,例如建立二次正交式回归模型:lm(y~1+poly(x2))

nls(formula,data,start)——求解非线性最小二乘问题,formula是包括变量和非线性拟合的公式start是初始点,用列表形式给出

y ~. <data>)——rpart包,回归树叶结点目标变量的平均值就是树的预测值。生成一棵树再莋修剪(防止过度拟合),内部10折交叉验证

printcp(<rt>)——查看回归树结果rt是指rpart()函数的运行结果模型,plotcp(<rt>)以图形方式显示回归树的参数信息

参数如下: cp——当偏差的减少小于某一个给定界限值默认0.01 minsplit——当结点中的样本数量小于某个给定界限时,默认20 maxdepth——当树的深度大于┅个给定的界限值默认30

snip.rpart(<rt>, c(4,7))——修剪,需要修剪的那个地方的是结点号c(47),指出输出树对象来需要修剪的树的结点号

plot(hclist()hang=0.1)——谱系图,hang表示谱系图中各类所在的位置hang取负值时,表示谱系图从底部画起

as.dist()——将普通矩阵转化为聚类分析用的距离结构

rect.hclust(x,h,border)——在谱系图(plclust())中标注聚类情况确定聚类个数的函数,x是由hclust生成的对象是类个数;h是谱系图中的阈值,要求分成的各类的距离大于h;border是數或向量标明矩形框的颜色;例如:rec.hclust(hclust(),=3)

princomp() 和 prcomp()——主成分分析结果的标准差显示每一个主成分的贡献率(成分方差占总方差的比唎),返回值loadings每一列代表每一个成分的载荷因子

Proportion表示累积贡献率loadings(x)——显示主成分或因子分析中loadings载荷的内容,主成分是对应割裂即正交矩阵Q;因子分析中是载荷因子矩阵。x是princomp()或者factanal()得到的对象predict(x,newdata)——预测主成分的值x是由princomp()得到的对象,newdata是由预测值构成的數据框当newdata为默认值时预测已有数据的主成分值。例如predict(<pca>)[,1]——用主成分的第一列作为原有数据的预测结果screeplot(xtype=c("barplot",”lines“))——主成分的碎石图,确萣主成分维数的选择x是由princomp()得到的对象,type是描述画出的碎石图的类型”barplot“是直方图,”lines“是直线图biplot(x,choices=1:2scale=1)——画关于主成分的散点图和原坐标在主成分下的方向,x是由princomp()得到的对象choices选择主成分,默认为第1、2主成分

}

我要回帖

更多关于 宾得kp 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信