多元统计学题目与SAS题目

课程:多元统计分析 班级:11级统計本科 共2页

一、填空题(共20分每题2分)

1、多元统计分析是数理统计学题目的一个重要分支,其在诸多领域中都有着广泛的应用它是处理多維数据不可缺少的 。

2、应用多元统计分析解决实际问题时要按研究的 和要求设计好指标体系。

3、在计算机方面为了做到学以致用,本課程要求学生 SAS 程序及输出能上机操作即可,……

4、连续型随机向量的统计性质可由它的 完全确定

5、 距离具有优点:消除了指标量纲的影响,指标间相关性的影响

6、某班随机抽取3个学生A 、B 、C ,量其身高体重资料如下:A 的身高为1.65米,体重为120斤;

B 的身高为1.75米体重为150斤;

C 嘚身高为1.56米,体重为110斤;则观测矩阵为:????

?=X 7、设n 为总体G 中抽取的样品个数,S 为相应样本离差阵常采用 来估计Σ。 8、Wishart 分布是一元统计中 分布茬p 维正态情况下的推广。

9、20世纪40年代多元统计在心理学、教育学、生物学等方面有不少的应用,但由于计算量大使其发展受到影响,甚至 了相当长的时间

10、在聚类分析的实际问题中,对指标分(聚)类常用 二、简答题(共20分,每题5分)

1、 什么叫多元统计分析

2、一元统计分析中有关概念和性质与多元统计分析中相应概念和性质的关系。

3、 设二元随机变量的密度函数?????≤+=其它

设p 维随机向量X =( X 1,…,X p )′其均值向量为μ,协差阵∑正定,请根据矩阵、向量的运算特点,参照一元正态分布的密度函数,“依葫芦画瓢”地猜出X 的密度函数

三、论述题(共20分,每題10分)

1、简述用多元统计分析方法解决问题的5个步骤

2、从论文“我国农村 居民生活质量 类型的分析—基于2004年数据”,请您在范围、内容、方法、时间的变化上提出四个不同的论文题目 四、计算题(共30分,每题15分)

1、设有五个样品每个样品只有一个指标,观测结果为12,4.37,9试用最长距离法对五个样

}

格式:DOCX ? 页数:9页 ? 上传日期: 10:23:30 ? 浏览次数:95 ? ? 3000积分 ? ? 用稻壳阅读器打开

全文阅读已结束如果下载本文需要使用

该用户还上传了这些文档

}

本文主要对SAS做聚类分析的proc cluster步的应鼡做一个简单的摘录相关的理论知识细节,请参见SAS help文档及其他统计学题目相关文献等

proc cluster一般适用于规模较小的样本观测聚类(即Q型聚类)。proc cluster为系统聚类包括11种方法,根据“距离”作为分类标准

data= 指定聚类过程的输入数据集。该数据集可以是观测样本(坐标数据)也可鉯是类型“type=distance”的数据集,数据被认为是类间(或观测间)的距离阵

standard|std 把聚类变量的坐标数据标准化均值为0、标准差为1,然后进行聚类分析该选项仅用于坐标数据集。

聚类分析中样本间的聚类通常是采用欧氏距离,为消除变量不同量纲对聚类分析的影响通常进行标准化嘚处理。

这两个统计量是用来帮助确定分类个数的R^2越大表示各个类区分的越开,聚类效果越好而又不能以 的大小简单的确定分类个数,应考察 值的变化即半偏 ,即上一步 与该步 之差若某步半偏 较大,说明本次并类效果不好应当考虑聚类到上一步是否应停止。

这两個统计量同样是用来帮助确定分类个数的类似R^2和半偏R^2,伪F统计量值越大分来效果越好;若某步伪T统计量值较大说明该步并类效果不好,应当考虑聚类到上一步是否应停止

print|p=k 指定cluster history显示的分类数,即只列出最后合并为k类直到合并为1类得信息

copy语句 把“data=”数据集中,id和var语句未列出变量复制到“outtree=”指定的数据集中。

id语句 标识过程中的观测缺省是用观测序号标识。

var语句 列出聚类分析中用到的语句

摘用《统计汾析与SAS》(张晓冉 编著)的例11.1.1问题:根据2004年我国31个省市农民人均年生活消费支出情况,进行分类数据参见下数据集(数据单位:元)。

嘚到聚类历史如下图(其中省略了一些中间的历史记录):

Cluster History中的变量依次表示分类的类数、原分类、每步合并入的类、此步类中的观测数、半偏R平方、R平方、伪F统计量伪T统计量。

如前介绍系统聚类法首先将所有样本观测各独自视为1类,然后逐步合并至只有1类本例中,鼡ward法样本观测就是31个省市:初始时有31类;第1步将重庆、四川合为1类,其他29个省市仍各自为1类记30类;第2步将江西、湖北合为1类,记29类;依次类推注意,上图NCL=8时即记8类时,是将之前记的13类和西藏合并得到的

接下来,下图描述了伪F统计量伪T统计量的情况,为我们判断確定分类组数提供了初步参考如可以看出:在类数为5—15的区间内,伪F统计量都相对小些;在类数为1、4、5等处伪T统计量相对较大。

下面为确定分类数,对Cluster History进行详细分析
我们人为假定分类数不应超过8,则对Cluster History的最后8次合并分析即可根据半偏R平方、伪F统计量,伪T统计量嘚到的前4中最好分类为:

  • 对半偏R^2,前面介绍到“若某步半偏R^2较大说明该步并类效果不好,应当考虑聚类到上一步是否应停止”在最后8佽并类中,半偏R^2最大为0.6754在NCL=1时得到,考虑在上一步停止分类即分类数为2;半偏R^2第二大为0.1317,在NCL=2时得到考虑在上一步停止分类,即分类数為3;依次类推得到最好分类数依次为:2,3,4,5,6。
  • 伪F统计量其统计量值越大分来效果越好,很容易排序得到最好分类数依次为:2,3,4,5,6
  • 伪T统计量,類似于半偏R^2若某步较大,说明该步并类效果不好应当考虑聚类到上一步是否应停止。得到最好分类数依次为:2,3,5,6,8

另外,若我们再假定汾类数应大于3则分类数大致可以为4,5,6。至于如何最终确定分类数可以参考其他聚类方法结果、画出树状图等,综合考虑个人作出判断,这里选定分类数为5

最后,根据数据集result可以得到将31个省市分为5类分别是:

  • 第一类:重庆 四川 江西 湖北 安徽 河南 贵州 云南 陕西 甘肃 广西 鍸南 海南 西藏
  • 第二类:河北 黑龙江 内蒙古 吉林 青海 新疆 辽宁 宁夏 山西 天津
  • 第三轮:福建 广东 江苏 山东

汇总数据集如下,即得到各个类各消費情况的平均水平及总和:

}

我要回帖

更多关于 统计学题目 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信