多元统计分析及实例讨论

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

系列1 系列2 系列3 系列4 系列5 系列6 系列7 系列8 系列9 系列10
例1(EXCEL)----变量
35 30 25 20 15 10 5 0 1 2 3 4 5 6 7 8 9 10 系列1 系列2 系列3
我们直观地来看,这个分类是否合理? 计算4号和6号得分的离差平方和: (21-20)2+(23-23)2+(22-22)2=1 计算1号和2号得分的离差平方和: (28-18)2+(29-23)2+(28-18)2=236 计算1号和3号得分的离差平方和为482,由此可 见一般,分类可能是合理的,欧氏距离很大的应聘 者没有被聚在一起 聚类分析基本思想简介
*
F3
0.156 0.515 * 0.223 0.750 0.102
*
F4
-0.113 -0.006 -0.148 0.076 0.468 -0.17 -0.079 0.217 0.141 0.934
*
共同度 0.84 0.7 0.81 0.65 0.87 0.62 0.72 0.66 0.57 0.89
>> S=squareform(Y)
# 输入数据X(30*3)矩阵#
#计算观察值两两之间的距离#
# 将pdist的输出转换为方阵(可略)#
>> Z = linkage(Y,’ single’)
>> H=dendrogram (Z)
#生成聚类树#
#画聚类树图#
葡萄酒评价及相关统计问题 ——2012全国大学生数学建模竞赛A题 A题 葡萄酒的评价
例2:家庭特征与家庭消费之间的关系
为了了解家庭的特征与其消费模式之间的关 系。调查了70个家庭的下面两组变量:
x1:每年去餐馆就餐的频率 x2:每年外出看电影频率
y1:户主的年龄 y2:家庭的年收入 y :户主受教育程度 3
分析两组变量之间的关系。
典型变量的结构(相关系数)
应聘者 1 2 3 4 5 6 7 8 9 10
X
Y Z
28 18 11 21 26 20 16 14 24 22
29 23 22 23 29 23 22 23 29 27 28 18 16 22 26 22 22 24 24 24
例1(EXCEL)----样品
35 30 25 20 15 10 5 0 1 2 3
1 0.42 0.51 0.49 0.52 0.31 0.36 0.21 1 0.38 0.19 0.36 0.73 0.24 0.44 1 0.29 1 1 0.46 0.34
0.27 0.17 0.32 0.39 0.23 0.33 0.17 0.13 0.18
0.09 0.08 0.18 0.39 0.01
分 析
1. X1:百米跑,X2:跳远和X5:400米跑,需要爆发力的 项目在F1有较大的载荷, 称为短跑速度因子; 2. X3:铅球,X7:铁饼和X9:标枪,在F2上有较大的载荷, 称为爆发性臂力因子;
3. X6: 百米跨栏, X8: 撑杆跳远, X2 :跳远和 X4 :跳高在
F3上有较大的载荷,爆发腿力因子; 4. F4:长跑耐力因子。
X2 铅球 X 3 跳高 X 4 400 米 X 5 百米栏 X 6 铁饼 X 7 撑杆跳X 8 标枪 X 9 X 10 1500 米
跳远
0.631* 0.243 0.239 0.797* 0.404 0.186 -0.036 -0.048 0.045
0.635 * 0.147 0.762 * 0.11 0.112
安 装 R
进入网页http://www.r-project.org/
点击CRAN得到一批镜像网站
点击CHINA中第一项 点击Download R for windows 点击install.... 点击download R 3.0.1 for windows
R语言》一元回归 exam1:
测得12名女中学生体检数据
程序如下:
exam2:
>x1=c(35,40,40,42,37,45,43, 37,44,42,41,39); x1 >mean(x1) >sd(x1) >x2=c(60,74,64,71,72,68,78, 66,70,65,73,75) >plot(x1,x2) #画出散点图 >hist(x1) #画出x1的直方图
典型相关分析基本思想简介
例3 奥运会十项全能运动项目
百米跑成绩 跳远成绩 铅球成绩 X 3 跳高成绩 X 4 400米跑成绩 百米跨栏 铁饼成绩 X 7 撑杆跳远成绩 标枪成绩 X 9 1500米跑成绩
X2
X5 X6
X8
X 10
1 0.59 0.35 0.34 0.63 0.40 0.28 0.20 0.11 0.07
多元统计方法及实例讨论
2017年春·董志清
本次课时提纲 • 走近多元统计分析 • 相关统计软件简介 • 2012年全国大学生数模竞赛A题分析 • 经验总结
参考书目
• [1]《金融大数据统计方法与实证》 杨虎 杨玥含 科学出版社 2016.4. • [2]《复杂数据统计方法——基于R的应用》(第二版) 吴喜之 中国人民大学出版社 2013.9. • [3]《多元统计分析》(第二版) 任雪松于秀林中国统计出版社 2013.3. • [4]《多元统计分析及R语言建模》 王斌会 暨南大学出版社 2011.9. • [5]《多元统计分析——基于R》 费宇 中国人民大学出版社 2014.10.
程序如下: #在体检数据.xls中选中数据并复制
简单的回归分析
>y=read.table("clipboard ", header=TRUE);y >lm=lm(weight~height,da ta=y) >summary(lm)
《MATLAB》聚类分析
>>x=[9.3 30.55 8.7
4.67 29.38 8.92 ...... 1.85 20.66 12.75] >> Y=pdist(X,’Euclid’)
1 0.24 1 0.34 0.24 1 0.02 0.17 0.02 1
变量 百米跑X 1
F1
0.844
*
F2
0.136 0.194 0.825 * 0.15 0.075 0.153 0.814 * 0.176 0.735 -0.041
分析
第二对典型变量中u2与x2的相关系数为
0.4614,可以看出u2可以作为文化消费特性的指
标,第二对典型变量中v2与Y1和Y3之间的分别相
关系数为0.8464和0.3013,可见典型变量v2主要 代表了家庭成员的年龄特征和教育程度, u2和 v2的相关系数为0.1869,说明文化消费与年龄和 受教育程度之间的有关。
U1 U2
X1就餐频率 X2看电影频率 Y1户主年龄 Y2家庭收入
0.9866 0.8872 V1 0.4211 0.9822
-0.1632
0.4614 V2 0.8464 -0.1101
Y3受教育程度
0.5145
0.3013
分析 两个反映消费的指标与第一对典型变量中 u1的相关系数分别为0.9866和0.8872,可以看 出u1可以作为消费特性的指标,第一对典型变 量中v1与Y2之间的相关系数为0.9822,可见典 型变量v1主要代表了了家庭收入, u1和 v1的 相关系数为0.6879,这就说明家庭的消费与一 个家庭的收入之间其关系是很密切的;
因子分析基本思想简介
多元统计分析
多元统计分析是以p个变量的n次观测数
所组成的数据为依据。
wk.baidu.com
简化数据结构(降维)
分类与判别(归类) 分析变量间的相互联系 多元数据的统计推断
统计软件简介
• 不管选用什么语言,首先应该学会怎么将数 据从Excell或其它数据管理软件中调用出来 • 流行的统计软件: R语言、SAS、SPSS、EXCEL MATLAB统计软件包等; • 基本步骤: 数据的组织(数据库结构的建立) 数据的录入 统计分析 结果输出
举个“栗子”
例1、对10位应聘者做智能检验。指标X,Y和Z分 别表示数学推理能力,空间想象能力和语言理 解能力。
例2、家庭特征(年龄、收入、受教育程度)与 家庭消费(外食、电影娱乐)之间的关系 例3、奥运会十项全能运动项目得分数据的因子 分析
例1:对10位应聘者做智能检验。X,Y和Z分别表示数 学推理能力,空间想象能力和语言理解能力。其得分如 下,选择合适的统计方法对应聘者进行分类。
附件1:葡萄酒品尝评分表(含4个表格)
附件2:葡萄和葡萄酒的理化指标(含2个 表格) 附件3:葡萄和葡萄酒的芳香物质(含4个 表格)
一次参赛 终生受益
相关文档
最新文档