数据分析与处理24页PPT

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

g4 7 6 2 0
g5 10 9 5 3 0
g6 G6 0 G7 4 G5 9
g7 G5
G8={g5,g7}
0 30
g6 G6 0 G3 4 G4 6 G5 9
常用聚类方法
• 最短距离法(single linkage method) • 最长距离法(complete linkage method) • 中间距离法(median method) • 重心法(centroid hierarchical method) • 类平均法(average linkage method) • 离差平方和法(Ward method)
regress函数可用于多重线性或广义线性回 归分析,特别地也适合作一元线性回归分析
p-重广义线性回归模型
y1 f1(x11) yy n2ff11(( xx2n11))
f2(x12) f2(x22)
f2(xn2)
fffppp((( xxx12nppp))) 12p 1n2
误差向 量
Y的n次独立观 察数据
• 与系统聚类法相关的MatLab函数包括:
• pdist; squareform; linkage; dendrogram; cophenet; inconsistent; cluster; clusterdata
g1 g2 g3 g4 g5
g1 0 g2 1 0
G6={g1,g2}
பைடு நூலகம்
g3 5 4 0
序号
y
1 2 3 4 5 6 7 8 9 10 11 12 13
x1
x2
x3
x4
x5
44.6
44
89.5
6.8
62
178
45.3
40
75.1
6
62
185
54.3
44
85.8
5.2
45
156
59.6
42
68.2
4.9
40
166
49.9
38
89
5.5
55
178
44.8
47
77.5
7
58
176
45.7
40
常用的样品对距离
dij(q) p | xikxjk|q1/q
k1
p
dij(1) | xik xjk | k1
dij(2)
p
1/2
(xikxjk)2
k1
dij( )m 1kpa |xix kxjk|
d i(jM )(X iX j)S 1(X iX j),S ' co X )v(
Ref: pdist
76
7.2
70
176
49.1
43
81.2
6.5
64
162
39.4
44
81.4
7.9
63
174
60.1
38
81.9
5.2
48
170
50.5
44
73
6.1
45
168
37.4
45
87.7
8.4
56
186
44.8
45
66.5
6.7
51
176
一次项多重回归
y ˆ b 0 b 1 x 1 b 2 x 2 b 3 x 3 b 4 x 4 b 5 x 5
3. 从Excel文件导入数据到MatLab工作区 1) import data, 工作区变量 data, textdata 2) 用xlsread调入数据
4. 从MatLab写出数据到Excel文件 xlswrite函数 e.g. [s,t]=xlswrite(filename,var)
5. 从MatLab操作Excel文件
模型设 计矩阵
X
需要拟 合估计 的系数 向量
p-重线性回归模型
y1 x11 x12
yy n2xx 2n11
x22 xn2
x1p 1 1 xx 2npp 2p n2
y1 1 x1
1
y2 yn
1 1
xxn2
k
2 n
最简单的情形:一元线性
多重回归分析
假设的关联数据 dchg.xls
数据导入与导出
1. 从外部文本文件导入数据到MatLab的工作区;
1) File/Import data 2) 利用内置函数
高级IO函数 load Importdata dlmread textread strread
低级IO函数 fopen fclose fgets fgetl textscan
数据交换示意图
Excel = actxserver('Excel.Application'); Excel.Visible = 1; 将Excel作为ACtiveX服务器打开,与MatLab交互, ref VBA
e.g. test_Excel.m
数据预处理
1. 数据的平滑处理 smooth函数的使用 smooth_1.m ref: smooth.pdf
对于多元数据,当各变量的量纲和数量级不一致时,往往需要对数据 进行预处理,以消除量纲和数量级的限制,便于分析. 2. 数据的标准化变换
3. 数据的极差归一化变换
数据的标准化变换
极差归一化变换
X(xij)(np)
xiRj
xij 1mkinnxkj m 1kanxkj 1mkinnxkj
XR (xiRj)(np)
… … MatLab程序区数 据
外部数据文本
外部Excel文件
2. 将MatLab的工作区数据写出到外部磁盘文件; 1) save (e.g. save '123.txt' test -ascii save '123' test ->123.mat) use load to retrieve 2) dlmwrite ref pdf help file 3) fprintf ref out_data.m
5
45
5
y ˆb0 bixi bix jixj bix ii2
i 1
i 1ji1
i 1
一次项交叉项二次项多重回归
聚类分析
• 研究样本或指标之间存在程度不同的相似性(亲 疏关系——以样本间距离衡量)。根据一批样本 的多个观测指标,具体找出一些能够度量样品或 指标之间相似程度的统计量,以这些统计量为划 分类型的依据。把一些相似程度较大的样本(或 指标)聚合为一类,把另外一些彼此之间相似程 度较大的样本(或指标)又聚合为另一类,直到 把所有的样本(或指标)聚合完毕,这就是分类 的基本思想。 在聚类分析中,根据分类对象的不 同分为Q型聚类分析和R型聚类分析两大类。
经过极差变换,每个元素位于[0,1],列的最大最 小元分别变换为1与0
数据拟合
0. 观察数据的散点图,辅助判别数据拟合应采 纳的模型
plot_1.m 数据文件:cliamate_data.xls plot_2.m 数据文件:data2009.xls
• 一元线性回归分析函数regress
Ref: edit regress.m
相关文档
最新文档