《多元统计分析及R语言》第2章多元数据的数学表达
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
x 为横坐标,y为纵坐标的二元绘图;当只有x时,表 示以序号为横坐标,x值为纵坐标绘图;…为其他的绘 图参数。
5 - 16
饼图: 分析单变量分布特征 pie(table(结果))
5 - 17
(2)两因素分析
条形图:分析单变量分布特征 data=read.table("clipboard",header=T) table(年龄,性别) #二维列联表 barplot(table(年龄,性别),beside=T, col=1:7)
所在包 base base base base base base base base base
base
base
base base base base
2.4 数据的R语言表示-数据框
数据框:是一种矩阵形式的数据,但数据框中各列可 以是不同类型的数据。
地区 A A A B B A D
性别(X1) 教育程度(X2) 观点(X3)
t diag solve
eigen
chol
svd qr kronecker dim
用途 向量生成函数 向量长度函数 对象类型函数 行合并函数 列合并函数 矩阵生成函数 矩阵转置函数 对角阵生成函数 逆矩阵计算函数
矩阵的特征值与特征向量函数
进行Choleskey分解
进行奇异值分解 进行QR分解 kronecker积计算函数 矩阵维数
设备 981.13 760.56 546.75 477.74 561.71 439.28 407.35 355.67
医疗 1294.07 1163.98 833.51 640.22 719.13 879.08
854.8 729.55
交通 2328.51 1309.94 1010.51 1027.99 1123.82 1033.36 873.88 746.03
定量变量:计量观测数据。对每个观察单位的某些标志所测 到的数值(有单位)。例如,身高(cm),体重(kg),收入 (元)、支出(元)等。 定性变量:计数观测数据。将观察单位按属性或类别分组,清 点各组的观察单位数。例如,性别数,职业数等。定性变量通 常需数量化后才能进行多元统计运算。分析时定性变量常常是 按1,2,…识别的。【例子】
女
中
不支持
女
低
不支持
女
中
支持
男
高
支持
女
高
不支持
女
中
不支持
女
高
支持
年龄(X4) 55 39 33 41 55 48 36
月收入(X5) 2299 3378 3460 4564 3206 4043 3395
R语言表示:data.frame(X1,X2,…)
5 -8
限制条件:
1.分量必须是向量(数值,字符,逻辑)、因子、数值矩阵、 列表或者其他数据框。 2.矩阵、列表和数据框为新的数据框提供了尽可能多的变量, 因为它们各自拥有列、元素或者变量。 3.数值向量、逻辑值、因子保持原有格式,而字符向量会被 强制转换成因子并且它的水平就是向量中出现的独立值。 4.在数据框中以变量形式出现的向量长度必须一致,矩阵结 构必须有一样的行数。
5 - 13
2.6 多元数据的简单R语言分析
多元数据分析
定量变量分析 定性变量分析 三因素分析
5 - 14
1、定量变量分析
(1)变量基本特征 直方图:分析数据分布特征
hist(x, freq = NULL,...) x数值向量;freq频数还是频率
5 - 15
(2)变量间关系分析
散点图:分析两个变量间关系 plot(x, y, ...)
(2)数据要求
样本1 样本2
… 样本n
变量1(X1) 变量2(X2)
57491
1
60801
2
45284
1
13284
2
…
76828.8 177507 53668.5 15068.5
变量n(Xn)
91.51 100 87.9 72.34
每个变量都须有数 据,不能空缺,否 则在计算中被忽略
(3)变量类型
5 -4
2.2 数据的数学表达
数学 表达
随机变量 随机向量
1、随机变量
总体期望 与方差:
一个统计指标对应一个随机变量 一个分量对应一个一维随机变量
样本期望 与方差:
5 -5
2、随机向量 总体期望 与方差:
样本期望 与方差:
5 -6
2.3 数据矩阵及R语言表示
5 -7
函数名 c
length mode rbind cbind matrix
5 - 11
(1)从剪切板读取
方法:(1)选择需要进行计算的数据块拷贝之。 (2)dat=read.table("clipboard",header=T) clipboard 为剪切板,header=T 读入变量名
(2)从文本文件读取
创建文本文件,第一行为数据框的各变量名,随 后的行为各个变量的值。 X=read.table("textdata.txt") #读取名为textdata 的txt格式文档
以性别分组的年龄条图
5 - 18
以年龄分组的性别条图
(2)三因素分析
三维列链表:分析单变量分布特征 ftable(年龄,性别,结果)
#以年龄、性别排列的结果频数三维列联表
5 - 19
第2章 多元数据的数学 表达及R使用
2.1 如何收集和整理多元统计分析资料 2.2 数据的数学表达 2.3 数据矩阵及R语言表示 2.4 数据的R语言表示-数据框 2.5 多元数据的R语言调用 2.6 多元数据的简单R语言分析
5 - 20
1、多元数据调用
从剪切板读取 从文本文件读取 从Excel文件读取
2、基本图形编制以及导出数据处理方法
5 - 21
5 -2
2.1 如何收集和整理多元统计分析资料
(1)多元统计分析变量表示方法
整理资料形式
样本1 样本2
… 样本n
变量1(X1) 变量2(X2)
57491
59.539
60801
46.6122
45284
43.5373
13284
42.2196
…
76828.8 177507 53668.5 15068.5
教育 2383.96 1639.83 895.06 1054.05 1245.09 1052.94 997.75 938.21
居住 杂项 1246.19 649.66 1417.45 463.64 917.19 266.16 991.77 245.07 941.79 468.17 1047.04 400.16 1062.46 394.29 784.51 310.67
问题:采用一些什么形式将其转换成方便程 序实现方式? 如何对数据文件进行调用?
5 -1
第2章 多元数据的数学 表达及R使用
2.1 如何收集和整理多元统计分析资料 2.2 数据的数学表达 2.3 数据矩阵及R语言表示 2.4 数据的R语言表示-数据框 2.5 多元数据的R语言调用 2.6 多元数据的简单R语言分析
食品 北京 4934.05 天津 4249.31 河北 2789.85 山西 2600.37 内蒙古 2824.89 辽宁 3560.21 吉林 2842.68 黑龙江 2633.18
衣着 1512.88 1024.15 975.94 1064.61 1396.86 1017.65 1127.09 1021.45
5 -9
2.5 Байду номын сангаас元数据的R语言调用
多元数据调用
从剪切板读取 从文本文件读取 从Excel文件读取
5 - 10
数学 表达
随机变量 随机向量
一个统计指标对应一个随机变量 一个分量对应一个一维随机变量
数据 程序 表达
矩阵 向量 数据框
存储数据数据类型一致 存储数据数据类型一致 存储数据类型可以不一致
5 - 12
(3)从Excel文件读取
读表格:R语言可以直接读取Excel数据,但一次只能 读Excel工作薄的一个表格(将Excel数据另存为 data.csv格式),
X=read.table("data.csv")
读工作簿:
library(RODBC) #加载RODBC软件包 Rcode=odbcConnectExcel("Rcode.xls") #读取名为 Rcode 的Excel工作薄 codedata=sqlFetch(Rcode,"codedata")) #显示Rcode 中名为codata 表单的数据 close(Rcode) #关闭Rcode数据文件
变量n(Xn)
91.51 100 87.9
72.34
矩阵表示形式
当这些变量处于同等地位时,可以进行相关分析、聚类分析、主成分分析、 因子分析、对应分析、多维标度等分析; 当有因变量和自变量之分时,可以进行线性回归分析、广义线性模型和非 线性模型等的数据格式; 5- 3因变量是分类变量时,可以进行方差分析模型和判别分析。
5 - 16
饼图: 分析单变量分布特征 pie(table(结果))
5 - 17
(2)两因素分析
条形图:分析单变量分布特征 data=read.table("clipboard",header=T) table(年龄,性别) #二维列联表 barplot(table(年龄,性别),beside=T, col=1:7)
所在包 base base base base base base base base base
base
base
base base base base
2.4 数据的R语言表示-数据框
数据框:是一种矩阵形式的数据,但数据框中各列可 以是不同类型的数据。
地区 A A A B B A D
性别(X1) 教育程度(X2) 观点(X3)
t diag solve
eigen
chol
svd qr kronecker dim
用途 向量生成函数 向量长度函数 对象类型函数 行合并函数 列合并函数 矩阵生成函数 矩阵转置函数 对角阵生成函数 逆矩阵计算函数
矩阵的特征值与特征向量函数
进行Choleskey分解
进行奇异值分解 进行QR分解 kronecker积计算函数 矩阵维数
设备 981.13 760.56 546.75 477.74 561.71 439.28 407.35 355.67
医疗 1294.07 1163.98 833.51 640.22 719.13 879.08
854.8 729.55
交通 2328.51 1309.94 1010.51 1027.99 1123.82 1033.36 873.88 746.03
定量变量:计量观测数据。对每个观察单位的某些标志所测 到的数值(有单位)。例如,身高(cm),体重(kg),收入 (元)、支出(元)等。 定性变量:计数观测数据。将观察单位按属性或类别分组,清 点各组的观察单位数。例如,性别数,职业数等。定性变量通 常需数量化后才能进行多元统计运算。分析时定性变量常常是 按1,2,…识别的。【例子】
女
中
不支持
女
低
不支持
女
中
支持
男
高
支持
女
高
不支持
女
中
不支持
女
高
支持
年龄(X4) 55 39 33 41 55 48 36
月收入(X5) 2299 3378 3460 4564 3206 4043 3395
R语言表示:data.frame(X1,X2,…)
5 -8
限制条件:
1.分量必须是向量(数值,字符,逻辑)、因子、数值矩阵、 列表或者其他数据框。 2.矩阵、列表和数据框为新的数据框提供了尽可能多的变量, 因为它们各自拥有列、元素或者变量。 3.数值向量、逻辑值、因子保持原有格式,而字符向量会被 强制转换成因子并且它的水平就是向量中出现的独立值。 4.在数据框中以变量形式出现的向量长度必须一致,矩阵结 构必须有一样的行数。
5 - 13
2.6 多元数据的简单R语言分析
多元数据分析
定量变量分析 定性变量分析 三因素分析
5 - 14
1、定量变量分析
(1)变量基本特征 直方图:分析数据分布特征
hist(x, freq = NULL,...) x数值向量;freq频数还是频率
5 - 15
(2)变量间关系分析
散点图:分析两个变量间关系 plot(x, y, ...)
(2)数据要求
样本1 样本2
… 样本n
变量1(X1) 变量2(X2)
57491
1
60801
2
45284
1
13284
2
…
76828.8 177507 53668.5 15068.5
变量n(Xn)
91.51 100 87.9 72.34
每个变量都须有数 据,不能空缺,否 则在计算中被忽略
(3)变量类型
5 -4
2.2 数据的数学表达
数学 表达
随机变量 随机向量
1、随机变量
总体期望 与方差:
一个统计指标对应一个随机变量 一个分量对应一个一维随机变量
样本期望 与方差:
5 -5
2、随机向量 总体期望 与方差:
样本期望 与方差:
5 -6
2.3 数据矩阵及R语言表示
5 -7
函数名 c
length mode rbind cbind matrix
5 - 11
(1)从剪切板读取
方法:(1)选择需要进行计算的数据块拷贝之。 (2)dat=read.table("clipboard",header=T) clipboard 为剪切板,header=T 读入变量名
(2)从文本文件读取
创建文本文件,第一行为数据框的各变量名,随 后的行为各个变量的值。 X=read.table("textdata.txt") #读取名为textdata 的txt格式文档
以性别分组的年龄条图
5 - 18
以年龄分组的性别条图
(2)三因素分析
三维列链表:分析单变量分布特征 ftable(年龄,性别,结果)
#以年龄、性别排列的结果频数三维列联表
5 - 19
第2章 多元数据的数学 表达及R使用
2.1 如何收集和整理多元统计分析资料 2.2 数据的数学表达 2.3 数据矩阵及R语言表示 2.4 数据的R语言表示-数据框 2.5 多元数据的R语言调用 2.6 多元数据的简单R语言分析
5 - 20
1、多元数据调用
从剪切板读取 从文本文件读取 从Excel文件读取
2、基本图形编制以及导出数据处理方法
5 - 21
5 -2
2.1 如何收集和整理多元统计分析资料
(1)多元统计分析变量表示方法
整理资料形式
样本1 样本2
… 样本n
变量1(X1) 变量2(X2)
57491
59.539
60801
46.6122
45284
43.5373
13284
42.2196
…
76828.8 177507 53668.5 15068.5
教育 2383.96 1639.83 895.06 1054.05 1245.09 1052.94 997.75 938.21
居住 杂项 1246.19 649.66 1417.45 463.64 917.19 266.16 991.77 245.07 941.79 468.17 1047.04 400.16 1062.46 394.29 784.51 310.67
问题:采用一些什么形式将其转换成方便程 序实现方式? 如何对数据文件进行调用?
5 -1
第2章 多元数据的数学 表达及R使用
2.1 如何收集和整理多元统计分析资料 2.2 数据的数学表达 2.3 数据矩阵及R语言表示 2.4 数据的R语言表示-数据框 2.5 多元数据的R语言调用 2.6 多元数据的简单R语言分析
食品 北京 4934.05 天津 4249.31 河北 2789.85 山西 2600.37 内蒙古 2824.89 辽宁 3560.21 吉林 2842.68 黑龙江 2633.18
衣着 1512.88 1024.15 975.94 1064.61 1396.86 1017.65 1127.09 1021.45
5 -9
2.5 Байду номын сангаас元数据的R语言调用
多元数据调用
从剪切板读取 从文本文件读取 从Excel文件读取
5 - 10
数学 表达
随机变量 随机向量
一个统计指标对应一个随机变量 一个分量对应一个一维随机变量
数据 程序 表达
矩阵 向量 数据框
存储数据数据类型一致 存储数据数据类型一致 存储数据类型可以不一致
5 - 12
(3)从Excel文件读取
读表格:R语言可以直接读取Excel数据,但一次只能 读Excel工作薄的一个表格(将Excel数据另存为 data.csv格式),
X=read.table("data.csv")
读工作簿:
library(RODBC) #加载RODBC软件包 Rcode=odbcConnectExcel("Rcode.xls") #读取名为 Rcode 的Excel工作薄 codedata=sqlFetch(Rcode,"codedata")) #显示Rcode 中名为codata 表单的数据 close(Rcode) #关闭Rcode数据文件
变量n(Xn)
91.51 100 87.9
72.34
矩阵表示形式
当这些变量处于同等地位时,可以进行相关分析、聚类分析、主成分分析、 因子分析、对应分析、多维标度等分析; 当有因变量和自变量之分时,可以进行线性回归分析、广义线性模型和非 线性模型等的数据格式; 5- 3因变量是分类变量时,可以进行方差分析模型和判别分析。