第一讲 多元统计分析基本概念(201509010)
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多元统计分析课程提纲
成绩评定 平时: 40% 实验课+作业 (课后习题、第9周上交,38、34、30) 考试: 60% 第10周 考试 周四晚(11月19日) 教学安排 基本概念;回归分析;线性模型;判别分析; 聚类分析;主成分分析;因子分析 ;典型相关; 公共邮箱: bjfu_stat@ 密码: 博客 : /bjfu_stat
中位数
众数 标准差
方差
70 0 55.4500 24.0000 8.00a 103.93940 10803.400 12.0000 24.0000 52.8750
分位数
a. Multiple modes exist. The smallest value is shown
探索性数据分析---图示
直方图
在自然界中,有些变量在每次观察前,不可能事先确定其取值;经过 大量反复观察,其取值又有一定的规律,这种变量称为随机变量X。
例 (1). 掷骰子出现某点数的概率为1/6,若掷100次,则出现该点数的 次数X是随机变量; (2). 332路公车每10分钟发一趟车,某人在随机的时间到达车站等 车,则等车时间X是随机变量。
•样本值x1, x2, …, xn
从总体X随机抽取的一组观测值,常用x1, x2, …, xn来表示样本或样 本值。
4. 统计量及其参数估计
统计量(statistical quantity)
设X1, X2, …, Xn为总体X的n个样本,g(x1, x2, …, xn)为连续函数,则 称g(X1, X2, …, Xn) 为一个统计量。 显然,统计量g(X1, X2, …, Xn)也是一个随机变量。
方差(variance)
设随机变量X的均值为E(X),则:
X的方差:D X E X E X X的标准差或均方差:
对于离散型随机变量X,其方差为:
2
D X
对于连续型随机变量X,其方差为:
D X xi E X pi
2 i 1
D X
2. 随机变量的数字特征
均值(mean) 或数学期望(mathematical expectation)
离散型随机变量的均值 设离散型随机变量X的分布律为:
P X xi pi ,
若
i 1,2,3,...
E X xi pi
i 1
收敛,则称E(X)为随机变量X的均值或数学期望。
median
25th percentile
Outliers extreme values
Maximum
minimum
将受教育大于等于16年 的数据筛选出来,观察开始工资
茎叶图
14500=14.5x1000
stem leaf Stem width
35000=3.5x10000
星相图
图像形状为圆形: 星相图的每一个角 表示一个变量。
饼图
条形图
复合条形图
Boxplots
• • 快速直观. 便于比较.
箱线图
75th percentile
Outliers extreme values
median
25th percentile Maximum minimum
箱线图—R语言
• 快速直观. • 便于比较.
75th percentile
参考文献
本专业研究生博士生论文
线性代数和数理统计复习
由 m n 个数 aij i 1,2,, m; j 1,2,, n 排成的 m行 n 列的数表
矩阵的定义
a11 a12 a1n a a a 22 2n 21 am1 am 2 amn 称为 m n矩阵.简称 m n 矩阵.
显然,样本均值、样本方差都属于统计量。 通常用样本均值、样本方差作为总体均值、总体方差的无偏估计量。 无偏估计:当n取得充分大,样本均值、样本方差分别逼近总体均值 和总体方差。
5. 统计推断的两类问题—— 参数估计和假设检验
参数估计问题
假定总体X的分布函数形式已知,对其中的某些参数进行估计。 估计方法:矩估计法、最小二乘法、最大似然法,……
星相图
图像形状为圆形: 星相图的每一个角 表示一个变量。
从该图可以看出: 北京、上海、广东、 浙江四个地区的消费 情况较为突出,其他 地区的消费情况大致 相同。
课程介绍
线性回归、线性 模型、判别
相依关系
相关、偏相关、 典型相
预测模型
多元 理论
数值分类
系统结构
主成分、因子分 析、对应分析
聚类、判别
中文参考书
1 多元统计分析及R语言建模(3)王斌会 暨南大学出版社 2 多元统计分析 第3版 何晓群 编 人民大学大出版社 3 应用多元统计分析 高惠璇 编 北京大学出版社 4多元统计分析选讲 张饶庭 著 中国统计出版社
xi:质点i的坐标;pi: 质点i的质量 E(X): 质心坐标
连续型随机变量的均值 设X为连续型随机变量,它的概率密度函数为p(x) ,若
E X xpx dx
收敛,则称E(X)为随机变量X的均值或数学期望。
小结: E(X)反映随机变量X的统计平均性质,代表随机变量取值的一般水平 或集中的位置,略去了随机变量概率分布规律的具体细节。
外文参考书
1 Applied Multivariate Statistical Analysis(6th Ed) 2007 Richard A. Johnson Dean W.Wichern China Statistics Press (国外MBA优秀教材) 2 Analyzing Multivariate Data 2003 Lattin Carroll Green China Machine Press ( 斯坦福大学,罗格斯大学,宾夕法尼亚) 3 Applied Multivariate Methods for Data Analysts 2005 Dallase E. Johnson Higher Education Press (海外优秀数学类教材)
p(x)
1 2
68%
95% -3 -2 99% - + +2 +3
x
3. 总体和样本
总体X (population)
研究对象的某种特征值的全体组成的集合。用X表示。
样本X1, X2, …, Xn (sample)
在总体中选取部分有代表性的子集称为(随机)样本。 一个样本是来自总体X的一组相互独立同X分布的随机变量。
x E X px dx
2
小结: D(X)反映随机变量X的相对于均值E(X)的偏离程度,代表随机变量取 值的分散性,也是统计平均的性质。
正态分布(Normal distribution)
设随机变量X的概率密度为:
1 p( x) e 2
x 2
7. 数据分析
数据分析的两大阶段
探索阶段
实证阶段
详细查看数据, 分离出数据的模式和特点
评估观察到的模式或效应 着重评估现有的证据 提供显著性和置信度的陈述
分析工具:SPSS、SAS、S-PLUS、MATLAB、R
探索性数据分析
• 耐抗性:重视主体部分,不重视离群值 对局部不良行为的非敏感性 (工资:中位数和平均值那个耐抗性好?) • 残差: 残差=数据-拟合
总体X的数字特征——参数
总体均值:刻划总体的平均取值 总体方差2:刻划总体取值的分散(涨落)程度
根据样本值推断总体性质——参数估计
样本均值 x :
1 n x xi n i 1
样本方差s:
2 1 n s xi x n 1 i 1 2
或
2 1 n s xi x (当n较大时) n i 1 2
假设检验问题
从样本值出发,判断关于总体分布的某种假设是否成立。
1、提出原假设(或称零假设)和备选假设(或称对立假设)
2、指定显著性水平(一般取 =0.05, 0.01, …) 值用以衡量(或拒绝)原假设成立所需证据的指标。 值越小,否定原假设的条件越高,不容易否定原假设; 值越大,否定原假设的条件越低,比较容易否定原假 设。 3、构造检验统计量W 4、进行统计试验——收集数据、计算检验统计量及显著 性概率值p 5、根据显著性水平值进行判断
2 2
x
其中-<<+ ,>0均为常数。称X服从参数为,的正态分布,记 作X~N(,2). :均值; :方差
遵从正态分布的随机变量X,其正态分布函数为:
1 P( X x) 2
x
e
t 2
2 2
dt
x
• 重新表达:找到什么样的尺度(对数或平方根)会简化 分 析,如果原始测量尺度不合适,重新表达会有助 于对称性、线性关系的发现。
• 启示:通过显示数据、拟合曲线、残差图等反映数据 的特点和对数变换
变换之后更加接近正态分布
探索性数据分析---描述
均值
Statistics Amount of last sale N Valid Missing Mean Median Mode Std. Deviation Variance Percentiles 25 50 75
6. 回归分析
变量与变量的关系: 确定性关系
函数关系
U=IR v=gt
…… 变量与变量的关系: 非确定性关系
统计相关 (具有统计规律) Y=f(x1, x2, …, xn)+
回归分析方法
回归分析的基本问题
• 寻求表达Y与x1, x2, …, xn的相关关系的经验回归方程, 简称回归方程;
• 利用回归方程,在一定可靠度的要求下,预估当自变量 x1, x2, …, xn取确定值时,随机变量Y的取值,称为预测问 题; • 为使Y在给定的范围内取值,利用回归方程,控制自变 量x1, x2, …, xn的取值范围,称为控制问题。
离散型随机变量 X的所有可能取值是有限个或可列个。 连续型随机变量 最常见的一类非离散型随机变量。
概率密度函数 (PDF, probability density function)
对连续型随机变量,考察事件{a<X<b}的概率。若存在非负的可 积函数p(x),使得:对任意的a, b(a<b),都有
数与矩阵相乘 kA 矩 矩阵与矩阵相乘 A*B 阵 运 A’ 算 转置矩阵 矩阵的逆 inv(A) 矩阵的秩 rank(A) 方阵的行列式 det(A) 方阵的特征值和特征向量 [V,D]=eig(A)
A+B
加法
1 2 3 A 2 3 5 4 7 1
1 3 2 2 B 0 2 1 3 2 0 1 5
一、单变量统计
1. 2. 3. 4. 5. 6. 随机变量、概率分布 随机变量的数字特征 总体和样本 统计量及其参数估计 参数估计和假设检验 回归分析
1. 随机变量、概率分布
随机变量 X (random variable)
加法数与矩阵相乘矩阵与矩阵相乘转置矩阵方阵的行列式矩阵的秩矩阵的逆方阵的特征值和特征向量rankainvadetakavdeiga随机变量概率分布随机变量概率分布随机变量的数字特征随机变量的数字特征总体和样本总体和样本统计量及其参数估计统计量及其参数估计参数估计和假设检验参数估计和假设检验回归分析回归分析一单变量统计随机变量随机变量xrandomvariablerandomvariable在自然界中有些变量在每次观察前不可能事先确定其取值
=0; 2=1时,称为标准正态分布,记为X~N(0,1)。
正态分布的若干性质
正态分布完全由其均值和方差2决定;
正态分布的概率密度函数曲线呈对称的“钟形”;
经验规则(3 准则):
P x 0.6826
P x 2 0.9545 P x 3 0.9973
Pa X b p( x)dx
b a
则称p(x)为随机变量X的概率密度函数。 对所有随机变量X,可以定义以下的概率分布函数F(x):
F x PX x p(t )dt
x
p( x) F x
P(x)的性质:
p ( x) 0
p( x)dx 1
从该图可以看出: 北京、上海、广东、 浙江四个地区的消 费情况较为突出, 其他地区的消费情 况大致相同。
食品、衣着、设备“ 医疗、交通、教育、 居住、杂项
星相图
图像形状为半圆形: 星相图的每一个角 表示一个变量。 从该图可以看出: 北京、上海、广东、 浙江四个地区的消费 情况较为突出,其他 地区的消费情况大致 相同。
成绩评定 平时: 40% 实验课+作业 (课后习题、第9周上交,38、34、30) 考试: 60% 第10周 考试 周四晚(11月19日) 教学安排 基本概念;回归分析;线性模型;判别分析; 聚类分析;主成分分析;因子分析 ;典型相关; 公共邮箱: bjfu_stat@ 密码: 博客 : /bjfu_stat
中位数
众数 标准差
方差
70 0 55.4500 24.0000 8.00a 103.93940 10803.400 12.0000 24.0000 52.8750
分位数
a. Multiple modes exist. The smallest value is shown
探索性数据分析---图示
直方图
在自然界中,有些变量在每次观察前,不可能事先确定其取值;经过 大量反复观察,其取值又有一定的规律,这种变量称为随机变量X。
例 (1). 掷骰子出现某点数的概率为1/6,若掷100次,则出现该点数的 次数X是随机变量; (2). 332路公车每10分钟发一趟车,某人在随机的时间到达车站等 车,则等车时间X是随机变量。
•样本值x1, x2, …, xn
从总体X随机抽取的一组观测值,常用x1, x2, …, xn来表示样本或样 本值。
4. 统计量及其参数估计
统计量(statistical quantity)
设X1, X2, …, Xn为总体X的n个样本,g(x1, x2, …, xn)为连续函数,则 称g(X1, X2, …, Xn) 为一个统计量。 显然,统计量g(X1, X2, …, Xn)也是一个随机变量。
方差(variance)
设随机变量X的均值为E(X),则:
X的方差:D X E X E X X的标准差或均方差:
对于离散型随机变量X,其方差为:
2
D X
对于连续型随机变量X,其方差为:
D X xi E X pi
2 i 1
D X
2. 随机变量的数字特征
均值(mean) 或数学期望(mathematical expectation)
离散型随机变量的均值 设离散型随机变量X的分布律为:
P X xi pi ,
若
i 1,2,3,...
E X xi pi
i 1
收敛,则称E(X)为随机变量X的均值或数学期望。
median
25th percentile
Outliers extreme values
Maximum
minimum
将受教育大于等于16年 的数据筛选出来,观察开始工资
茎叶图
14500=14.5x1000
stem leaf Stem width
35000=3.5x10000
星相图
图像形状为圆形: 星相图的每一个角 表示一个变量。
饼图
条形图
复合条形图
Boxplots
• • 快速直观. 便于比较.
箱线图
75th percentile
Outliers extreme values
median
25th percentile Maximum minimum
箱线图—R语言
• 快速直观. • 便于比较.
75th percentile
参考文献
本专业研究生博士生论文
线性代数和数理统计复习
由 m n 个数 aij i 1,2,, m; j 1,2,, n 排成的 m行 n 列的数表
矩阵的定义
a11 a12 a1n a a a 22 2n 21 am1 am 2 amn 称为 m n矩阵.简称 m n 矩阵.
显然,样本均值、样本方差都属于统计量。 通常用样本均值、样本方差作为总体均值、总体方差的无偏估计量。 无偏估计:当n取得充分大,样本均值、样本方差分别逼近总体均值 和总体方差。
5. 统计推断的两类问题—— 参数估计和假设检验
参数估计问题
假定总体X的分布函数形式已知,对其中的某些参数进行估计。 估计方法:矩估计法、最小二乘法、最大似然法,……
星相图
图像形状为圆形: 星相图的每一个角 表示一个变量。
从该图可以看出: 北京、上海、广东、 浙江四个地区的消费 情况较为突出,其他 地区的消费情况大致 相同。
课程介绍
线性回归、线性 模型、判别
相依关系
相关、偏相关、 典型相
预测模型
多元 理论
数值分类
系统结构
主成分、因子分 析、对应分析
聚类、判别
中文参考书
1 多元统计分析及R语言建模(3)王斌会 暨南大学出版社 2 多元统计分析 第3版 何晓群 编 人民大学大出版社 3 应用多元统计分析 高惠璇 编 北京大学出版社 4多元统计分析选讲 张饶庭 著 中国统计出版社
xi:质点i的坐标;pi: 质点i的质量 E(X): 质心坐标
连续型随机变量的均值 设X为连续型随机变量,它的概率密度函数为p(x) ,若
E X xpx dx
收敛,则称E(X)为随机变量X的均值或数学期望。
小结: E(X)反映随机变量X的统计平均性质,代表随机变量取值的一般水平 或集中的位置,略去了随机变量概率分布规律的具体细节。
外文参考书
1 Applied Multivariate Statistical Analysis(6th Ed) 2007 Richard A. Johnson Dean W.Wichern China Statistics Press (国外MBA优秀教材) 2 Analyzing Multivariate Data 2003 Lattin Carroll Green China Machine Press ( 斯坦福大学,罗格斯大学,宾夕法尼亚) 3 Applied Multivariate Methods for Data Analysts 2005 Dallase E. Johnson Higher Education Press (海外优秀数学类教材)
p(x)
1 2
68%
95% -3 -2 99% - + +2 +3
x
3. 总体和样本
总体X (population)
研究对象的某种特征值的全体组成的集合。用X表示。
样本X1, X2, …, Xn (sample)
在总体中选取部分有代表性的子集称为(随机)样本。 一个样本是来自总体X的一组相互独立同X分布的随机变量。
x E X px dx
2
小结: D(X)反映随机变量X的相对于均值E(X)的偏离程度,代表随机变量取 值的分散性,也是统计平均的性质。
正态分布(Normal distribution)
设随机变量X的概率密度为:
1 p( x) e 2
x 2
7. 数据分析
数据分析的两大阶段
探索阶段
实证阶段
详细查看数据, 分离出数据的模式和特点
评估观察到的模式或效应 着重评估现有的证据 提供显著性和置信度的陈述
分析工具:SPSS、SAS、S-PLUS、MATLAB、R
探索性数据分析
• 耐抗性:重视主体部分,不重视离群值 对局部不良行为的非敏感性 (工资:中位数和平均值那个耐抗性好?) • 残差: 残差=数据-拟合
总体X的数字特征——参数
总体均值:刻划总体的平均取值 总体方差2:刻划总体取值的分散(涨落)程度
根据样本值推断总体性质——参数估计
样本均值 x :
1 n x xi n i 1
样本方差s:
2 1 n s xi x n 1 i 1 2
或
2 1 n s xi x (当n较大时) n i 1 2
假设检验问题
从样本值出发,判断关于总体分布的某种假设是否成立。
1、提出原假设(或称零假设)和备选假设(或称对立假设)
2、指定显著性水平(一般取 =0.05, 0.01, …) 值用以衡量(或拒绝)原假设成立所需证据的指标。 值越小,否定原假设的条件越高,不容易否定原假设; 值越大,否定原假设的条件越低,比较容易否定原假 设。 3、构造检验统计量W 4、进行统计试验——收集数据、计算检验统计量及显著 性概率值p 5、根据显著性水平值进行判断
2 2
x
其中-<<+ ,>0均为常数。称X服从参数为,的正态分布,记 作X~N(,2). :均值; :方差
遵从正态分布的随机变量X,其正态分布函数为:
1 P( X x) 2
x
e
t 2
2 2
dt
x
• 重新表达:找到什么样的尺度(对数或平方根)会简化 分 析,如果原始测量尺度不合适,重新表达会有助 于对称性、线性关系的发现。
• 启示:通过显示数据、拟合曲线、残差图等反映数据 的特点和对数变换
变换之后更加接近正态分布
探索性数据分析---描述
均值
Statistics Amount of last sale N Valid Missing Mean Median Mode Std. Deviation Variance Percentiles 25 50 75
6. 回归分析
变量与变量的关系: 确定性关系
函数关系
U=IR v=gt
…… 变量与变量的关系: 非确定性关系
统计相关 (具有统计规律) Y=f(x1, x2, …, xn)+
回归分析方法
回归分析的基本问题
• 寻求表达Y与x1, x2, …, xn的相关关系的经验回归方程, 简称回归方程;
• 利用回归方程,在一定可靠度的要求下,预估当自变量 x1, x2, …, xn取确定值时,随机变量Y的取值,称为预测问 题; • 为使Y在给定的范围内取值,利用回归方程,控制自变 量x1, x2, …, xn的取值范围,称为控制问题。
离散型随机变量 X的所有可能取值是有限个或可列个。 连续型随机变量 最常见的一类非离散型随机变量。
概率密度函数 (PDF, probability density function)
对连续型随机变量,考察事件{a<X<b}的概率。若存在非负的可 积函数p(x),使得:对任意的a, b(a<b),都有
数与矩阵相乘 kA 矩 矩阵与矩阵相乘 A*B 阵 运 A’ 算 转置矩阵 矩阵的逆 inv(A) 矩阵的秩 rank(A) 方阵的行列式 det(A) 方阵的特征值和特征向量 [V,D]=eig(A)
A+B
加法
1 2 3 A 2 3 5 4 7 1
1 3 2 2 B 0 2 1 3 2 0 1 5
一、单变量统计
1. 2. 3. 4. 5. 6. 随机变量、概率分布 随机变量的数字特征 总体和样本 统计量及其参数估计 参数估计和假设检验 回归分析
1. 随机变量、概率分布
随机变量 X (random variable)
加法数与矩阵相乘矩阵与矩阵相乘转置矩阵方阵的行列式矩阵的秩矩阵的逆方阵的特征值和特征向量rankainvadetakavdeiga随机变量概率分布随机变量概率分布随机变量的数字特征随机变量的数字特征总体和样本总体和样本统计量及其参数估计统计量及其参数估计参数估计和假设检验参数估计和假设检验回归分析回归分析一单变量统计随机变量随机变量xrandomvariablerandomvariable在自然界中有些变量在每次观察前不可能事先确定其取值
=0; 2=1时,称为标准正态分布,记为X~N(0,1)。
正态分布的若干性质
正态分布完全由其均值和方差2决定;
正态分布的概率密度函数曲线呈对称的“钟形”;
经验规则(3 准则):
P x 0.6826
P x 2 0.9545 P x 3 0.9973
Pa X b p( x)dx
b a
则称p(x)为随机变量X的概率密度函数。 对所有随机变量X,可以定义以下的概率分布函数F(x):
F x PX x p(t )dt
x
p( x) F x
P(x)的性质:
p ( x) 0
p( x)dx 1
从该图可以看出: 北京、上海、广东、 浙江四个地区的消 费情况较为突出, 其他地区的消费情 况大致相同。
食品、衣着、设备“ 医疗、交通、教育、 居住、杂项
星相图
图像形状为半圆形: 星相图的每一个角 表示一个变量。 从该图可以看出: 北京、上海、广东、 浙江四个地区的消费 情况较为突出,其他 地区的消费情况大致 相同。