第一讲_多元描述统计分析和均值的比较检验
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
天行健,君子以自强不息。 地势坤,君子以厚德载物。
引言
一 统计学的生命力在于应用
统计学的发展过程中可以看出统计学产生于应 用,它在应用中诞生,在应用中成熟、独立,在应 用中扩充自身的方法内容,同时扩展了应用领域, 又在应用中与其他学科紧密结合形成新的边缘学科。 它的生命力在于应用。
天行健,君子以自强不息。
•
•
教参书籍
《应用统计学》,张建同、孙昌言、王世进 主编,清华大学出版 社,2010年。 《应用多元统计分析》,(德)沃尔夫冈· 哈德勒,(比)利奥波 德· 西马 著,陈诗一 译,北京大学出版社,2011年 。 《应用统计学》,马庆国 编著,科学出版社,2005年。 《应用多元统计分析》 朱建平 主编,科学出版社,2006年。 《多元统计分析》,何晓群 编著,人民大学出版社,2008年。
天行健,君子以自强不息。
地势坤,君子以厚德载物。
第一讲
(一)多元描述统计分析
descriptive statistics
沈琪
shenqi@ecust.edu.cn
13
天行健,君子以自强不息。
2014年3月10日8时12分
地势坤,君子以厚德载物。
描述统计—基本概念
总体是根据一定目的确定的所要研究的事物的全体。它是
描述统计—数据
横截面数据又称为静态数据,它是指在同一时间对同一总 时间序列数据又称为动态数据,它是指在不同时间对同一
体内不同单位的数量进行观察而获得的数据。
总体的数量表现进行观察而获得的数据。
天行健,君子以自强不息。
地势坤,君子以厚德载物。
描述统计—数据
多元数据的表格形式
设p个变量来记录事物的特征,对于每个个体或单位,记录下 这些变量的测量值。我们用记号表示第i个样本上第j个变量的 测量值,即
地势坤,君子以厚德载物。
引言
二 多元统计分析方法的应用
天行健,君子以自强不息。
地势坤,君子以厚德载物。
引言—应用实例
城镇居民消费水平通常用八项指标来描述,如人均粮食 支出、人均副食支出、人均烟酒茶支出、人均衣着商品支出、 人均日用品支出、人均燃料支出、人均非商品支出。这八项 指标存在一定的线性关系。为了研究城镇居民的消费结构, 需要将相关强的指标归并到一起,这实际就是对指标进行聚 类分析。
在临床上,医生需要对病人治疗前后的状况进行控制。例如 通过对比一组病人使用某种药物后的身体指标,可以判断该 药物对病人是否有效,效果是否显著。
天行健,君子以自强不息。
地势坤,君子以厚德载物。
均值的比较检验—内容
一 单一样本的均值检验
二 独立样本的均值检验
三 配对样本的均值检验
天行健,君子以自强不息。
多元统计学 Multivariate statistics
沈琪 shenqi@ecust.edu.cn
课程介绍
• 教师
• 主讲教师:沈 琪
• E-mail: shenqi@ecust.edu.cn
2
天行健,君子以自强不息。
2014年3月10日8时12分
地势坤,君子以厚德载物。
课程介绍
•
•
教材
《多元统计分析与SPSS应用》,汪冬华等主编,华东理工大学 出版社,2010年
n 1 其中, s jk ( xij x j )( xik xk ), n 1 i 1
j 1, 2, , p, k 1, 2, , p
事实上,sjk是变量j和k的协方差 当j=k时, sjj是变量j的方差,也常记为
1 n 2 s ( x x ) ij j n 1 i 1
x1 p x2 p xip xnp
地势坤,君子以厚德载物。
描述统计—数据
例题分析
消费者物价指数(CPI)是反映与居民生活有关的产品及劳务价 格统计出来的物价变动指标,通常作为观察通货膨胀水平的重 要指标。商品零售价格指数是反映一定时期内商品零售价格变 动趋势和程度的相对数。两者都能为研究市场流通、进行国民 经济核算提供依据。
天行健,君子以自强不息。
地势坤,君子以厚德载物。
引言—应用实例
在企业经济效益的评价中,涉及到的指标往往很多, 如百元固定资产原值实现产值、百元固定资产原值实现 利税、百元资金实现利税、百元工业总产值实现利税、 百元销售收入实现利税、每吨标准煤实现工业产值、每 千瓦时电力实现工业产值、全员劳动生产率、百元流动 资金实现产值。如何将这些具有错综复杂关系的指标综 合成几个较少的因子,既有利于对问题进行分析和解释, 又能便于抓住主要矛盾做出科学的评价。可用主成分分 析和因子分析法。
2 j
j 1, 2, , p sjk = skj ,即S是对称矩阵。
地势坤,君子以厚德载物。
天行健,君子以自强不息。
描述统计—统计量
样本相关系数
1 r21 R rp1 r1 p 1 r2 p rp 2 1 r12
天行健,君子以自强不息。
地势坤,君子以厚德载物。
均值的比较检验—实例
在企业市场结构的研究中,起关键作用的指标有市场分额、 企业规模、资本收益率、总收益增长率等。为了研究市场结 构的变动,研究人员通常需要将调查所得的数据与历史数据 进行比较。通过均值比较检验,就能比较出现在的市场结构 与过去是否存在显著性差异。
地势坤,君子以厚德载物。
课程介绍
•教学内容安排
内容安排 第一讲 第二讲 多元描述统计分析和均值的比较检验 方差分析
第三讲
第四讲 第五讲 第六讲 第七讲 第八讲 实验教学
天行健,君子以自强不息。
相关分析
聚类分析 判别分析 主成分分析 因子分析 典型相关分析 课堂教学中穿插实验教学
地势坤,君子以厚德载物。
xij=第j个变量的第i项测量值
天行健,君子以自强不息。
地势坤,君子以厚德载物。
描述统计—数据
多元数据的矩阵形式
X=(xij)n×p
x11 x21 X xi1 xn1
天行健,君子以自强不息。
x12 x1 j x22 x2 j xi 2 xij xn 2 xnj
H 0 : 0 , H1: 0
当然也可以有单侧检验的假设形式。
天行健,君子以自强不息。
地势坤,君子以厚德载物。
单一样本均值的检验—基本步骤
提出假设
H 0 : 0 , H1: 0
确定检验统计量 若总体方差已知,此时可构造标准正态分布Z检验统计量 X Z N (0,1) / n
天行健,君子以自强不息。
地势坤,君子以厚德载物。
引言
多元分析的开端——1928年Wishart发表论文《多元正态总体
样本协差阵的精确分布》; 20世纪30年代R.A. Fisher 、H.Hotelling、S.N.Roy、许宝騄 等人作了一系列得奠基性工作; 20世纪40年代在心理、教育、生物等方面有不少得应用,但 由于计算量大,使其发展受到影响; 20世纪50年代中期,随着电子计算机得出现和发展,使多元 分析方法得到广泛得应用; 20世纪60年代通过应用和实践又完善和发展了理论,由于新 的理论、新的方法不断涌现又促使它的应用范围更加扩大; 20世纪70年代初期在我国才受到各个领域的极大关注。 在20世纪末与本世纪初,多元统计与人工智能和数据库技术 相结合,已在经济、商业、金融等行业得到了成功的应用。
统计表:把统计数据按一定的顺序排列在表格上,就形成
了统计表。它清楚地、有条理地显示统计资料,直观地反映 统计分布特征,是统计分析的一种重要工具。
天行健,君子以自强不息。
地势坤,君子以厚德载物。
描述统计—统计图表
利用统计图表示数据时,首先要确定数据所属类型是定性数 据还是定量数据 定性数据常用的图形表示: 条形图 饼图 环形图 定性数据常用的图形表示: 直方图 茎叶图 箱线图 散点图 气泡图 雷达图
zij
xij x j sj
其中,
n 1 2 2 sj ( xij x j ) n 1 i 1
此时
Z Z R n 1
地势坤,君子以厚德载物。
天行健,君子以自强不息。
描述统计—SPSS应用
SPSS应用
天行健,君子以自强不息。
地势坤,君子以厚德载物。
描述统计—统计图表
天行健,君子以自强不息。
地势坤,君子以厚德载物。
描述统计—案例分析
案例
天行健,君子以自强不息。
地势坤,君子以厚德载物。
第一讲
(二)均值的比较检验
沈琪
shenqi@ecust.edu.cn
30
天行健,君子以自强不息。
2014年3月1ห้องสมุดไป่ตู้日8时12分
地势坤,君子以厚德载物。
均值的比较检验—作用
推断样本与总体或者两个总体 之间的差异是否显著
地势坤,君子以厚德载物。
单一样本均值的检验
-检验样本所在总体的均值与给 定的已知值之间是否存在显著性差异
天行健,君子以自强不息。
地势坤,君子以厚德载物。
单一样本均值的检验
只对单一变量的均值加以检验 如检验今年新生的统计学平均成绩是否和往年有显著差 异;推断某地区今年的人均收入与往年的人均收入是否有 显著差异等等。 要求样本数据来自于服从正态分布的单一总体 假设的基本形式:
矩阵形式
其中,
rjk
s jk s jj skk
(x
i 1 n j 1
n
ij
x j )( xik xk )
2 2 ( x x ) ik k k 1 n
( xij x j )
R也为对称矩阵
天行健,君子以自强不息。 地势坤,君子以厚德载物。
描述统计—数据标准化
标准差标准化公式
由客观存在的、具有某种共同性质的许多个别事物构成的整 体。
总体单位(简称单位)是组成总体的各个个体。 样本是由总体的部分单位组成的集合。 标志总体各单位普遍具有的属性或特征。
天行健,君子以自强不息。
地势坤,君子以厚德载物。
描述统计—基本概念
说明现象的某一数量特征的概念也被称为变量,变量的 具体取值是变量值,统计数据就是统计变量的具体表现。
连续型变量是指变量的取值在数轴上连续不断,无法一 离散型变量是指变量的其取值是整数值,可以一一列举。
一列举,即在一个区间内可以取任意实数值。
天行健,君子以自强不息。
地势坤,君子以厚德载物。
描述统计—数据
统计数据是总体单位标志或统计指标的具体数量表现。
定类尺度 定序尺度
定距尺度 定比尺度
天行健,君子以自强不息。 地势坤,君子以厚德载物。
3
•
• • •
天行健,君子以自强不息。
2014年3月10日8时12分
地势坤,君子以厚德载物。
课程介绍
•课堂资料下载
内容:补充资料、课件、案例讨论、教学大 纲、复习要点等。 公共Email: Msta2013@163.com 密码: Msta2013
4
天行健,君子以自强不息。
2014年3月10日8时12分
天行健,君子以自强不息。
地势坤,君子以厚德载物。
引言
显然,大量信息在给人们带来方便的同时也带来
一系列问题。
信息量过大,超过了人们掌握、消化的能力; 一些信息真伪难辩; 信息组织形式的不一致性导致难以对信息进行有效统一处理;
传统的数据库技术和数据处理手段已经不能满足要求; 在Internet中进行信息的查找如大海捞针。
引言
多元统计分析是运用数理统计方法来研究解决多指标
问题的理论和方法。
近30年来,随着计算机应用技术的发展和科研生产的
迫切需要,多元统计分析技术被广泛地应用于多个领 域,已经成为解决实际问题的有效方法。
随着Internet的日益普及,各行业、单位生成、收集、
存储和处理数据的能力大大提高,数据量与日俱增, 大量复杂信息层出不穷。
天行健,君子以自强不息。
地势坤,君子以厚德载物。
描述统计—数据
样本数据的矩阵形式为:
天行健,君子以自强不息。
地势坤,君子以厚德载物。
描述统计—统计量
样本均值
矩阵形式
x1 x 2 x xp
其中,
1 n x j xij n i 1
j 1, 2, , p
天行健,君子以自强不息。
地势坤,君子以厚德载物。
描述统计—统计量
样本协方差
矩阵形式
s11 s21 S s p1
s12 s22 sp2
s1 p s2 p 1 ( x x )( x x ) n 1 s pp
引言
一 统计学的生命力在于应用
统计学的发展过程中可以看出统计学产生于应 用,它在应用中诞生,在应用中成熟、独立,在应 用中扩充自身的方法内容,同时扩展了应用领域, 又在应用中与其他学科紧密结合形成新的边缘学科。 它的生命力在于应用。
天行健,君子以自强不息。
•
•
教参书籍
《应用统计学》,张建同、孙昌言、王世进 主编,清华大学出版 社,2010年。 《应用多元统计分析》,(德)沃尔夫冈· 哈德勒,(比)利奥波 德· 西马 著,陈诗一 译,北京大学出版社,2011年 。 《应用统计学》,马庆国 编著,科学出版社,2005年。 《应用多元统计分析》 朱建平 主编,科学出版社,2006年。 《多元统计分析》,何晓群 编著,人民大学出版社,2008年。
天行健,君子以自强不息。
地势坤,君子以厚德载物。
第一讲
(一)多元描述统计分析
descriptive statistics
沈琪
shenqi@ecust.edu.cn
13
天行健,君子以自强不息。
2014年3月10日8时12分
地势坤,君子以厚德载物。
描述统计—基本概念
总体是根据一定目的确定的所要研究的事物的全体。它是
描述统计—数据
横截面数据又称为静态数据,它是指在同一时间对同一总 时间序列数据又称为动态数据,它是指在不同时间对同一
体内不同单位的数量进行观察而获得的数据。
总体的数量表现进行观察而获得的数据。
天行健,君子以自强不息。
地势坤,君子以厚德载物。
描述统计—数据
多元数据的表格形式
设p个变量来记录事物的特征,对于每个个体或单位,记录下 这些变量的测量值。我们用记号表示第i个样本上第j个变量的 测量值,即
地势坤,君子以厚德载物。
引言
二 多元统计分析方法的应用
天行健,君子以自强不息。
地势坤,君子以厚德载物。
引言—应用实例
城镇居民消费水平通常用八项指标来描述,如人均粮食 支出、人均副食支出、人均烟酒茶支出、人均衣着商品支出、 人均日用品支出、人均燃料支出、人均非商品支出。这八项 指标存在一定的线性关系。为了研究城镇居民的消费结构, 需要将相关强的指标归并到一起,这实际就是对指标进行聚 类分析。
在临床上,医生需要对病人治疗前后的状况进行控制。例如 通过对比一组病人使用某种药物后的身体指标,可以判断该 药物对病人是否有效,效果是否显著。
天行健,君子以自强不息。
地势坤,君子以厚德载物。
均值的比较检验—内容
一 单一样本的均值检验
二 独立样本的均值检验
三 配对样本的均值检验
天行健,君子以自强不息。
多元统计学 Multivariate statistics
沈琪 shenqi@ecust.edu.cn
课程介绍
• 教师
• 主讲教师:沈 琪
• E-mail: shenqi@ecust.edu.cn
2
天行健,君子以自强不息。
2014年3月10日8时12分
地势坤,君子以厚德载物。
课程介绍
•
•
教材
《多元统计分析与SPSS应用》,汪冬华等主编,华东理工大学 出版社,2010年
n 1 其中, s jk ( xij x j )( xik xk ), n 1 i 1
j 1, 2, , p, k 1, 2, , p
事实上,sjk是变量j和k的协方差 当j=k时, sjj是变量j的方差,也常记为
1 n 2 s ( x x ) ij j n 1 i 1
x1 p x2 p xip xnp
地势坤,君子以厚德载物。
描述统计—数据
例题分析
消费者物价指数(CPI)是反映与居民生活有关的产品及劳务价 格统计出来的物价变动指标,通常作为观察通货膨胀水平的重 要指标。商品零售价格指数是反映一定时期内商品零售价格变 动趋势和程度的相对数。两者都能为研究市场流通、进行国民 经济核算提供依据。
天行健,君子以自强不息。
地势坤,君子以厚德载物。
引言—应用实例
在企业经济效益的评价中,涉及到的指标往往很多, 如百元固定资产原值实现产值、百元固定资产原值实现 利税、百元资金实现利税、百元工业总产值实现利税、 百元销售收入实现利税、每吨标准煤实现工业产值、每 千瓦时电力实现工业产值、全员劳动生产率、百元流动 资金实现产值。如何将这些具有错综复杂关系的指标综 合成几个较少的因子,既有利于对问题进行分析和解释, 又能便于抓住主要矛盾做出科学的评价。可用主成分分 析和因子分析法。
2 j
j 1, 2, , p sjk = skj ,即S是对称矩阵。
地势坤,君子以厚德载物。
天行健,君子以自强不息。
描述统计—统计量
样本相关系数
1 r21 R rp1 r1 p 1 r2 p rp 2 1 r12
天行健,君子以自强不息。
地势坤,君子以厚德载物。
均值的比较检验—实例
在企业市场结构的研究中,起关键作用的指标有市场分额、 企业规模、资本收益率、总收益增长率等。为了研究市场结 构的变动,研究人员通常需要将调查所得的数据与历史数据 进行比较。通过均值比较检验,就能比较出现在的市场结构 与过去是否存在显著性差异。
地势坤,君子以厚德载物。
课程介绍
•教学内容安排
内容安排 第一讲 第二讲 多元描述统计分析和均值的比较检验 方差分析
第三讲
第四讲 第五讲 第六讲 第七讲 第八讲 实验教学
天行健,君子以自强不息。
相关分析
聚类分析 判别分析 主成分分析 因子分析 典型相关分析 课堂教学中穿插实验教学
地势坤,君子以厚德载物。
xij=第j个变量的第i项测量值
天行健,君子以自强不息。
地势坤,君子以厚德载物。
描述统计—数据
多元数据的矩阵形式
X=(xij)n×p
x11 x21 X xi1 xn1
天行健,君子以自强不息。
x12 x1 j x22 x2 j xi 2 xij xn 2 xnj
H 0 : 0 , H1: 0
当然也可以有单侧检验的假设形式。
天行健,君子以自强不息。
地势坤,君子以厚德载物。
单一样本均值的检验—基本步骤
提出假设
H 0 : 0 , H1: 0
确定检验统计量 若总体方差已知,此时可构造标准正态分布Z检验统计量 X Z N (0,1) / n
天行健,君子以自强不息。
地势坤,君子以厚德载物。
引言
多元分析的开端——1928年Wishart发表论文《多元正态总体
样本协差阵的精确分布》; 20世纪30年代R.A. Fisher 、H.Hotelling、S.N.Roy、许宝騄 等人作了一系列得奠基性工作; 20世纪40年代在心理、教育、生物等方面有不少得应用,但 由于计算量大,使其发展受到影响; 20世纪50年代中期,随着电子计算机得出现和发展,使多元 分析方法得到广泛得应用; 20世纪60年代通过应用和实践又完善和发展了理论,由于新 的理论、新的方法不断涌现又促使它的应用范围更加扩大; 20世纪70年代初期在我国才受到各个领域的极大关注。 在20世纪末与本世纪初,多元统计与人工智能和数据库技术 相结合,已在经济、商业、金融等行业得到了成功的应用。
统计表:把统计数据按一定的顺序排列在表格上,就形成
了统计表。它清楚地、有条理地显示统计资料,直观地反映 统计分布特征,是统计分析的一种重要工具。
天行健,君子以自强不息。
地势坤,君子以厚德载物。
描述统计—统计图表
利用统计图表示数据时,首先要确定数据所属类型是定性数 据还是定量数据 定性数据常用的图形表示: 条形图 饼图 环形图 定性数据常用的图形表示: 直方图 茎叶图 箱线图 散点图 气泡图 雷达图
zij
xij x j sj
其中,
n 1 2 2 sj ( xij x j ) n 1 i 1
此时
Z Z R n 1
地势坤,君子以厚德载物。
天行健,君子以自强不息。
描述统计—SPSS应用
SPSS应用
天行健,君子以自强不息。
地势坤,君子以厚德载物。
描述统计—统计图表
天行健,君子以自强不息。
地势坤,君子以厚德载物。
描述统计—案例分析
案例
天行健,君子以自强不息。
地势坤,君子以厚德载物。
第一讲
(二)均值的比较检验
沈琪
shenqi@ecust.edu.cn
30
天行健,君子以自强不息。
2014年3月1ห้องสมุดไป่ตู้日8时12分
地势坤,君子以厚德载物。
均值的比较检验—作用
推断样本与总体或者两个总体 之间的差异是否显著
地势坤,君子以厚德载物。
单一样本均值的检验
-检验样本所在总体的均值与给 定的已知值之间是否存在显著性差异
天行健,君子以自强不息。
地势坤,君子以厚德载物。
单一样本均值的检验
只对单一变量的均值加以检验 如检验今年新生的统计学平均成绩是否和往年有显著差 异;推断某地区今年的人均收入与往年的人均收入是否有 显著差异等等。 要求样本数据来自于服从正态分布的单一总体 假设的基本形式:
矩阵形式
其中,
rjk
s jk s jj skk
(x
i 1 n j 1
n
ij
x j )( xik xk )
2 2 ( x x ) ik k k 1 n
( xij x j )
R也为对称矩阵
天行健,君子以自强不息。 地势坤,君子以厚德载物。
描述统计—数据标准化
标准差标准化公式
由客观存在的、具有某种共同性质的许多个别事物构成的整 体。
总体单位(简称单位)是组成总体的各个个体。 样本是由总体的部分单位组成的集合。 标志总体各单位普遍具有的属性或特征。
天行健,君子以自强不息。
地势坤,君子以厚德载物。
描述统计—基本概念
说明现象的某一数量特征的概念也被称为变量,变量的 具体取值是变量值,统计数据就是统计变量的具体表现。
连续型变量是指变量的取值在数轴上连续不断,无法一 离散型变量是指变量的其取值是整数值,可以一一列举。
一列举,即在一个区间内可以取任意实数值。
天行健,君子以自强不息。
地势坤,君子以厚德载物。
描述统计—数据
统计数据是总体单位标志或统计指标的具体数量表现。
定类尺度 定序尺度
定距尺度 定比尺度
天行健,君子以自强不息。 地势坤,君子以厚德载物。
3
•
• • •
天行健,君子以自强不息。
2014年3月10日8时12分
地势坤,君子以厚德载物。
课程介绍
•课堂资料下载
内容:补充资料、课件、案例讨论、教学大 纲、复习要点等。 公共Email: Msta2013@163.com 密码: Msta2013
4
天行健,君子以自强不息。
2014年3月10日8时12分
天行健,君子以自强不息。
地势坤,君子以厚德载物。
引言
显然,大量信息在给人们带来方便的同时也带来
一系列问题。
信息量过大,超过了人们掌握、消化的能力; 一些信息真伪难辩; 信息组织形式的不一致性导致难以对信息进行有效统一处理;
传统的数据库技术和数据处理手段已经不能满足要求; 在Internet中进行信息的查找如大海捞针。
引言
多元统计分析是运用数理统计方法来研究解决多指标
问题的理论和方法。
近30年来,随着计算机应用技术的发展和科研生产的
迫切需要,多元统计分析技术被广泛地应用于多个领 域,已经成为解决实际问题的有效方法。
随着Internet的日益普及,各行业、单位生成、收集、
存储和处理数据的能力大大提高,数据量与日俱增, 大量复杂信息层出不穷。
天行健,君子以自强不息。
地势坤,君子以厚德载物。
描述统计—数据
样本数据的矩阵形式为:
天行健,君子以自强不息。
地势坤,君子以厚德载物。
描述统计—统计量
样本均值
矩阵形式
x1 x 2 x xp
其中,
1 n x j xij n i 1
j 1, 2, , p
天行健,君子以自强不息。
地势坤,君子以厚德载物。
描述统计—统计量
样本协方差
矩阵形式
s11 s21 S s p1
s12 s22 sp2
s1 p s2 p 1 ( x x )( x x ) n 1 s pp