基本统计分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 均值的比较:T检验 • 离散程度的分析: 方差分析
SPSS中的菜单
• 专门的描述性统计菜单:
▫ 描述(D):该过程则进行一般性的统计描述; ▫ 探索(E): 该过程用于对数据概况不清时的探索性分
析; ▫ 交叉表(C):该过程完成分类数据的统计描述和一般
的统计检验,我们常用的 检验也包含在该对话框中。
差。数据如表4-1所示。
表4-1
数学成绩表
性别
数学
Male
99
79
59
89
79
89
99
Female
88
54
56
23
实现步骤
图4-1 在菜单中选择“Means”命令
图4-2 Means对话框
图4-3 “Means:Options”对话框
4.1.3 结果和讨论
4.2 单一样本T检验
定义:SPSS单样本T检验是检验某个变量的 总体均值和某指定值之间是否存在显著差异。 统计的前提样本总体服从正态分布。也就是说 单样本本身无法比较,进行的是其均数与已知 总体均数间的比较。
Chapter 1 基本统计分析
《SPSS 应用》
怎么办?
• 如何来表示一个数据集 合的基本特征?
• 怎么区分比较不同样本 进行?
数据特征:集中趋势与离散趋势 均值分析 方差分析
一、集中趋势分析:均值
• 均值即数据的算术平均数,是数据中心趋势的主要 度量指标,
• 设变量有n个测量值 x1, x2, , xn ,则算术均值为:
1.判断两个总体的方差是否相同
均值比较和T检验
《SPSS 应用》
如何进行均值的分析
怎么做? • 江理男性身高是否达到国家平均水平? • 中国女性身高与日本女性身高相比而言怎么样? • 解放后,我国青少年身高是不是有明显变化?
SPSS- 分析 – 比较平均值
4.1
Means过程
4.2
单一样本T检验
4.3
两独立样本T检验
4.4
▫ 当偏度0,分布为负偏或 左偏,即分布图形在左边 拖尾,分布图有很长的左 尾,峰尖偏右
▫ 当偏度为0,分布对称
峰度
• 峰度 • >3,分布为高峰度,即
比正态分布的峰要陡峭; <3,分布为低峰度,即 比正态分布的峰要平坦 些;=0,分布为正态峰。
wenku.baidu.com
三、SPSS的描述性统计
• 许多菜单均可对数据进行描述性分析,提供描述性 统计指标的输出。
▫ 如何计算?
将原数据从小到大排列 计算i=(p/100)n 若i是整数, 则第p百分位数为第i 与第 i+1 项的平均 若i不是整数,则向上取整。
总结五数
• 最小值、第一个四分位数、中位数、第三个四分位 数、最大值
• 从这五个值可以大致看出数据分布的中心和离散程 度。而箱图则是这五个数的图形表现
两配对样本T检验
4.1 Means过程
定义:Means过程是SPSS计算各种基本 描述统计量的过程。与第3章中的计算某 一样本总体均值相比,Means过程其实就 是按照用户指定条件,对样本进行分组计 算均数和标准差,如按性别计算各组的均 数和标准差。
研究问题 比较不同性别同学的数学成绩平均值和方
众数
• 发生频数最高的数据值 • 不受极端值的影响 • 众数可能不存在 • 可能有多个众数(单峰,双峰,多峰) • 可用于定量或定性数据
众数、中位数和均值的特点和应用
1. 众数
▫ 不受极端值影响 ▫ 具有不唯一性 ▫ 数据分布偏斜程度较大时应用
2. 中位数
▫ 不受极端值影响 ▫ 数据分布偏斜程度较大时应用
单样本T检验的零假设为 H0: 总体均值和指定检验值之间不存在显著 差异。
采用T检验方法,按照下面公式计算T统计量:
4.2.2 SPSS中实现过程
研究问题 分析某班级学生的高考数学成绩和全国的
平均成绩70之间是否存在显著性差异。数据如 表4-1所示。
4.2.3 结果和讨论
4.3 两独立样本T检验
均值的特点
• 最常用的中心位置度量 • 受极端值影响 • 例:1,3,5,7,9 和 1,3,5,7,14
中位数
• 重要的中心位置度量 • 在递增排序后的数据列中
▫ 若数据个数为奇数,中位数是正中央的数 ▫ 若数据个数是偶数,中位数是正中央的两数的平均值.
• 不受极端值的影,例如:1,5,7,3,9
3. 均值
▫ 易受极端值影响 ▫ 数学性质优良 ▫ 数据对称分布或接近对称分布时应用
二、离散趋势
• 假设我们有以下的三组观测值:
▫ 观测A:11,12,13,16,16,17,18,21 ▫ 观测B:14,15,15,15,16,16,16,17 ▫ 观测C:11,11,11,12,19,20,20,20
定义:所谓独立样本是指两个样本之间彼此 独立没有任何关联,两个独立样本各自接受相 同的测量,研究者的主要目的是了解两个样本 之间是否有显著差异存在。
检验的前提: 独立样本 正态分布
两独立样本T检验的零假设 H0为两总体均值之间不存在显著差异。
在具体的计算中需要通过两步来完成: 第一,利用F检验判断两总体的方差是否相同; 第二,根据第一步的结果,决定T统计量和自 由度计算公式,进而对T检验的结论作出判断。
离散趋势
1. 数据分布的另一个重要特征 2. 反映各变量值远离其中心值的程度(离散程度) 3. 从另一个侧面说明了集中趋势测度值的代表程度 4. 不同类型的数据有不同的离散程度测度值
偏态与峰态
偏态
峰态
左偏分布 右偏分布
扁平分布
与正态分布 比较!
尖峰分布
分布的形状
• 偏度
▫ 当偏度0时,分布为正偏 或右偏,布图形在右边拖 尾,分布图有很长的右尾, 尖峰偏左
• 这三组观测值的均值都是15.5,那么这三组数据是 否相似呢?
离散趋势
离散趋势的描述
• 极差(range) • 方差(Variance) • 标准差(S.d.) • 分位数( Percentage) • 变异指标
极差
• 极差=最大值-最小值 • 受极端值影响较大
方差和标准差
• 方差
• 标准差
变异系数
• 在比较两组数据离散程度大小时,如果数据的测量 尺度相差太大,直接比较二者的标准差并不合适。
• 需要首先消除测量尺度和量纲的影响。变异系数可 以剔除这些影响,其计算公式为:
分位数
• 第p百分位数
▫ 使得至少有p%的数据小于或等于这个值,且 使得至少有(100-p)%的数据大于或等于这个值
SPSS中的菜单
• 专门的描述性统计菜单:
▫ 描述(D):该过程则进行一般性的统计描述; ▫ 探索(E): 该过程用于对数据概况不清时的探索性分
析; ▫ 交叉表(C):该过程完成分类数据的统计描述和一般
的统计检验,我们常用的 检验也包含在该对话框中。
差。数据如表4-1所示。
表4-1
数学成绩表
性别
数学
Male
99
79
59
89
79
89
99
Female
88
54
56
23
实现步骤
图4-1 在菜单中选择“Means”命令
图4-2 Means对话框
图4-3 “Means:Options”对话框
4.1.3 结果和讨论
4.2 单一样本T检验
定义:SPSS单样本T检验是检验某个变量的 总体均值和某指定值之间是否存在显著差异。 统计的前提样本总体服从正态分布。也就是说 单样本本身无法比较,进行的是其均数与已知 总体均数间的比较。
Chapter 1 基本统计分析
《SPSS 应用》
怎么办?
• 如何来表示一个数据集 合的基本特征?
• 怎么区分比较不同样本 进行?
数据特征:集中趋势与离散趋势 均值分析 方差分析
一、集中趋势分析:均值
• 均值即数据的算术平均数,是数据中心趋势的主要 度量指标,
• 设变量有n个测量值 x1, x2, , xn ,则算术均值为:
1.判断两个总体的方差是否相同
均值比较和T检验
《SPSS 应用》
如何进行均值的分析
怎么做? • 江理男性身高是否达到国家平均水平? • 中国女性身高与日本女性身高相比而言怎么样? • 解放后,我国青少年身高是不是有明显变化?
SPSS- 分析 – 比较平均值
4.1
Means过程
4.2
单一样本T检验
4.3
两独立样本T检验
4.4
▫ 当偏度0,分布为负偏或 左偏,即分布图形在左边 拖尾,分布图有很长的左 尾,峰尖偏右
▫ 当偏度为0,分布对称
峰度
• 峰度 • >3,分布为高峰度,即
比正态分布的峰要陡峭; <3,分布为低峰度,即 比正态分布的峰要平坦 些;=0,分布为正态峰。
wenku.baidu.com
三、SPSS的描述性统计
• 许多菜单均可对数据进行描述性分析,提供描述性 统计指标的输出。
▫ 如何计算?
将原数据从小到大排列 计算i=(p/100)n 若i是整数, 则第p百分位数为第i 与第 i+1 项的平均 若i不是整数,则向上取整。
总结五数
• 最小值、第一个四分位数、中位数、第三个四分位 数、最大值
• 从这五个值可以大致看出数据分布的中心和离散程 度。而箱图则是这五个数的图形表现
两配对样本T检验
4.1 Means过程
定义:Means过程是SPSS计算各种基本 描述统计量的过程。与第3章中的计算某 一样本总体均值相比,Means过程其实就 是按照用户指定条件,对样本进行分组计 算均数和标准差,如按性别计算各组的均 数和标准差。
研究问题 比较不同性别同学的数学成绩平均值和方
众数
• 发生频数最高的数据值 • 不受极端值的影响 • 众数可能不存在 • 可能有多个众数(单峰,双峰,多峰) • 可用于定量或定性数据
众数、中位数和均值的特点和应用
1. 众数
▫ 不受极端值影响 ▫ 具有不唯一性 ▫ 数据分布偏斜程度较大时应用
2. 中位数
▫ 不受极端值影响 ▫ 数据分布偏斜程度较大时应用
单样本T检验的零假设为 H0: 总体均值和指定检验值之间不存在显著 差异。
采用T检验方法,按照下面公式计算T统计量:
4.2.2 SPSS中实现过程
研究问题 分析某班级学生的高考数学成绩和全国的
平均成绩70之间是否存在显著性差异。数据如 表4-1所示。
4.2.3 结果和讨论
4.3 两独立样本T检验
均值的特点
• 最常用的中心位置度量 • 受极端值影响 • 例:1,3,5,7,9 和 1,3,5,7,14
中位数
• 重要的中心位置度量 • 在递增排序后的数据列中
▫ 若数据个数为奇数,中位数是正中央的数 ▫ 若数据个数是偶数,中位数是正中央的两数的平均值.
• 不受极端值的影,例如:1,5,7,3,9
3. 均值
▫ 易受极端值影响 ▫ 数学性质优良 ▫ 数据对称分布或接近对称分布时应用
二、离散趋势
• 假设我们有以下的三组观测值:
▫ 观测A:11,12,13,16,16,17,18,21 ▫ 观测B:14,15,15,15,16,16,16,17 ▫ 观测C:11,11,11,12,19,20,20,20
定义:所谓独立样本是指两个样本之间彼此 独立没有任何关联,两个独立样本各自接受相 同的测量,研究者的主要目的是了解两个样本 之间是否有显著差异存在。
检验的前提: 独立样本 正态分布
两独立样本T检验的零假设 H0为两总体均值之间不存在显著差异。
在具体的计算中需要通过两步来完成: 第一,利用F检验判断两总体的方差是否相同; 第二,根据第一步的结果,决定T统计量和自 由度计算公式,进而对T检验的结论作出判断。
离散趋势
1. 数据分布的另一个重要特征 2. 反映各变量值远离其中心值的程度(离散程度) 3. 从另一个侧面说明了集中趋势测度值的代表程度 4. 不同类型的数据有不同的离散程度测度值
偏态与峰态
偏态
峰态
左偏分布 右偏分布
扁平分布
与正态分布 比较!
尖峰分布
分布的形状
• 偏度
▫ 当偏度0时,分布为正偏 或右偏,布图形在右边拖 尾,分布图有很长的右尾, 尖峰偏左
• 这三组观测值的均值都是15.5,那么这三组数据是 否相似呢?
离散趋势
离散趋势的描述
• 极差(range) • 方差(Variance) • 标准差(S.d.) • 分位数( Percentage) • 变异指标
极差
• 极差=最大值-最小值 • 受极端值影响较大
方差和标准差
• 方差
• 标准差
变异系数
• 在比较两组数据离散程度大小时,如果数据的测量 尺度相差太大,直接比较二者的标准差并不合适。
• 需要首先消除测量尺度和量纲的影响。变异系数可 以剔除这些影响,其计算公式为:
分位数
• 第p百分位数
▫ 使得至少有p%的数据小于或等于这个值,且 使得至少有(100-p)%的数据大于或等于这个值