【精选】第三章描述性统计分析37
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
距离,是以标准差为单位计算。在原始分数低 于平均值时Z则为负数,反之则为正数。
标准化Z分数
Z分数可以用来比较两个从不同单位总体中抽 出的变量值。
例如:某中学高(1)班期末考试,已知语文 期末考试的全班平均分为73分,标准差为7分 ,甲得了78分;数学期末考试的全班平均分为 80分,标准差为6.5分,甲得了83分。甲哪一 门考试成绩比较好?
偏度(Skewness)
当偏度大于0时,分布为 正偏或右偏,布图形在右 边拖尾,分布图有很长的 右尾,尖峰偏左
当偏度小于0,分布为负 偏或左偏,即分布图形在 左边拖尾,分布图有很长 的左尾,峰尖偏右
当偏度为0,分布对称
峰度(Kurtosis)
峰度 >3,分布为高Hale Waihona Puke Baidu度,即
比正态分布的峰要陡峭; <3,分布为低峰度,即
1,3,5,7,14
均值标准误差( S.E. mean )
均值标准误差(Standard Error of Mean, S.E. mean)就是描述这些样本均值与总体均值之 间平均差异程度的统计变量。
中位数
重要的中心位置度量 在递增排序后的数据列中
若数据个数为奇数,中位数是正中央的数 若数据个数是偶数,中位数是正中央的两数的平
比正态分布的峰要平坦 些;=0,分布为正态峰。
标准化Z分数
标准分数(stardard score)也叫z分数(zscore),是一个分数与平均数的差再除以标准 差的过程。用公式表示为:
z=(x-μ)/σ。其中x为某一具体分数, μ为平均数,σ为标准差。 Z值的量代表着原始分数和母体平均值之间的
按频数降序排
3.2 中心趋势的描述
均值 均值标准误差 中位数 众数
均值
均值即数据的算术平均数,是数据中心趋势的 主要度量指标,
设变量有n个测量值 x1, x2, , xn ,则算术均值 为:
均值的特点
最常用的中心位置度量 受极端值影响 例:1,3,5,7,9 和
均值.
不受极端值的影,例如:1,5,7,3,9
众数
发生频数最高的数据值 不受极端值的影响 众数可能不存在 可能有多个众数(单峰,双峰,多峰) 可用于定量或定性数据
3.3 离散趋势的描述
仅仅根据数据的中心趋势指标进行决策是不够 的。例如,如果一个国家的不同家庭收入差距 很少;而另一个国家的家庭收入差距很大,既 存在大量的贫困家庭,也存在许多十分富有的 家庭,那么即使这两个国家的中等收入家庭的 收入完全一样,其家庭收入情况仍然完全不同。
描述性统计分析指标
统计量可分为两类
一类表示数据的中心位置,例如均值、中位数、众 数等
一类表示数据的离散程度,例如方差、标准差、极 差等用来衡量个体偏离中心的程度。
描述单变量分布的三种方式
用数字呈现一个变量的分布 用表格呈现一个变量的分布 用图形呈现一个变量的分布
Frequencies Descriptive Explore
极差(全距)(range) 方差(Variance) 标准差(S.d.) 分位数( Percentage)
极差
极差=最大值-最小值 受极端值影响较大
方差和标准差
方差 标准差
四分位数 (Quartiles)
四分位数是将一组个案由小到大(或由大到小) 排序后,用3个点将全部数据分为四等份,与3个 点上相对应的变量为四分位数,分别记为Q1(第 一四分位数)、Q2(第二四分位数)、Q3(第 三四分位数)。
3、Explore
三个功能项中最强大的一个 适用于性质和分布不明的数据资料,故称为探
标准化Z分数
因为两科期末考试的标准差不同,因此不能用 原始分数直接比较。需要将原始分数转换成标 准分数,然后进行比较。
Z(语文)=(78-73)/7=0.71 Z(数学)=(83-80)/6.5=0.46
甲的语文成绩在其整体分布中位于平均分之上 0.71个标准差的地位,他的数学成绩在其整体 分布中位于平均分之上0.46个标准差的地位。 由此可见,甲的语文期末考试成绩优于数学期 末考试成绩。
其中Q3到Q1之间的距离的一半又称为四分位差, 记为Q。四分位差越小,说明中间的数据越集中; 四分位差越大,则意味着中间部分的数据越分散。
3.4 分布的形状
偏度(Skewness)是描述数据分别形态的, 它是描述某变量取值分布对称性的统计量。
峰度(Kurtosis)是描述某变量所有取值分布 形态陡缓程度的统计量。
1、Frequencies
即适用于分类变量,也适用于连续变量 能够产生统计值 能够产生统计表(频数表) 能够产生统计图(饼图、条图和直方图)
3.1 频率分析
频率分析主要通过频率分布表、条形图和直方 图,以及集中趋势和离散趋势的各种统计量来 描述数据的分布特征
SPSS频率分析
第3章 描述性统计分析
描述性统计和推断性统计
统计描述
单变量统计描述:描述单个变量之分布 双变量统计描述:描述两个变量之相关
统计推论
参数估计 假设检验
统计量
统计分析往往是从了解数据的基本特征开始的。 统计上,需要把样本数据所含信息进行概括、 融合和抽象,从而得到反映样本数据的综合指 标,这些指标称为统计量。
步骤1:点击Frequencies,弹出对话框
步骤2:从左侧变量框,选择分析变量
步骤3:点击“OK”,自动出现频数分析
Frequencies的三个操作选项
带有正态曲线的直方图
按变量值升序排
设置多变量 表输出格式
在同一表中输出多 个变量 的统计结果
每个表中只输出一个变量的统计结果
例子
假设我们有以下的三组观测值:
观测A:11,12,13,16,16,17,18,21 观测B:14,15,15,15,16,16,16,17 观测C:11,11,11,12,19,20,20,20
这三组观测值的均值都是15.5,那么这三组数 据是否相似呢?
离散趋势
离散趋势的描述
标准化Z分数
Z分数可以用来比较两个从不同单位总体中抽 出的变量值。
例如:某中学高(1)班期末考试,已知语文 期末考试的全班平均分为73分,标准差为7分 ,甲得了78分;数学期末考试的全班平均分为 80分,标准差为6.5分,甲得了83分。甲哪一 门考试成绩比较好?
偏度(Skewness)
当偏度大于0时,分布为 正偏或右偏,布图形在右 边拖尾,分布图有很长的 右尾,尖峰偏左
当偏度小于0,分布为负 偏或左偏,即分布图形在 左边拖尾,分布图有很长 的左尾,峰尖偏右
当偏度为0,分布对称
峰度(Kurtosis)
峰度 >3,分布为高Hale Waihona Puke Baidu度,即
比正态分布的峰要陡峭; <3,分布为低峰度,即
1,3,5,7,14
均值标准误差( S.E. mean )
均值标准误差(Standard Error of Mean, S.E. mean)就是描述这些样本均值与总体均值之 间平均差异程度的统计变量。
中位数
重要的中心位置度量 在递增排序后的数据列中
若数据个数为奇数,中位数是正中央的数 若数据个数是偶数,中位数是正中央的两数的平
比正态分布的峰要平坦 些;=0,分布为正态峰。
标准化Z分数
标准分数(stardard score)也叫z分数(zscore),是一个分数与平均数的差再除以标准 差的过程。用公式表示为:
z=(x-μ)/σ。其中x为某一具体分数, μ为平均数,σ为标准差。 Z值的量代表着原始分数和母体平均值之间的
按频数降序排
3.2 中心趋势的描述
均值 均值标准误差 中位数 众数
均值
均值即数据的算术平均数,是数据中心趋势的 主要度量指标,
设变量有n个测量值 x1, x2, , xn ,则算术均值 为:
均值的特点
最常用的中心位置度量 受极端值影响 例:1,3,5,7,9 和
均值.
不受极端值的影,例如:1,5,7,3,9
众数
发生频数最高的数据值 不受极端值的影响 众数可能不存在 可能有多个众数(单峰,双峰,多峰) 可用于定量或定性数据
3.3 离散趋势的描述
仅仅根据数据的中心趋势指标进行决策是不够 的。例如,如果一个国家的不同家庭收入差距 很少;而另一个国家的家庭收入差距很大,既 存在大量的贫困家庭,也存在许多十分富有的 家庭,那么即使这两个国家的中等收入家庭的 收入完全一样,其家庭收入情况仍然完全不同。
描述性统计分析指标
统计量可分为两类
一类表示数据的中心位置,例如均值、中位数、众 数等
一类表示数据的离散程度,例如方差、标准差、极 差等用来衡量个体偏离中心的程度。
描述单变量分布的三种方式
用数字呈现一个变量的分布 用表格呈现一个变量的分布 用图形呈现一个变量的分布
Frequencies Descriptive Explore
极差(全距)(range) 方差(Variance) 标准差(S.d.) 分位数( Percentage)
极差
极差=最大值-最小值 受极端值影响较大
方差和标准差
方差 标准差
四分位数 (Quartiles)
四分位数是将一组个案由小到大(或由大到小) 排序后,用3个点将全部数据分为四等份,与3个 点上相对应的变量为四分位数,分别记为Q1(第 一四分位数)、Q2(第二四分位数)、Q3(第 三四分位数)。
3、Explore
三个功能项中最强大的一个 适用于性质和分布不明的数据资料,故称为探
标准化Z分数
因为两科期末考试的标准差不同,因此不能用 原始分数直接比较。需要将原始分数转换成标 准分数,然后进行比较。
Z(语文)=(78-73)/7=0.71 Z(数学)=(83-80)/6.5=0.46
甲的语文成绩在其整体分布中位于平均分之上 0.71个标准差的地位,他的数学成绩在其整体 分布中位于平均分之上0.46个标准差的地位。 由此可见,甲的语文期末考试成绩优于数学期 末考试成绩。
其中Q3到Q1之间的距离的一半又称为四分位差, 记为Q。四分位差越小,说明中间的数据越集中; 四分位差越大,则意味着中间部分的数据越分散。
3.4 分布的形状
偏度(Skewness)是描述数据分别形态的, 它是描述某变量取值分布对称性的统计量。
峰度(Kurtosis)是描述某变量所有取值分布 形态陡缓程度的统计量。
1、Frequencies
即适用于分类变量,也适用于连续变量 能够产生统计值 能够产生统计表(频数表) 能够产生统计图(饼图、条图和直方图)
3.1 频率分析
频率分析主要通过频率分布表、条形图和直方 图,以及集中趋势和离散趋势的各种统计量来 描述数据的分布特征
SPSS频率分析
第3章 描述性统计分析
描述性统计和推断性统计
统计描述
单变量统计描述:描述单个变量之分布 双变量统计描述:描述两个变量之相关
统计推论
参数估计 假设检验
统计量
统计分析往往是从了解数据的基本特征开始的。 统计上,需要把样本数据所含信息进行概括、 融合和抽象,从而得到反映样本数据的综合指 标,这些指标称为统计量。
步骤1:点击Frequencies,弹出对话框
步骤2:从左侧变量框,选择分析变量
步骤3:点击“OK”,自动出现频数分析
Frequencies的三个操作选项
带有正态曲线的直方图
按变量值升序排
设置多变量 表输出格式
在同一表中输出多 个变量 的统计结果
每个表中只输出一个变量的统计结果
例子
假设我们有以下的三组观测值:
观测A:11,12,13,16,16,17,18,21 观测B:14,15,15,15,16,16,16,17 观测C:11,11,11,12,19,20,20,20
这三组观测值的均值都是15.5,那么这三组数 据是否相似呢?
离散趋势
离散趋势的描述