-单变量统计描述分析教程文件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
P24-29
统计图
怎么样制作统计图?用EXCEL 1. 定类变量:饼图(圆瓣图),条形图 2. 定序变量:条形图 3. 定距变量:直方图、折线图
P30-33
分布图的Biblioteka Baidu析
对一个分布图,我们应该关注哪些呢? 1. 峰点 2. 对称性:是否是正态分布 3. U形曲线和J形曲线
P37-39
第二节 集中趋势测量法
集中趋势测量法
一般情况下: 1. 定类变量:众数Mo 2. 定序变量:中位值Md 3. 定距变量:平均值
众数
众数( 概念要点 )
1. 集中趋势的测度值之一 2. 出现次数最多的变量值 3. 不受极端值的影响 4. 可能没有众数或有几个众数 5. 主要用于定类变量,也可用于定序变量和
定距变量
众数(计算方法) P40
+1
????
当N为奇数时 当N为偶数时
分组数据的计算公式 P44
均值
均值( 概念要点)
? 1. 集中趋势的测度值之一 ? 2. 最常用的测度值 ? 3. 一组数据的均衡点所在 ? 4. 易受极端值的影响 ? 5. 用于定距变量,不能用于定类变量和定
序变量
均值( 计算公式 )
设一组数据为: X1 ,X2 ,… ,XN
集中趋势
1. 一组数据向其中心值靠拢的倾向和程度 2. 测度集中趋势就是寻找数据一般水平的代表值或中心值 3. 不同类型的变量用不同的集中趋势测度值 4. 低层次数据的集中趋势测度值适用于高层次的测量数据 ,
反过来,高层次数据的集中趋势测度值并不适用于低层次 的测量数据 5. 选用哪一个测度值来反映数据的集中趋势,要根据所掌握 的数据的类型来确定
? ni
i =1
N
? (Xi ? X)2
? = i=1
N
组距分组数据:
? =&
K
? ( Xi ? X)2 ni
i =1 K
? ni
i =1
异众比率、四分位差和方差/标准差的比较
变量类型与离散趋势测度值
表 变量类型和所适用的离散趋势测度值
变量类型 定类变量
定序变量
定距变量
适
※方差或
※异众比率 ※四分位差
众数
( 众数的不唯一性 )
无众数 原始数据:
10 5 9 12 6 8
一个众数 原始数据:
6 59 8 5 5
多于一个众数 原始数据: 25 28 28 36 42 42
中位值
中位值( 概念要点 )
1. 集中趋势的测度值之一 2. 排序后处于中间位置上的值
50%
50%
Me 3. 不受极端值的影响
(重点是未分组数据的求法)
异众比率
异众比率
? 1. 离散程度的测度值之一 ? 2. 非众数组的频数占总频数的比率 ? 3. 计算公式为 P49
4. 用于衡量众数的代表性
四分位差
四分位差
四分位值 :排序后处于25%和75%位置上的值
25% 25% 25% 25%
Q25
Q50
Q75
四分位差
? 1. 上四分位数与下四分位数之差
定距变量
适
用
※众数
※中位数
※均值
的
测
—
众数
众数
度
值
—
—
中位数
分布的形状与 众数、中位数和均值的关系
均值 中位数 众数 均值 = 中位数 = 众数 众数 中位数 均值
左偏分布
对称分布
右偏分布
?高层次变量可以用低层次变量的测量方法
?但统计分析中,更多的是用均值。 ?对于偏态的分布,应使用中位值作为集中趋势。 ?只有单峰和基本对称的图形,用均值作为集中趋势才是合理 的。P47
用
标准差
的
测
—
异众比率
异众比率
度
值
—
—
四分位差
高层次变量可以用低层次变量的测量方法
第四节 偏态 和 分布
偏态与峰度的测度
偏态
峰度
左偏分布
扁平分布
与标准正态 分布比较!
右偏分布
尖峰分布
P103 、104
变量的测度
变量的测度
集中趋势
众数 中位数 均值
离散程度
分布的形状
异众比率 四分位差 方差和标准差
统计表 (频数分布表、 百分比分布表 )
制作统计表的要求? 1、要有表号、表头、标识行、主体行、表尾 2、表的两端不封口 3、简单明了,中间不画线 4、百分比分布表要有样本总数
一般用得比较多的是百分比分布表, 因为百分比分布表可以还原成频数分布表
P25
统计表 (频数分布表、 百分比分布表 )
怎么样制作统计表? 1. 定类变量 2. 定序变量 3. 定距变量
差;根据样本数据计算的,称为样本方差或 标准差 .
总体方差和标准差(计算公式 )
方差是观察值与其均值之差的平方和除以全部观察总数N 。
方差的计算公式
未分组数据:
标准差的计算公式
未分组数据:
N
? (Xi ? X)2
? 2 = i=1
N
组距分组数据:
K
? (Xi ? X)2 ni
? 2 =& i=1
K
偏态 峰度
为了简化资料,用众值、中位值、均值来代表变量分布的集中趋势; 但为了说明它们的所能代表集中趋势的可靠程度,还需用变量的离散 程度加以补充。
变量分布的特征
集中趋势 (集中程度) 离散趋势 (分散程度) 偏态和峰度 (形状)
此课件下载可自行编辑修改,仅供参考! 感谢您的支持,我们努力做得更好!谢谢
4. 主要用于定序变量,也可用定距变量,但不能用于定类 变量
中位值( 位置的确定)
未分组数据: 中位值位置 = N + 1
2
组距分组数据: 中位值位置 = N
2
中位值的计算公式( 计算公式 )
未分组数据的计算公式
Me
=
? ??
X
?? ?
N +1 2
?? ?
? ? ??
1 2
????
X
N 2
+
X
N 2
第三节 离散趋势测量法
离散趋势
1. 数据分布的另一个重要特征 2. 离散趋势的各测度值是对数据离散程度所作的描述 3. 反映各变量值远离其中心值的程度,因此也称为离中趋势 4. 从另一个侧面说明了集中趋势测度值的代表程度 5. 不同类型的数据有不同的离散程度测度值
离散趋势测量法
一般情况下:
1. 定类变量:异众比率 2. 定序变量:四分位差 3. 定距变量:方差及标准差
Q = Q75 – Q25
? 2. 离散程度的测度值之一 ? 3. 反映了中间 50%数据的离散程度 ? 4.不受极端值的影响 ? 5.用于衡量中位数的代表性
方差和标准差
方差和标准差( 概念要点)
1. 离散程度的测度值之一 2. 最常用的测度值 3. 反映了数据的分布 4. 反映了各变量值与均值的平均差异 5. 根据总体数据计算的,称为总体方差或标准
i =1
K
ni
i =1
均值( 数学性质)
1. 各变量值与均值的离差之和等于零
n
? (Xi ? X) = 0
i=1
2. 各变量值与均值的离差平方和最小
n
? (Xi ? X)2 = min
i=1
众数、中位数和均值的比较
变量类型与集中趋势测度值
表 变量类型和所适用的集中趋势测度值
变量类型 定类变量
定序变量
简单均值 的计算公式为
N
? X = X1 + X2 + ?
+ XN =
Xi
i=1
N
N
设分组后的数据为: X1 ,X2 ,… ,XK (组中值)
相应的频数为: n1 , n2,… ,ni
分组均值 的计算公式为
K
?? X
=&
X1n1 + n1
X2n2 + L + n2 + L
+ XN + nN
nN
=
Xi ni
第3章-单变量统计描述分析
什么是分布? 用统计表和统计图来表示分布。 P21
变量取值要注意的问题:
1、取值要穷尽。 2、取值要互斥。 P22
什么是变量? 变量就是随时可以变化的量;变量意味着可以取不同的值。 变量对应的是常量; 具体到调查中,可以把变量理解为问卷中的一道题目所获得
的数据,如果是常量的话,我们有没有必要去调查呢?
统计图
怎么样制作统计图?用EXCEL 1. 定类变量:饼图(圆瓣图),条形图 2. 定序变量:条形图 3. 定距变量:直方图、折线图
P30-33
分布图的Biblioteka Baidu析
对一个分布图,我们应该关注哪些呢? 1. 峰点 2. 对称性:是否是正态分布 3. U形曲线和J形曲线
P37-39
第二节 集中趋势测量法
集中趋势测量法
一般情况下: 1. 定类变量:众数Mo 2. 定序变量:中位值Md 3. 定距变量:平均值
众数
众数( 概念要点 )
1. 集中趋势的测度值之一 2. 出现次数最多的变量值 3. 不受极端值的影响 4. 可能没有众数或有几个众数 5. 主要用于定类变量,也可用于定序变量和
定距变量
众数(计算方法) P40
+1
????
当N为奇数时 当N为偶数时
分组数据的计算公式 P44
均值
均值( 概念要点)
? 1. 集中趋势的测度值之一 ? 2. 最常用的测度值 ? 3. 一组数据的均衡点所在 ? 4. 易受极端值的影响 ? 5. 用于定距变量,不能用于定类变量和定
序变量
均值( 计算公式 )
设一组数据为: X1 ,X2 ,… ,XN
集中趋势
1. 一组数据向其中心值靠拢的倾向和程度 2. 测度集中趋势就是寻找数据一般水平的代表值或中心值 3. 不同类型的变量用不同的集中趋势测度值 4. 低层次数据的集中趋势测度值适用于高层次的测量数据 ,
反过来,高层次数据的集中趋势测度值并不适用于低层次 的测量数据 5. 选用哪一个测度值来反映数据的集中趋势,要根据所掌握 的数据的类型来确定
? ni
i =1
N
? (Xi ? X)2
? = i=1
N
组距分组数据:
? =&
K
? ( Xi ? X)2 ni
i =1 K
? ni
i =1
异众比率、四分位差和方差/标准差的比较
变量类型与离散趋势测度值
表 变量类型和所适用的离散趋势测度值
变量类型 定类变量
定序变量
定距变量
适
※方差或
※异众比率 ※四分位差
众数
( 众数的不唯一性 )
无众数 原始数据:
10 5 9 12 6 8
一个众数 原始数据:
6 59 8 5 5
多于一个众数 原始数据: 25 28 28 36 42 42
中位值
中位值( 概念要点 )
1. 集中趋势的测度值之一 2. 排序后处于中间位置上的值
50%
50%
Me 3. 不受极端值的影响
(重点是未分组数据的求法)
异众比率
异众比率
? 1. 离散程度的测度值之一 ? 2. 非众数组的频数占总频数的比率 ? 3. 计算公式为 P49
4. 用于衡量众数的代表性
四分位差
四分位差
四分位值 :排序后处于25%和75%位置上的值
25% 25% 25% 25%
Q25
Q50
Q75
四分位差
? 1. 上四分位数与下四分位数之差
定距变量
适
用
※众数
※中位数
※均值
的
测
—
众数
众数
度
值
—
—
中位数
分布的形状与 众数、中位数和均值的关系
均值 中位数 众数 均值 = 中位数 = 众数 众数 中位数 均值
左偏分布
对称分布
右偏分布
?高层次变量可以用低层次变量的测量方法
?但统计分析中,更多的是用均值。 ?对于偏态的分布,应使用中位值作为集中趋势。 ?只有单峰和基本对称的图形,用均值作为集中趋势才是合理 的。P47
用
标准差
的
测
—
异众比率
异众比率
度
值
—
—
四分位差
高层次变量可以用低层次变量的测量方法
第四节 偏态 和 分布
偏态与峰度的测度
偏态
峰度
左偏分布
扁平分布
与标准正态 分布比较!
右偏分布
尖峰分布
P103 、104
变量的测度
变量的测度
集中趋势
众数 中位数 均值
离散程度
分布的形状
异众比率 四分位差 方差和标准差
统计表 (频数分布表、 百分比分布表 )
制作统计表的要求? 1、要有表号、表头、标识行、主体行、表尾 2、表的两端不封口 3、简单明了,中间不画线 4、百分比分布表要有样本总数
一般用得比较多的是百分比分布表, 因为百分比分布表可以还原成频数分布表
P25
统计表 (频数分布表、 百分比分布表 )
怎么样制作统计表? 1. 定类变量 2. 定序变量 3. 定距变量
差;根据样本数据计算的,称为样本方差或 标准差 .
总体方差和标准差(计算公式 )
方差是观察值与其均值之差的平方和除以全部观察总数N 。
方差的计算公式
未分组数据:
标准差的计算公式
未分组数据:
N
? (Xi ? X)2
? 2 = i=1
N
组距分组数据:
K
? (Xi ? X)2 ni
? 2 =& i=1
K
偏态 峰度
为了简化资料,用众值、中位值、均值来代表变量分布的集中趋势; 但为了说明它们的所能代表集中趋势的可靠程度,还需用变量的离散 程度加以补充。
变量分布的特征
集中趋势 (集中程度) 离散趋势 (分散程度) 偏态和峰度 (形状)
此课件下载可自行编辑修改,仅供参考! 感谢您的支持,我们努力做得更好!谢谢
4. 主要用于定序变量,也可用定距变量,但不能用于定类 变量
中位值( 位置的确定)
未分组数据: 中位值位置 = N + 1
2
组距分组数据: 中位值位置 = N
2
中位值的计算公式( 计算公式 )
未分组数据的计算公式
Me
=
? ??
X
?? ?
N +1 2
?? ?
? ? ??
1 2
????
X
N 2
+
X
N 2
第三节 离散趋势测量法
离散趋势
1. 数据分布的另一个重要特征 2. 离散趋势的各测度值是对数据离散程度所作的描述 3. 反映各变量值远离其中心值的程度,因此也称为离中趋势 4. 从另一个侧面说明了集中趋势测度值的代表程度 5. 不同类型的数据有不同的离散程度测度值
离散趋势测量法
一般情况下:
1. 定类变量:异众比率 2. 定序变量:四分位差 3. 定距变量:方差及标准差
Q = Q75 – Q25
? 2. 离散程度的测度值之一 ? 3. 反映了中间 50%数据的离散程度 ? 4.不受极端值的影响 ? 5.用于衡量中位数的代表性
方差和标准差
方差和标准差( 概念要点)
1. 离散程度的测度值之一 2. 最常用的测度值 3. 反映了数据的分布 4. 反映了各变量值与均值的平均差异 5. 根据总体数据计算的,称为总体方差或标准
i =1
K
ni
i =1
均值( 数学性质)
1. 各变量值与均值的离差之和等于零
n
? (Xi ? X) = 0
i=1
2. 各变量值与均值的离差平方和最小
n
? (Xi ? X)2 = min
i=1
众数、中位数和均值的比较
变量类型与集中趋势测度值
表 变量类型和所适用的集中趋势测度值
变量类型 定类变量
定序变量
简单均值 的计算公式为
N
? X = X1 + X2 + ?
+ XN =
Xi
i=1
N
N
设分组后的数据为: X1 ,X2 ,… ,XK (组中值)
相应的频数为: n1 , n2,… ,ni
分组均值 的计算公式为
K
?? X
=&
X1n1 + n1
X2n2 + L + n2 + L
+ XN + nN
nN
=
Xi ni
第3章-单变量统计描述分析
什么是分布? 用统计表和统计图来表示分布。 P21
变量取值要注意的问题:
1、取值要穷尽。 2、取值要互斥。 P22
什么是变量? 变量就是随时可以变化的量;变量意味着可以取不同的值。 变量对应的是常量; 具体到调查中,可以把变量理解为问卷中的一道题目所获得
的数据,如果是常量的话,我们有没有必要去调查呢?