第二章 数据的整理
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
6
5.182
人数(亿)
4
3.572
2
0.621
1.866 0.686 0.456 大学本科
0.0413 研究生
0
未上过学 小学 初中 高中 大学专科
受教育程度
图 2-1
2010 年我国 6 岁及以上人口受教育程度的垂直条形图
(二)定量数据的整理和图示
定量数据(数值数据)主要作分组整理。
– 按数量标志进行分组,
1.定性数据(qualitative data)也称品质数据 定性数据是观察或实验结果不可以用数值大小表示只能用文字 描述的数据资料,一般不带有度量衡单位。 – (1)定类数据(categorical data或名义数据nominal data、计数数据count data):是对事物按照其属性进行 分类或分组的计量结果,
数分布表与直方图生成、统计量的计算。
案例2-1(受教育程度资料)
根据《中国2010年人口普查资料》(国务院人口普查办公
室、国家统计局编)提供的2010年第六次全国人口普查数
据资料,人口的受教育程度分为未上过学、小学、初中、 高中、大学专科、大学本科和研究生共7类
在我国6岁及以上共计12.4254亿人口中, 0.6213亿人的受 教育程度是未上过学;3.5721亿人是小学;5.1817亿人是初
一、数据分布集中趋势的描述
统计量主要有均值、众数和中位数
(一)均值
均 值 (mean) 也 称 为 均 数 或 算 术 平 均 值 ( arithmetric mean) ,是全部数据的算术平均,记为 x 。 均值是数据分布集中趋势的最主要统计量,适用于数值 数据,不能用于定类和定序数据。 均值具有良好的数学性质: (1)各数据与均值的离差之和为零,即
– (2)定序数据(ordinal data或有序数据、等级数据
rank data):是对事物之间等级或顺序差别的计量结果
2.定量数据
定量数据(quantitative data),也称数值数据 (numerical data)或计量数据(measurement data), 是观察或实验结果可以用数值大小表示的数据资料, 一般带有度量衡单位。
4.整理结果的统计图示
根据频数分布表2-2用Excel制作的直方图
频数
20 15 10 5
1 3 4 13 14
18 15 10 6 4 2
0
-62 -63 -64 -65 -66 -67 -68 -69 -70 -71 -72 坐高(cm)
图2-2 男童坐高数据的频数分布直方图
第二节 数据分布的统计特征描述
(一)极差
极差(range)又称全距,是一组数据的最大值与
最小值之差,用R来表示,即极差 R = 最大值-最小值
极差的特点是简单易算,但只利用了数据的两个 极端值信息,不能反映中间数据的离散性
(二)方差和标准差
方差(variance)是各数据观测值与均值间离差的
平方和的平均,是关于定量数据离散程度的最重要
当n为奇数 x n 1 , ( ) 2 Me 1 ( x n x n ), 当n为偶数 2 ( 2 ) ( 2 1)
即中位数的位置=(n+1)/2。 中位数是典型的位置平均数,不受极端值的影响
(三)众数
众数(mode)是数据中出现次数最多的观察值,
用Mo表示。
S CV = 100% |x|
变异系数是无量纲的相对变异性的统计量, 其大小反映 了数据偏离其均值的相对偏差。 在比较不同总体, 特别是不同量纲的两组数据的离散程 度时应用。
主要用于描述定性数据集中趋势,对于定量数据,
有时可能有多个众数或没有众数,意义不大 对于分组且等距的频数分布,一般只求众数所在组, 即频数最大的组。 众数的特点是易理解,不受数据极端值的影响。但
其灵敏度、计算功能和稳定性差。
二、数据分布离散程度的描述
常用统计量有极差、方差、标准差、变异系数等
n n
(x x ) 0 ;
i 1 i
n
(2)各数据与其均值离差的平方和为最小值。 即对任意实数 a,有
2 2 ( x x ) ( x a ) i i i 1 i 1
对原始数据 x1, x2, …, xn,均值的计算公式:
x1 x2 xn 1 n x xi n n i 1
(二)变量及其类型
说明现象的某种属性或标志称为变量(variable) 对变量进行测量或观察的值称为观察值(observation)或
变量值(variable value)
变量可以分为
– 定类变量(categorical variable或名义变量nominal variable) – 定序变量(ordinal variable或等级变量rank variable) – 数值变量(numerical variable或metric variable)。
数值变量可分为
– 离散变量(discrete variable) – 连续变量(continuous variable)
一般将数值变量简称为变量
数据的分类简表
定性数据(品质数据) 数据类型 定类数据 定序数据 定量数据 数值数据 (计量数据) 数值 (+-×÷) 数值变量 (离散变量、连续变量) (计数数据) (等级数据) 表现形式 类别 (无序) 定类变量 类别 (有序) 定序变量
的统计量
方差的平方根就是标准差(standard deviation)。
样本数据的方差和标准差公式。
设样本数据为 x1, x2, …, xn, 则其样本方差计算公式为
n 1 2 S2 ( x x ) i n 1 i 1
样本标准差是相应方差的平方根,其计算公式为
n 1 2 S S2 ( x x ) i n 1 i 1
– 列出频数分布表
– 用条形图或圆形图等统计图显示其整理结果。
案例2-1 解
案例 2-1 解:根据案例 2-1 提供的受教育程度数据资料, 可整理成频数分布表:
受教育程度 未上过学 小学 初中 高中 大学专科 大学本科 研究生 合计
人数(亿) 百分比(%)
0.621 5.00
3.572 28.75
中;1.8664亿人是高中;0.6861亿人是大学专科,0.4562亿
人是大学本科,0.0413亿人是研究生。
问题:如何对上述受教育程度资料进行统计整理,并用统 计图表显示?
第一节 数据的分类和整理
一、数据的分类
数据(data)也称资料,是对客观现象 计量的结果。
(一)数据的类型
两大类:定量数据和定性数据。
– 2.定性数据的数量化转换
二、数据资料的统计整理
数据资料整理和图示的步骤
(1)对数据资料进行审核和订正;
(2)对数据资料进行统计分组(分类);
(3)统计汇总,计算各组频数,编制频数分布表 (4)给出统计图表或报告。
(一)定性数据的整理和图示
对于定性数据(品质数据)主要作分类整理
– 按不同数据(类别)进行分组 – 算出各组的频数或频率、百分比等
男童坐高数据频数分布表
频 数 频 率 1 3 4 13 14 18 15 10 6 4 2 90 0.011 0.033 0.044 0.144 0.156 0.200 0.167 0.111 0.067 0.044 0.022 1.000 百分比 (%) 1.1 3.3 4.4 14.4 15.6 20.0 16.7 11.1 6.7 4.4 2.2 100.0
方差、标准差都反映了每个数据偏离其均值的平均程 度,其中标准差具有与实际观察值相同的量纲,比方差更 常用。
对于已分组的频数分布表数据,设组数为 k,而 m1, m2, …, mk 为各组的组中值, f1 , f2 , … , fk 为各组频数,则 其方差 S2 和标准差 S 的计算公式分别为
S
……
65.3 64.2 68.0 66.7 65.6 66.8 67.9 67.6
试编制频数分布表并制作直方图等来进行数据的
统计整理和图示。
解:1.确定组数
百度文库
ln N k 1 可参考 Sturges 经验公式 则 ln 2 来定组数 k,
ln 90 k 1 ln 2 =7.49≈8,即大致可分为 8 组。
2.确定组距
最大值 最小值 71.2 61.1 d 1.26 组距 (取整) ≈1 组数 8
3.计算频数,形成频数分布表 对数据进行分组,计算各组频数,列出频数分布表。
表 2-2
坐高分组 61~ 62~ 63~ 64~ 65~ 66~ 67~ 68~ 69~ 70~ 71~72 合 计
– 编制频数分布表,
– 并采用直方图等统计图形来表示其整理结果
分组方法:
– 单变量值分组
离散变量且变量值较少情形。
– 组距分组
连续变量或变量值较多情形
例2-1
例2-1 现有某地区90名7岁男童的坐高(cm)数据
资料如下:
64.4 63.8 64.5 66.8
66.5 66.3 68.3 67.2
S Sx n
其中 S 是数据的标准差。 当我们用均值来推断估计总体均值时,标准误反映了 均值偏离总体均值的平均程度,故又称为均值的标准差 (standard deviation for mean) 。
(四)变异系数
变异系数(coefficient of variation)是描述数据离散程 度的相对指标,是标准差与均值之比,常用百分比表示,其 计算公式为:
2 2 ( m x ) fi i i 1 k
f
i 1
k
i
1
1 k 2 ( m x ) fi i n 1 i 1
和
k 1 2 S S2 ( m x ) fi i n 1 i 1
方差的简化公式
n 1 2 2 2 S ( xi nx ) ; n 1 i 1
分布数据,试计算这 90 名男童坐高的均值。
1 k 61.5 1 62.5 3 71.5 2 5995 x mi fi 66.61 n i 1 90 90
(二)中位数
中位数(median)是数据排序后处于中间位置的值,记为 Me。 中位数可用于定序数据和数值数据,不能用于定类数据。 设一组数据为 x1, x2, …, xn,按从小到大顺序排列后记为 x(1), x(2), …, x(n),则中位数为
对应变量 主要 统计方法 常用 统计图形
计算各组频数, 进行列联表分 计算各种统计量, 进行参数估计和检 析、2 检验等非参数方法 条形图,圆形图(饼图) 验、回归分析等参数方法 直方图,频数折线图,线图
(三)两类数据的转换
根据统计分析的需要,定量数据与定性数
据之间经常要做数据类型的转换。
– 1.定量数据的定性化转换
5.182 41.71
1.866 15.02
0.686 5.52
0.456 3.67
0.0413 0.33
12.424 100.00
*数据来源:国务院人口普查办公室、国家统计局编《中国 2010 年人口普查资料》2012
利用上表的数据,就可作出 2010 年人口普查中我国各 种受教育程度人口数的(垂直)条形图:
对分组整理的数据, 设各组的组中值和频数分别为 m1, m2, …, mk , 和 f1 , f2 , … , fk ,均值的计算公式
m1 f1 m2 f 2 mk f k 1 k x mi fi f1 f 2 f k n i 1
例 2-1(续) 解:
根据前面表 2-2 中男童坐高的频数
第二章 数据的整理与统计描述
【学习目标】
1.理解数据的类型和特点。
2.了解统计图形和统计表的表示及意义。
3. 掌握定性数据和定量数据的整理步骤和图表显示
方法,描述数据分布集中趋势、离散程度的常用统
计量,样本均值、样本方差、样本标准差的计算。
4.(技能培养)学会用Excel软件进行统计作图、频
对于已分组的频数分布数据,有
k 1 S2 ( mi 2 fi nx 2 ) ; n 1 i 1
实际计算时,通常可用计算器上的统计功能来帮 助计算。对于较大数据集,往往利用电子计算机由统 计软件(如 SPSS、Excel 软件等)来进行处理。
(三)标准误
标准误 (standard error) 也是描述离散程度的统计量, 其计算公式为:
5.182
人数(亿)
4
3.572
2
0.621
1.866 0.686 0.456 大学本科
0.0413 研究生
0
未上过学 小学 初中 高中 大学专科
受教育程度
图 2-1
2010 年我国 6 岁及以上人口受教育程度的垂直条形图
(二)定量数据的整理和图示
定量数据(数值数据)主要作分组整理。
– 按数量标志进行分组,
1.定性数据(qualitative data)也称品质数据 定性数据是观察或实验结果不可以用数值大小表示只能用文字 描述的数据资料,一般不带有度量衡单位。 – (1)定类数据(categorical data或名义数据nominal data、计数数据count data):是对事物按照其属性进行 分类或分组的计量结果,
数分布表与直方图生成、统计量的计算。
案例2-1(受教育程度资料)
根据《中国2010年人口普查资料》(国务院人口普查办公
室、国家统计局编)提供的2010年第六次全国人口普查数
据资料,人口的受教育程度分为未上过学、小学、初中、 高中、大学专科、大学本科和研究生共7类
在我国6岁及以上共计12.4254亿人口中, 0.6213亿人的受 教育程度是未上过学;3.5721亿人是小学;5.1817亿人是初
一、数据分布集中趋势的描述
统计量主要有均值、众数和中位数
(一)均值
均 值 (mean) 也 称 为 均 数 或 算 术 平 均 值 ( arithmetric mean) ,是全部数据的算术平均,记为 x 。 均值是数据分布集中趋势的最主要统计量,适用于数值 数据,不能用于定类和定序数据。 均值具有良好的数学性质: (1)各数据与均值的离差之和为零,即
– (2)定序数据(ordinal data或有序数据、等级数据
rank data):是对事物之间等级或顺序差别的计量结果
2.定量数据
定量数据(quantitative data),也称数值数据 (numerical data)或计量数据(measurement data), 是观察或实验结果可以用数值大小表示的数据资料, 一般带有度量衡单位。
4.整理结果的统计图示
根据频数分布表2-2用Excel制作的直方图
频数
20 15 10 5
1 3 4 13 14
18 15 10 6 4 2
0
-62 -63 -64 -65 -66 -67 -68 -69 -70 -71 -72 坐高(cm)
图2-2 男童坐高数据的频数分布直方图
第二节 数据分布的统计特征描述
(一)极差
极差(range)又称全距,是一组数据的最大值与
最小值之差,用R来表示,即极差 R = 最大值-最小值
极差的特点是简单易算,但只利用了数据的两个 极端值信息,不能反映中间数据的离散性
(二)方差和标准差
方差(variance)是各数据观测值与均值间离差的
平方和的平均,是关于定量数据离散程度的最重要
当n为奇数 x n 1 , ( ) 2 Me 1 ( x n x n ), 当n为偶数 2 ( 2 ) ( 2 1)
即中位数的位置=(n+1)/2。 中位数是典型的位置平均数,不受极端值的影响
(三)众数
众数(mode)是数据中出现次数最多的观察值,
用Mo表示。
S CV = 100% |x|
变异系数是无量纲的相对变异性的统计量, 其大小反映 了数据偏离其均值的相对偏差。 在比较不同总体, 特别是不同量纲的两组数据的离散程 度时应用。
主要用于描述定性数据集中趋势,对于定量数据,
有时可能有多个众数或没有众数,意义不大 对于分组且等距的频数分布,一般只求众数所在组, 即频数最大的组。 众数的特点是易理解,不受数据极端值的影响。但
其灵敏度、计算功能和稳定性差。
二、数据分布离散程度的描述
常用统计量有极差、方差、标准差、变异系数等
n n
(x x ) 0 ;
i 1 i
n
(2)各数据与其均值离差的平方和为最小值。 即对任意实数 a,有
2 2 ( x x ) ( x a ) i i i 1 i 1
对原始数据 x1, x2, …, xn,均值的计算公式:
x1 x2 xn 1 n x xi n n i 1
(二)变量及其类型
说明现象的某种属性或标志称为变量(variable) 对变量进行测量或观察的值称为观察值(observation)或
变量值(variable value)
变量可以分为
– 定类变量(categorical variable或名义变量nominal variable) – 定序变量(ordinal variable或等级变量rank variable) – 数值变量(numerical variable或metric variable)。
数值变量可分为
– 离散变量(discrete variable) – 连续变量(continuous variable)
一般将数值变量简称为变量
数据的分类简表
定性数据(品质数据) 数据类型 定类数据 定序数据 定量数据 数值数据 (计量数据) 数值 (+-×÷) 数值变量 (离散变量、连续变量) (计数数据) (等级数据) 表现形式 类别 (无序) 定类变量 类别 (有序) 定序变量
的统计量
方差的平方根就是标准差(standard deviation)。
样本数据的方差和标准差公式。
设样本数据为 x1, x2, …, xn, 则其样本方差计算公式为
n 1 2 S2 ( x x ) i n 1 i 1
样本标准差是相应方差的平方根,其计算公式为
n 1 2 S S2 ( x x ) i n 1 i 1
– 列出频数分布表
– 用条形图或圆形图等统计图显示其整理结果。
案例2-1 解
案例 2-1 解:根据案例 2-1 提供的受教育程度数据资料, 可整理成频数分布表:
受教育程度 未上过学 小学 初中 高中 大学专科 大学本科 研究生 合计
人数(亿) 百分比(%)
0.621 5.00
3.572 28.75
中;1.8664亿人是高中;0.6861亿人是大学专科,0.4562亿
人是大学本科,0.0413亿人是研究生。
问题:如何对上述受教育程度资料进行统计整理,并用统 计图表显示?
第一节 数据的分类和整理
一、数据的分类
数据(data)也称资料,是对客观现象 计量的结果。
(一)数据的类型
两大类:定量数据和定性数据。
– 2.定性数据的数量化转换
二、数据资料的统计整理
数据资料整理和图示的步骤
(1)对数据资料进行审核和订正;
(2)对数据资料进行统计分组(分类);
(3)统计汇总,计算各组频数,编制频数分布表 (4)给出统计图表或报告。
(一)定性数据的整理和图示
对于定性数据(品质数据)主要作分类整理
– 按不同数据(类别)进行分组 – 算出各组的频数或频率、百分比等
男童坐高数据频数分布表
频 数 频 率 1 3 4 13 14 18 15 10 6 4 2 90 0.011 0.033 0.044 0.144 0.156 0.200 0.167 0.111 0.067 0.044 0.022 1.000 百分比 (%) 1.1 3.3 4.4 14.4 15.6 20.0 16.7 11.1 6.7 4.4 2.2 100.0
方差、标准差都反映了每个数据偏离其均值的平均程 度,其中标准差具有与实际观察值相同的量纲,比方差更 常用。
对于已分组的频数分布表数据,设组数为 k,而 m1, m2, …, mk 为各组的组中值, f1 , f2 , … , fk 为各组频数,则 其方差 S2 和标准差 S 的计算公式分别为
S
……
65.3 64.2 68.0 66.7 65.6 66.8 67.9 67.6
试编制频数分布表并制作直方图等来进行数据的
统计整理和图示。
解:1.确定组数
百度文库
ln N k 1 可参考 Sturges 经验公式 则 ln 2 来定组数 k,
ln 90 k 1 ln 2 =7.49≈8,即大致可分为 8 组。
2.确定组距
最大值 最小值 71.2 61.1 d 1.26 组距 (取整) ≈1 组数 8
3.计算频数,形成频数分布表 对数据进行分组,计算各组频数,列出频数分布表。
表 2-2
坐高分组 61~ 62~ 63~ 64~ 65~ 66~ 67~ 68~ 69~ 70~ 71~72 合 计
– 编制频数分布表,
– 并采用直方图等统计图形来表示其整理结果
分组方法:
– 单变量值分组
离散变量且变量值较少情形。
– 组距分组
连续变量或变量值较多情形
例2-1
例2-1 现有某地区90名7岁男童的坐高(cm)数据
资料如下:
64.4 63.8 64.5 66.8
66.5 66.3 68.3 67.2
S Sx n
其中 S 是数据的标准差。 当我们用均值来推断估计总体均值时,标准误反映了 均值偏离总体均值的平均程度,故又称为均值的标准差 (standard deviation for mean) 。
(四)变异系数
变异系数(coefficient of variation)是描述数据离散程 度的相对指标,是标准差与均值之比,常用百分比表示,其 计算公式为:
2 2 ( m x ) fi i i 1 k
f
i 1
k
i
1
1 k 2 ( m x ) fi i n 1 i 1
和
k 1 2 S S2 ( m x ) fi i n 1 i 1
方差的简化公式
n 1 2 2 2 S ( xi nx ) ; n 1 i 1
分布数据,试计算这 90 名男童坐高的均值。
1 k 61.5 1 62.5 3 71.5 2 5995 x mi fi 66.61 n i 1 90 90
(二)中位数
中位数(median)是数据排序后处于中间位置的值,记为 Me。 中位数可用于定序数据和数值数据,不能用于定类数据。 设一组数据为 x1, x2, …, xn,按从小到大顺序排列后记为 x(1), x(2), …, x(n),则中位数为
对应变量 主要 统计方法 常用 统计图形
计算各组频数, 进行列联表分 计算各种统计量, 进行参数估计和检 析、2 检验等非参数方法 条形图,圆形图(饼图) 验、回归分析等参数方法 直方图,频数折线图,线图
(三)两类数据的转换
根据统计分析的需要,定量数据与定性数
据之间经常要做数据类型的转换。
– 1.定量数据的定性化转换
5.182 41.71
1.866 15.02
0.686 5.52
0.456 3.67
0.0413 0.33
12.424 100.00
*数据来源:国务院人口普查办公室、国家统计局编《中国 2010 年人口普查资料》2012
利用上表的数据,就可作出 2010 年人口普查中我国各 种受教育程度人口数的(垂直)条形图:
对分组整理的数据, 设各组的组中值和频数分别为 m1, m2, …, mk , 和 f1 , f2 , … , fk ,均值的计算公式
m1 f1 m2 f 2 mk f k 1 k x mi fi f1 f 2 f k n i 1
例 2-1(续) 解:
根据前面表 2-2 中男童坐高的频数
第二章 数据的整理与统计描述
【学习目标】
1.理解数据的类型和特点。
2.了解统计图形和统计表的表示及意义。
3. 掌握定性数据和定量数据的整理步骤和图表显示
方法,描述数据分布集中趋势、离散程度的常用统
计量,样本均值、样本方差、样本标准差的计算。
4.(技能培养)学会用Excel软件进行统计作图、频
对于已分组的频数分布数据,有
k 1 S2 ( mi 2 fi nx 2 ) ; n 1 i 1
实际计算时,通常可用计算器上的统计功能来帮 助计算。对于较大数据集,往往利用电子计算机由统 计软件(如 SPSS、Excel 软件等)来进行处理。
(三)标准误
标准误 (standard error) 也是描述离散程度的统计量, 其计算公式为: