第2章 统计数据的描述

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
表2.9 我国人口年龄阶段的分wenku.baidu.com 按年龄阶段分组 婴幼儿 少年儿童 中青年 老年 男性 0~6岁 7~17岁 17岁 18~59岁 18~59岁 60岁及以上 60岁及以上 女性 0~6岁 7~17岁 17岁 18~54岁 18~54岁 55岁及以上 55岁及以上
2.4.2 次数分配(P22)
1.次数分配表的编制: 次数分配表的编制: 次数分配表的编制 • 将数据进行分组,就是将数据按某标志进行分组,并纪 将数据进行分组,就是将数据按某标志进行分组, 录样本观察值在各组内的单位数(亦称次数 频数), 亦称次数、 录样本观察值在各组内的单位数 亦称次数、频数 ,也可 纪录样本观察值在各组内的单位数比重(亦称频率 亦称频率)。 纪录样本观察值在各组内的单位数比重 亦称频率 。这就 是次数分配的形成。 是次数分配的形成。 • 次数分配形成的首要步骤在于按某标志进行分组。所以, 次数分配形成的首要步骤在于按某标志进行分组。所以, 必须掌握分组的方法。 必须掌握分组的方法。 • 次数分配的形成的第二步骤是纪录样本观察值在各组内 的单位数,并形成分配表。 的单位数,并形成分配表。
1》离散变量——变量只间断取值 》离散变量 变量只间断取值 (1)取值范围小:以各变量值为组名称~单变量值分 取值范围小: 取值范围小 以各变量值为组名称~ 常用) 组(常用 常用 (2)取值范围大:以两整数值代表两整数间距~组距 取值范围大: 取值范围大 以两整数值代表两整数间距~ 分组 2》连续变量 》连续变量——变量可连续取任意数值 变量可连续取任意数值 (3)以一整数值代表相邻两整数间距~单变量值分组 以一整数值代表相邻两整数间距~ 以一整数值代表相邻两整数间距 (4)以两整数值代表两整数间距~组距分组 常用 以两整数值代表两整数间距~ 常用) 以两整数值代表两整数间距 组距分组(常用
某城市家庭按人口数分组 按家庭人口数分组(人) 按家庭人口数分组( 1 2 3 4 5 合计 人数 652 1435 18624 295 83 21089 百分比(%) 百分比(%) 3.09 6.80 88.31 1.40 0.39 100.00
对连续变量作单变量值分组编分配表的例(4) 对连续变量作单变量值分组编分配表的例
按品质标志(列名尺度)编分配表的例题 按品质标志(列名尺度)编分配表的例题(1)
例1:下表是我国大陆人口按性别标志分组形成的频数 : 分布表。其中左边第一列就是分组情况。 分布表。其中左边第一列就是分组情况。第二列为各 组人数的统计结果。第三列为按各组人数计算的比重。 组人数的统计结果。第三列为按各组人数计算的比重。
某班学生按等级成绩分布表
对离散变量作单变量值分组编分配表的例(3) 对离散变量作单变量值分组编分配表的例
• 下表是对某城市家庭按家庭人口数分组的统计表。 下表是对某城市家庭按家庭人口数分组的统计表。 • 家庭人口数是离散变量,且家庭人口数分布范围较小, 家庭人口数是离散变量,且家庭人口数分布范围较小, 可采用单变量分组方式进行分组。 可采用单变量分组方式进行分组。
1998年我国大陆人口性别分布表 1998年我国大陆人口性别分布表
按品质标志(顺序尺度)编分配表的例题 按品质标志(顺序尺度)编分配表的例题(2)
例2:下面是对某班学生按等级成绩分组形成的频数分 : 布表。其中左边第一列就是各组名称, 布表。其中左边第一列就是各组名称,从上而下分别 由高到低分布。第二列为各组人数的统计结果。 由高到低分布。第二列为各组人数的统计结果。第三 列为按各组人数计算的比重。 列为按各组人数计算的比重。
• 对连续变量必须采用组距分组 • 2.百分制成绩是连续变量,其取值范围大 百分制成绩是连续变量, 百分制成绩是连续变量
将百分制考试成绩分为60以下、 ~ 、 ~ 将百分制考试成绩分为 以下、60~70、70~ 以下 80、80~90、90以上等五组。(等距、开口、重 以上等五组。 等距、 、 ~ 、 以上等五组 等距 开口、 叠组限) 叠组限
1.按品质标志分组的方法 按品质标志分组的方法
• 基本方法:按各不同性质、属性划分类别 基本方法:按各不同性质、 而分组。 而分组。 [例1] 将学生按性别 列名尺度 分为“男”、 例 将学生按性别(列名尺度 分为“ 列名尺度)分为 两组。 “女”两组。 [例2] 将学生按等级成绩 (顺序尺度 分为 顺序尺度)分为 例 顺序尺度 及格” “优”、“良”、“中”、“及格”、“不 及格”五组。并在分组表中, 及格”五组。并在分组表中,按顺序排列各 组名称。 组名称。
2.4.1 统计数据的分组(P21)
按数据的四种计量尺度,采用不同的分组方法: 1.列名尺度和顺序尺度是按照事物的性质和属 1.列名尺度和顺序尺度是按照事物的性质和属 性划分的,按该两种尺度分组又称为按品质标志 性划分的,按该两种尺度分组又称为按品质标志 分组。 2.间隔尺度和比例尺度是按照事物的数量标 2.间隔尺度和比例尺度是按照事物的数量标 准划分的,按该两种尺度分组又称为按数量标志 准划分的,按该两种尺度分组又称为按数量标志 分组。
(2)组距分组的条件及方法 组距分组的条件及方法
对取值范围大的离散变量及连续变量都 可应用组距分组 将变量值的一个区间作为一个组 更适合于连续变量 适合于变量值较多的情况 注意遵循“不重不漏” 注意遵循“不重不漏”的原则 可采用等距分组, 可采用等距分组,也可采用不等距分组 可采用闭口分组, 可采用闭口分组,也可采用开口分组 采用 叠 组限方 这时 常 常 采 用 重 叠组 限方 式分 组 , 这时常 规 定 上限不在组内” “上限不在组内”的原则 也可以采用不重叠组限方式分组, 也可以采用不重叠组限方式分组 , 这时常 规定“实际上限为上组的下限” 上组即为 规定“实际上限为上组的下限”(上组即为 较大组-可由垂直向上的数轴确定方向 可由垂直向上的数轴确定方向) 较大组 可由垂直向上的数轴确定方向
与组距分组相关的几个概念
1. 下限 :一个组的最小值 2. 上限:一个组的最大值 上限: 3. 全距:全部数据中最大值与最小值之差 全距: 4. 组距:上限与下限之差 组距: 5. 组中值:下限与上限之间的中点值,或 组中值:下限与上限之间的中点值, 称组平均数, 称组平均数,常用作组的代表值
• • • • •
(1)单变量值分组的条件及方法 单变量值分组的条件及方法
变量取值范围小时都可应用单变量值分组, 变量取值范围小时都可应用单变量值分组,但 连续变量与离散变量的分组定义不相同。 连续变量与离散变量的分组定义不相同。 • 1.在变量只取整数且取值范围较小时,可采用单 在变量只取整数且取值范围较小时 变量值分组,即每一个变量值作为一组。这时, 变量值分组,即每一个变量值作为一组。这时, 各单变量值作为组的名称,也是组的取值范围。 各单变量值作为组的名称,也是组的取值范围。 • 2.在变量连续取值且常用整数代表两相邻整数间 在 区间时 若取值范围较小, 区间时,若取值范围较小,亦可采用单变量值分 这时,各单变量值作为组的名称, 组。这时,各单变量值作为组的名称,两相邻整 数间区间才是组的取值范围。 数间区间才是组的取值范围。
作组距分组的一般步骤及方法
1. 确定组数: 组数的确定, 确定组数 : 组数的确定 , 应以能够显示数据的分布特征 和规律为目的 斯特格斯经验公式: ⑴斯特格斯经验公式: 其中N为数据的个数 为数据的个数, 其中 为数据的个数,结果取整数 一般情况下, ⑵ 一般情况下,5≤K ≤15 确定组距:组距是一个组的上限与下限之差, 确定组距:组距是一个组的上限与下限之差,可根据全部 数据的最大值和最小值及所分的组数来确定, 数据的最大值和最小值及所分的组数来确定 , 为便于分 析和统计,一般应使组限和组距为10的整数倍。 析和统计,一般应使组限和组距为 的整数倍。 的整数倍 全距=最大值 最小值 (可扩大为 的整数倍 可扩大为10的整数倍 全距 最大值 —最小值 可扩大为 的整数倍) 相等组距=全距÷ (可扩大为 的整数倍 可扩大为10的整数倍 相等组距=全距÷ 组数 可扩大为 的整数倍) 统计并整理成表:统计出各组的频数(各组元素个数 各组元素个数)并整 统计并整理成表:统计出各组的频数 各组元素个数 并整 理成频数分布表
2.按数量标志分组的方法 按数量标志分组的方法
• 基本方法:按数量标志的不同属性(连续变量、 基本方法:按数量标志的不同属性 连续变量 连续变量、 离散变量)进行不同类型 单变量值分组、组距 离散变量 进行不同类型(单变量值分组、 进行不同类型 单变量值分组 分组)的分组 具体有四种不同方式: 的分组。 分组 的分组。具体有四种不同方式:
• • • • • • • •
10 ~ 20 20 ~ 30 30 ~ 40 40 ~ 50 50 ~ 60
组距分组的例
• 当离散变量取值范围较大时,常采用组距 当离散变量取值范围较大时, 分组 • 1.企业职工人数是离散变量,其取值范围大 企业职工人数是离散变量, 企业职工人数是离散变量
企业按职工人数可分为1~ 人 企业按职工人数可分为 ~9人、 10~99人、 ~ 人 100~999人、1000~9999人、10000~99999人、 ~ 人 ~ 人 ~ 人 100000~999999人 1000000~999999人等七 100000~999999人、1000000~999999人等七 不等距、 组。(不等距、闭口、不重叠组限 不等距 闭口、不重叠组限)
单变量值分组的例
当变量取值范围较小时, 当变量取值范围较小时,常采取单变量分组 • 1. 家庭人口数是离散变量,其取值范围小 家庭人口数是离散变量, 中国家庭按人口数分组,可分为1人 中国家庭按人口数分组,可分为 人、2 人等八个组。 人、3人、…、8人等八个组。 人 、 人等八个组 • 2.幼儿园小朋友年龄是连续变量,其取值范 幼儿园小朋友年龄是连续变量, 幼儿园小朋友年龄是连续变量 围小 幼儿园小朋友按年龄分为3岁 幼儿园小朋友按年龄分为 岁、4岁、5岁、 岁 岁 6岁四个组 岁组包含足 岁至 岁四个组(k岁组包含足 岁至k+1岁以下 。 岁以下) 岁四个组 岁组包含足k岁至 岁以下
2.
3.
进行组距分组的一般技巧
• ①为便于统计和分析,组距及组限宜取 或5的倍数, 为便于统计和分析,组距及组限宜取10 的倍数, 的倍数 • ②组数宜在 ~15之间, 组数宜在5~ 之间 之间, • ③最小组的下限应低于最小变量值,最大组的上限应高于 最小组的下限应低于最小变量值, 最大变量值, 最大变量值, • ④对数据稀疏且极端值较远的最大组和最小组可采用开口 式分组, 式分组, • ⑤对数据分布呈递增或递减状态的,可按其变化形式采用 对数据分布呈递增或递减状态的, 不等距分组, 不等距分组, • ⑥组名称的顺序放置一般按习惯,从上往下一般为由小到 组名称的顺序放置一般按习惯, 也可以由大到小, 大,也可以由大到小, • ⑦使用重叠组限方式分组的,一般规定“上限不在组内”, 使用重叠组限方式分组的,一般规定“上限不在组内” • ⑧使用不重叠组限方式分组的,一般规定“实际上限为上 使用不重叠组限方式分组的,一般规定“ 组的下限” 组的下限”。
• P22表2.6是对某班学生按年龄分组的次数分配表。 是对某班学生按年龄分组的次数分配表。 表 是对某班学生按年龄分组的次数分配表 • 年龄是连续变量,但该班学生的年龄分布范围较小, 年龄是连续变量,但该班学生的年龄分布范围较小, 可采用单变量分组方式进行分组。并规定k岁组包含满 可采用单变量分组方式进行分组。并规定 岁组包含满 k岁至未满 岁至未满k+1岁。 岁至未满 岁
组中值的计算方法
• 1.闭口组:
• 2.开口组:
作不等组距分组的例题
• 由于年龄分布具有年龄越小,人数越多,年龄越大,人数 由于年龄分布具有年龄越小,人数越多,年龄越大, 越少的现象, 越少的现象,因此对人口按年龄进行分组也可以作不等距 分组。 分组。 • P23表2.9就是对我国人口按性别特征进行不等距的年龄 表 就是对我国人口按性别特征进行不等距的年龄 阶段分组的两个定义表(男 女两种不同划分)。 阶段分组的两个定义表 男、女两种不同划分 。
相关文档
最新文档