第三部分 常用数据分析方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
上海质量管理科学研究院(SAQM) 版权所有
Page 25
SAQM
众数(mode)-- Mo
1. 2. 3. 4. 5. 一组数据中出现次数最多的变量值 适合于数据量较多时使用 不受极端值的影响 一组数据可能没有众数或有几个众数 主要用于分类数据,也可用于顺序数据和数值型数据
上海质量管理科学研究院(SAQM) 版权所有
2.
试验的数据(experimental data) 在试验中控制试验对象而收集到的数据 比如,对一种新药疗效的试验,对一种新的农作物 品种的试验等 自然科学领域的数据大多数都为试验数据
上海质量管理科学研究院(SAQM) 版权所有
Page 12
SAQM
统计数据的分类(按连续性分)
可以分为计数型数据、计量型数据 计量型数据可以取给定范围内的任何一个可能的数值, 又称之为连续型数据。计量型数据是可以连续取值的数 据,属于连续型变量。
Page 18 SAQM
上海质量管理科学研究院(SAQM) 版权所有
总体
样本
参数
统计量 平均数 标准差 比 例 x
p
上海质量管理科学研究院(SAQM) 版权所有
s
ˆ p
Page 19 SAQM
3.4.3 变量(variable)
1.
2.
说明现象某种特征的概念,其特点是从一次观察到下一次 观察结果会呈现出差别或变化 如商品销售额、受教育程度、产品的质量等级等 变量的具体取值称为变量值,即数据 统计数据就是统计变量的某些取值 变量可以分为 分类变量(categorical variable) :说明事物类别的 名称,其取值是分类数据 顺序变量(rank variable):说明事物有序类别的名称 数值型变量(metric variable) :说明事物数字特征的 名称 离散变量:取有限个值(计数型数据) 连续变量:可以取无穷多个值(计量型数据)
Page 29 SAQM
解:这里的数据为顺 序数据。变量为“回 答类别” 甲城市中对住房 表示不满意的户数最 多 , 为 108 户 , 因 此 众数为“不满意”这 一类别,即 Mo=不满意
上海质量管理科学研究院(SAQM) 版权所有 2013/11/5 Page 22 SAQM STATISTICA MINITAB
SAS SPSS
Excel
3.5 描述性分析
数据分布的特征: 1.分布的集中趋势; 2.分布的离散程度; 3.分布的形状。
集中趋势 离散程度 分布形状
上海质量管理科学研究院(SAQM) 版权所有
Page 15 SAQM
上海质量管理科学研究院(SAQM) 版权所有
样本是总体的代表与反映。但在抽取样本之后,我们并 不立即利用样本进行推断,而需对样本进行一番“加工”和“ 提炼”—对样本资料的数量特征及其分布规律进行描述。 常用的统计量有:众数、中位数、算术平均数、极差、 四分位差、标准差、方差等。 离散型随机变量常见的概率分布:二项分布、泊松分布 等。 连续型随机变量最常见的是正态分布,正态分布是概率 统计中最重要的分布。
统计研究的过程
实际问题
收集数据 (取得数据) 处理数据 (整理数据)
上海质量管理科学研究院(SAQM) 版权所有
解释数据 (结果说明)
分析数据 (研究数据)
Page 4 SAQM
统计规律
正常条件下新生婴儿的性别比为107:100 投掷一枚均匀的硬币,出现正面和反面的频率各为1/2; 投掷一枚骰子出现1~6点的频率各为1/6 农作物的产量与施肥量之间存在相关关系
Page 23
SAQM
3.5.1集中趋势的度量
1. 一组数据向其中心值靠拢的倾向和程度 2. 测度集中趋势就是寻找数据水平的代表值或中心值 3. 不同类型的数据用不同的集中趋势测度值
上海质量管理科学研究院(SAQM) 版权所有
Page 24
SAQM
3.5.1集中趋势的度量 分类数据:众数 顺序数据:中位数和分位数 数值型数据:平均数 众数、中位数和平均数的比较
Page 20 SAQM
上海质量管理科学研究院(SAQM) 版权所有
变量及其类型
变量
基本分类
其他分类
分类变量
顺序变量
数字变量
随机变量 非随机变量
经验变量 理论变量
上海质量管理科学研究院(SAQM) 版权所有
Page 21
SAQM
几种常用的统计软件(software)
典型的统计软件
– MINITAB – SPSS – SAS – STATISTICA – Excel
第 三 部分 常用数据分析方法
上海质量管理科学研究院(SAQM) 版权所有
Page 1
SAQM
学习目标
3.1 3.2 3.3 3.4 3.5 3.6 什么是统计学 统计学的分类 统计数据的类型 统计中的一些基本概念 描述性分析 图形化分析
上海质量管理科学研究院(SAQM) 版权所有
Page 2
SAQM
3.2.1描述统计(descriptive statistics)
1.
2.
3.
研究数据收集、整理和描述 的统计学分支 内容 – 收集数据 – 整理数据 – 展示数据 – 描述性分析 目的 – 描述数据特征 – 找出数据的基本规律
Page 7 SAQM
上海质量管理科学研究院(SAQM) 版权所有
3.2.2推断统计 (inferential statistics)
上海质量管理科学研究院(SAQM) 版权所有
Page 5
SAQM
3.2 统计学的分类
统计方法
描述统计
推断统计
本页已使用福昕阅读器进行编辑。 福昕软件(C)2005-2009,版权所有, 仅供试用。
参数估计
利用统计方法分析数据
上海质量管理科学研究院(SAQM) 版权所有
假设检验
Page 6
SAQM
Page 26
SAQM
众数(不惟一性)
无众数 原始数据:
10
5
9 12
6
8
一个众数 原始数据:
6
5
9
8
5
5
多于一个众数 原始数据: 25 28 28 36 42 42
上海质量管理科学研究院(SAQM) 版权所有
Page 27
SAQM
例题:分类数据的众数
不同品牌饮料的频数分布 饮料品牌 可口可乐 旭日升冰茶 百事可乐 汇源果汁 露露 合计 频数 15 11 9 6 9 50 比例 0.30 0.22 0.18 0.12 0.18 1 百分比 (%) 30 22 18 12 18 100 解:这里的变量为“饮 料品牌”,这是个分类 变量,不同类型的饮料 就是变量值 所调查的50人中,购 买可口可乐的人数最多, 为15人,占被调查总人 数的 30%,因此众数为 “可口可乐”这一品牌, 即 Mo=可口可乐
Page 28 SAQM
上海质量管理科学研究院(SAQM) 版权所有
例题:顺序数据的众数
甲城市家庭对住房状况评价的频数分布 回答类别 非常不满意பைடு நூலகம்不满意 一般 满意 非常满意 合计 甲城市 户数 (户) 24 108 93 45 30 300 百分比 (%) 8 36 31 15 10 100.0
3.
数值型数据(metric data)
按数字尺度测量的观察值 结果表现为具体的数值,对事物的精确测度 例如:身高为175cm、168cm、183cm
上海质量管理科学研究院(SAQM) 版权所有
Page 11
SAQM
统计数据的分类(按收集方法分)
1.
观测的数据(observational data) 通过调查或观测而收集到的数据 在没有对事物人为控制的条件下而得到的 有关社会经济现象的统计数据几乎都是观测数据
比如:各种计量工具测量的数据:长度、重量、时间、 温度等。
上海质量管理科学研究院(SAQM) 版权所有
Page 13
SAQM
统计数据的分类(按连续性分)
计数型数据只能取一组特定的数值,而不能取这些数 值之间的数值,又称之为离散型数据。计数型数据是只 能按0,1,2,……数列取值计数的数据(非负整数), 属于离散型变量。它一般由计数(数数)得到。 计数值可进一步区分为计件值和计点值。 对产品进行按件检查时所产生的属性(如统计合格 与不合格的产品件数)数据称为计件值。 每件产品中质量缺陷的个数称为计点值。如棉布上 的疵点数、铸件上的砂眼数等。 比如:产品的缺陷率、缺陷的次数、气孔的个数、客户 投诉次数。
1.
2.
研究如何利用样本数据来 推断总体特征的统计学分 支 内容 参数估计 假设检验 目的
3.
对总体特征作出推断
上海质量管理科学研究院(SAQM) 版权所有
Page 8
SAQM
3.3 统计数据的类型
3.3.1什么是统计数据?(data)
1. 2. 3.
对现象进行计量的结果 不是指单个的数字,而是由多个数据构成的数据集 不仅仅是指数字,它可以是数字的,也可以是文字的
总体:该型号汽车每加仑汽油行驶里程; 样本:以上20辆汽车的每加仑汽油行驶里程,它的样本量是20。
上海质量管理科学研究院(SAQM) 版权所有 Page 17 SAQM
3.4.2 参数和统计量
1.
2.
参数(parameter) 描述总体特征的概括性数字度量,是研究者想要 了解的总体的某种特征值 所关心的参数主要有总体均值()、标准差()、 总体比例(p)等 总体参数通常用希腊字母表示 统计量(statistic) 用来描述样本特征的概括性数字度量,它是根据 样本数据计算出来的一些量,是样本的函数 所关心的样本统计量有样本均值 (x) 、样本标准 差(s)、样本比例(^p)等 样本统计量通常用小写英文字母来表示
3.1 什么是统计学? (statistics)
统计学 是一种收集、处理、分析、解释数据并从数据 中得出结论的科学。 1. 收集数据:取得数据 2. 处理数据:图表展示 3. 分析数据:利用统计方法分 析数据 4. 解释数据:结果的说明 5. 得到结论:从数据分析中得 出客观结论
上海质量管理科学研究院(SAQM) 版权所有 Page 3 SAQM
上海质量管理科学研究院(SAQM) 版权所有
Page 16
SAQM
案例
某食品厂用自动装罐机生产净重为345克的午餐肉罐头。由于生产 中众多因素的干扰,每只罐头净重都有差别,现从生产线上随机抽 10个罐头,称其净重,得: 344 336 345 342 340 338 344 348 344 346
上海质量管理科学研究院(SAQM) 版权所有 Page 14 SAQM
3.4 统计中的一些基本概念
3.4.1总体和样本
1.
2.
总体(population) – 所研究的全部个体(数据) 的集合,其中的每一个元 素也称为个体 – 分为有限总体和无限总体 有限总体的范围能够明确确定,且元素的数目是 有限的 无限总体所包括的元素是无限的,不可数的 样本 (sample) – 从总体中抽取的一部分元素的集合 – 构成样本的元素的数目称为样本容量或样本量 (sample size)
上海质量管理科学研究院(SAQM) 版权所有
Page 9
SAQM
3.3.2 统计数据分类
统计数据的分类
按计量尺度
分 类 的 数 据 顺 序 的 数 据 数 值 型 数 据
按收集方法
观 察 的 数 据 试 验 的 数 据
按时间状况
截 面 的 数 据 时 序 的 数 据
Page 10 SAQM
上海质量管理科学研究院(SAQM) 版权所有
统计数据的分类 (按计量尺度分)
1.
分类数据(categorical data)
只能归于某一类别的非数字型数据 对事物进行分类的结果,数据表现为类别,用文字来表述 例如,人口按性别分为男、女两类 ;企业按属性分类。
2.
顺序数据(rank data)
只能归于某一有序类别的非数字型数据 虽然也是类别,但这些数据是有序的。数据表现为类别, 用文字来表述 例如,产品分为一等品、二等品、三等品、次品等 ;成绩 分为优、良、中、差。
总体:生产线上罐头净重; 样本:以上10个罐头就是容量为10的一个样本。 某型号的20辆汽车纪录了各自每加仑汽油行驶的里程数(单位: 千米)如下: 29.8 28.5 27.6 29.5 28.3 27.2 28.7 26.9 27.9 30.1 28.4 27.9 29.9 28.0 28.0 30.0 28.7 29.6 27.9 29.1