第2章 资料的描述性统计分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 现实世界的数据一般是脏的、不完整的和不 一致的。
• 数据预处理技术可以改进数据的质量,从而 有助于提高其后的挖掘过程的精度和性能。 • 高质量的决策必然依赖于高质量的数据,因 此数据预处理是知识发现过程的重要步骤。
• 检测异常数据、尽早地调整数据并归约待分 析的数据,将在决策过程中得到高回报。
2.2 描述性数据汇总
抽样
• 抽样(sample):从总体中获得样本的过程。 目的:通过对样本的研究推断其总体 • 随机抽样(random sample) 抽签、抓阄等。使用随机数字表。 • 放回式抽样(sampling with replacement) • 非放回式抽样(sampling without replacement)
四.众数(Mode)
频数最大的变量值称为众数。列成频数 表的资料,频数最大的组段的组中值为众 数。
集中趋势的测度
五.百分位数(Percentile)
第 X 百分位数以 Px 表示 , 它将总体或样本的 全部观察值分成二个部分 , 其中有 x% 个观察值
小于Px, (100-x)%个观察值大于Px。
• 获得数据的总体印象对于成功的数据预处理 是至关重要的。 • 描述性数据汇总技术可以用来识别数据的典 型性质,突显哪些数据值应当视为噪声或离 群点。 • 动机:更好的理解数据。 • 主要内容:度量数据的中心趋势和离散程度 、描述数据汇总的图形显示。
描述性统计数值指标包括: (1)集中位置的指标,用以描述观察值的平均水平。 如算术均数、几何均数、中位数、众数、百分 位数等。 (2)资料变异的指标,用以描述观察值间参差不齐 的程度,即离散度或称变异度。 如全距、标准差、方差、变异系数、四分位数 间距等。
G 6 7 10121418 20 12.7
解:
或者lgG=(lg7+lg10+……+lg20)/6=1.1045
查反对数得G=12.7(天)
二、几何均数(Geometric Mean)
当为滴度资料时,如5名学龄儿童的麻疹血 凝抑制抗体滴度为1:25, 1:50, 1:50, 1:100, 1:100, 可先取其倒数,25, 50, 50, 100, 100, 再求取几何均数为57.43, 则平均抗体滴度 为1:57。
常用对数计算,公式如下: LogG=∑logX/n 再查反对数得出G。 列成频数表时计算公式如下: LogG=∑flogX/Σf 适用条件:1.成倍数关系的资料。 2.明显正偏态分布的资料。
二、几何均数(Geometric Mean)
例3.3 6例钩端螺旋体病人的潜伏期分别为7, 10, 12, 14, 18, 20天, 求其平均潜伏期。
根据频数表,进而可以绘制频数图。 揭示资料的分布特征和分布类型; 资料的分布范围、峰(单峰或多峰)和离 散情况。 对于单峰分布资料,
对称分布,其中一种特殊的分布叫做正态分布; 非对称分布,又称偏态分布。
便于发现可疑值; 便于进一步计算指标和统计分析处理。
第三节 集中位置的度量
一、算术平均数(Arithmetic Mean) 简称为均数(Mean),总体均数用希腊字母μ 表示,样本均数用 x 表示。
数据类型及频数(率)分布
• 连续型数据(continuous data):又称度 量数据(measurement data) • 离散型数据(discrete data):又称为计 数数据(count data) • 变量的方法(method of variable):对连 续型数据进行分析的方法。 • 属性的方法(method of attribute):对离 散型数据进行分析的方法。
高昂的操作费用 糟糕的决策制定 组织的不信任 分散管理的注意力
数据预处理的形式
• 数据清理
– 补充缺失数据、平滑噪声数据、识别或 删除离群点,解决不一致
• 数据集成
– 集成多个数据库、数据立方或文件
• 数据变换
– 规范化和聚集
• 数据归约
– 简化数据、但产生同样或相似的结果
8
数据预处理的形式
小结
==
源自文库
+x2 +L +xn x 1 x= x/n =鍈 n
适用于服从正态分布的资料。
一、算术平均数
f =120
x fx / f
一、算术平均数
x为每个组段的组中值,f为相应组段的频数。
原理:将落在某一组段内的观察值都视为 x 组中值。 本例: =(4.0×4+4.2×5+……+5.8×3)/120
2
2 2 1 2
2 n
2
2
第二节 频数分布表
• 频数表的编制 编制步骤: 1. 求极差(即全距)R; 2. 确定组数n、组距i,并写出组段; 3. 列表划记。
某市1995年110名7岁男童的身高资料(cm)
114.4
120.3 121.8 123.5
119.2
122.3 124.5 128.1
124.7
• 不一致的
– 采用的编码或表示不同,如属性名称不同
• 冗余的
– 如属性之间可以相互导出
数据错误的不可避免性
• 数据输入和获得过程数据错误 • 数据集成所表现出来的错误 • 数据传输过程所引入的错误 • 据统计有错误的数据占总数据的5%左 右[Redmen],[Orr98]
6
数据错误的危害性
• • • •
频数(率)表和频数(率)图
• 离散型数据 组值(class value):一般用组值编制频数(率)表(frequency table)。 柱形图(column diagram):一般用柱形图绘制频数(率)图。 • 连续型数据 组限(class limit):一般用组限编制频数(率)表。 直方图(histogram)、多边形图(polygon)和累积频数图(cumulative frequency graph):一般用直方图、多边形图和累积频数图绘制频数 (率)图。 组界(class boundary): 中值(midvalue):每一组的两个组限的平均值。 • 频数分布(frequency distribution)(百分率分布 percentage distribution) 把频数或频率按顺序排列起来。
某市1995年110名7岁男童身高的频数分布表
身高组段
110~
频数
1
频率(%)
0.91
累计频数
1
累计频率(%)
0.91
112~
114~ 116~
3
9 9
2.73
8.18 8.18
4
13 22
3.64
11.82 20.00
118~
120~ 122~ 124~ 126~ 128~ 130~
15
18 21 14 10 4 3
118.0 123.2 125.8 127.1 125.2
126.1
122.4 119.9 120.1 122.5 121.5
119.2
114.3 122.1 124.8 116.3 122.5
126.4
116.9 120.4 122.7 125.1 129.1
118.4 121.0
126.4 114.2 124.8 122.1 119.4 128.2 124.4 112.3 122.6 134.5
119.1
127.2 114.4 124.1 121.3 118.3
116.9
118.3 120.5 127.2 127.0 132.8
• 本例资料,最大值为134.5cm,最小值为110.2cm, 故极差 R=134.5-110.2=24.3cm • 组数不宜太多,也不宜太少。一般根据样本量的多 少分成8-15组。 本例假设分成10组。 理论上组距等于极差除以组数。但不拘泥于计算 结果,而常常取一个比较好处理的数。组距可以相 等,也可以不等。 本例,组距=24.3/10=2.43,我们取为2cm。 组段:上限、下限 • 列表划记
第二章
描述性统计
描述性统计(descriptive statistics)是一套用
來整理和慨括数据的方法,它可以很快地显示
出数据的基本倾向性,揭示你在什么地方值得 使用统计推断的方法去更详细地考察数据。
总体与样本
• 总体(population):研究的全部对象。分 为无限总体(infinite population)和有限总 体(finite population)。 • 个体(individual):构成总体的每个成员。 • 样本(sample):总体的一部分。 • 样本的含量(sample size):样本内包含的 个体数目。
=595.8/120=4.965
如用原始观察值计算有 =(5.195+5.070+……+5.010)/120
=4.959
二、几何均数(Geometric Mean)
几何均数用G表示, 为观察值的总乘积开n 次方根,有
G x1 x2 L xn ( x)
n
1/ n
二、几何均数(Geometric Mean)
三.中位数(Median)
中位数用M表示,它将总体或样本的全部观察 值分成两部分,每部分各有50%个观察值。
计算方法为:先将原始观察值按由小到大顺序
排列后,位次处于中间的那个观察值为中位数。
观察值数为奇数时,处于中间的那个数为中位数。
偶数时处于中间的两个数的均数为中位数。
三.中位数(Median)
如求数列7, 10, 12, 14, 18, 20的中位数。n=6, 为偶数,取中间两个数的平均数,则 M=(12+14)/2=13(天) 如求数列7, 10, 12, 14, 15,18, 20的中位数。 n=7, 为奇数,取中间那个数为中位数。则 M=14(天)
三.中位数(Median)
适用于表示任何分布资料的平均水平。 但常用于非正态分布资料。由于中位数不 受个别特大,特小数值的影响, 因此它比均 数稳健,常用于资料分布不明,或明显偏态, 或分布的一端无确定值的情况。
用途: 1.描述一组资料在各个百分位置上的水
平,用一组百分位数如P5,P25, P50, P75, P95,可以
描述总体或样本的分布特征,如集中位置、变 异度等。
百分位数
四分之一分位数=25%
四分之二分位数=50%
70%下侧
30%上侧
第70个百分位数值
五.百分位数(Percentile)
13.64
16.36 19.09 12.73 9.09 3.64 2.73
37
55 76 90 100 104 107
33.64
50.00 69.09 81.82 90.91 94.55 97.27
132~
134~136
2
1
1.82
0.91
109
110
99.09
100.00
合计
110
100.00
• 频数表的用途
118.2 121.7 119.7
125.0
116.7 122.7 126.1
115.0
121.7 116.3 131.3
112.8
116.8 124.0 123.8
120.2
121.6 119.0 114.7
110.2 120.9
115.2 122.0 124.5 121.8 122.2 122.8
120.1
121.7 124.9 128.6
125.5
118.8 130.0 122.0
132.5
131.1 127.8 115.0 120.0 113.5
122.0
120.4 123.0 122.8 122.7 118.8
123.5
115.2 117.4 116.8 118.3 127.6
116.3
第一节 概述
描述性统计的表、图形式包括: (1) 频数分布表 (2) 条形图、直方图、茎叶图、盒形图
设原始观察值共n例,为X1 ,X2 ,……, Xn 。
和(SUM):∑X =X1+X2+……+Xn 。 平方和, SS(SUM OF SQUARE): ∑X2 =X12+X22+……+Xn2 () x x) (x x …… + ( x x ) ( x x ) +( x x ) + ( x x ) 平方和又记为USS (UNCORRECTED SUM OF SQUARE) 离均差平方和,记为CSS (CORRECTED SUM OF SQUARE):
2.1 数据预处理的原因
数据质量的含义
• • • • 正确性(Correctness) 一致性(Consistency) 完整性(Completeness) 可靠性(Reliability)
4
现实世界的数据
• 不完整的
– 缺少属性值或某些感兴趣的属性,或仅包含聚 集数据。
• 含噪声的
– 包含错误或存在偏离期望的离群值。
相关文档
最新文档