第二章 描述统计
第二章--定量资料的统计描述
分类变量(名义变量 分类变量 名义变量) 名义变量 定性变量 有序变量(等级变量 有序变量 等级变量) 等级变量
变量
离散型变量 定量变量 连续型变量 统计描述: 统计描述:用统计图表或计算统计指标的方法表达一个特定群 这个群体可以是总体也可以是样本)的某种现象或特征, 体(这个群体可以是总体也可以是样本)的某种现象或特征, 称为统计描述。 称为统计描述。 统计描述可以使人们对资料有一个大致的了解, 统计描述可以使人们对资料有一个大致的了解,为进一步的统 计分析打下基础。 计分析打下基础。
图2-1 某地96名妇女产前检查次数频率分布 某地96名妇女产前检查次数频率分布 96
30 25 20
频率(%)
15 10 5 0 0 1 2 3 4 产前检查次数 5 >5
横坐标为产前检查 横坐标为产前检查 频率, 次数,纵坐标为频率 次数,纵坐标为频率, 即产前检查k次的妇 即产前检查 次的妇 女在被统计妇女中所 占的比例(%) 占的比例( ) 从表2-1和图 和图2-1可 从表 和图 可 以看出, 以看出,产前检查次 数为4次或 次或5次的孕妇 数为 次或 次的孕妇 数目最多, 数目最多,不检查或 检查次数很多的孕妇 不多, 不多,产前检查很多 次的孕妇也不多。 次的孕妇也不多。
与表2-2相比, 与表 相比,直方图可以更直观 相比 地表达出血清铁数据在各组段的分 布情况。 布情况。
三、频率分布表(图)的用途 频率分布表( (一)揭示资料的分布类型 1、对称分布 集中位置位于中央,左右两侧频数对称。 集中位置位于中央,左右两侧频数对称。
12 10 频 率 密度 (%) 8 6 4 2 0 7 9 11 13 15 17 19 血清铁 21 23 25 27 29
第2章 描述统计:数量方法
第二章
描述统计:数量方法
STAT
4、评价 (1)测度数据的重心位置。
年龄(x) 人数(f) 36 1 A、Mean=38 37 1 离差:2+1=1+2 38 1 B、Mean=38.3333 39 1 离差:2.3333+1.3333+0.3333 40 1( 2) =0.6667+1.66672
STAT
[例]某人早、中、晚购买蔬菜的资料如下,求平均价格。
总金额 价格 数量 3元 xf x =0.26 总数量 数量 11.5斤 f
第二章
描述统计:数量方法
STAT
二、调和平均数(Harmonic Mean ,P35) 1、定义:变量值①倒数②的算术平均数③的倒数④ 。 2、公式推导 ( 1 )变量值: x1 , x2 ,, xn
1 1 1 1 (2)倒数: , ,, 令yi x1 x2 xn xi 1 1 1 1 x x x y 2 n (3)求算术平均数: y 1 x n 111 n n (4)倒数: H “简单调和平均数” 1 x
均值 78.67 77.78
[例2]2000年哈佛大学研究生部6个最大专业录取情况如下:
专业 男性报名人数 录取率(%) 女性报名人数 录取率(%) A 825 62 108 82 B 560 63 25 68 C 325 37 593 34 D 417 33 375 35 E 191 28 393 24 F 373 6 341 7
STAT
第二节
一、概念 1、集中趋势:越靠近中间水平,出现的频数越多,反之亦反。 2、离中趋势:离开并分散在中间水平两侧的趋势。 按年龄分组(岁) 38 39 40 41 42 合计 人数(人) 10 30 70 40 20 170
第二章数值型变量的统计描述
例:某公司五名职员的薪水分别是: 10,100,1000,10000,100000。
10 100 1000 10000 100000 X 22222 5
G 10 100 1000 10000 100000 1000
5
lg 10 lg 100 lg 100000 1 15 G lg ( ) lg ( ) 1000 n 5
统计工作四大步骤之一:分析资料
分析资料:计算有关指标,反映数据的综合特 征, 阐明事物内在联系和规律 (1)统计描述(descriptive statistics):指用统计
指标、统计表、统计图等方法,对资料的数量特 征及其分布规律进行测定和描述 。
(2)统计推断(inferential statistics):指如何根
n 2 n 1 2
2
求:中位数
第1组数:1、4、 3、 2、 3 第2组数: 3、 2、1、 3 第3组数:1、2、 1、 2
(2)频数表法:
适用于样本例数较大的资料(百分位数法)
步骤: ①从小到大计算累计频数和累计频数; ②确定中位数和百分位数所在组段;
③计算中位数M和百分位数PX
i Px= L n x % f L fx
考考你: BUN组段(1)
BUN组段(2)
2.00~2.40 2.40~2.80 2.80~3.20 3.20~3.60
BUN组段(3)
2.00~ 2.40~ 2.80~ 3.20~3.60
2.00~2.30
2.40~2.70 2.80~3.10 3.20~3.50
4、列表划记(数频数):统计各组段内的
例2-3
二、几何均数(geometric mean)
统计学原理(第二章)
数据的计量和类型
一、数据的计量尺度 4.定比尺度:又称为比例尺度或是比较水平, 是对事物之间比值的一种测度,它是最高层 次的测量,可用于参数和非参数统计推断。 它是与定距尺度属于同一层次的一种计量尺 度,但其功能比定距尺度更强一些。
在日常生活中,大多数情况下使用的都是 定比尺度。例如,年龄、收入、某地区每年的 失业人数、罪犯人数等。
数值数据的描述
一、数值数据的 分组
为什么要进行数据的分组?
品质数据的描述
某电脑公司50名销售代表某季度电脑销售量按从小 到大排序如下表:
107 108 108 110 112 112 113 114 115 117 117 117 118 118 118 119 120 120 121 122 122 122 122 123 123 123 123 124 124 124 125 125 126 126 126 127 127 128 128 129 130 131 133 133 134 134 135 139 139 139
204 80.00% 105 41.17%
235 92.16% 51 20%
255 100% 20 7.84%
— 100% —
品质数据的描述
二、品质数据的 图示 1.条形图:是用宽度相同的条形的高度或长 短来表示数据变动的图形,横置的称为带形 图,纵置的称为柱形图(直方图)。
柱形图(直方图)
120 100 80 60 40 20
定类变量、定序变量、 数值型变量(离散变量、连续变量)
第二节 品质数据的描述
一、品质数据的描述 二、数据的类型品质数据的图示 三、品质数据的分布特征描述
品质数据的描述
一、品质数据的 描述 1.频数:是落在某一特定类别(或组)中的 数据的个数。把各个类别及其相应的频数全 部列出来则形成频数分布。
医学统计学-第二章 统计描述
1. 首先对资料作分布类型的判定; 2. 针对分布类型先用合适的指标描述:
均值、标准差;常记录为 X S
中位数、四分位间距; 常录为M(Ql, Qu)
一、集中趋势:用于描述一组计量资料的集中位置, 说明这种变量值大小的平均水平(average)表示。
频 数
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
(三)频数表的用途:
1.揭示频数的分布特征
频 数
分布 特征
身高(cm)
图3.1 某市100名8岁男童身高(cm)的频数分布
集中趋势
(central tendency)
离散趋势
(tendency of dispersion)
集中趋势与离散趋势结合能全面反映频数的分布特征
2.揭示频数的分布类型
对称 分布
频数 分布
正偏
非对称 分布
负偏
集中部位在中部,两 端渐少,左右两侧的
基本对称,为对称 (正态)分布。
集中部位偏于较小 值一侧(左侧),较大 值方向渐减少,为
正偏态分布。
集中部位偏于较大 值一侧(右侧),较 小值方向渐减少,
为负偏态分布。
(2) 定量资料的描述指标
描述指标: 集中趋势:
累计频数 (4) 1 6 14 31 54 75 89 96 99 100 100
累计频率 (5) 0.01 0.06 0.14 0.31 0.54 0.75 0.89 0.96 0.99 1.00 1.00
频数分布图(frequency distribution figure) :
根据频数分布表,以变量值为横坐标,频数为纵坐 标,绘制的直方图。
第二章 集中趋势的统计描述
1.集中趋势(central tendency):平均水 平,向中间集中,中等数据的人数最多。 2.离散趋势(tendency dispersion):变 异水平,即随着红细胞数测量值逐渐变大 或变小,人数越来越少,向两端分散。
频数表的主要用途
1.作为陈述资料的形式,可以替代繁杂的原始资料, 便于进一步分析 2.便于观察数据的分布类型 3.便于发现资料中某些远离群体的特大或特小的 可疑值
xi x1 x2 xn x n n
例2.1 见书P10
式(2-1)
加权法
适用条件:当无原始数据或观察例数很多又 缺乏计算机及统计软件时,若用直接法很 容易出错,可以用加权法处理。
f i X i f1 X 1 f 2 X 2 f n X n x f i f1 f 2 f n
x
二、特征: ∑(X-
x )=0
估计误差之和为0。
三、适用资料类型: 1.描述正态分布和近似正态分布资料集中 趋势的最好指标。 2. 适用于大多数正常人的生理、生化指标。 四、计算方法:
1.直接法
2.加权法
直接法
适用条件: 当观察例数不多时,或观察例数虽然 很多,但有计算机及统计软件,宜选择直接法。
0 .0 15 0 .0 14 0 .0 13 0 .0 12 0 .0 11 0 .0 10 00 9. 00 8. 00 7. 00 6. 00 5. 00 4. 00 3. 00 2. 00 1. 00 0.
400
300
200
100
0
TG
对数据的描述指标也分为两类: 1. 描述集中趋势(central tendency)或 平均水平的指标。 2. 描述离散趋势(tendency dispersion) 或变异水平的指标。
统计学第二章计量资料的统计描述
02
统计数据整理与展示方法
数据清洗与预处理技巧
80%
缺失值处理
根据数据的分布情况和实际背景 ,选择合适的缺失值填充方法, 如均值、中位数、众数等。
100%
异常值处理
采用箱线图、散点图等方法识别 异常值,并根据实际情况选择删 除、替换或保留。
分类
根据测量水平的不同,计量资料可分为离散型和连续型两类。离 散型数据只能取整数值,如人口数、医院床位数等;连续型数据 则可以取实数范围内的任何值,如身高、体重等。
计量资料特点分析
数值性
计量资料以数值形式表示,具有数量化的特点,便 于进行数学运算和统计分析。
连续性
连续型计量资料在实数范围内可以取任意值,数据 分布的连续性使得统计推断更为精确。
06
统计图表在数据可视化中应用
常见统计图表类型介绍
条形图(Bar Chart)
用于展示分类数据之间的比较,横轴表示分类,纵轴表示数量或比例。
折线图(Line Chart)
用于展示时间序列数据或连续性数据的趋势变化,横轴表示时间或类 别,纵轴表示数量或比例。
散点图(Scatter Plot)
用于展示两个变量之间的关系,横轴和纵轴分别表示两个变量,点的 位置表示变量的取值。
一组观察值中出现次数最多的数。
计算方法
应用场景
中位数计算需先将数据排序,然后取中间 位置的数;众数计算则是统计各数值出现 的次数,取出现次数最多的数。
适用于各种类型的数据,尤其适用于偏态 分布数据。中位数和众数对极端值不敏感 ,因此能较好地反映数据的集中趋势。
不同集中趋势指标比较
算术平均数、中位数和 众数都是描述数据集中 趋势的指标,但各有特 点。
第二章 描述性统计分析SPSS应用
萨姆:每周100元又是怎么回事呢? 吉斯莫:那称为众数,是大多数人挣 的工资。 吉斯莫:老弟,你的问题是出在你不 懂平均数、中位数和众数之间的区别。 萨姆:好,现在我可懂了。我……我 辞职!
描述集中趋势的统计量
Mean(均值) Median(中位值) Mode(众值)
(一)均值(定距变量)
定距变量资料分布常用曲线
J形曲线
U形曲线
峰状曲线
对称与不对称曲线
注意:适用于较低测量层次的统计法,也适 用于较高的层次。 图形也同样:饼图主要是用于定类变量 条形图主要是用于定序变量;直方图、折线图 等主要是用于定距变量
练习:城镇自杀率的分组次数分布
自杀率 次数 组中值 向上累积次数
如果只看次数,乙机关已婚者远高于甲机关, 但从百分比来看,甲机关已婚的比例则较大。 频数分布表是不同类别的绝对数量的分布情况, 百分比分布表则是不同类别在总体中的相对数 量分布,因此,百分比分布除具备频数分布的 特点外,还可以十分方便地进行不同总体或不 同类别之间的比较,应用更为广泛。
3. 对比值(ratio):不同类别数值之间的比 值,用x:y的形式表示 如出生性别比为105:100,则表示每出生 100个女孩则有105个男孩出生 某班男女生比率为3:5
你会吗?
2. 对于分组资料:(1)单项数列
根据N/2在累计频数分布中找到中位数所在组, 该组变量值就是Md 。 X f F 3 4 中 位 数 5 6 7 8 9 3 9 25 34 20 7 1 3 12 37 71 91 98 99
10
合计
1 100
100 —
(2)组距数列
按中位数所在组的下限:
统计分析首先要解决的问题,就是寻求
第二章 数值变量资料的统计描述
频数分布的类型
频数分布分为对称分布和偏态分布两种类型。 频数分布分为对称分布和偏态分布两种类型。 对称分布是指集中位置在正中, 对称分布是指集中位置在正中,左右两侧频 数分布大体对称,如上表所示。 数分布大体对称,如上表所示。若将其绘制 成频数分布直方图,则更清楚。 成频数分布直方图,则更清楚。 直方图是以x 本例为体重) 为横坐标 , 直方图是以 x( 本例为体重 ) 为横坐标, 频 数或百分数为纵坐标, 数或百分数为纵坐标,用矩形面积大小表示 频数多少。 频数多少。
某地150名12岁男童体重频数分布图 名 岁男童体重频数分布图 某地
40
30
Frenquency
20
10
0 21.5 24.5 27.5 30.5 33.5 36.5 39.5 42.5 45.5 48.5 51.5
体重(kg)
频数分布的类型
偏态分布指集中位置偏向一侧, 偏态分布指集中位置偏向一侧 , 频数分布 不对称。 不对称。 一些以儿童为主的传染病, 一些以儿童为主的传染病 , 患者的年龄分 布 , 集中位置偏于年龄小的一侧, 频数尾 集中位置偏于年龄小的一侧 , 部向右侧延伸, 称为正偏态 ( 部向右侧延伸 , 称为正偏态( 峰 ) 分布 , 分布, 如图
一、频数分布表(frequency table)的编制 频数分布表( table)
某地儿研所测得该地150名12岁健康男童体重 某地儿研所测得该地150名12岁健康男童体重 kg)原始数据如下,试编制频数表。 (kg)原始数据如下,试编制频数表。
25.2 30.5 36.5 35.1 37.1 37.1 28.7 31.4 36.8 27.3 37.6 37.8 35.7 34.9 36.2 42.5 37.8 44.0 29.2 33.7 34.1 27.2 48.6 25.5 33.4 39.3 34.3 51.0 33.7 32.4 35.6 38.2 35.1 25.3 34.0 35.8 37.3 32.2 42.2 38.1 38.0 29.3 38.5 44.5 41.1 42.9 29.6 34.7 29.7 37.5 33.4 35.3 41.3 43.8 39.6 28.2 46.5 36.2 20.1 38.2 44.4 45.6 41.5 32.4 30.1 27.8 40.9 37.5 36.5 35.0 43.5 35.4 43.7 41.2 41.8 38.4 32.8 27.2 33.8 37.5 39.6 23.4 31.8 32.8 26.5 33.8 35.3 33.0 44.2 36.8 37.7 36.6 33.2 35.8 36.4 36.3 42.0 24.5 42.6 28.3 43.2 45.7 28.4 33.4 32.1 34.1 36.2 31.8 39.6 29.2 34.1 33.3 31.5 41.2 33.5 47.4 29.9 27.6 47.9 30.6 38.7 45.9 30.0 35.1 40.2 40.9 47.3 36.4 43.7 42.6 38.7 38.5 35.4 32.5 31.4 40.6 34.5 36.5 34.8 41.4 33.8 23.1 20.5 39.6 51.2 23.5 40.8 38.2 37.4 47.9
第二章统计描述
G ' lg1(
fi lg Xi ) lg1(
1 0.6021 4 0.9031
1 2.709Байду номын сангаас )
fi
40
lg1(67.1282) 48 40
G 1: 48
中位数(median, M)
适合于表达偏态资料、或分布不明的资料的平 均水平,尤其适合于表达只知数据的个数、但 部分较大或较小数据的具体数值未准确知道的 资料的平均水平。
血清总胆固醇 2.5~ 3.0~ 3.5~ 4.0~ 4.5~ 5.0~ 5.5~ 6.0~ 6.5~
7.0~7.5 合计
频数f 1 8 9 23 25 17 9 6 2 1
101
fx 2.75 26 33.75 97.75 118.75 89.25 51.75 37.5 13.5 7.25 478.25
13
174
单侧正常值范围的上限为 1.81
14
188
(mol/L)。
1.69~
4
192
1.93~
4
196
2.17~
1
197
2.42~
2
199
2.66~
0
199
2.90~3.14
1
200
3.四分位数间距(quartile interval, Q)
Q=P75-P25
Q=QU-QL
优缺点:用四分位数间距作为描述数据分布离散 程度的指标,比极差稳定,但仍未考虑到每个数 据的大小,常用于描述偏态频数分布以及分布的 一端或两端无确切数值资料的离散程度。
第1四分位数记作Q1,第2、第3四分位数,分别记作 Q2、Q3;第1百分位数,记作P1。同理,还有第2、第 3、 ···、第99百分位数,分别记作P2、P3、 ···、P99。
(罗良清)统计学(第二版)思考与练习答案:第二章 描述统计(计算题答案)
1第二章 描述统计(计算题答案)1、某市工业企业按产值分组资料如下: 按产值分组(万元) 企业数(个)100—200 200—400 400—600 600—800 800—1000 1000—1200 501101301409030合 计 550解:27.577550317500===∑∑f xfx (万元)92.576200130160255040021=⨯-+=⨯-+=-∑i f S fL M m m e (万元)233.6332120=⨯∆+∆∆-=i U M (万元)2、某车间有两个小组,每组都是7人,每人日产量件数如下第一组:20、40、60、70、80、100、120第二组:67、68、69、70、71、72、73若这两组工人每人平均日产量件数都是70件,计算每人日产量的差异指标:①全距;②平均差;③标准差,并比较哪个组的平均数的代表性大?解:大。
第二组的平均数代表性,,件,件件件件件件∴<⋅<⋅<====⋅===⋅=12121221222111702,71.1,662.31,7.25,100σσσσD A D A R R x x D A R D A R Θ3、有两个生产作业班工人按其产品日产量分组的资料如下: 甲组 乙组日产量(件) 工人数(人) 日产量(件) 工人数(人)3 5 7 9 10 13 3 5 64 2 8 12 14 15 16 67331合 计 合 计数代表性大?解:乙组平均数代表性大。
,,件件,件,件,乙甲乙甲乙甲乙甲∴>======σσσσσσV V V V x x Θ%9.22%9.257.22.28.115.84、两种不同的水稻品种分别在5块试验田上试种,其产量资料如下:甲品种 乙品种4 田块面积(亩) 亩产(斤) 田块面积(亩) 亩产(斤)1.2 1.1 1.0 0.9 0.8 1000 950 1100 900 1050 1.2 1.1 1.0 0.9 0.8 136010001250750600合计 合计假定生产条件相同,试研究这两个品种的亩产水平,并确定哪个品种具有较大的推广价值 。
描述统计:表格及图形方法
第二章描述统计:表格与图形方法第一节数据的预处理一、数据审核1、准确性审核的对象就登记性误差〔非抽样误差〕采取逻辑检查和计算检查方法·逻辑检查:主要看调查数据的容是否合理,工程之间是否有矛盾的地方,以及与有关数据进展对照,或者检查数据的平衡关系,以暴露逻辑上的矛盾·计算检查:主要是从数字上检查,如各分项之和是否等于总计,计量单位是否适宜,计算方法上是否合理等等2、全面性核对应调查的单位是否有遗漏,应调查的容是否齐全3、及时性即是否按规定的时间获取数据资料二、数据筛选1、当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进展筛选2、数据筛选的容〔1〕将*些不符合要求的数据或有明显错误的数据予以剔除〔2〕将符合*种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除3、数据筛选可借助计算机完成三、数据排序1、按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索2、排序有助于对数据检查纠错,以及为重新归类或分组等提供依据3、在*些场合,排序本身就是分析的目的之一4、排序可借助于计算机完成第二节定性数据的图表分析一、频数分布:将统计数据分组后,各组数据出现的次数被称为频数〔次数〕。
把各个组以及相应的频数依一定的次序全部列出来,就形成了频数分布〔次数分布〕1、频率:各组单位数占总体单位总数的比重××定性数据本身就是对事物的一种分类,在列出所分的类别的同时,再列出对应的频数或频率,就形成了分类数据的频数分布。
2、顺序数据的整理(可计算的统计量)〔1〕累积频数:各类别频数的逐级累加。
包括向上累积和向下累积两类。
〔2〕累积频率:各类别频率(百分比)的逐级累加。
包括向上累积和向下累积两类。
&&补充:1>向上累计:从变量值低的组开场,将各组次数〔频率〕逐次向变量值高的组累计,说明*一组上限以下各组的累计次数〔频率〕。
《统计学》2数据的描述
第二章统计数据的描述【说明】(一)统计数据的分类、表达形式1.按数据的计量尺度不同划分•分类数据---列名尺度、定类尺度、名义尺度的计量结果对事物进行分类的结果,数据表现为类别,用文字来表述⏹表现为类别,用文字来表述⏹•顺序数据----定序尺度的计量结果对事物类别顺序的测度⏹数值型数据----定距尺度、定比尺度的计量结果⏹对事物的精确测度⏹结果表现为具体的数值⏹2.按采集方法划分1、观测数据(observational data)2、试验数据(experimental data)3.按时间状况划分•截面数据(cross-sectional data)在相同或者近似相同的时间点上采集的数据⏹描述现象在某一时刻的变化情况⏹•时间序列数据(time series data)在不同时间上采集到的数据⏹描述现象随时间变化的情况⏹(二)数据的表现形式绝对数按其所反映的时间状况不同,划分为:时期数、时点数⏹(计量单位有实物单位、价值单位、复合单位)相对数包括:比例(Proportion)、比率(Ratio)⏹(计量单位有百分比、千分比)统计数据的描述过程一、第一个环节——统计数据的搜集(一)统计数据的来源(渠道)(二)统计数据的搜集方式、方法(三)统计数据的质量要求(评价标准)1. 精度:最低的抽样误差或者随机误差2. 准确性:最小的非抽样误差或者偏差3. 关联性:满足用户决策、管理和研究的需要4. 及时性:在最短的时间里取得并发布数据5. 一致性:保持时间序列的可比性6. 最低成本:以最经济的方式取得数据二、第二个环节——统计数据的整理【重点】数据的整理与显示的基本原则:要弄清所面对的数据类型,因为不同类型的数据,所采取的处理方式和方法是不同的;•对分类数据和顺序数据主要是进行分类整理;•对数值型数据则主要是进行分组整理;•适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据。
第二章定量资料的统计描述
1.算数均数 1.算数均数(arithmetic mean) )
表2-3 加权法计算均数 组段 (1 ) 6~ 8~ 10~ 10~ 12~ 12~ 14~ 14~ 16~ 16~ 18~ 18~ 20~ 20~ 22~ 22~ 24~ 24~ 26~ 26~ 28~ 28~30 合计 组中值( 组中值(XO) (2 ) 7 9 11 13 15 17 19 21 23 25 27 29
X + X 2 + ... + X n = 1 X n=∑n来自i =1Xi n
=
∑
i
Xi n
=
∑
n
X
1.算数均数 1.算数均数(arithmetic mean) )
测得8 例2-3 测得8只正常大鼠血清总酸性磷 酸酶(TACP)含量(U/L) 4.20,6.43, 酸酶(TACP)含量(U/L)为4.20,6.43, 2.08,3.45,2.26,4.04,5.42,3.38。 2.08,3.45,2.26,4.04,5.42,3.38。 试求其算术均数。 试求其算术均数。 算术均数= 算术均数= (4.20+6.43+2.08+3.45+2.26+4.04+5.4 2+3.38)/8=3.9075 2+3.38)
1998年某地96名妇女产前检查次数分布 1998年某地96名妇女产前检查次数分布 年某地96
频数 (2) 4 7 11 13 26 23 12 96 频率(%) 频率(%) (3) 4.2 7.3 11.5 13.5 27.1 24.0 12.5 100 累计人数 (4) 4 11 22 35 61 84 96 累计频率(%) 累计频率(%) (5) 4.2 11.5 22.9 36.5 63.5 87.5 100.0 -
第二章 统计图表的制作和描述统计
结果输出文件内容: 1.统计量表格 2.频数分布表 3.要分析变量进行转化,使用 transform菜单中record in different variable功能对数据进行整 理,然后再使用简单频数分析表的方法 制作具体频数分布表。
条形图
➢ 绘制条形图的具体操作步骤如下:
1.00
6. 6
6.00
7 . 5699
4.00
8 . 2899
4.00
9 . 0269
1.00 Extremes (>=121)
Stem width: 10.00 Each leaf: 1 case(s)
箱图
盒子的中间横线是数据的中位数,封闭
盒子的上下两横线(边)为上下四分位数 (点);按照SPSS的默认选项,如果所有样 本中的观测值都在离四分位点1.5倍盒子长度
具体操作步骤(EG6-1为例):
打开【分析】(Analyze)菜单,选择 【描述统计】(descriptive stat)命令下 的【探索】( explorer )命令,打开导航对 话框,如下图所示:
英语 Stem-and-Leaf Plot
Frequency Stem & Leaf
3.00
5 . 449
之内,则线的端点为最大和最小值,否则线长 就是1.5倍的盒子长度(盒子长度称为四分位 间距),在其外面的度量单独点出。
打开【图形】(Graphs)菜单,选择 【旧对话框】(Legacy Dialogs)命令下 的【条形图】(Bar Charts)命令,SPSS 将弹出“条形图”(Bar Charts)导航对话
框,如下图所示:
➢具体实践操作, 以EG6-1为 例,制作 “group”变 量的条形图。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
频数 4 8 5 2 1
20
末组组中值=(U+L)/2=[L+(L+i)]/2
=L+i/2=L+邻组i/2
6、对重叠组限,该组的频数统计遵循“上组限不在本组内”的原
则。
江西财经大学统计学院 23
统计学 第二节 概括数量数据
五、相对频数分布与百分比频数分布 我们以定义质量数据同样的方式来定义数量数据的相对频
方法如下:A、用SAS软件中的INSIGHT作频数统计的步骤。
江西财经大学统计学院 25
统计学 第二节 概括数量数据
江西财经大学统计学院 26
统计学 第二节 概括数量数据
B、用编程的方法绘制频数分布表
江西财经大学统计学院 27
统计学 第二章 概括数量数据
江西财经大学统计学院 28
江西财经大学统计学院 4
统计学 第一节 图表法
一、 统计表 (一)定义:容纳与表现统计资料的表格。 (二)制作:上下粗线、中间细线、两边开口。 (三)结构 1.从形式看 (1)总标题:时间、空间、总体、指标
2000年A国工业企业固定资产投资情况 → 总标题
按地区分组 完成投资额(亿元) 增长率(%) 比重(%)
江西财经大学统计学院 21
统计学 第二节 概括数量数据
3、确定组限(上限、下限) 不重叠设计、第一组的下限<最小值、最末组的上限>最大值
审计时间(天) 10—14 15—19 20—24 25—29 30—34
合计
频数 4 8 5 2 1
20
注意:若数据中有异常 值,则应设置开口组。
江西财经大学统计学院 22
甲
(1)
(2)
(3)
横 东部地区
行 标
中部地区
题 西部地区
12,188 4,121 2,387
17、5 20、7 21、1
65、2 22、0 12、8
纵栏 标题
指标 数值
江西财经大学统计学院 5
统计学 第四节 图表法
(2)横行标题:总体或其分组的名称; (3)纵栏标题:指标名称; (4)指标数值。 2.从内容来看 (1)主词:说明的对象; (2)宾词:指标名称、指标数值。
14、19、18、15、15、18、17、20、27、22、23、22、21、33、 28、14、18、16、13。
试将其整理成合适的变量数列。 1、确定互不重叠的分组数量。(组数)
一般分5~20个组。 2、确定每组组距。
全距(R)=Xmax –Xmin=33—12=18 组距=全距/组数=18/5=4.2≈5
统计学 第一节 图表法
二、次数分布图
(一)图示法
1、直方图:X轴“变量”; 人数f
Y轴 “次数”。
15
宽i,高各组f。 次数分布表
12
身高
人数
9
80—90
3
6
90—100
7
100—110 13
3
110—120
5
120—130
2
30
80 90 100 110 120 130
身高x
江西财经大学统计学院 7
2000年A国工业企业固定资产投资情况 → 总标题
按地区分组 完成投资额(亿元) 增长率(%) 比重(%)
甲
(1)
(2)
(3)
纵栏 标题
横 东部地区
行 标
中部地区
题 西部地区
主词
12,188
4,121
2,387
宾
17、5
20、7
21、1
词
65、2 22、0 12、8
指标 数值
江西财经大学统计学院 6
江西财经大学统计学院 2
统计学 第二章 描述统计
要对上面的数据进行分析,你应该做些什么? 江西财经大学统计学院 3
统计学 第二章 描述统计
本章学习重点
1、理解数据图示的必要性,了解数据图示在数据分析中地位。 2、熟练数值平均数和位置平均数的计算。 3、理解变异指标的。
本章学习难点
1、变异指标的应用。 2、至少掌握一种软件分析工具制作频数分布表和各种图形。
数分布和百分比频数分布。
六、散点图及直方图(自学)
七、累积分布和累积频数图 累积分布所显示的是小于或等于每个分组的上限值观测值
的数量,而不是每组的频数。 又分累积相对频数分布、累积百分比频数分布。 累积分布的图形称为累积频数图。
江西财经大学统计学院 24
统计学 第二节 概括数量数据
附录:1、用EXCEL软件绘制频数分布 2、用SAS软件绘制频数分布
统计学 第一节 图表法
江西财经大学统计学院 8
统计学 第一节 图表法
江西财经大学统计学院 9
统计学 第一节 图表法
江西财经大学统计学院 10
统计学 第一节 图表法
江西财经大学统计学院 11
统计学 第一节 图表法
江西财经大学统计学院 12
统计学 第一节 图表法
江西财经大学统计学院 13
统计学 第一节 图表法
江西财经大学统计学院 14
统计学 第一节 概括质量数据
二、相对频数分布与百分比频数分布 1、定义
对于有n个观测值的数据集,每组的相对频数=组的频 数/n;
每组百分比频数=相对频数100。 2、举例:书中的表2-3 3、特点:用概括性表格数据的形式显示每组的相对频 数和每组的百分比频数。 三、条形图与饼图(自学)
顾客在交回问卷后,就对他们所购买的商品打九五折,以 表感谢。下面的A表是问卷回收后的原始记录。
江西财经大学统计学院 1
统计学
调查结束后,该超市针对顾客在调查中提出的问题,对员工 进行了培训,以改善服务质量。为比较改善服务质量后是否使 销售额有所提高,超市又对2004年第三季度各天的销售进行了 统计,结果如下表。
江西财经大学统计学院 16
统计学 第二节 概括数量数据
二、频数分布的类型
1、钟形分布 特征:中间大、两头小。
[例]身高、体重、智商、纤维长度、细纱强度、粮食作物产量等。 (1)对称分布:正态分布及t分布。
年龄 人数
(2)偏态分布(不对
17
5
人数
称分布)
18
10
A、右(正)偏有
极大值;
19 20
15 10
统计学 第二节 概括数量数据
4、组中值=(上限+下限)/2 推测本组平均水平。 (1)闭口组;(2)开口组。 首组组中值=(U+L)/2 =[U+(U-i)]/2 =U-i/2 =U-邻组i/2 假定:数据均匀分布或对称分布。
审计时间(天) 10—14 15—19 20—24 25—29 30—34
江西财经大学统计学院 15
统计学 第二节 概括数量数据
一、频数分布 1、如何编制数量数据的频数分布表 A、确定互不重叠的分组数量。(组数) B、确定每组组距。 C、确定组限(上限、下限、组中值)。(组限的选择以数
量数据的精确度来衡量,采用不重叠的方式)
2、举例:表2—6 3、特点:它提供了数量数据是如何分布的,提供了比原 始数据更多的信息,比原始数据更易理解。
供
年龄
(1)正J分布:右大左小;
给
(
“供给曲线”。
需 求
)
(2)反J分布:左大右小;
“需求曲线”。
价格
江西财经大学统计学院 19
统计学 第二节 概括数量数据
三、数量数据频数分布(变量数列)的类型 1、单项式数列:一个变量值代表一组。 2、组距式数列:依组距分组等距数列、异距数列。
某地人口分布表
年 龄 人数(万人)
统计学 第二章 描述统计
统计实例 超市逐渐成为人们的主要购物场所。随着我国加入WTO,
国外的一些大型零售商也在国内的一些城市开设了连锁超市, 这无疑加剧了零售业的竞争态势。2003年,一家超市面对业界 新的形式,除了在硬件设施上加大投入外,更希望在服务质量 上下功夫。为了解顾客对服务质量的要求,这家超市随机抽取 了100名前来购物的顾客,让他们填写一份简单的调查问卷, 对本店的服务质量进行评价。其中的一个问题是:“你认为本 店服务质量如何?请在下面列出的选项上划‘’”。A.好 B. 较好 C.一般 D.较差 E.差
0—10
7
10—20
11
20—30
24
30—40
8
40—50
2
合计
52
A 班学生年龄分布表
年龄 人数 频率
17
6
0.12
18
14
0.28
19
18
0.36
20
9
0.18
21
3
0.06
合计 50
1.00
江西财经大学统计学院 20
统计学 第二节 概括数量数据
四、变量数列的编制 以下是某小型会计师事务所对20个客户年终审计所需天数:12、
B、左(负)偏 有极小值。
21
5
22
3
23
1
年龄
合计 49
江西财经大学统计学院 17
统计学 第二节 概括数量数据
江西财经大学统计学院 18
统计学 第二节 概括数量数据
2、U形分布
死
亡
分布特征:两头大、中间小。 率
[例]人或动物分年龄段的死亡率、 产品按使用时间的故障率。
3、J形分布
分布特征:一边大、一边小。