第七讲 资料的统计分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
S
=
n
• S(中文系)=1.414(分) • S(数学系)=10.8(分) • S(英语系)=23.8(分)
例2.
• 例:有某生三次数学考试的成绩分别为70、57、45, 三次考试的班平均为70、55、42,标准差分别为8、 4、5。如何看待该生的三次考试成绩的地位? • (如果仅从原始分数看,肯定认为第一次最好,其 实不然,要计算出各次的标准分数,才能说明问 题。) • Z1=(70-70)/8=0 Z2=(57-55)/4=0.5 Z3= (45-42)/5=0.6 • 这说明,原始分数为70,其位置正在平均线上,而 原始分数为57的,其位置在平均线上0.5处,而原始 分数为45的,其位置在平均线上0.6处。
93 76 74 57 89
89 61 74 84 52
72 46 67 91 89
85 60 85 60 85
97 51 87 61 76
68 89 55 59 56
77 43 87 63 54
76 75 71 78 58
98 69 91 79 90
某中学初三甲班60人英语期中考试成绩 累积频数(频率)分布表
300
5百度文库0
1000
2000
5000
9
11
12
14
16
18
22
30
39
56
• 组距就是每一组的间距,即每组 所包含的单位。组距以“ ”表示。
i
3、 求 组 距
i
组距i =
本例组数为6,组距
全距R 1 组数
i=
55 1 = 9.3 6
一般地,为计算方便,组距取10为宜
4. 定组限
• 组限是分组的界限,其底数为下限(L), 其顶数为上限(U)。组限的写法有很多, 有的用上下限表示,有的用组中值表示。如 以“10”为组距,一般多用首尾相接,间隔为 10的形式表示。即60~70,70~80,80~90。 其中每组上限即为下一组的下限,通常将组 下限包含在本组中,而不包含在上限所在的 组。因为分组的实际界限应是这一组的精确 界限,如“80~90”这一组的精确界限为 “79.5~89.4999……”。
步
骤
1.求全距
• R= 98(最大值)— 43(最小值) = 55
2. • 视数据资料的性质和数据多少而定。 定 组数不宜太多,如太多不能明显表示 组 出分布的主要趋势。但也不宜太少, 数 太少则把很多不同事实归于一组,其
n
分配的主要特征将因此而被蒙蔽。
分组参考表 n
分组数
50
80
100
150
200
某中学初三甲班60人英语期中考试成绩分布图 20 15 10 5 0 3 40-50 50-60 60-70 人数 70-80 80-90 90-100 9 11 16 13 8
二、集中量数分析
• 集中量数就是代表数据分布集中趋势的量 数。 • 集中量数分析指的是用一个典型值或代表 值来反映一组数据的一般水平,或者说反 映这组数据向这个典型值集中的情况。 • 最常见的集中量数有算术平均数(简称平均 数,也称为均值)、众数和中位数三种。
5. 求组中值
组中值XC = 精确下限L +
如以10为组距,则”80~90”一组的组中值为: 组中值
X= 79.5 + c
10 = 84.5 2
6.归类划记
某中学初三甲班60人英语期中考试成绩频数分布表
组 (2) 划 别(1) 组中值 X c 94.5 表示 80~90 70~80 60~70 50~60 40~50 合计 84.5 74.5 64.5 54.5 44.5 16 13 11 9 3 60 记(3) 频数
示例: 某三个班各选5名同学参加体育测试.他们的 成绩分别如下 中文系:78, 79, 80, 81. 82 X = 80 数学系:65, 72, 80, 88, 95 X = 80 外语系:35, 78, 89, 98, 100 X = 80 如果仅以集中量数来衡量,这三个队的水平 一样高,但是很明显.这80分对中文系队的 同学代表性最高,而对外语系的同学代表性 最低。
Xc f
X =
fX
N
c
Xc 为各组的组中值,f 为各组的频数,N
为总次数( f )
某中学初三甲班60人英语期中考试成绩 平均数、标准差计算表
频数 f (3) fX c (4) 组 别(1) 组中值 X c (2) 90~100 80~90
73.5
fX c2 (5)
94.5 84.5 74.5 64.5 54.5 44.5
8 16 13 11 9 3
756 1352 968.5 709.5 490.5 133.5 4410
71442 114244 72153.25 45762.75 26732.25 5940.75 336275
70~80 60~70 50~60 40~50 合计
X
=
60 4410 60
73.5
中位数与平均数的比较
X
X =
N
算术平均数的计算方法
• 1、用原始数据计算平均数 。当一组数据 个数不多时,可直接用原始数据来计算。 • 如某实验小组10人的实验成绩为11,13, 15,16,16,16,17,18,18,20。其平 均数为:
X=
11 13 1520 10
=
160 10
= 16
2、用频数分布表求平均数 。如果样本的数 据很多,达到数十个或数百个,则需编制 频数分布表,用频数分布表求平均数。
中位数(Md)
• 中位数(Md),又称中数,是频数分 布上50%处的数值,即将观察总数一 分为二的变量值。在这个值的两边各 有相同个数的数据。当数据的个数为 偶数时,取分布50%(最中心)处的 两个数据的平均数作为中数。
几何平均数(Mg)
是n个数据的连乘积开n次方的根。 常用作速率的集中量数,如学龄儿童人 数的增加率、学校经费的增加率、阅读 能力的进步率等。
CV =
×100%
CV =
S X
×100 %
• 例1:一项调查得到下列结果,某市人均平均收入为92元, 标准差为17元,人均住房面积7.5平方米,标准差为1.8平方 米。试比较该市人均收入和人均住房情况哪一个差异程度比 较大。 • [解]人均收入的离散系数为 • CV=S/ X × 100%=18.5% • 人均住房面积的离散系数为 • CV=1.8/7.5 ×100%=24% • 例2:对广州和武汉两地居民生活质量调查发现,广州居民 平均收入为680元,标准差为120元;武汉居民平均收入为 360元,标准差为80元。问广州居民相互之间的差异程度, 与武汉居民相互之间在收入上的差异程度哪一个更大一些? • [解]广州居民收入的离散系数为CV=120/680 ×100%=17.6% • 武汉居民收入的离散系数为CV=80/360 ×100%=22.2%
• 使用说明:众数与异众比率配合;中位数 与四分位差配合;平均数与标准差配合。
四、相对差异(离散或离中)量数
1.离散系数
离散系数是一种相对的离散量数统计量,它使我们能够对同一 总体中的两种不同的离散量数进行比较,或者对两个不同总体 中的同一离散量数进行比较。。 离散系数的定义是:标准差与平均数的比值,用百分比表示。 CV=S/X
Mg= n x1 x2 xn
算术平均数
• 通常称平均数,又称均数或均值。英文为Mean, 故以M表示。如果是由变量X计算得来的就记为 X (读X杠),现在一般都 X 以表示样本的平均数, 以U 表示总体的平均数。
• 算术平均数就是各个变量值相加求和再除以变量 的总次数。
x
X=
X 1 X 2 X n N
作
用
第七讲 资料的统计分析
统计分析方法是一种定量分析。它是进行科 学预测的重要方法。 统计分析的特点: • (1)统计分析要以定性分析为基础; • (2)统计分析方法必须和其他分析结合运 用; 统计分析有一套专门的方法和技术。
主要内容
• 单变量描述统计 • 单变量推论统计 • 相关与回归分析 • 双变量统计分析 • 多变量统计分析 • 变量分析的一般逻辑
第一节 单变量描述统计
• 由一种变量的全部分数或观察值组成 的一组或一批数据称为一个分布。单 变量数据的描述统计就是对其分布情 况进行说明。单变量描述统计包括集 中量数分析、离散量数分析。
一、频数分布与频率分布
• 频数分布(Frequency Distribution),就是指一
组数据中取不同值的个案的次数分布情况,它一 般以频数分布表的形式表达。
• 频率分布(percentages distribution),是一组
数据中不同取值的频数相对于总数的比率分布情 况.常以百分比的形式来表达。
案例
编制频数分布表,画出频数分布图
某中学初三甲班60人期中英语考试分数
82 56 89 74 88
60 45 60 64 96
93 77 80 88 87
三.离散量数分析
• 离散(中)量数分析
指的是用一个特别的 数值来反映一组数据相互之间的离散(中)程度. 即各组数据相对于平均数的差异程度(离中程 度)。差异程度小,平均数的代表性高;差异程 度大,代表性低。 • 它与集中量数一起分别从两个不同的侧面描述和 揭示一组数据的分布情况.共同反映出资料分布 的全面特征,同时它还对现各集中量数的代表性 做出补充说明. • 常见的离散量数统计量有全距,标准差,异众比率, 和四分位差.
f (4)
用正字 90~100 8
2.标准差
• 标准差:一组数据对其平均数的偏差平方的算术 平均数的平方根。一般以S(或 来表示 )
S=
X X
n
2
=
x2 n
• 式中S(样本统计值)为标准差,X为各学生的成 绩分数, X 为学生成绩的平均数,x为各学生成绩 分数的离差,n为学生(数据)数。
分析过程(图示)
观 察
12 22 99 86 489
200
数据如 何分组
如何使用各种统 计表与统计图来 描述一组数据的 分组与分布情况
如何通过一组数 据计算一些特征 数,简缩数据, 进一步显示与描 述一组数据的全 貌(集中情况、 分散情况、分布 特征)
调 查
100 0 第一季度
实 验
收集方法 原始数据 表达形式
3.异众比率 是指非众数的次数与总体内全部总体单位的比率。异 众比率越小,众数的代表性越大。 4.四分位差 把一组数据按大小排列成序列,然后分成四个数据数目 相等的段落,各段落分界点上的数,叫四分位数。(即 每组占25%) 舍去资料中数值最高的25%和最低的25%,仅就中间 50%数据求其量数作为离中量数,就是四分位差。 四分位差之间的间距越小,中位数的代表性越大。 (1)对定序类资料计算四分位差。 Q=Q3-Q1 (2)对定距类资料计算四分位差。
1.全距(R)
• 全距也叫极差,它是一组数据中,最大值与最小值 之差.
• 它是表示数据分布离散程度最简单的方式,即一 组数据中最大数与最小数差,故称两极差。
R=Xmax-Xmin
•当数据较多时,应用频数分布表求全距。其方法为: 最大组与最小组的组中值之差或最大组上限与最小 组下限之差。 R=Xcmax-Xcmin R=Umax-Lmin
(1)平均数要求计算所有的数值,而中位 数只用到数值的相对位置,一般说来平均 数利用了更多的信息,更全面和准确.(2) 平均数容易受到极端值的影响,中位数则 不会受到这种影响.平均数是一种比中位 数更为稳定的量度,它随样本的变化比较 少. (3)当资料是定序,定类测量或者是有开 口组的定居测量时,中位数能够拟补不足.
五、标准分数
• 是用来描述变量分布中某一分数在整个分 布中所处的位臵,它是以标准差为单位的 相对量数。其计算公式为: •
上限以下累积 组别 频数 f 频率% 频数 f 90~100 80~90 70~80 60~70 50~60 40~50 合计 8 16 13 11 9 3 60 13 27 22 10 15 5 100 60 52 36 23 12 3 频率% 100 87 60 38 20 5 频数 f 8 24 37 48 57 60 频率% 13 40 62 8 95 100 下限以上累积
• 例1:某校三个系各选5名同学,参加智力竞赛,他们 的成绩分别如下: • 中文系:78 79 80 81 82 • 数学系:65 72 80 88 95 • 英语系:35 78 89 98 100 • 平均成绩 X =80 • 标准差:一组数据对其平均数的偏差平方的算术平均 2 数的平方根。 XX