应用2 统计量的计算和箱线图【精选】
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
未分组数据:
S 2
(Xi X )2 , S S 2
N
变形一
变形二
S
2
1 N2
N
X
2 i
(
Xi )2
S 1 N N
X
2 i
(
Xi )2
S 2
1 N
Xi2 (
X N
i
)2
S 1 N
Xi2 (
Xi )2 N
在中位数位置画一条竖线。这个箱子包含了50%的数据。 ② 在箱子左右两侧各引一条水平线,分别至最小值和最
大值,每条线段包含25%的数据。
山西大学数学科学学院
20
语言研究中的统计学
箱线图
箱线图可以对样本数据的分布形状进行大致的判断。
山西大学数学科学学院
21
语言研究中的统计学
箱线图
箱线图可以对样本数据的分布形状进行大致的判断。
12
语言研究中的统计学
(六)(绝对)平均差(AD)
定义:
AD
Xi X
N
分组数据平均差的求法:
AD fi X i X
N
注意到:
(Xi X) 0
所以我们需要取绝对值。
其中称右式为离均差: X i X
山西大学数学科学学院
13
语言研究中的统计学
(七)方差与标准差
其中Xc为
N为总次数,i为组距。
A的确定:取总次数一半的累积次数所对应的那一组的组 中值,因为它更接近真正的平均值。
山西大学数学科学学院
15
语言研究中的统计学
离中趋势量的比较
极差可以在一定程度上反映数据的差异情况,为数据 分组提供依据;
四分差比两级差稳定可靠,常与中位数结合使用; 平均差优于两级差和四分差,用数值离开平均值的平 均距离来反映数据的离散程度,但不适合微分运算; 方差和标准差是最理想的差异量:概念易于理解,适 合代数运算和微分运算,能反映所有数据的差异情况,不 易受抽样的影响。
山西大学数学科学学院
8
语言研究中的统计学
平均数、中位数和众数的比较
6、极端值 样本中过大或过小的数值称为极值 平均值不能体现极端值的信息,从而不能很好地反映分布的信 息,有时中数和众数更好一点。 7、数据分布 对于对称分布,三数非常接近,特别是正态分布时三数相等; 对偏态分布,三数差异较大,一般地:
Md
L (N
2 F
fL) i
L i (N F
2
fL)
或
Md
U (N
2 F
fU ) i
L —中位数所在组下限 U —中位数所在组上限 fL —L以下各组总次数 fU —U以上各组总次数 F —中数所在组次数 i —中数所在组组距
山西大学数学科学学院
5
语言研究中的统计学
24
语言研究中的统计学
练习
Weighted Average(Definitio V1 n 1) Tukey's Hinges V1
Percentiles
Percentiles
5
10 25 50 75 90 95
9.00 10.00 14.00 19.00 26.00 44.00 49.90
14.00 19.00 26.00
-2.33
1
2.33
99
-1.64
5
-0.52 30
0.52
70
1.54
95
-1.28 10 -0.39 35
0.39
65
1.28
90
-1.04 15 -0.25 40
0.25
60
1.04
85
-0.84 20 -0.13 45
0.13
55
0.84
80
-0.67 25
0
50
0.67
75
山西大学数学科学学院
② 一组分数的标准分之平均值为0,即 Z 0 ; ③ 一组分数的标准分之标准差为1,即 SZ 1; ④ 标准分具有对称性。 标准分的应用: 比较不同质(不同分布)的分数; 将不同质的多个分数合成后再比较。
山西大学数学科学学院
18
语言研究中的统计学
标准分与百分位对照表
标准分 百分位 标准分 百分位 标准分 百分位 标准分 百分位
正偏或右偏时,众数<中位数<平均数 负偏或左偏时,平均数<中位数<众数
山西大学数学科学学院
9
语言研究中的统计学
平均数、中位数和众数的比较
正偏或右偏 众数<中位数<平均数
正态分布,三数相同
三数各有优缺点,平均数用得比较多。
负偏或左偏 平均数<中位数<众数
山西大学数学科学学院
10
语言研究中的统计学
(四)极差
19.93 24.81
5% Trimmed Mean
21.42
Median
19.00
Variance
150.943
Std. Deviation
12.286
Minimum
6
Maximum
58
Range
52
Interquartile Range
12
Skewness
1.246 .241
Kurtosis
.791 .478
Mo 3 Md 2 M
山西大学数学科学学院
7
语言研究中的统计学
平均数、中位数和众数的比较
1、灵敏度 平均数的计算涉及到每个样本值,所以对数值的变化比较敏感。 2、稳定性 对同一总体而言,均值比较稳定,受抽样影响较小。 3、信息量 平均数既反映了数值的顺序关系,又体现了所有样本的值,同 时又稳定,所以它所提供的信息量最大。 4、运算 平均数适合代数运算,且比较简单。
V1
100
100.0%
0
.0%
100 100.0%
山西大学数学科学学院
23
语言研究中的统计学
练习
V1
山西大学数学科学学院
Descriptives Mean
Statistic
Std. Error
22.37 1.229
95% Confidence Lower Bound Interval for Mean Upper Bound
成绩为:
Mw
2085 30 75 4080 20 30 40
79.4
例2 综合测评成绩的计算:单科学单分科学单分科成绩
注意:权大小的确定要有一定的依据。 特别地:如果所有权的和为1,则称为标准权。
山西大学数学科学学院
4
语言研究中的统计学
(二)中位数
顺序样本中间位置的数, 即样本容量(总次数)N的50%位置的数。 1、对未分组数据求中位数 2、根据分组频数分布表求中位数
由次数分布表来求更简单一些。略
山西大学数学科学学院
14
语言研究中的统计学
(七)方差与标准差(续)
由分组次数分布表:
S2 i
fd 2 N
fd 2
N
式中:
f为组频数; d为各组数据的假定平均离均差,d Xc A
i 各组组中值,A为估计平均值。
k i 1
fi Xi
,N
N
fi
根据分组频数分布表 X
k i 1
fi
X
' i
N
,X i'为第i组组中值
2、加权平均
Mw
Wi X i Wi
,Wi称为权
山西大学数学科学学院
3
语言研究中的统计学
加权平均数例子
例1 有3个班,人数分别为20、30和40,在某次考试中的
平均成绩分别为85,75,80,那么这三个班的加权总平均
19
语言研究中的统计学
五数概括与箱线图
对有序样本,容易计算以下五个值(五数): 最小观测值Xmin;最大观测值Xmax;中位数m0.5=Q2; 第一个四分位数Q1= m0.25;第三个四分位数Q3= m0.75;
箱线图(Box plot),又称箱须图(Box-whisker Plot) 、盒形 图、箱图、盒子图。作法如下: ① 画一个箱子,其两侧恰为第一4分位数和第三4分位数,
27.00
1 . 555566666667777778888899999
18.00
2 . 000001112222333444
9.00
2 . 566667899
1.00
3. 4
4.00
3 . 5679
6.00
4 . 000444
8.00 Extremes (>=47)
Stem width: 10
Each leaf: 1 case(s)
山西大学数学科学学院
27
语言研究中的统计学
箱 线 图
奇异值用‘o’表示。 表示数值与矩形框 的上边(下边)的 距离是四分位极差 的1.5倍—3倍;
极端值用‘*’表示。
表示数值与矩形框 的上边(下边)的 距离是四分位极差 的3倍以上;
山西大学数学科学学院
28
语言研究中的统计学
语言研究中的统计学
(Ⅱ) 2009 年 3 月
山西大学数学科学学院
1
语言研究中的统计学
基本统计量
统计量
集中趋势量
离中趋势量
平
中
众
均 数
位
数
数
山西大学数学科学学院
标
极
四
平
准
分
均
差
差
差
差
方
差
2
语言研究中的统计学
(一)平均数(样本均值)
1、算术平均 X X i N
根据频数分布表 X
极差又称两极差,是样本值中最大值和最小值之间的差。
Xmin
25%
两极差
25%
Xmax
Q1
Q2
Q3
山西大学数学科学学院
11
语言研究中的统计学
(五)四分差
定义:
Q Q3 Q1 2
分组数据四分点的求法:
Q1
Lb
N
4 Fb fQ1
i
Q3
Lb
3N
4 Fb fQ3
i
山西大学数学科学学院
山西大学数学科学学院
16
语言研究中的统计学
标准化
一个分数在一组分数中的位置是参照该组分数的典型
分数来确定的,也就是说,一个分数可以描述为在典型分
之上还是之下或者是等于典型分,以及它离开典型分有多
远。这个典型分数用平均分表示,离开典型分的距离用标
准差表示,这样我们就可以是“某个分数离开平均分多少
个标准差单位”,同时用正负号表示该分数处于平均分之
例:以下是100个英语句子的长度。
6
10
13
15
17
19
21
24
29
44
8
11
13
16
17
19
21
24
34
44
8
11
13
16
17
19
22
25
35
47
ຫໍສະໝຸດ Baidu
8
12
14
16
17
19
22
26
36
48
9
12
14
16
18
20
22
26
37
48
9
12
14
16
18
20
22
26
39
50
9
12
14
16
18
20
23
26
40
51
上还是之下。
这实际上就是把原始分数转换为标准差单位数,或以
标准差为单位来表示一个分数与平均数的差,此过程称为
标准化过程
Z X X X
S
山西大学数学科学学院
17
语言研究中的统计学
标准分
一个分数离开平均分的“标准差单位数”称为标准分或Z 分,常用Z表示。 标准分的性质:
① 一组分数的标准分的和为零,即 Z 0 ;
山西大学数学科学学院
25
语言研究中的统计学
直 方 图
山西大学数学科学学院
26
语言研究中的统计学
Stem-and-Leaf Plots
V1 Stem-and-Leaf Plot
Frequency Stem & Leaf
8.00
0 . 68889999
19.00
1 . 0001122222233334444
(三)众数
一组数据中出现次数最多的数值 注意:
1、如组中各数都相同,则没有众数; 2、也可能出现两个以上的众数; 3、称含有两个众数的次数分布为双众数分布。
求法: 从顺序样本中找,样本容量大的,先做频数统计表。
山西大学数学科学学院
6
语言研究中的统计学
平均数、中位数和众数的关系
皮尔逊经验公式(P40) 众数=3*中位数-2*平均数
9
12
15
16
18
20
23
27
40
55
10
12
15
17
18
20
23
28
40
56
10
13
15
17
19
21
24
29
44
58
山西大学数学科学学院
22
语言研究中的统计学
练习
Case Processing Summary
Cases
Valid
Missing
Total
N
Percent
N
Percent
N
Percent