2.数理统计基本概念
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
合计(n)
中点值(y) 75 90 105 120 135 150 160 180 195 210 225 240 255
频数(f) 2 7 7 13 17 20 25 21 13 9 3 2 1 140
16
三、属性变量资料的整理
把资料按各种质量性状进行分类,分类数等于组数, 然后根据各个体在质量属性上的具体表现,分别 归入相应的组中,即可得到属性分布的规律性认 识。下表是某水稻杂种二代植株米粒的分离情况:
R=Max(1…n)-Min (1…n) 3、确定组数和组距(class interval)
组距=R/组数 因而必须先确定组数。组数的确定,可参照以 下的因素: (1)观察值个数的多少;(2)极 差的大小;(3)便于计算;(4)能反应出资 料的真实面貌。
13
4、选定组限(class limit)和组中点值(组值,class value)首先选定第一组的中点值,这一点选定后, 则该组组限确定,其余各组的中点值和组限也随 之确定。第一组的中点值以最接近最小观察值为 好,这样可以避免第一组内次数过多,能正确地 反映资料的规律性。 每组有两个组限,数值小的为下限(lower limit), 数值大的为上限(upper limit)。
观察值的中心位置,并且可以资料的代表而于 另一组资料相比较,借以明确两者之间相差的 情况。 二、平均数的种类 1、算术平均数(arithmetic mean):一个数量资 料中各个观察值的总和除以观察值的个数所得
_
的商,记作 y
26
2、中位数(median):将资料内所有观察值从大
到小排列,居中间位置的观察值称为中位数,
的,没有地方充分利用资料的全部信息,而且 易于受到资料中不正常的极端值的影响。所以 用它来代表整个样本的变异度是有缺陷的。
36
3.2.2 方差
由于算术平均数的可信度比较高,我们设想用观
察值与算术平均数之间的差异来度量一组观察
值的变异性,但是这又遇到
(
yi
_
y)
0
的困
难。为了解决这一矛盾,将离差平方后再相加
每穗粒数(y)
26-30 31-35 36-40 41-45 46-50 51-55 56-60 61-65 66-70
71-75 76-80 81-85
合计
次数(f)
1 3 10 21 32 41 38 25 16 8 3 2 200
12
二、连续性变量资料的整理
对于此类情况,一般的处理步骤是: 1、数据排序(sort) 2、求极差(range)
23
3. 常用样本特征
3.1 平均数 3.2 变异数
24
3.1 平均数
3.1.1 平均数的意义和种类 3.1.2 算术平均数的计算方法 3.1.3 算术平均数的重要特性 3.1.4 总体平均数
25
3.1.1 平均数的意义和种类
一、平均数的意义 平均数(average)是数据的代表性,表示资料中
记作Md
例如:
1、2、3、4、5
的中位数是3
1、2、3、4、5、6
的中位数是: (3+4)/2=3.5
27
3、众数(mode):资料中最常见的一数,或次数
最多一组的中点值,称为众数,记为Mo。
例如:在资料23、24、23、22、23、25、20、23、 中
Mo=23
4、几何平均数(geometric mean):n个观察值, 其乘积开n次方,即为几何平均数,用G代表。
观察值(observation):每一个体的某一个 性状、特性的测定数值叫做观察值。
参数(parameter):由总体的全部观察值而 算得的总体特征数,如总体平均数,称 为参数。
6
样本(sample):从总体中抽出的一部分个体 的集合。
估计值(estimate):由样本函数确定的总体 相应参数的函数值。
G n y1 y2 y3... y n y1 y2 y3... yn 1/n
28
3.1.2 算术平均数的计算方法
1、直接以观察值进行计算
_
y
y1 y2 y3 ... yn n
n
yi
i 1 n
2、若样本较大,且已分组,可采用加权法计算 算术平均数,即以组中值代表该组出现的观察值 以计算平均数。
计数与量测两种方式。 1、不连续或间断性变量(discontinuous
or discrete variable):指用计数方法 获得的数据。 2、连续性变量(continuous variable): 指称量、度量或测量方法得到的数据。
9
二、质量性状资料 质量性状(qualitative trait):指能观察
而不能量测的性状。 1、统计次数法 2、给予每类性状以相对数量的方法。
10
2.2 数据频数或频率分布表
一、间断性变量资料的整理 1、100个麦穗每穗小穗数的次数(频数)分布表
每穗小穗数(y) 15 16
17 18 19 20
次数(f) 6 15 32 25 17 5
总次数(n)
100
11
2、200个稻穗每穗粒数的次数(频数)分布表
随机样本(random sample):从总体中随机抽 取的样本,满足随机性和等可能性。
样本容量(sample size):样本中包含的个体 数,用n表示。
7
2.数据整理与描述
2.1 数据资料的性质与分类 2.2 数据频数或频率分布表 2.3 数据频数或频率分布图
8
2.1 数据资料的性质与分类
一、数量性状资料 数量性状(quantitative trait)的度量有
第Ⅱ部分:数理统计(Statistics)
数理统计基本概念、数据的整理和描述 统计量及其分布 估计理论 假设检验 回归分析 方差分析
1
为什么要学习统计?
在当今这个信息时代,我们将随时随地成为信息的接 收者,我们也随时需要处理身边和工作中的信息和 数据.如此众多繁乱的信息,我们该如何”借来一双 慧眼”,看个清楚明白呢?
桑普拉斯说:统计分析让一切假象原形毕露。但是, 统计中也有不少陷阱,蹩脚的数据分析师总是披 着统计的外衣有意或无意地制造假象,许多年前 的一本著作《How to lie with statistics》就对此有 过幽默而深刻的描述,最近出版了中译本名为 《统计陷阱》,达莱尔.哈夫著,廖颖林译,有兴 趣的朋友不妨一睹为快。
18
140行水稻产量频数分布方柱形图
f 30
25 20 15 10
5 0
60 90 120 150 180 210 240
y(产量,g/行)
19
二、多边形图 多边形图(polygon),以每组中点值为横坐标,以
频数为纵坐标。
20
三、条形图
条形图(bar diagram)适用于间断性变量和属性变量 资料。一般横坐标表示间断的中点值或分类性状, 纵坐标表示频数。
120
100
80
60
40
20
0 红米非糯
红米糯稻
白米非糯
白米糯稻
21
四、饼图
饼图(pie diagram)适用于间断性和属性资料, 用以表示这些变量中各种属性或各种间断性数 据观察值在总观察值个数中的百分比。
8% 17%
21%
红米非糯
红米糯稻
54%
白米非糯
白米糯稻
22
利用Excel作图
利用Excel可以方便的作出各种数据资料 的分布图形。
_
y
fi yi
fy
fi
n
29
3.1.3 算术平均数的重要特性
1、样本各观察值与其平均数的差数(简称离均 差,deviation from mean)的总和为0。即:
n
_
_
(yi y) (yi y) 0
i 1
2、样本各观察值与其平均数的差数平方总和,较
各个观察值与任意其它数值的差数平方的总和为
来代替算术平均数。
yn
max( n2
yi
)
min(
yi
)
31
3.1.4 总体平均数
总体平均数用μ来表示,其计算公式为:
N
yi
i1
N 从公式中可以看出,除非是有限总体,否则总体平 均数是无法通过计算得到的。
32
3.2. 变异数
3.2.1 极差 3.2.2 方差 3.2.3 标准差 3.2.4 变异系数
对于任何一个成功的应用项目来说,一个真正的统 计学家和数据分析专家是必不可少的,他会指引 你绕过礁石和旋涡,到达成功的彼岸。
2
几个统计故事
1.1936年美国杂志<文学文摘>预测在总统 大选中哪位候选人会胜出?
2.中国知识分子的寿命比正常人寿命少10 年?
3.学历越高,收入越多,上网时间越长?
3
1936年美国正从经济大恐慌中复苏,全国仍有9百万人失业.当年 的美国总统大选,由民主党员罗斯福与共和党员兰登进行角 逐.《文学文摘》(Literary Digest)杂志对结果进行了调查预 测.他们根据当时的电话号码簿及该杂志订户俱乐部会员名单,邮 寄1千万份问卷调查表,回收约240万份.工作人员获得了大量的样 本,对此进行了精确的计算,根据数据的整理分析结果,他们断言: 在总统选举中,兰登将以370∶161的优势,即以57%比43%,领先 14个百分点击败罗斯福.与之相反,一个名叫乔治·盖洛普的人, 对《文学文摘》调查结果的可信度提出质疑.他也组织了抽样调查, 进行民意测验.他的预测与《文学文摘》截然相反,认为罗斯福必 胜无疑.结果,罗斯福赢得了2770万张民众选票,兰登得到1600万 张选票;罗斯福赢得了除缅因州、佛蒙特州以外48个州的民众选票, 获得选举团523张选票的98%强,而兰登的选票低于2%(8 张).最终,罗斯福以62%比38%压倒性地大胜兰登.这一结果使 《文学文摘》销声匿迹,而盖洛普则名声大噪.
小,亦即离均差平方的总和最小。
n
_
n
(yi y)2< (yi a)2
i 1
i 1
30
算术平均数的局限性:
算术平均数易于理解,计算简单,使用广泛。 但其局限性也是显而易见的,所有数据必须 确切知道,易受两个极端值得影响。基于此, 在某些场合,人们常常通过计算切尾均值
_
y切尾
y1
y2
...
够的,还需要进一步说明数据的变异程 度。只有通过变异程度的描述,才知道 代表值的代表性。 表示数据变异特征的数值叫变异数。常用 的变异数有:极差、方差、标准差、变 异系数等。
35
3.2.1 极差
极差(range),又称全距,记为R,是资料中最大值
与最小值之差。 例如:A组资料的极差 RA=7-3=4 B组资料的极差 RB=9-1=8 极差的计算简单,但是它只是两个极端数据决定
5、观察值按分组数列的各组组限归组。
14
以140行水稻试验的产量为例,(数据略。) 其中极差:R=254-75=179g 观察值的个数为140,可分8-16组,假定 分为12组,则组距=179/12=14.9,为方 便起见,组距定为15g。 数据分组频数统计表如下:
15
140行水稻产量的频数分布
33
数据的代表值只是反映了数值资料的 一个方面—集中程度的特征,资料的另一 方面和的特征是变异程度。请看下面的例 子: A组资料:3、4、5、6、7 平均数为:5 B组资料:1、3、5、7、9 平均数仍为:5 这里的平均数5对于A组资料的代表性好? 还是对于B组资料的代表性好?
34
答案是十分清楚的。 可见,只表明了数据的集中程度是远远不
4
1.数理统计基本概念
总体(population):具有相同性质的个 体组成的集合。 无限总体(infinite population):总 体中包含的个体数目有无穷多个,这 种总体称为无限总体。
5
有限总体(finite population):总体中包 含的个体数目有限,这种总体称为有限 总体。
组限 67.5-82.5 82.5-97.5 97.5-112.5 112.5-127.5 127.5-142.5 142.5-157.5 157.5-172.5
172.5-187.5 187.5-202.5 202.5-217.5 217.5-232.5 232.5-247.5 247.5-262.5
就不再为0。从这个式子知道
_
( yi y)2
愈大,则资料的变异程度也就愈大。Baidu Nhomakorabea
(
yi
_
y)2
称为离差的平方和(简称平方和),记为SS
(Sum Of Square)。
属性分组(y) 红米非糯 红米糯稻 白米非糯 白米糯稻 合计(n)
频数(f) 96 37 31 15 179
17
2.3 数据频数或频率分布图
一、方柱形图(直方图) 方柱形图(histogram)适用于表示连续性变量的次
数分布。 横轴为分组数列,纵轴为分布频数。横坐标与纵
坐标的长度要有合适的比例(一般为5:4或6:5 为好),绘成的图形才能明显表明频数分布情况。
中点值(y) 75 90 105 120 135 150 160 180 195 210 225 240 255
频数(f) 2 7 7 13 17 20 25 21 13 9 3 2 1 140
16
三、属性变量资料的整理
把资料按各种质量性状进行分类,分类数等于组数, 然后根据各个体在质量属性上的具体表现,分别 归入相应的组中,即可得到属性分布的规律性认 识。下表是某水稻杂种二代植株米粒的分离情况:
R=Max(1…n)-Min (1…n) 3、确定组数和组距(class interval)
组距=R/组数 因而必须先确定组数。组数的确定,可参照以 下的因素: (1)观察值个数的多少;(2)极 差的大小;(3)便于计算;(4)能反应出资 料的真实面貌。
13
4、选定组限(class limit)和组中点值(组值,class value)首先选定第一组的中点值,这一点选定后, 则该组组限确定,其余各组的中点值和组限也随 之确定。第一组的中点值以最接近最小观察值为 好,这样可以避免第一组内次数过多,能正确地 反映资料的规律性。 每组有两个组限,数值小的为下限(lower limit), 数值大的为上限(upper limit)。
观察值的中心位置,并且可以资料的代表而于 另一组资料相比较,借以明确两者之间相差的 情况。 二、平均数的种类 1、算术平均数(arithmetic mean):一个数量资 料中各个观察值的总和除以观察值的个数所得
_
的商,记作 y
26
2、中位数(median):将资料内所有观察值从大
到小排列,居中间位置的观察值称为中位数,
的,没有地方充分利用资料的全部信息,而且 易于受到资料中不正常的极端值的影响。所以 用它来代表整个样本的变异度是有缺陷的。
36
3.2.2 方差
由于算术平均数的可信度比较高,我们设想用观
察值与算术平均数之间的差异来度量一组观察
值的变异性,但是这又遇到
(
yi
_
y)
0
的困
难。为了解决这一矛盾,将离差平方后再相加
每穗粒数(y)
26-30 31-35 36-40 41-45 46-50 51-55 56-60 61-65 66-70
71-75 76-80 81-85
合计
次数(f)
1 3 10 21 32 41 38 25 16 8 3 2 200
12
二、连续性变量资料的整理
对于此类情况,一般的处理步骤是: 1、数据排序(sort) 2、求极差(range)
23
3. 常用样本特征
3.1 平均数 3.2 变异数
24
3.1 平均数
3.1.1 平均数的意义和种类 3.1.2 算术平均数的计算方法 3.1.3 算术平均数的重要特性 3.1.4 总体平均数
25
3.1.1 平均数的意义和种类
一、平均数的意义 平均数(average)是数据的代表性,表示资料中
记作Md
例如:
1、2、3、4、5
的中位数是3
1、2、3、4、5、6
的中位数是: (3+4)/2=3.5
27
3、众数(mode):资料中最常见的一数,或次数
最多一组的中点值,称为众数,记为Mo。
例如:在资料23、24、23、22、23、25、20、23、 中
Mo=23
4、几何平均数(geometric mean):n个观察值, 其乘积开n次方,即为几何平均数,用G代表。
观察值(observation):每一个体的某一个 性状、特性的测定数值叫做观察值。
参数(parameter):由总体的全部观察值而 算得的总体特征数,如总体平均数,称 为参数。
6
样本(sample):从总体中抽出的一部分个体 的集合。
估计值(estimate):由样本函数确定的总体 相应参数的函数值。
G n y1 y2 y3... y n y1 y2 y3... yn 1/n
28
3.1.2 算术平均数的计算方法
1、直接以观察值进行计算
_
y
y1 y2 y3 ... yn n
n
yi
i 1 n
2、若样本较大,且已分组,可采用加权法计算 算术平均数,即以组中值代表该组出现的观察值 以计算平均数。
计数与量测两种方式。 1、不连续或间断性变量(discontinuous
or discrete variable):指用计数方法 获得的数据。 2、连续性变量(continuous variable): 指称量、度量或测量方法得到的数据。
9
二、质量性状资料 质量性状(qualitative trait):指能观察
而不能量测的性状。 1、统计次数法 2、给予每类性状以相对数量的方法。
10
2.2 数据频数或频率分布表
一、间断性变量资料的整理 1、100个麦穗每穗小穗数的次数(频数)分布表
每穗小穗数(y) 15 16
17 18 19 20
次数(f) 6 15 32 25 17 5
总次数(n)
100
11
2、200个稻穗每穗粒数的次数(频数)分布表
随机样本(random sample):从总体中随机抽 取的样本,满足随机性和等可能性。
样本容量(sample size):样本中包含的个体 数,用n表示。
7
2.数据整理与描述
2.1 数据资料的性质与分类 2.2 数据频数或频率分布表 2.3 数据频数或频率分布图
8
2.1 数据资料的性质与分类
一、数量性状资料 数量性状(quantitative trait)的度量有
第Ⅱ部分:数理统计(Statistics)
数理统计基本概念、数据的整理和描述 统计量及其分布 估计理论 假设检验 回归分析 方差分析
1
为什么要学习统计?
在当今这个信息时代,我们将随时随地成为信息的接 收者,我们也随时需要处理身边和工作中的信息和 数据.如此众多繁乱的信息,我们该如何”借来一双 慧眼”,看个清楚明白呢?
桑普拉斯说:统计分析让一切假象原形毕露。但是, 统计中也有不少陷阱,蹩脚的数据分析师总是披 着统计的外衣有意或无意地制造假象,许多年前 的一本著作《How to lie with statistics》就对此有 过幽默而深刻的描述,最近出版了中译本名为 《统计陷阱》,达莱尔.哈夫著,廖颖林译,有兴 趣的朋友不妨一睹为快。
18
140行水稻产量频数分布方柱形图
f 30
25 20 15 10
5 0
60 90 120 150 180 210 240
y(产量,g/行)
19
二、多边形图 多边形图(polygon),以每组中点值为横坐标,以
频数为纵坐标。
20
三、条形图
条形图(bar diagram)适用于间断性变量和属性变量 资料。一般横坐标表示间断的中点值或分类性状, 纵坐标表示频数。
120
100
80
60
40
20
0 红米非糯
红米糯稻
白米非糯
白米糯稻
21
四、饼图
饼图(pie diagram)适用于间断性和属性资料, 用以表示这些变量中各种属性或各种间断性数 据观察值在总观察值个数中的百分比。
8% 17%
21%
红米非糯
红米糯稻
54%
白米非糯
白米糯稻
22
利用Excel作图
利用Excel可以方便的作出各种数据资料 的分布图形。
_
y
fi yi
fy
fi
n
29
3.1.3 算术平均数的重要特性
1、样本各观察值与其平均数的差数(简称离均 差,deviation from mean)的总和为0。即:
n
_
_
(yi y) (yi y) 0
i 1
2、样本各观察值与其平均数的差数平方总和,较
各个观察值与任意其它数值的差数平方的总和为
来代替算术平均数。
yn
max( n2
yi
)
min(
yi
)
31
3.1.4 总体平均数
总体平均数用μ来表示,其计算公式为:
N
yi
i1
N 从公式中可以看出,除非是有限总体,否则总体平 均数是无法通过计算得到的。
32
3.2. 变异数
3.2.1 极差 3.2.2 方差 3.2.3 标准差 3.2.4 变异系数
对于任何一个成功的应用项目来说,一个真正的统 计学家和数据分析专家是必不可少的,他会指引 你绕过礁石和旋涡,到达成功的彼岸。
2
几个统计故事
1.1936年美国杂志<文学文摘>预测在总统 大选中哪位候选人会胜出?
2.中国知识分子的寿命比正常人寿命少10 年?
3.学历越高,收入越多,上网时间越长?
3
1936年美国正从经济大恐慌中复苏,全国仍有9百万人失业.当年 的美国总统大选,由民主党员罗斯福与共和党员兰登进行角 逐.《文学文摘》(Literary Digest)杂志对结果进行了调查预 测.他们根据当时的电话号码簿及该杂志订户俱乐部会员名单,邮 寄1千万份问卷调查表,回收约240万份.工作人员获得了大量的样 本,对此进行了精确的计算,根据数据的整理分析结果,他们断言: 在总统选举中,兰登将以370∶161的优势,即以57%比43%,领先 14个百分点击败罗斯福.与之相反,一个名叫乔治·盖洛普的人, 对《文学文摘》调查结果的可信度提出质疑.他也组织了抽样调查, 进行民意测验.他的预测与《文学文摘》截然相反,认为罗斯福必 胜无疑.结果,罗斯福赢得了2770万张民众选票,兰登得到1600万 张选票;罗斯福赢得了除缅因州、佛蒙特州以外48个州的民众选票, 获得选举团523张选票的98%强,而兰登的选票低于2%(8 张).最终,罗斯福以62%比38%压倒性地大胜兰登.这一结果使 《文学文摘》销声匿迹,而盖洛普则名声大噪.
小,亦即离均差平方的总和最小。
n
_
n
(yi y)2< (yi a)2
i 1
i 1
30
算术平均数的局限性:
算术平均数易于理解,计算简单,使用广泛。 但其局限性也是显而易见的,所有数据必须 确切知道,易受两个极端值得影响。基于此, 在某些场合,人们常常通过计算切尾均值
_
y切尾
y1
y2
...
够的,还需要进一步说明数据的变异程 度。只有通过变异程度的描述,才知道 代表值的代表性。 表示数据变异特征的数值叫变异数。常用 的变异数有:极差、方差、标准差、变 异系数等。
35
3.2.1 极差
极差(range),又称全距,记为R,是资料中最大值
与最小值之差。 例如:A组资料的极差 RA=7-3=4 B组资料的极差 RB=9-1=8 极差的计算简单,但是它只是两个极端数据决定
5、观察值按分组数列的各组组限归组。
14
以140行水稻试验的产量为例,(数据略。) 其中极差:R=254-75=179g 观察值的个数为140,可分8-16组,假定 分为12组,则组距=179/12=14.9,为方 便起见,组距定为15g。 数据分组频数统计表如下:
15
140行水稻产量的频数分布
33
数据的代表值只是反映了数值资料的 一个方面—集中程度的特征,资料的另一 方面和的特征是变异程度。请看下面的例 子: A组资料:3、4、5、6、7 平均数为:5 B组资料:1、3、5、7、9 平均数仍为:5 这里的平均数5对于A组资料的代表性好? 还是对于B组资料的代表性好?
34
答案是十分清楚的。 可见,只表明了数据的集中程度是远远不
4
1.数理统计基本概念
总体(population):具有相同性质的个 体组成的集合。 无限总体(infinite population):总 体中包含的个体数目有无穷多个,这 种总体称为无限总体。
5
有限总体(finite population):总体中包 含的个体数目有限,这种总体称为有限 总体。
组限 67.5-82.5 82.5-97.5 97.5-112.5 112.5-127.5 127.5-142.5 142.5-157.5 157.5-172.5
172.5-187.5 187.5-202.5 202.5-217.5 217.5-232.5 232.5-247.5 247.5-262.5
就不再为0。从这个式子知道
_
( yi y)2
愈大,则资料的变异程度也就愈大。Baidu Nhomakorabea
(
yi
_
y)2
称为离差的平方和(简称平方和),记为SS
(Sum Of Square)。
属性分组(y) 红米非糯 红米糯稻 白米非糯 白米糯稻 合计(n)
频数(f) 96 37 31 15 179
17
2.3 数据频数或频率分布图
一、方柱形图(直方图) 方柱形图(histogram)适用于表示连续性变量的次
数分布。 横轴为分组数列,纵轴为分布频数。横坐标与纵
坐标的长度要有合适的比例(一般为5:4或6:5 为好),绘成的图形才能明显表明频数分布情况。