2.数理统计基本概念
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对于此类情况,一般的处理步骤是: 1、数据排序(sort) 2、求极差(range) R=Max(1…n)-Min (1…n) 3、确定组数和组距(class interval) 组距=R/组数 因而必须先确定组数。组数的确定,可参照以 下的因素: (1)观察值个数的多少;(2)极 差的大小;(3)便于计算;(4)能反应出资 料的真实面貌。
11
2、200个稻穗每穗粒数的次数(频数)分布表
每穗粒数(y)
26-30 31-35 36-40 41-45 46-50 51-55 56-60 61-65 66-70 71-75 76-80 81-85 合计
次数(f)
1 3 10 21 32 41 38 25 16 8 3 2 200
12
二、连续性变量资料的整理
30 25 20 15 10 5 0
0
60
90
0
0
0
0 24
y(产量,g/行)
19
12
15
18
21
二、多边形图 多边形图(polygon),以每组中点值为横坐标,以 频数为纵坐标。
20
wenku.baidu.com
三、条形图 条形图(bar diagram)适用于间断性变量和属性变量 资料。一般横坐标表示间断的中点值或分类性状, 纵坐标表示频数。
G = y1 y2 y3... y n = ( y1 y2 y3... yn )
n
1/ n
28
3.1.2 算术平均数的计算方法
1、直接以观察值进行计算
120 100 80 60 40 20 0
红米非糯 红米糯稻 白米非糯 白米糯稻
21
四、饼图 饼图(pie diagram)适用于间断性和属性资料, 用以表示这些变量中各种属性或各种间断性数 据观察值在总观察值个数中的百分比。
8% 17% 红米非糯 红米糯稻 白米非糯 白米糯稻
54% 21%
22
利用Excel作图
2
几个统计故事
1.1936年美国杂志 文学文摘 预测在总统 年美国杂志<文学文摘 年美国杂志 文学文摘>预测在总统 大选中哪位候选人会胜出? 大选中哪位候选人会胜出 2.中国知识分子的寿命比正常人寿命少 中国知识分子的寿命比正常人寿命少10 中国知识分子的寿命比正常人寿命少 年? 3.学历越高 收入越多 上网时间越长 学历越高,收入越多 上网时间越长? 学历越高 收入越多,上网时间越长
7
2.数据整理与描述
2.1 数据资料的性质与分类 2.2 数据频数或频率分布表 2.3 数据频数或频率分布图
8
2.1 数据资料的性质与分类
一、数量性状资料 数量性状(quantitative trait)的度量有 数量性状 计数与量测两种方式。 1、不连续或间断性变量(discontinuous or discrete variable):指用计数方法 获得的数据。 2、连续性变量(continuous variable): 指称量、度量或测量方法得到的数据。
16
三、属性变量资料的整理 把资料按各种质量性状进行分类,分类数等于组数, 然后根据各个体在质量属性上的具体表现,分别 归入相应的组中,即可得到属性分布的规律性认 识。下表是某水稻杂种二代植株米粒的分离情况:
属性分组(y) 红米非糯 红米糯稻 白米非糯 白米糯稻 合计(n)
频数(f) 96 37 31 15 179
3
1936年美国正从经济大恐慌中复苏,全国仍有9百万人失业.当年 年美国正从经济大恐慌中复苏,全国仍有 百万人失业 百万人失业. 年美国正从经济大恐慌中复苏 的美国总统大选, 的美国总统大选,由民主党员罗斯福与共和党员兰登进行角 文学文摘》 逐.《文学文摘》(Literary Digest)杂志对结果进行了调查预 ) 他们根据当时的电话号码簿及该杂志订户俱乐部会员名单, 测.他们根据当时的电话号码簿及该杂志订户俱乐部会员名单,邮 寄1千万份问卷调查表,回收约240万份.工作人员获得了大量的样 千万份问卷调查表,回收约 万份. 千万份问卷调查表 万份 对此进行了精确的计算,根据数据的整理分析结果,他们断言: 本,对此进行了精确的计算,根据数据的整理分析结果,他们断言: 在总统选举中,兰登将以370∶161的优势,即以 的优势, 在总统选举中,兰登将以 ∶ 的优势 即以57%比43%,领先 比 , 14个百分点击败罗斯福.与之相反,一个名叫乔治 盖洛普的人,对 个百分点击败罗斯福. 盖洛普的人, 个百分点击败罗斯福 与之相反,一个名叫乔治·盖洛普的人 文学文摘》调查结果的可信度提出质疑.他也组织了抽样调查, 《文学文摘》调查结果的可信度提出质疑.他也组织了抽样调查, 进行民意测验.他的预测与《文学文摘》截然相反, 进行民意测验.他的预测与《文学文摘》截然相反,认为罗斯福必 胜无疑.结果,罗斯福赢得了2770万张民众选票,兰登得到 万张民众选票, 胜无疑.结果,罗斯福赢得了 万张民众选票 兰登得到1600万 万 张选票;罗斯福赢得了除缅因州、佛蒙特州以外48个州的民众选票 个州的民众选票, 张选票;罗斯福赢得了除缅因州、佛蒙特州以外 个州的民众选票, 获得选举团523张选票的 %强,而兰登的选票低于 %( 张选票的98% 而兰登的选票低于2%( %(8 获得选举团 张选票的 ).最终 罗斯福以62%比38%压倒性地大胜兰登.这一结果使 最终, 压倒性地大胜兰登. 张).最终,罗斯福以 比 压倒性地大胜兰登 《文学文摘》销声匿迹,而盖洛普则名声大噪. 文学文摘》销声匿迹,而盖洛普则名声大噪.
17
2.3 数据频数或频率分布图
一、方柱形图(直方图) 方柱形图(histogram)适用于表示连续性变量的次 数分布。 横轴为分组数列,纵轴为分布频数。横坐标与纵 坐标的长度要有合适的比例(一般为5:4或6:5 为好),绘成的图形才能明显表明频数分布情况。
18
140行水稻产量频数分布方柱形图 f
13
4、选定组限(class limit)和组中点值(组值,class value)首先选定第一组的中点值,这一点选定后, 则该组组限确定,其余各组的中点值和组限也随 之确定。第一组的中点值以最接近最小观察值为 好,这样可以避免第一组内次数过多,能正确地 反映资料的规律性。 每组有两个组限,数值小的为下限(lower limit), 数值大的为上限(upper limit)。 5、观察值按分组数列的各组组限归组。
6
样本(sample):从总体中抽出的一部分个体 样本 的集合。 估计值(estimate):由样本函数确定的总体 估计值 相应参数的函数值。 随机样本(random sample):从总体中随机抽 随机样本 取的样本,满足随机性和等可能性。 样本容量(sample size):样本中包含的个体 样本容量 数,用n表示。
26
2、中位数(median) 中位数(median) 中位数(median):将资料内所有观察值从大 到小排列,居中间位置的观察值称为中位数, 记作Md 例如: 1、2、3、4、5 的中位数是3 1、2、3、4、5、6 的中位数是: (3+4)/2=3.5
27
3、众数(mode) 众数(mode) 众数(mode):资料中最常见的一数,或次数 最多一组的中点值,称为众数,记为Mo。 例如:在资料23、24、23、22、23、25、20、23、 中 Mo=23 4、几何平均数(geometric mean) n个观察值, 几何平均数(geometric mean): 几何平均数 其乘积开n次方,即为几何平均数,用G代表。
14
以140行水稻试验的产量为例,(数据略。) 其中极差:R=254-75=179g 观察值的个数为140,可分8-16组,假定 分为12组,则组距=179/12=14.9,为方 便起见,组距定为15g。 数据分组频数统计表如下:
15
140行水稻产量的频数分布
组 限 67.5-82.5 82.5-97.5 97.5-112.5 112.5-127.5 127.5-142.5 142.5-157.5 157.5-172.5 172.5-187.5 187.5-202.5 202.5-217.5 217.5-232.5 232.5-247.5 247.5-262.5 合计(n) 中点值(y) 75 90 105 120 135 150 160 180 195 210 225 240 255 频数(f) 2 7 7 13 17 20 25 21 13 9 3 2 1 140
4
1.数理统计基本概念
总体(population): 总体(population):具有相同性质的个 (population):具有相同性质的个 体组成的集合。 无限总体(infinite population):总 无限总体(infinite population):总 体中包含的个体数目有无穷多个,这 种总体称为无限总体。
9
二、质量性状资料 质量性状(qualitative trait):指能观察 质量性状 而不能量测的性状。 1、统计次数法 2、给予每类性状以相对数量的方法。
10
2.2 数据频数或频率分布表
一、间断性变量资料的整理 1、100个麦穗每穗小穗数的次数(频数)分布表
每穗小穗数(y) 15 16 17 18 19 20 总次数(n) 次数(f) 6 15 32 25 17 5 100
利用Excel可以方便的作出各种数据资料 的分布图形。
23
3. 常用样本特征
3.1 平均数 3.2 变异数
24
3.1 平均数
3.1.1 平均数的意义和种类 3.1.2 算术平均数的计算方法 3.1.3 算术平均数的重要特性 3.1.4 总体平均数
25
3.1.1 平均数的意义和种类
一、平均数的意义 平均数(average) (average)是数据的代表性,表示资料中 平均数(average) 观察值的中心位置,并且可以资料的代表而于 另一组资料相比较,借以明确两者之间相差的 情况。 二、平均数的种类 1、算术平均数(arithmetic mean) 算术平均数(arithmetic mean):一个数量资 算术平均数 料中各个观察值的总和除以观察值的个数所得 _ 的商,记作 y
第Ⅱ部分:数理统计(Statistics) 部分:数理统计
数理统计基本概念、数据的整理和描述 数理统计基本概念、 统计量及其分布 估计理论 假设检验 回归分析 方差分析
1
为什么要学习统计?
在当今这个信息时代,我们将随时随地成为信息的接 在当今这个信息时代 我们将随时随地成为信息的接 收者,我们也随时需要处理身边和工作中的信息和 收者 我们也随时需要处理身边和工作中的信息和 数据.如此众多繁乱的信息 我们该如何” 如此众多繁乱的信息,我们该如何 数据 如此众多繁乱的信息 我们该如何”借来一双 慧眼”,看个清楚明白呢 慧眼” 看个清楚明白呢? 看个清楚明白呢 桑普拉斯说:统计分析让一切假象原形毕露。但是, 桑普拉斯说:统计分析让一切假象原形毕露。但是, 统计中也有不少陷阱, 统计中也有不少陷阱,蹩脚的数据分析师总是披 着统计的外衣有意或无意地制造假象, 着统计的外衣有意或无意地制造假象,许多年前 的一本著作《 的一本著作《How to lie with statistics》就对此有 》 过幽默而深刻的描述, 过幽默而深刻的描述,最近出版了中译本名为 《统计陷阱》,达莱尔.哈夫著,廖颖林译,有兴 统计陷阱》 达莱尔 哈夫著,廖颖林译, 哈夫著 趣的朋友不妨一睹为快。 趣的朋友不妨一睹为快。 对于任何一个成功的应用项目来说, 对于任何一个成功的应用项目来说,一个真正的统 计学家和数据分析专家是必不可少的, 计学家和数据分析专家是必不可少的,他会指引 你绕过礁石和旋涡,到达成功的彼岸。 你绕过礁石和旋涡,到达成功的彼岸。
5
有限总体(finite population):总体中包 有限总体(finite population):总体中包 含的个体数目有限,这种总体称为有限 总体。 观察值(observation):每一个体的某一个 观察值 性状、特性的测定数值叫做观察值。 参数(parameter):由总体的全部观察值而 参数 算得的总体特征数,如总体平均数,称 为参数。
11
2、200个稻穗每穗粒数的次数(频数)分布表
每穗粒数(y)
26-30 31-35 36-40 41-45 46-50 51-55 56-60 61-65 66-70 71-75 76-80 81-85 合计
次数(f)
1 3 10 21 32 41 38 25 16 8 3 2 200
12
二、连续性变量资料的整理
30 25 20 15 10 5 0
0
60
90
0
0
0
0 24
y(产量,g/行)
19
12
15
18
21
二、多边形图 多边形图(polygon),以每组中点值为横坐标,以 频数为纵坐标。
20
wenku.baidu.com
三、条形图 条形图(bar diagram)适用于间断性变量和属性变量 资料。一般横坐标表示间断的中点值或分类性状, 纵坐标表示频数。
G = y1 y2 y3... y n = ( y1 y2 y3... yn )
n
1/ n
28
3.1.2 算术平均数的计算方法
1、直接以观察值进行计算
120 100 80 60 40 20 0
红米非糯 红米糯稻 白米非糯 白米糯稻
21
四、饼图 饼图(pie diagram)适用于间断性和属性资料, 用以表示这些变量中各种属性或各种间断性数 据观察值在总观察值个数中的百分比。
8% 17% 红米非糯 红米糯稻 白米非糯 白米糯稻
54% 21%
22
利用Excel作图
2
几个统计故事
1.1936年美国杂志 文学文摘 预测在总统 年美国杂志<文学文摘 年美国杂志 文学文摘>预测在总统 大选中哪位候选人会胜出? 大选中哪位候选人会胜出 2.中国知识分子的寿命比正常人寿命少 中国知识分子的寿命比正常人寿命少10 中国知识分子的寿命比正常人寿命少 年? 3.学历越高 收入越多 上网时间越长 学历越高,收入越多 上网时间越长? 学历越高 收入越多,上网时间越长
7
2.数据整理与描述
2.1 数据资料的性质与分类 2.2 数据频数或频率分布表 2.3 数据频数或频率分布图
8
2.1 数据资料的性质与分类
一、数量性状资料 数量性状(quantitative trait)的度量有 数量性状 计数与量测两种方式。 1、不连续或间断性变量(discontinuous or discrete variable):指用计数方法 获得的数据。 2、连续性变量(continuous variable): 指称量、度量或测量方法得到的数据。
16
三、属性变量资料的整理 把资料按各种质量性状进行分类,分类数等于组数, 然后根据各个体在质量属性上的具体表现,分别 归入相应的组中,即可得到属性分布的规律性认 识。下表是某水稻杂种二代植株米粒的分离情况:
属性分组(y) 红米非糯 红米糯稻 白米非糯 白米糯稻 合计(n)
频数(f) 96 37 31 15 179
3
1936年美国正从经济大恐慌中复苏,全国仍有9百万人失业.当年 年美国正从经济大恐慌中复苏,全国仍有 百万人失业 百万人失业. 年美国正从经济大恐慌中复苏 的美国总统大选, 的美国总统大选,由民主党员罗斯福与共和党员兰登进行角 文学文摘》 逐.《文学文摘》(Literary Digest)杂志对结果进行了调查预 ) 他们根据当时的电话号码簿及该杂志订户俱乐部会员名单, 测.他们根据当时的电话号码簿及该杂志订户俱乐部会员名单,邮 寄1千万份问卷调查表,回收约240万份.工作人员获得了大量的样 千万份问卷调查表,回收约 万份. 千万份问卷调查表 万份 对此进行了精确的计算,根据数据的整理分析结果,他们断言: 本,对此进行了精确的计算,根据数据的整理分析结果,他们断言: 在总统选举中,兰登将以370∶161的优势,即以 的优势, 在总统选举中,兰登将以 ∶ 的优势 即以57%比43%,领先 比 , 14个百分点击败罗斯福.与之相反,一个名叫乔治 盖洛普的人,对 个百分点击败罗斯福. 盖洛普的人, 个百分点击败罗斯福 与之相反,一个名叫乔治·盖洛普的人 文学文摘》调查结果的可信度提出质疑.他也组织了抽样调查, 《文学文摘》调查结果的可信度提出质疑.他也组织了抽样调查, 进行民意测验.他的预测与《文学文摘》截然相反, 进行民意测验.他的预测与《文学文摘》截然相反,认为罗斯福必 胜无疑.结果,罗斯福赢得了2770万张民众选票,兰登得到 万张民众选票, 胜无疑.结果,罗斯福赢得了 万张民众选票 兰登得到1600万 万 张选票;罗斯福赢得了除缅因州、佛蒙特州以外48个州的民众选票 个州的民众选票, 张选票;罗斯福赢得了除缅因州、佛蒙特州以外 个州的民众选票, 获得选举团523张选票的 %强,而兰登的选票低于 %( 张选票的98% 而兰登的选票低于2%( %(8 获得选举团 张选票的 ).最终 罗斯福以62%比38%压倒性地大胜兰登.这一结果使 最终, 压倒性地大胜兰登. 张).最终,罗斯福以 比 压倒性地大胜兰登 《文学文摘》销声匿迹,而盖洛普则名声大噪. 文学文摘》销声匿迹,而盖洛普则名声大噪.
17
2.3 数据频数或频率分布图
一、方柱形图(直方图) 方柱形图(histogram)适用于表示连续性变量的次 数分布。 横轴为分组数列,纵轴为分布频数。横坐标与纵 坐标的长度要有合适的比例(一般为5:4或6:5 为好),绘成的图形才能明显表明频数分布情况。
18
140行水稻产量频数分布方柱形图 f
13
4、选定组限(class limit)和组中点值(组值,class value)首先选定第一组的中点值,这一点选定后, 则该组组限确定,其余各组的中点值和组限也随 之确定。第一组的中点值以最接近最小观察值为 好,这样可以避免第一组内次数过多,能正确地 反映资料的规律性。 每组有两个组限,数值小的为下限(lower limit), 数值大的为上限(upper limit)。 5、观察值按分组数列的各组组限归组。
6
样本(sample):从总体中抽出的一部分个体 样本 的集合。 估计值(estimate):由样本函数确定的总体 估计值 相应参数的函数值。 随机样本(random sample):从总体中随机抽 随机样本 取的样本,满足随机性和等可能性。 样本容量(sample size):样本中包含的个体 样本容量 数,用n表示。
26
2、中位数(median) 中位数(median) 中位数(median):将资料内所有观察值从大 到小排列,居中间位置的观察值称为中位数, 记作Md 例如: 1、2、3、4、5 的中位数是3 1、2、3、4、5、6 的中位数是: (3+4)/2=3.5
27
3、众数(mode) 众数(mode) 众数(mode):资料中最常见的一数,或次数 最多一组的中点值,称为众数,记为Mo。 例如:在资料23、24、23、22、23、25、20、23、 中 Mo=23 4、几何平均数(geometric mean) n个观察值, 几何平均数(geometric mean): 几何平均数 其乘积开n次方,即为几何平均数,用G代表。
14
以140行水稻试验的产量为例,(数据略。) 其中极差:R=254-75=179g 观察值的个数为140,可分8-16组,假定 分为12组,则组距=179/12=14.9,为方 便起见,组距定为15g。 数据分组频数统计表如下:
15
140行水稻产量的频数分布
组 限 67.5-82.5 82.5-97.5 97.5-112.5 112.5-127.5 127.5-142.5 142.5-157.5 157.5-172.5 172.5-187.5 187.5-202.5 202.5-217.5 217.5-232.5 232.5-247.5 247.5-262.5 合计(n) 中点值(y) 75 90 105 120 135 150 160 180 195 210 225 240 255 频数(f) 2 7 7 13 17 20 25 21 13 9 3 2 1 140
4
1.数理统计基本概念
总体(population): 总体(population):具有相同性质的个 (population):具有相同性质的个 体组成的集合。 无限总体(infinite population):总 无限总体(infinite population):总 体中包含的个体数目有无穷多个,这 种总体称为无限总体。
9
二、质量性状资料 质量性状(qualitative trait):指能观察 质量性状 而不能量测的性状。 1、统计次数法 2、给予每类性状以相对数量的方法。
10
2.2 数据频数或频率分布表
一、间断性变量资料的整理 1、100个麦穗每穗小穗数的次数(频数)分布表
每穗小穗数(y) 15 16 17 18 19 20 总次数(n) 次数(f) 6 15 32 25 17 5 100
利用Excel可以方便的作出各种数据资料 的分布图形。
23
3. 常用样本特征
3.1 平均数 3.2 变异数
24
3.1 平均数
3.1.1 平均数的意义和种类 3.1.2 算术平均数的计算方法 3.1.3 算术平均数的重要特性 3.1.4 总体平均数
25
3.1.1 平均数的意义和种类
一、平均数的意义 平均数(average) (average)是数据的代表性,表示资料中 平均数(average) 观察值的中心位置,并且可以资料的代表而于 另一组资料相比较,借以明确两者之间相差的 情况。 二、平均数的种类 1、算术平均数(arithmetic mean) 算术平均数(arithmetic mean):一个数量资 算术平均数 料中各个观察值的总和除以观察值的个数所得 _ 的商,记作 y
第Ⅱ部分:数理统计(Statistics) 部分:数理统计
数理统计基本概念、数据的整理和描述 数理统计基本概念、 统计量及其分布 估计理论 假设检验 回归分析 方差分析
1
为什么要学习统计?
在当今这个信息时代,我们将随时随地成为信息的接 在当今这个信息时代 我们将随时随地成为信息的接 收者,我们也随时需要处理身边和工作中的信息和 收者 我们也随时需要处理身边和工作中的信息和 数据.如此众多繁乱的信息 我们该如何” 如此众多繁乱的信息,我们该如何 数据 如此众多繁乱的信息 我们该如何”借来一双 慧眼”,看个清楚明白呢 慧眼” 看个清楚明白呢? 看个清楚明白呢 桑普拉斯说:统计分析让一切假象原形毕露。但是, 桑普拉斯说:统计分析让一切假象原形毕露。但是, 统计中也有不少陷阱, 统计中也有不少陷阱,蹩脚的数据分析师总是披 着统计的外衣有意或无意地制造假象, 着统计的外衣有意或无意地制造假象,许多年前 的一本著作《 的一本著作《How to lie with statistics》就对此有 》 过幽默而深刻的描述, 过幽默而深刻的描述,最近出版了中译本名为 《统计陷阱》,达莱尔.哈夫著,廖颖林译,有兴 统计陷阱》 达莱尔 哈夫著,廖颖林译, 哈夫著 趣的朋友不妨一睹为快。 趣的朋友不妨一睹为快。 对于任何一个成功的应用项目来说, 对于任何一个成功的应用项目来说,一个真正的统 计学家和数据分析专家是必不可少的, 计学家和数据分析专家是必不可少的,他会指引 你绕过礁石和旋涡,到达成功的彼岸。 你绕过礁石和旋涡,到达成功的彼岸。
5
有限总体(finite population):总体中包 有限总体(finite population):总体中包 含的个体数目有限,这种总体称为有限 总体。 观察值(observation):每一个体的某一个 观察值 性状、特性的测定数值叫做观察值。 参数(parameter):由总体的全部观察值而 参数 算得的总体特征数,如总体平均数,称 为参数。