应用数理统计(吴翊版)第一章)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
“你不必吃完整头牛,才知道肉是老的” ——西方谚语。
2020/3/25
12
经n次试验得到n个数据——样本容量为n;
X1, X 2 ,..., X n ——一组数据,一个(容量为n的) 样本(子样);
样本所有可能取值的集合——样本空间(n维空 间的子集);
数据可以是数值或属性(但要用数值表示);
为什么要用数理统计?
实际中,数据量大(抽取的数据具有随机 性),试验具有破坏性(不可重复)。
2020/3/25
10
数理统计的研究范畴:应用广泛
传统上,有生物统计(遗传学、医药)、农业统计、 工业统计(民航统计)等;
现代,多元统计应用领域:通信、质量控制、气象、 地质勘探、市场预测与决策等。
数理统计的基本内容:数据采集(抽样理论、试验设计 等)与统计推断(估计、检验等)。
(3) 若总体X具有分布函数F(x),概率密度f(x), 则样本 (X1, X2 ,…, Xn )的分布函数及概率密度为:
n
F ( x1 , x2 , , xn ) F( xi ) i 1 n f ( x1 , x2 , , xn ) f ( xi )
(4) 获得简单随机样本的抽样方i法1 称为简单随机抽样.
当 x 3时, F(x) P{X x} 1
2020/3/25
ห้องสมุดไป่ตู้
(C)中国民航大学 理学院 张春晓
26
§1.4 统计量及其分布
在利用样本推断总体的性质时,往往不能直接利 用样本,而需要对它进行一定的加工,这样才能 有效地利用其中的信息,否则,样本只是呈现为 一堆“杂乱无章”的数据.
【例1.7】从某地区随机抽取50户农民,调查其人 均年收入情况,得到数据(单位:元)如下:
入的、教材中没有的非经典理论方法; ⑶ 对于理论方法,重点是思路而不是数学过程; ⑷ 对于应用模型,重点不是每种模型本身,而是它
们演变与发展的方法论; ⑸ 必须十分重视综合练习; ⑹ 必须掌握一种应用软件,注意课堂的软件应用演
示,“师傅领进门,修行在个人”,多练。
2020/3/25
6
本课程:应用数理统计;36学时;
统计推断即由样本推断总体的性质,如上例中, 推断两台车床总体上是否有差异。
总体的分布——统计模型,统计建模的目的即确 定X的分布、参数等。
2020/3/25
17
1.2.3 参数与参数空间
一般情况下总体分布未知,需要样本信息去推断。
【例1.5】 (P8)考虑如何由样本X1,X2,…,Xn的 实际背景确定统计模型,即总体X的分布函数: (1)样本记录随机抽取的n件产品的正品、废品 情况。 (2)样本表示同一批n个电子元件的寿命(小时) (3)样本表示同一批n件产品某一尺寸(mm)
924 800 916 704 870 1040 824 690 574 490 972 988 1266 684 764 940 408 804 610 852 602 754 788 962 704 712 854 888 768 848 882 1192 820 878 614 846 746 828 792 872
样本联合分布函数为 :F(X1)F(X2)…F(Xn);
样本联合密度函数为: f(X1)f(X2)…f(Xn)。
2020/3/25
15
总体
一般定义:所研究对象的全体的集合——总体。 集合的元素——个体。
总体和样本的区别是统计里很基本的概念; 如,电视收视率调查
总体:所有5亿有电视机的中国住户; 样本:约5000个住户,住户同意使用“个人电视 记录器”来记录该户中每个人收视的节目。所记 录的变量包括住户中的人数及其年龄、性别、收 视时段、内容等。 普查:企图把整个总体纳入样本的抽样调查。
以一维数据X或Y为研究对象——一元统计;
以多维数据(X, Y)为研究对象——多元统计。
随机试验(产生样本)要求在相同条件下能够独 立重复地进行。
样本是随机试验的结果。
2020/3/25
13
(1) 样本X1, X2 ,…, Xn 相互独立,且与总体X 同分布;
(2) 样本X1, X2 ,…, Xn具有二重性:可看成一个n 维随机向 量,记为(X1, X2 ,…, Xn ); 作为样本值记为(x1,x2,…,xn);
11.5-13.5
18
0.090 25.5-27.5
9
0.045
13.5-15.5
19
0.095 27.5-29.5 5
0.025
15.5-17.5
24
0.120 29.5-31.5 3
0.015
17.5-19.5
33
0.165 31.5-33.5 5
0.025
19.5-21.5
30
0.150 总计
教材:吴翊等《应用数理统计》,国防科技大学 出版社,2003;
参考书:清华大学编《现代应用数学手册(数理 统计卷)》,科学出版社,2002。
统计软件:EXCEL、SPSS、MATLAB(统计分 析工具箱)。
基础知识见附录I,(以浙江大学《概率论与数 理统计》为准)。
2020/3/25
7
能力培养
1.3.1 直方图
依据概率论的大数定理(附录1 柯尔莫哥洛夫强大数定 理):频率近似于概率。
2020/3/25
20
直方图的具体做法
将所有样本由小到大排序,记为X (1),X (2),…,X (n) 取a略小于 X (1),b略大于X (n),将区间分成m个小区间,
a t0 t2 ... tm b
⑵ 先修课程
微积分、线性代数、概率论与数理统计、 数学软件、统计学原理 。
2020/3/25
4
应用数理统计与经济理论、统计学和数学的 联系
数学 数理统计
工学 管理学 其他学科
统计学
学习方法 ⑴ 理论与应用并重。既要重视理论方法,也要重视
应用模型和应用中实际问题的解决; ⑵ 以教材中的经典理论方法为主,也要理解适当引
统计推断的结果往往有赖于方法,尽可能采用“有效的” 方法。
“有效的”标准:样本尽可能少,而结果更合理, “大量重复使用该方法总体效果好”——基于概率论原 理。
2020/3/25
11
§1.2 样本与总体
样本: 经观察或试验得到的数据——样本(子样); 观察或试验的过程——抽样;
“抽样调查”:是一种观测研究,抽样的精髓是 从检查一部分来得知全体。
因为这些部位被击中的飞机都没有返航。
——摘自《统计学的世界》(美)戴维著。
2020/3/25
9
第一章 数理统计的基本概念
§1.1 导言
什么是数理统计?
统计:指数据的收集、整理和分析,由全部信 息(数据)得出正确的唯一结果;
数理统计:指有效地收集、整理和分析带有随 机性影响的数据,对所观测的部分信息推断合 理的结果即进行统计推断,直到为采取决策提 供依据。
f j
nj n
P{X
tj
(t j1, t j )} f (x)dx
t j1
(n )
21
【例1.6】 Valid P10
2020/3/25
8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 38 T otal
应用 数理统计
2020/3/25
(C)中国民航大学 理学院 张春晓
1
主讲教师
张春晓 理学院 副教授
研究兴趣:统计预测与决策、优化与控制
办公地点:理学院统计教研室(南1-316)
电话:24092054
E-mail: cxzhang@
2020/3/25
2
课程成绩 考试成绩由期末考试成绩和平时考核成绩
200 1.000
2020/3/25
23
直方图
2020/3/25
24
1.3.2 经验分布函数
设总体X的分布函数未知,样本为X1,X2,…,Xn 将样本从小到大排序(即求顺序统计量)得到
X (1) X (2) ... X (n)
定义:
0,
Fn
(
x)
k, n 1,
x X (1) X (k) x X (k1) , k 1,2,..., n 1
数据的产生:数据怎么得来,非常重要,这 是统计当中影响最大的概念;
资料分析:你会学到,即使用很简单的方法, 也能很睿智地解读数据;
概率:利用概率进行思考,可以帮你把事实 和无关紧要的干扰信息分离;
统计推断:让你学会用手中少量的数据,对 一个较大的总体做出结论。
2020/3/25
8
案例
许多统计学家在第二次世界大战中发挥了重 大的作用,沃德是其中之一。他发明的一些统计 方法,在战时被视为军事机密。沃德在被咨询飞 机上什么部位的钢板需要加强时,画了飞机的轮 廓,并且标出返航的战斗机上受敌军创伤的弹孔 位置。资料积累了一段时间后,机身各部位几乎 都被填满了。于是沃德建议,把剩下少数几个没 有弹孔的位置加强。???
记 n j 落入小区间(t j1,t j ] 中观察值的个数(频 数),
计算频率 f j nj n ;
在直角坐标系xoy中画出以(t j1, t j 为] 底,f j
形,即得到直方图,其对应的分段函数
nj n
为高的矩
用来近n似(x概) 率密ftjj度, x函数(tfj(1x,)t j ], j 1,2,...,m
齿 轮误 差
Frequency Percent Vali d Percent
4
2.0
2.0
1
.5
.5
2
1.0
1.0
8
4.0
4.0
6
3.0
3.0
12
6.0
6.0
9
4.5
4.5
10
5.0
5.0
17
8.5
8.5
7
3.5
3.5
24
1 2. 0
1 2. 0
14
7.0
7.0
6
3.0
3.0
8
4.0
4.0
10
5.0
x X (n)
经验分布函数为右连续,间断点处跃度为1/n。 以格里文科定理可以证明,Fn (x) F(x) 以概率1成立.
即P{lim n
Dn
0}
1,
其中Dn sup Fn (x) F(x)
x
2020/3/25
25
Fn(x)的图形为
Fn(x) 1
0 X(1) X(2) X(3)
X(n)
x
22
【例1.6】(P10)齿轮的径向综合误差Δ F i的直方图
区间 (t j1 , t j ] 频数ni 频率ni/n 区间(t j1 , t j ] 频数ni 频率ni/n
7.5-9.5
5
0.025 21.5-23.5 17
0.085
9.5-11.5
15
0.075 23.5-25.5
17
0.085
2020/3/25
16
从数学上也可如此定义:
总体是指某个随机变量所有可能的取值的全 体,或就是一个随机变量X,而样本即是与X同 分布且相互独立的一组随机变量X1,X2,…,Xn。 【例1.4 】 两台车床,各车出m,n件零件,尺 寸分别为X1,X2,…,Xm和Y1,Y2,…,Yn,视作取自两 个总体X,Y的容量分别为m,n的样本。
两部分组成。平时成绩占15%;期末考试采用 闭卷(开卷)笔试方式进行,占85%。
答疑时间地点
课后或周五下午统计教研室
2020/3/25
3
课程说明
⑴ 教学目的
应用数理统计是一门科学,实证的方法, 尤其是数量分析方法是统计学研究的基本方 法论。通过该门课程教学,使学生掌握统计 学的基本理论与方法,并能够建立实用的应 用统计模型,解决实际问题。
2020/3/25
14
【例1.3】(P6) 设一组抽奖劵共10000张, 其中5张有奖。问连续抽取3张有奖的概率 为多少?
讨论:不放回抽样和放回抽样。
随机抽样方式:放回抽样(要求样本独立)
由“随机抽样”得到“简单样本”。
由于X1, X 2 ,..., X n 独立同分布,设该分布函数为 F(x),则
5.0
7
3.5
3.5
11
5.5
5.5
6
3.0
3.0
6
3.0
3.0
3
1.5
1.5
19
9.5
9.5
2
1.0
1.0
1
.5
.5
1
.5
.5
3
1.5
1.5
2
1.0
1.0
1
.5
.5
2 00
1 00 . 0
1 00 . 0
(C)中国民航学院 理学院 张春晓
Cumul ati ve Pe rc e nt 2.0 2.5 3.5 7.5 1 0. 5 1 6. 5 2 1. 0 2 6. 0 3 4. 5 3 8. 0 5 0. 0 5 7. 0 6 0. 0 6 4. 0 6 9. 0 7 2. 5 7 8. 0 8 1. 0 8 4. 0 8 5. 5 9 5. 0 9 6. 0 9 6. 5 9 7. 0 9 8. 5 9 9. 5 1 00 . 0
2020/3/25
18
1.2.3 参数与参数空间
当分布类型已知,其中参数未知,则由样本推断 参数(估计、检验)。
参数的所有可能取值的集合——参数空间 (视具体问题而定)
统计推断:包括参数推断(分布类型已知)和非 参数推断(分布类型未知)两种。
2020/3/25
19
1.3 直方图与经验分布函数
当总体分布未知,要用样本对总体分布进行非参数推断, 常用方法是直方图和经验分布函数。