数据的统计分析与描述.ppt

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -6
-4
-2
0
2
4
6
2013-3-4
9
4.
F 分布 F(n1 ,n2 ) 2 2 若 X~ (n1 ) ,Y~ (n2 ) ,且相互独立,则随机变量
X n1 F Y n2
服从自由度为(n1 ,n2 )的 F 分布,记作 F~ F(n1 ,n2 ). 由 F 分布的定义可以得到 F 分布 的一个重要性质:
2013-3-4
18
1、总体方差s 已知
2
用 u 检验,检验的拒绝域为
W {z u
1

}
2
即 W {z u
1

2
或z u
1

2
}
2.总体方差s 未知
用样本方差s 代替总体方差s
2
2 2
,这种检验叫 t 检验.
总体方差s 未知
2
总体方差s 已知
2
H0
H1
统计量 z=
X m0
1、表示位置的统计量—平均值和中位数
1 n 平均值(或均值,数学期望) X X i : n i 1
中位数:将数据由小到大排序后位于中间位置的那个数值. 2、表示变异程度的统计量—标准差、方差和极差
1源自文库
1 n s [ (X i X )2 ]2 标准差: n 1 i 1
它是各个数据与均值偏离程度的度量. 方差:标准差的平方. 极差:样本中最大值与最小值之差.
数学建模与数学实验
数据的统计描述和分析
2013-3-4
1
实验目的
1、直观了解统计基本内容。
2、掌握用数学软件包求解统计问题。
实验内容
1、统计的基本理论。 2、用数学软件包求解统计问题。
3、实验作业。
数 据 的 统 计 描 述 和 分 析
2013-3-4
统计的基本概念
参数估计
假设检验
3
一、统计量
s
统计量 t
X m0 s n
n
Ⅰ Ⅱ Ⅲ
在显著水平

下拒绝 H0,若
m m0
m m0
m m0 m m0 m m0
z u
1

2
t t
1

2
( n 1)
z u1 z u1
t t1 ( n 1) t t1 ( n 1)
19
7
2、 分布 (n) 若随机变量 X1,X2,„ Xn 相互独 立,都服从标准正态分布 N(0,1) ,则随机 变量
2 2
2 分布,记为 Y~ 2 (n). 服从自由度为 n 的
Y 的均值为 n,方差为 2n.
0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0
极大似然法的想法是: 若抽样的结果得到样本观测值 x1,x2,„,xn, 则我们应当这样选取参数 i 的 值 , 使 这 组 样 本 观 测 值 出 现 的 可 能 性 最 大 . 即 构 造 似 然 函 数 :

ˆ
n
p ( x i , 1 , k )
i 使 L ( 1 , , k ) 达到最大,从而得到参数
2013-3-4
12
(二)极大似然估计法
L ( 1 , 2 , , k ) P ( X 1 x1 , X 2 x 2 , , X n x n ) P ( X 1 x1 ) P ( X 2 x 2 ) P ( X n x n )
p ( x1 , 1 , k ) p ( x 2 , 1 , , k ) p ( x n , 1 , k )
内都有样本观测值 xi (i=1,2,„,n-1)落入其中.
( 2、求出各组的频数和频率:统计出样本观测值在每个区间 xi , xi 1 ] 中出
现的次数ni ,它就是这区间或这组的频数.计算频率 f i
' '
'
'
ni . n
'
x 3、作频率直方图:在直角坐标系的横轴上,标出 1 , x 2 , , x n 各点,分别以 ( xi' , xi' 1 ] 为底边,作高为
2013-3-4
17
一、参数检验
(一)单个正态总体均值检验
设取出一容量为 n 的样本,得到均值X 和标准差 s,现要 m 对总体均值m 是否等于某给定值0 进行检验.记
H 0 : m m0 ; H1 : m m0
称 H0 为原假设,H1 为备择假设,两者择其一:接受 H0 ;拒绝 H0 , 即接受 H1 .
L ( 1 , , k )
称为似然函数.
i 的估计值
i 1
.此估计值叫极大似然估计值.函数 的最大值的问题,则
求极大似然估计值的问题,就是求似然函数
L ( 1 , , k )

L 0 i 1,2, , k i LnL 0 i 1,2, , k i
2013-3-4 16
假设检验的一般步骤是:
1.根据实际问题提出原假设 H0 与备择假设 H1,即说明需要检验 的假设的具体内容; 2.选择适当的统计量,并在原假设 H0 成立的条件下确定该统计量 的分布; 3.按问题的具体要求,选取适当的显著性水平 ,并根据统计量 的分布查表,确定对应于 的临界值.一般 取 0.05,0.01 或 0.10 4.根据样本观测值计算统计量的观测值,并与临界值进行比较,从 而在检验水平 条件下对拒绝或接受原假设 H0 作出判断.
1 n k 4. k 阶原点矩:Vk n X i i 1
1 n U k (X i X )k k 阶中心矩: n i 1
2013-3-4
5
二、分布函数的近似求法

1、整理资料: 把样本值 x1,x2,„,xn 进行分组,先将它们依大小次序排列,
* * * x1 x 2 x n .在包含 x1 , x n ] 的区间[a,b]内插入一些等分点: [ * * ' ' a x1' x 2 x n b, 注意要使每一个区间 xi' , xi' 1 ] (i=1,2,„,n-1) (
2 2 X 12 X 2 X n Y=
0
5
10
15
20
2013-3-4
8
3、 t 分布 t(n) 若 X~N(0,1) ,Y~ ( n ) ,且相互 独立,则随机变量
2
T
X Y n
服从自由度为 n 的 t 分布,记为 T~t(n). t 分布 t(20)的密度函数曲线和 N(0,1)的 曲线形状相似.理论上 n 时,T~t(n) N(0,1).
2013-3-4
4
3. 表示分布形状的统计量—偏度和峰度
1 偏度: g 1 3 s
(X i X )
i 1
n
3
1 峰度: g 2 4 s
(X i X )4
i 1
n
偏度反映分布的对称性,g1 >0 称为右偏态,此时数据位于均值 右边的比位于左边的多;g1 <0 称为左偏态,情况相反;而 g1 接近 0 则可认为分布是对称的. 峰度是分布形状的另一种度量,正态分布的峰度为 3,若 g2 比 3 大很多,表示分布有沉重的尾巴,说明样本中含有较多远离均值的数 据,因而峰度可用作衡量偏离正态分布的尺度之一.
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2
1 若 F~ F(n1 ,n2 ) ,则 ~ F ( n 2 , n1 ) F
F分布F(10,50)的密度函数曲线
0.1 0 0 0.5 1 1.5 2 2.5 3
2013-3-4
返回
10
无论总体 X 的分布函数 F(x; 1 , 2 , , k )的类型已知或未知,
m m0
2013-3-4
(二)单个正态总体方差检验
2 设 X1,X2,„,Xn 是来自正态总体 N ( m , s ) 的样本,欲检验假设:
2 H0 :s 2 s 0
2 2 H 1 : s 2 s 0 (或 s 2 s 0
或s
2
2 s0 )
这叫 检验.
2
m 均值 已知 统计量
频率直方图.
2013-3-4 6
fi ' ' ' 的矩形,x i x i 1 x i , i 1,2, , n 1 ,即得 xi'
三、几个在统计中常用的概率分布
1.正态分布 N ( m , s )
2
1 1 2s e 密度函数: p( x) 分布函数: F ( x) 2p s 2p s 2 其中 m 为均值,s 为方差, x .
我们总是需要去估计某些未知参数或数字特征,这就是参数估计问题
ˆ i 参数估计就是从样本 (X1,X2,„,Xn)出发,构造一些统计量(
.即 X1 ,
X2,„,Xn) (i=1,2,„,k)去估计总体 X 中的某些参数 (或数字特 征) i (i=1,2,„,k).这样的统计量称为 估计量.
i 1. 点估计:构造(X1,X2,„,Xn)的函数(
1 2
ˆ2 称为置信上限. 置信下限,
ˆ1 1 的置信区间, 为参数 的置信水平为
称为
2013-3-4
14
(一)数学期望的置信区间
2 设样本(X1,X2 ,„,Xn)来自正态母体 X,已知方差DX s ,
1、已知DX,求EX的置信区间
EX 在置信水平 1- 下的置信区间为[ X u
11
一、点估计的求法
(一)矩估计法
假设总体分布中共含有 k 个参数,它们往往是一些原 点矩或一些原点矩的函数,例如,数学期望是一阶原点矩, 方差是二阶原点矩与一阶原点矩平方之差等.因此,要想估计 总体的某些参数 i (i=1,2,„k) ,由于 k 个参数一定可以 表为不超过 k 阶原点矩的函数,很自然就会想到用样本的 r 阶原点矩去估计总体相应的 r 阶原点矩,用样本的一些原点 矩的函数去估计总体的相应的一些原点矩的函数,再将 k 个 参数反解出来,从而求出各个参数的估计值.这就是矩估计法, 它是最简单的一种参数估计法.
2

( xm )2

x

( y m )2 2s 2

e
dy
标准正态分布:N(0,1)
0.4 0.35 0.3 0.25 0.2 0.15
密度函数
j ( x)
1
2p
e
x2 2
分布函数
F ( x)
1
2p

x


e
y 2
2
0.1

-2 0 2 4 6
dy
0.05 0 -4
2013-3-4

1


2
2
返回
2013-3-4 15
对总体X的分布律或分布参数作某种假设,根据 抽取的样本观察值,运用数理统计的分析方法,检 验这种假设是否正确,从而决定接受假设或拒绝假 设. 1.参数检验:如果观测的分布函数类型已知,这时构造出的 统计量依赖于总体的分布函数,这种检验称为参数检验. 参数检验的目的往往是对总体的参数及其有关性质作出明 确的判断. 2.非参数检验:如果所检验的假设并非是对某个参数作出明 确的判断,因而必须要求构造出的检验统计量的分布函数 不依赖于观测值的分布函数类型,这种检验叫非参数检验. 如要求判断总体分布类型的检验就是非参数检验.
2 2 1
H0 H1
m 均值 未知 统计量
2

2
1
2 s0
(X
i 1
n
2 i
m)

2
1
2 s0
(X
i 1
n
2 i
X )2
在显著水平
2 s 2 s0

下拒绝 H0,若
2 2 ( n 1) 或 2 2 1

s 2 s 02
2 2 ( n) 或
2
2013-3-4
13
二、区间估计的求法
1 设总体 X 的分布中含有未知参数 ,若对于给定的概率
ˆ (0 1 ) ,存在两个统计量1 ( Xn),使得
则称随机区间(
ˆ 2( X1,X2,„,Xn)和
X1,X2,„,
P (ˆ1 ˆ2 ) 1 ˆ ,ˆ )
s
1

2
n
1
,X u
s
s
1

2
n

2
].
s n
EX 在置信水平 1- 下的置信区间为 [ X t
2. 未知方差DX,求EX的置信区间

2
n
,X t
1
].
(二)方差的区间估计
(n 1) s 2 (n 1) s 2 , ]. DX 在置信水平 1- 下的置信区间为[ 2 2
作为参数
ˆ
i
i1 ( i2 ( 2. 区间估计:构造两个函数 X1,X2,„,Xn)和 X1,X2,„, i1 , i 2 i
Xn)做成区间,把这 ( )作为参数 的区间估计 .
的点估计量,称统计量 i
ˆ
X1,X2,„,Xn)
i 为总体 X 参数

的点估计量 .
2013-3-4
相关文档
最新文档