概率与统计学的主要公式及解题技巧
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、基本概率公式及分布1、概率常用公式:P(A+B)=P(A)+P(B)-P(AB)
;P(A-B)=P(A)-P(AB);如A 、B 独立,则P(AB)=P(A)P(B);
P(A )=1-P(A);
B 发生的前提下A 发生的概率==条件概率:P(A|B)=P(AB)
P(B);或记:P(AB)=P(A|B)*P(B);
2、随机变量分布律、分布函数、概率密度分布律:
离散型X 的取值是x k (k=1,2,3...),事件X=x k 的概率为:P{X=x k }=P k ,k=1,2,3...;---既X 的分布律;X X1X2....xn Pk
P1
P2
...
pn
X 的分布律也可以是上面的表格形式,二者都可以。
分布函数:
F(x)=P{X ≤x},-∞ t ∞;是概率的累积!P(x1<X<x2)=F(x2)-F(x1)
;P{X>a}=1-P{X<a}
离散型rv X;F(x)=P{X ≤x}=x k t
p k ;(把X<x 的概率累加)
连续型
rvX ;F(x)=−∞
x
f x dx ,f(x)称密度函数;既分布函数F(X)是
密度函数f(x)和X 轴上的(-∞,x)围成的面积!性质:F(∞)=1;F(−∞)=0;
二、常用概率分布:
①离散:二项分布:事件发生的概率为p,重复实验n次,发生k 次的概率(如打靶、投篮等),记为B(n,p)
P{X=k}=n k p k(1−p)n−k,k=0,1,2,...n;E(X)=np,D(X)=np(1-p);
②离散:泊松分布:X~Π(λ)
P{X=k}=λk e−λk!,k=0,1,2,...;E(X)=λ,D(X)=λ;
③连续型:均匀分布:X在(a,b)上均匀分布,X~U(a,b),
则:密度函数:f(x)=1b−a,a t
0,其它
=0,x x−a b−a1,x≥b,a t
分布函数F(x)=
−∞x f x dx
④连续型:指数分布,参数为θ,f(x)=1θe−xθ,0 t
0,其它
F(x)=1−e−xθ0,x 0;
⑤连续型:正态分布:X~N(μ,σ2),most importment!
密度函数f(x),表达式不用记!一定要记住对称轴x=µ,E(X)=µ,方差D(X)=σ2;当µ=0,σ2=1时,N(0,1)称标准正态,图形为:
分布函数F(x)为密度函数f(x)从(-∞,x)围成的面积。
当X ~N(0,1),F(x)=Φ(x)(换个叫法),由对称性有Φ(-a)=1-Φ(a);2
1)0(=Φ;
看到X ~N(μ,σ2),求概率的题,一定要变成标准正态N(0,1);既把X 变成
X−μσ
;则
X−μσ
~N(0,1);
例题:已知X~N(1,22);求P(-1<X<3).解:(思路:µ=1,σ=2;变换式:x−12
)
P(-1<X<3)=P(-1-1<X-1<3-1)=P(−1−12
X−12
3−12
)=
P(−1 X−12
1)=Φ(1)-Φ(-1)=Φ(1)-[1-Φ(1)]=2Φ(1)-1;
查表
正态性质:如X ~N(μ1,σ12),Y ~N(μ2,σ22);则Z=aX+bY 也是正态;Z ~N(μz,σz 2),其中µz=a µ1+b µ2;σz ²=a ²σ1²+b ²σ2²;
三、二维随机变量:
离散型:(X,Y)可能取值(xi,yj)(i,j=1,2,...).
联合分布律:P{X=xi,Y=yj)=pij,(i,j=1,2,3,..)
联合分布律的表格形式:
X
Y1Y2Y3P(X=I)
Y
X1P11P12P13P11+P12+P13 X2P21P22P23P21+P22+P23 X3P31P32P33P31+P32+P33 P(Y=J)P11+P21+P31P12+P22+P32P13+P23+P33
边缘分布:
P(X=1)=P11+P12+P13(横排相加);P(X=2),P(X=3)同样计算
P(Y=1)=P11+P21+P31(竖排相加);P(Y=2),P(Y=3)类似计算;条件概率:
X=X1条件下Y的分布律:P{Y=yj|X=x1}=P{Y=yj,X=X1}
P{X=X1)=P1J P{X=X1);
P{Y=y1|X=x1}=P11P{X=X1);P{Y=y2|X=x1}=P12P{X=X1);P{Y=y3|X=x1}=P13P{X=X1)
连续型:设f(x,y)是联合概率密度;(注意x,y常常有取值范围D的)
;F(∞,∞)=1.
则:F(x,y)=P(X<x,Y<y)=
−∞x−∞y f x,y dxdy
边缘密度:f x x =−∞∞f x,y dy; f y y =−∞∞
f x,y dx; 如XY 独立,则f(X,Y)=fx(X)*fy(Y);反之也成立;X,Y 二维正态密度中的参数ρ=0,则X,Y 独立;题型:1、f(x)有未知常数,求未知常数;
思路:注意x 的定义域,利用F(∞)=−∞∞
f x dx =1; 求出参数;2、求P(X<Y)或P(X+Y>1)类,先画出x=y,x+y=1的图,确定积分上
下限,并求积分;
3、求Z=X+Y 的分布:密度公式f x y z =−∞∞f x,z −x dx; 四、数学期望、方差数学期望E(X),方差D(X):
离散:E(X)=i=1n xi ∗pi ;E(g(X))=i=1
n
g(xi)∗pi ;连续:E(X)=−∞
∞
xf x dx; E(g(X))=−∞
∞
g(x)f x dx; 性质:E(C)=C,E(CX)=CE(X);E(X+Y)=E(X)+E(Y)如X,Y 独立,则E(XY)=E(X)*E(Y);
D(X)=E(X ²)−E 2X (极其重要!);D(C)=0,D(CX)=C ²X 如X,Y 独立,D(X ±Y)=D X D(Y)五、样本及抽样分布
矩法估计量:用样本均值X 去估计总体的均值E(X),则从X =E(X)解出的参数θ即为θ ,称为θ的矩法估计量。
中心极限定理:E(X)=µ,D(X)=σ²(不一定是正态哦!)的独立同分
布的X1,X2,X3...Xn ,当n 充分大时,有:i=1n Xi−nμ nσ=1
n i=1
n
Xi−μ σ/n =X−μσ/n ~
(近似)N(0,1);
i=1
n Xi 是X 的和;X 是样本平均值;样本及抽样分布:从总体X 中抽取一个个体,独立抽n 次,记为X1,X2,...Xn,它们组成独立、同分布的随机变量,叫随机样本,n 是样本容量,X1,X2,..Xn 的观测值x1,x2,x3...xn 叫样本值。
如总体X 的分布函数是F ,密度是f;则:F(x1,x2,..xn)=F(x1)*F(x2)*...*F(xn)=i=1n F(xi) ;f(x1,x2,...,xn)=i=1n f(xi) ;重要统计量:
样本均值:X =1
n i=1n Xi ;样本方差S ²=1
n−1i=1
n
(Xi −X )² ;如总体X 的E(X)=µ,D(X)=σ²,则E(X)=1
n i=1
n E(Xi )
=1
n
i=1
n μ=μ ,D(X)=
σ2n
;
六、正态总体分布常用统计量:
1、卡方χ²:X1,X2,...是来自总体X~N(0,1)的样本,χ²=X1²+X2²+...+Xn²,则称χ²~χ²(n)为自由度n 卡方分布;性质:E(χ²)=n ,D(χ²)=2n ;
卡方χ²的上分位点:给定0<a<1,满足P{χ²>χa ²
(n)}=χa ²∞
f
x dx =a 的χa ²(n),已知a,n,查表可χa ²(n);
查表时:P{χ²<χa ²(n)}=1-P{χ²>χa ²(n)}=1-a 随机抽样时:有
(n−1)S ²σ²
~χ²(n-1);
2、t 分布:X ~N(0,1),Y ~χ²(n),XY 互相独立,t=X
Y/n ,称自由度为n 的t 分布,记t ~t(n);图形和N (0,1)类似;
t
分布的上分位点:给定
0<a<1,
满足
P{t>t a (n)}=t a (n)∞
f
x dx =a 的t a (n),已知a,n,查表可
t a (n),t 分布的图形:
3、F 分布:U ~χ²(n1);V ~χ²(n2),且UV 互相独立,
F=
U n1V n2
;是自由度为(n1,n2)的F 分布,记F ~F(n1,n2);
F 分布的上分位点:给定
0<a<1,满足
P{F>Fa(n1,n2)}=Fa(n1,n2)∞
f
x dx =a 的Fa(n1,n2)χa ²,
已知
a,n1,n2,查表可Fa(n1,n2);
F 分布性质:
1F
~F n2,n1;分位点有F 1-a (n1,n2)=1/F a (n2,n1);
正态总体N(µ,σ²)的平均值和方差分布:
S n
4:X ~N(µ1,σ12),Y ~N(µ2,σ22);S1,S2是对应方差;七、参数估计
1、最大似然估计法:
离散型总体X ,其分布律P{X=x}=p(x;θ),θ是待定参数,Xi(i=1,2..n)是个体样本,xi(i=1,2,..n)是样本取样值,则Xi(i=1,2..n)的联合分布律为:i=1n p(xi;θ) (既Xi(i=1,2..n)的积事件);似然函数L(θ)=L x1,x2,…,θ=i=1n
p(xi;θ) ;
把θ看做自变量,如L(θ)达到极大值,为计算方便;可令
=0,计算出θ=θ
,θ 称最大似然估计值。
极大似然估计的方法与步骤:
①写出似然函数∏==n
i i x f L 1
);()(θθ(或∏=n
i i x P 1
);(θ)
②令0)(ln =θ
θd L d ,求出的θ值即为θ的极大似然估计∧
θ
正态X ~N(μ,σ2)的最大似然估计量为:
2、无偏估计:指估计量θ
的数学期望E(θ )=θ;如E(X)=μ,称样本均值X 是总体均值μ的无偏估计;D(S ²)=σ²,
称样本方差是总体方差的无偏估计;其中,
样本方差S ²=1
n−1i=1n
(Xi −X )² ,分母是n-1,不是n!.3、区间估计:
置信区间:给定a(0<a<1),理解为概率,来自总体X 的样本X1,X2,...Xn 的统计量θ(如均值,方差等)在∆θ:(θ1,θ2)之间,使得抽样样本的概率在1-a 。
则称(θ1,θ2)为置信水平1-a 的置信区间。
连续型rv:a已知,利用P(θ1 2)=1-a,求出θ1,θ2;常
题型:①σ已知,求μ的置信水平为1-a的置信区间:
a、变换成标准正态;令Y=X−μσ/n,则Y~N(0,1);上分位点Y a/2可查表得出,由于N(0,1)的对称性,下分位点是-Y a/2;
b、由-Y a/2<X−μσ/n<Y a/2;得X−Y a/2∗σ/n<μ X Y a/2∗σ/n;就是μ的置信区间。
见图!
②σ未知,求μ的置信水平为1-a的置信区间:
X−μS n~t(n-1);由P(X−μS n>t a/2(n-1))=a/2,查表得上分位点t a/2(n-1),由于t函数对称性,下分位点是-t a/2(n-1);
-t a/2(n-1)<X−μS n<t a/2(n-1);
既得μ的置信区间(X±S/n*t a/2(n-1))
③方差的置信区间(μ未知);
(n−1)S ²σ²
(n-1);卡方χ²分布;给定a,查表可得上下分位
点χ²a/2(n-1)和χ²1-a/2(n-1);解
χ²a/2(n-1)<(n-1)S²/σ²<χ²1-a/2(n-1)得方差σ²的置信区间:
χ
,
χ④两个正态总体X ~N(μ1,σ12),Y ~N(μ2,σ22)的置信区间;来自总体X 的样本X1,X2,...Xn1,均值X ,方差S 1²;来自总体Y 的样本Y1,Y2,...Yn2,均值Y ,方差S 2²;a 、μ1−μ2的置信区间:
1)、σ12
,σ22
已知,设Z=X −Y ,则Z ~N(μ1−μ2,σ12n1
σ22n2
)
既
n1~N(0,1),上分位点为Z a/2;
置信区间为:
(X −Y
±Z 2)、σ12=σ22=σ2(未知)
n2−2);置信区间:(X −
Y ±t (n1+n2-2)S w )
其中:S ²;
b 、两个方差之比σ1
的置信区间,μ1,μ2均未知。
给定a,F 分布的上下分位点分别为F a/2(n1-1,n2-1),F 1-a/2(n1-1,n2-1),
有:F a/2(n1-1,n2-1)<S12/S22σ12/σ22<F1-a/2(n1-1,n2-1);
σ12/σ22置信区间:(S12S221F a/2(n1−1,n2−1),S12S221F1−a/2(n1−1,n2−1));
八、假设检验
方法:给定较小的a值(0.01,0.05),得到上分布点Z a/2;当统计量Z=X−μσ/n、t=X−μS n等<Z a/2时,说明假设(H0)成立,否则假设不成立(H1),a称显著性水平。
双边检验:H0:μ=μ0,H1:μ≠μ0;H0的拒绝域为Z>Za时;
左检验:H0:μ≤μ0,H1:μ 0;H0的拒绝域为Z>Za时;
右检验:H0:μ≥μ0,H1:μ 0;H0的拒绝域为Z<Za时;
∵1−a为大概率事件,∴总体抽样的个体,分布在<Za的概率要大。
1、正态总体均值的假设检验:
a、单个总体均值μ的检验;
①如方差σ²已知,X~N(µ,σ2n),Z=X−μσ/n~N(0,1);当Z Z a/2时,原假设H0:μ=μ0成立,当Z≥Z a/2时H1:μ≠μ0成立。
②如方差σ²未知,X−μS n~t(n-1),t=X−μS n;当t<t a/2(n-1)时,H0:μ=μ0成立,t>t a/2(n-1)时,H1:μ≠μ0成立。
b、两个总体正态的检验:X~N(μ1,σ2),Y~N(μ2,σ2),μ1,μ2,σ2未知,检验;
H0:μ1−μ2=δ,H1:μ1−μ2≠δ,(δ为已知,显著性水平是a)
检验统计量(X−Y)−δ
n1,
s w
2=
n1−1S 12 (n2−1)S 2
2
n1 n2−2
;
当H0成立时,
t ~t n1 n2−2;设k=t a/2(n1+n2-2)(双边检验)
,则H0的拒绝域是|t|≥k=t a/2(n1+n2-2);c 、成对数据的检验(t 检验)
原始数据对X1,X2,...,Xn;Y1,Y2,...,Yn,构造r.v.D
D1=X1-Y1,D2=X2-Y2,Di=Xi-Yi ;Di 服从正态分布:Di ~N(μ0,σD 2),μ0,σD
2
未知;检验假设:
①H0:μD =0,H1:μD ≠0;②H0:μD ≤0,H1:μD 0;③H0:μD ≥0,
H1:μD 0;设样本均值为D ,样本方差S 2,上述检验的拒绝域为(a 为显著水平)
①|t|=|D
2|≥−1,②t=|D
2n |≥t a n −1,
③t=|D
2|≤−t a n −1,2、正态总体方差的假设检验:
1)、单个总体
X ~N(μ,σ2),,μ,σ2未知,X1,X2,...Xn 是样本,要检验(显著性水平为a);
①H0:σ2=σ0
2;H1:σ2≠σ02,σ0
2
为常数;属于双边检验;由
(n−1)S ²σ²
~χ²(n-1);卡方χ²分布,取χ²=
(n−1)S ²
σ0
2
;
其上下分位点是:k1=χ1−a/22(n-1);k2=χa/2
2(n-1)∴拒绝域:
(n−1)S ²
σ0
2
≤k1=χ1−a/2
2(n-1)or
(n−1)S ²
σ0
2
≥k1=χa/2
2(n-1)②H0:
σ2≤σ0
2;H1:σ2 σ02,σ02
为常数;属于单边检验;拒绝域:
(n−1)S ²
σ0
2
≥χa 2(n-1);
(上分位点)③H0:
σ2≥σ0
2;H1:σ2 σ02,σ0
2为常数;属于单边检验;拒绝域:
(n−1)S ²
σ0
2
≤χ1−a
2(n-1);(上分位点);2)、两个总体
X ~N(μ1,σ12),Y ~N(μ2,σ22),μ1,μ2,σ12,σ12未知,要检验(显著性水平为a);H0:
σ1
2≤
σ2
2;H1:
σ1
2
σ2
2;H1为真时,S 1
2S 2
2会增大,由
S12
S 22σ12σ2
2~F(n1-1,n2-1),∵σ1
2σ2
2 1,
∴拒绝域为F=S 12
/S 2
2≥F a (n1-1,n2-1)九、方差分析和一元线性回归方程:y =a b x .1)
设:(x1,y1),(x2,y2),...,(x n ,y n )为样本观测值;均值
为X ,Y
S xx =i=1
n
(X i − X)²;S yy =i=1
n
(Y i − Y)²;
S xy=i=1n(X i−
X)(Y i−Y);
b =S xy S xx;a =Y−b X;回归直线方程:y =a b x;(过点(X,Y)
2)σ2的估计(:σ2 为其无偏估计量)
残差平方和为:Q e=S yy-b S xy;σ2 =Q e n−2;
3)在显著水平为a,线性假设的检验(t检验);
假设H0:b=0,H1:b≠0;
当H0为真,b=0
~t(n−2);
H0的拒绝域:|t|=|b| σ2 S xx≥t a/2(n−2)
4)、在单因素试验条件下,来自不同的检验组Aj(j=1,2,...,s)下的样本X1j,X2j,…,X nj,均值为μj(j=1,2,...,s),方差都为σ2,分布为N(μj,σ2): a、假设检验:
H0:μ1=μ2=…=μs,H1:μj(j=1,2,...,s)不全相等.
b、总偏差平方和:S T=j=1s i=1nj(x ij −x)²;x是总评价值。
效应平方和:S A=n∗j=1s(X j −x)²;X j是第j检验组的平均值。
误差平方和:S E=S T−S A;
c、检测统计量(分布)F=S A/(s−1)
S E/(n−s)~F(s−1,n−s),(当H0为真)时,d、拒绝域:F=S A/(s−1)
S E/(n−s)≥F a(s−1,n−s);。