第六章 概率分布
教育与心理统计学第六章:概率分布
举例:
1、我们队将可能赢得今晚的这场比赛。 2、今天下午下雨的机会有40%。 3、这个冬天的周末我很可能有个约会。 4、我有50比50的机会通过今年的英语四
级考试。
概率的分类
1、后验概率(empirical definition of Probability)
以随机事件A在大量重复试验中出现的稳定频率值作 为随机事件A的概率估计值,这样求得的概率称为 后验概率。
进行推论,从而确定推论正确或错误的概率。
一、正态分布及渐近正态分布
(一)样本平均数的分布
1、总体分布为正态, δ2已知,样本平均数 的分布为正 态分布
标准误,即样本均数的标准差,是描述均数抽样分布的 离散程度及衡量均数抽样误差大小的尺度,反映的是 样本均数之间的变异。
标准误用来衡量抽样误差。标准误越小,表明样本统计 量与总体参数的值越接近,样本对总体越有代表性, 用样本统计量推断总体参数的可靠度越大。
第六章 概率分布
第一节 概率的基本概念 第二节 正态分布 第三节 二项分布 第四节 样本分布
第一节 概率的基本概念
一、什么是概率 随机现象(或随机事件)——在心理学研究中,通过实
验、问卷调查所获得的数据,常因主试、被试、施测 条件等因素的随机变化而呈现出不确定性,即使是相 同的被试在相同的观测条件下,多次重复测量结果也 还是上下波动,我们一般都无法事先确定每一次测量 的结果。 概率(probability):随机事件出现可能性大小的客观 指标
2、计算概率时 ,每一个正态分布都需要有自己 的正态概率分布表,这种表格是无穷多的
3、若能将一般的正态分布转化为标准正态分布, 计算概率时只需要查一张表
(三)标准正态分布表的编制与使用
第六章概率分析
T 70 65 60 56
正态分布表的应用
①将原始数据整理为次数 分布表; ②计算各组上限以下累加 次数; ③计算各组中点以下累加 次数; ④计算各组中点以下累积 比率; ⑤查正态分布表,将概率 转化为Z分数; ⑥将正态化以后的Z值进行 线性转换:T=10Z+50
140135130125-
120115110105100959085807570-
122
117 112 107 102 97 92 87 82 77 72
28
16 16 8 9 8 7 6 6 5 5
0.14
-0.17 -0.40 -0.59 -0.73 -0.90 -1.06 -1.25 -1.46 -1.70 -2.12
51
48 46 44 43 41 39 38 35 33 29
分析:包括两种情况:先抽一黑球、后抽一白球;
先抽一白球、后抽一黑球。
3 2 2 3 P 0.48 5 5 5 5
例4
一枚硬币掷3次,或三枚硬币各掷一次,问出现两
次或两次以上H的概率是多少?
解:可能出现的情况有:HHH HHT HTH THH TTH
THT HTT TTT共8种。每种情况出现的概率,为
根据随机变量的取值是否连续,可将随机变量分为
离散型随机变量与连续型随机变量。
当随机变量只取孤立的数值,这种随机变量称为离
散型随机变量。如投掷一枚硬币4次,几次正面朝上?因 取值只能为0、1、2、3、4,故为离散型随机变量。
离散分布与连续分布
离散型随机变量的概率分布称作离散分布。连续分
布是指连续型随机变量的概率分布,即测量数据的概率 分布。心理统计学中最常用的连续型分布是正态分布。
第六章 6.2 马尔可夫链的概率分布
如果个体当前收入等级为3,试分析经过三代后个体收 入等级转变为2的可能性,进一步分析经过n代后个体 收入等级的概率分布,并具体计算n=10时,个体收入 等级的概率分布。
i
= ∑ P ( X 0 = i, X n = j )
i
= ∑ P( X 0 = i) ⋅ P( X n = j X 0 = i)
i
= ∑ q p (0)
(0) i (n) ij i
n ≥ 0, i, j ∈ S
对于齐次马尔可夫链,上述结论可表示为
q
(n)
=q P , n≥0
(0) n
有限维分布 定理6.2.2 马尔可夫链X的有限维分布由其初始分 布和一步转移概率所完全确定. 证明 对∀n ≥ 1, ∀0 ≤ t1 < t2 < ⋯ < tn , i1 , i2 , ⋯, in , i ∈ S
i
= ∑ P ( X 0 = i, X t1 = i1 , X t2 = i2 ,⋯ , X tn = in )
i
= ∑ P ( X 0 = i ) ⋅ P( X t1 = i1 X 0 = i ) ⋅ P ( X t2 = i2 X 0 = i, X t1 = i1 )
i
⋅⋯ ⋅ P ( X tn = in X 0 = i , X t1 = i1 ,⋯ , X tn−1 = in −1 )
(2) 其中p02 为两步转移概率,是两步转移概率
矩阵中第一行第三列元素.
(2) 而P = P2
= 5 9 3 9 1 6 3 9 7 18 5 12 1 9 5 18 5 12
概率与概率分布
第六章概率与概率分布推论统计研究如何依据样本资料对总体性质作出推断,这是以概率论为基础的。
通过概率论,可以知道在一定条件下,总体的各种抽样结果所具有的概率特性。
然后,推论统计依据这些概率特性,研究在发生了某种抽样结果的情况下总体参数是什么,或者对社会研究中提出的某种假设进行检定。
学习推论统计必须首先对概率论有所了解。
第一节概率论1.随机现象和随机事件概率是与随机现象相联系的一个概念。
所谓随机现象,是指事先不能精确预言其结果的现象。
随机现象具有非确定性,但内中也有一定的规律性。
例如,事先我们虽不能准确预言一个婴儿出生后的性别,但大量观察,我们会发现妇女生男生女的可能性几乎一样大,都是0.5,这就是概率。
随机现象具有在一定条件下呈现多种可能结果的特性。
但由于到底出现哪种结果,却又无法事先预言。
因此,人们把随机现象的结果以及这些结果的集合体称作随机事件,简称事件。
当随机事件发生的可能性能用数量大小表示出来时,我们就得到了概率。
在统计学中,我们把类似掷一枚硬币的行为(或对某一随机现象进行观察)称之为随机试验。
随机试验必须符合以下三个条件:①它可以在相同条件下重复进行;②试验的所有结果事先已知;③每次试验只出现这些可能结果中的一个,但不能预先断定出现哪个结果。
随机试验的每一个可能的结果,称为基本事件(或称样本点);所有可能出现的基本事件的集合,称为样本空间,记为Ω。
随机事件(可记为A、B、C等)如果仅含样本空间中的一个样本点,该事件称为简单事件;随机事件如果含样本空间中的一个以上的样本点,该事件称为复合事件。
换言之,复合事件是样本空间Ω的某个子集。
随机事件有两种极端的情况:一种是必然会出现的结果,称为必然事件;另一种是不可能出现的结果,称为不可能事件。
从样本空间来看,必然事件是由其全部基本事件组成的,可记为S;不可能事件则不含任何基本事件,可记为Φ。
2.事件之间的关系客观事物之间总是存在着一定的关系,随机事件之间也不例外。
统计学习题 第六章 概率与概率分布
第六章 概率与概率分布第一节 概率论随机现象与随机事件·事件之间的关系(事件和、事件积、事件的包含与相等、互斥事件、对立事件、互相独立事件)·先验概率与古典法·经验概率与频率法第二节 概率的数学性质概率的数学性质(非负性、加法规则、乘法规则)·排列与样本点的计数·运用概率方法进行统计推断的前提第三节 概率分布、期望值与变异数概率分布的定义·离散型随机变量及其概率分布·连续型随机变量及其概率分布·分布函数·数学期望与变异数一、填空1.用古典法求算概率.在应用上有两个缺点:①它只适用于有限样本点的情况;②它假设( 机会均等 )。
2.分布函数)(x F 和)(x P 或 )(x 的关系,就像向上累计频数和频率的关系一样。
所不同的是,)(x F 累计的是( 概率 )。
3.如果A 和B ( 互斥 ),总合有P(A/B)=P 〔B/A 〕=0。
4.( 大数定律 )和( 中心极限定理 )为抽样推断提供了主要理论依据。
5.抽样推断中,判断一个样本估计量是否优良的标准是( 无偏性 )、( 一致性 )、( 有效性 )。
6.抽样设计的主要标准有( 最小抽样误差原则 )和( 最少经济费用原则 )。
7.在抽样中,遵守( 随机原则 )是计算抽样误差的先决条件。
8.抽样平均误差和总体标志变动的大小成( 正比 ),与样本容量的平方根成( 反比 )。
如果其他条件不变,抽样平均误差要减小到原来的1/4,则样本容量应( 增大到16倍 )。
9.若事件A 和事件B 不能同时发生,则称A 和B 是( 互斥 )事件。
10.在一副扑克牌中单独抽取一次,抽到一张红桃或爱司的概率是( 1/4 );在一副扑克牌中单独抽取一次,抽到一张红桃且爱司的概率是( 1/52 )。
二、单项选择1.古典概率的特点应为(A )A 、基本事件是有限个,并且是等可能的;B 、基本事件是无限个,并且是等可能的;C 、基本事件是有限个,但可以是具有不同的可能性;D 、基本事件是无限的,但可以是具有不同的可能性。
第六章(三)常用连续型随机变量的理论分布
(一)抽样分布的含义与无偏估计量 1、抽样分布的含义:统计推断是以总 体分布和样本抽样分布的理论关系为 基础的。 由总体中随机地抽取若干个体组成样 本,即使每次抽取的样本含量相等, 其统计量也将随样本的不同而有所不 同。因而样本统计量也是随机变量, 也有其概率分布,我们把统计量的概 率分布称为抽样分布。
如果总体是无限总
体,那么可以得到 无限多个随机样本。
随机样本1 2 3
……
无穷个样本
图 总体和样本的关系
如果从容量为N的有限总体抽样,若每次抽取容量为n的 样本,那么一共可以得到 N n个样本(所有可能的样本个数)。 抽样所得到的每一个样本可以计算一个平均数,全部可能 的样本都被抽取后可以得到许多平均数。 如果将抽样所得到的所有可能的样本平均数集合起来便构
正态分布的分位点的定义:
3、正态分布分位点计算
标准正态分布 N (0,1) 密度函数图形为:
x 图中的点 称为标准正态分布的 (1 )% 的分位点,相当于已知
F(x ) p( X x ) 1
求其中的 x
4、单侧概率与双侧概率 •统计学中,把随机变量 x 落在区间 (μ-kσ,μ+kσ)之外的概率称为双侧(两 尾)概率,记作α。 •对应于双侧概率可以求得随机变量x 小于μ-kσ或大于μ+kσ的概率,称为 单侧概率,记作α/2。
2、无偏估计 • 在统计学上,如果所有可能样本的 某一统计数的平均数等于总体的相 应参数,则称该统计数为总体相应 参数的无偏估计值。
• 设有一N=3的总体,具有变量3,4, 5;求得μ=4,σ2=0.6667, σ=0.8165 • 现以n=2作独立的回置抽样,总共得 Nn=32=9个样本。 • 抽样结果列入下表:
概率论与数理统计-第六章
这200人的年龄数据。
总体:北京市民的年龄 随机变量:年龄X
个体:张三28岁;李四5岁;
样本:{ 28;5;14;56;23;2;39;…;69} 样本容量:200
抽样:随机抽取200人进行调查的过程
6
例2:为了确定工厂生产的电池电量分布情况,在
产品中随机抽取500个,测量其电量。记录了
x
0
F n1 , n2
F分布的分位数
x
F分布的上α分位点
对于给定的 , 0 1, 称满足条件
F n1 , n2
f x; n1 , n2 dx 的点F n1 , n2
为F n1 , n2 分布的上 分位数。F n1 , n2 的值可查F 分布表
17
不易计算!
18
抽样分布 —— 任意统计量 Q = g (X1, X2, …, Xn ) 的分布函数 抽样分布的计算: 多维随机变量(独立、同分布)的函数的分布 函数的计算问题。
得到统计量 Q 的抽样分布,就可以用来解决
关于总体 X 的统计推断问题。
19
关于随机变量独立性的两个定理
解:(1)作变换 Yi
显然Y1 , Y2 ,
2 n i 1
Xi
, Yn相互独立,且Yi N 0,1 i 1, 2,
Xi
i 1, 2,
,n
,n
于是 (
) Yi 2 2 n
2 i 1
28
n
(2)
2 ( X X ) X1 X 2 ~ N (0, 2 2 ), 1 2 2 ~ 2 (1) 2
第六章__概率分布
二、正态分布表的编制与使用
• (一)正态分布表的编制与结构
• 正态分布表的结构一般包括三栏
• 第一栏:Z分数单位;
• 第二栏:密度函数或比率数值(y);
• 第三栏:概率值(p)。
• (二)正态分布表的使用
2
3
• 当g2=0时,正态分布的峰度;g2>0时,分布的峰度 比正态分布的峰度低阔;g2<0时,表明分布的峰度比 正态分布的峰度高狭。当N>1000时,g2值才比较可 靠。
• (三)累加次数曲线法
• 正态分布概率曲线和样本的累加频率曲线完全重
合说明样本分布为正态;若偏离,则不符合。
• 四、正态分布理论在测验中的应用
-0.84 -0.525 0 0.84 1.645 2.33
4.160 4.475 5.000 5.840 6.645 7.330
• (三)在能力分组或等级评定时确定人数
• ①将6个标准差除以分组的或等级的数目,做到Z
分数等距;
• ②查正态分布表,从Z求p,即各等级或各组在等
距的情况下应有的比率; • ③将比率乘以欲分组的人数,便得到各等级或分 组该有的人数。
• (二)二项分布
• 二项分布:试验仅有两种不同性质结果的概率分布。也称 两个对立事件的概率分布。
• 二项分布同二项定理有着密切的关系:
n 1 n1 n1 n1 n n (p+q)n =C0 p +C p q + +C pq +C n n n nq
x x n x (p +q)n = Cn pq n
心理统计学课件第六章 概率分布
(三)正态分布的特征
正态分布的形式是对称的,它的对称轴是 经过平均数点的垂线。
正态分布的中央点(即平均数点)最高, 然后逐渐向两侧下降。
正态曲线下的面积为1,平均数点的垂线 将面积划分为相等的两部分0.50。
正态分布曲线,标准差与概率有一定的数 量关系。
二、正态分布表的结构与使用
2、已知P值,求Z分数
已知从平均数开始的概率值,求Z值 已知位于两端的概率值,求该概率分界点
上的Z值 已知正态曲线中间部分的概率,特定区间的人数 求考试成绩中某一特定人数比率的分数界
限 按能力分组或等级评定时确定人数 将等级评定结果转化为测量数据
按能力分组或等级评定时确定人数
要把100人在某一能力上分成5个等级, 各等级应该有多少人?
将等级评定结果转化为测量数据
某教师评价全班50人的作文,有8人优, 17人良,20人中,5人及格,求各等级的 标准分数
求考试成绩中特定区间的人数
已知某年级200名学生考试呈正态分布, 平均分为85分,标准差为10分,学生甲 的成绩为70分,问全年级成绩比学生甲低 的学生人数是多少?
求考试成绩中某一特定人数比率的分数界限
某次招生考试,学生成绩符合正态分布, 学生成绩的平均分为80分,标准差为10 分,要择优录取25%的学生进入高一级学 校学习,问最低分数线应是多少?
第六章 概率分布 第三节 正态分布
一、正态分布特征
(一)正态分布的概念 与二项概率分布对比 变量类型 图形
正态分布:
在一个概率分布中,中间频数多,两 端频数对称地减少,成为一种“钟”形对 称的理论概率分布。
(二)正态分布曲线
标准正态分布的密度函数:
试验统计方法第六章概率分布解析
四、农药药效的调查和计算
药效试验的目的,是要取得各种农药防治病虫害的 效果的数据,故必须在处理前后分别检查死亡虫数或残 存虫数.病株数、病叶数和病斑数等,然后根据处理前 后虫、病数的变化或增减,求得防治效果,以表示农药 的药效。
农药药效的表示方法
杀虫剂的药效常用 害虫死亡率、虫口减退率、被害 率、缺苗率、防治效果等来表示; 杀菌剂的药效常用 发病率、普遍率、病情指数、防 病效果等来表示。
(五)事件的独立性
如果事件A的发生与否不影响事件B发生的可 能性,则称事件A和事件B相互独立。
四、频率和概率
(一)频率
某种事件在多次进行同样试验中,发生该事件的次 数(a)和试验次数(n)的比率便是频率。即频率=a/n。
例6-1:如多次随机调查不同株数棉花受棉铃虫危害的 数量及计算被害频率如下:
调查株数 10 受害株数 3 被害频率 0.300 20 3 0.150 50 10 0.20 100 22 0.220 200 43 0.215 500 108 0.216 1000 215 0.215
校正虫口 = 下 降 率(%)
×100
1 - 对照区虫口下降率
蚜虫、红蜘蛛等害虫繁殖较快,使对照区虫量有增有减,其 公式改为:
处理区虫口下降率±对照区虫口下降率 校正虫口= 下降率(%) ×100
1 ± 对照区虫口下降率
(二)杀菌剂效果的计算: 1、根据防治前后发病率的计算公式 对照区发病率 - 防治区发病率 防治效果(%)= ×100 对照区发病率 2、根据防治前后病情指数增长率的计算公式 对照区病情指数 - 防治区病指 防治效果(%)= ×100 对照区病情指数
频率是事件发生之后,其发生次数占总次数的现实比 率,它不包含事件将来发生的可能性。
第六章 概率与概率分布练习题
第六章 概率与概率分布一、填空1.用古典法求算概率.在应用上有两个缺点:①它只适用于有限样本点的情况;②它假设(机会均等 )。
2.分布函数)(x F 和)(x P 或ϕ)(x 的关系,就像向上累计频数和频率的关系一样。
所不同的是,)(x F 累计的是(概率 )。
3.如果A 和B (互斥 ),总合有P(A/B)=P 〔B/A 〕=0。
4.(大数定律 )和( 中心极限定理 )为抽样推断提供了主要理论依据。
6.抽样设计的主要标准有(最小抽样误差原则 )和(最少经济费用原则 )。
7.在抽样中,遵守(随机原则 )是计算抽样误差的先决条件。
9.若事件A 和事件B 不能同时发生,则称A 和B 是(互斥 )事件。
10.在一副扑克牌中单独抽取一次,抽到一张红桃或爱司的概率是(1/4 );在一副扑克牌中单独抽取一次,抽到一张红桃且爱司的概率是( 1/52 )。
二、单项选择1.随机试验所有可能出现的结果,称为( D )。
A 基本事件; B 样本;C 全部事件;D 样本空间。
2.在次数分布中,频率是指( )A.各组的频率相互之比B.各组的分布次数相互之比C.各组分布次数与频率之比D.各组分布次数与总次数之比 3.若不断重复某次调查,每次向随机抽取的100人提出同一个问题,则每次都能得到一个回答“是”的人数百分数,这若干百分数的分布称为:( D )。
A .总体平均数的次数分布B .样本平均的抽样分布C .总体成数的次数分布D .样本成数的抽样分布 4.以等可能性为基础的概率是(A )。
A 古典概率;B 经验概率;C 试验概率;D 主观概率。
5.古典概率的特点应为( A )。
A 基本事件是有限个,并且是等可能的;B 基本事件是无限个,并且是等可能的;C 基本事件是有限个,但可以是具有不同的可能性;D 基本事件是无限的,但可以是具有不同的可能性。
6.任一随机事件出现的概率为( D )。
A 在–1与1之间;B 小于0;C 不小于1;D 在0与1之间。
教育统计学第六章 概率及概率分布
( 0, )
标准正态分布
如果把总频数看成是1,随机变量的分布密度是
f ( x)
1 2
( x )2 2 2
e
( 0 , )
二者相比:
f ( x)
N e 2
x 2
2 2
( 0, )
92 P( A) 0.514 179
87 P( B) 0.486 179
7 P (C / A) 0.076, 92 12 P (C / B ) 0.137, 87
P( AC ) P( A) P(C / A) 0.514 0.076 0.039
P( BC ) P( B) P(C / B) 0.486 0.137 0.067
由于F值是两个总体方差的比值,所以F值均为正 值,故F的图象处于正半轴的上方 ,其最小值为0,最 大值为无穷大。
F值可通过查值表求得
左右两侧临界值之间的关系为:
1 F1 / 2 df1 , df2 F / 2 df2 , df1
例如:查表得 则
F0.05 / 2 8,9 4.10
1 2 c5 c35 p( A1 ) 3 c40
0.301
2 1 c5 c35 p( A2 ) 3 0.035 c40
3 c5 p( A3 ) 3 c40
0.001
p( A) p( A1 A2 A3 ) p( A1 ) P( A2 ) P( A3 )
例3 某班共有40名学生,如果其中只有5人没 有完成作业,而其它学生都较好地完成了作业。若 从该班中随机抽出3人检查作业完成情况,问至少 抽到一人未完成作业的概率是多少?
第六章.ppt数理统计
例:从鱼塘里捞一条鱼,这条鱼为鲤鱼的概率?
重复捞取鱼1000次,每次捞一条,有100次左右是鲤鱼,
近似认为再捞一次鱼是鲤鱼的概率为10%。
用频率近似概率
3、主观定义 人们根据经验和所掌握的信息对事件发 生的可能性给以主观的估计。
例:本拉登活着的概率;估计自己能考上大学 的概率;上一个新项目能否赚钱的概率。
(3)不可能事件:每次试验必然不会发生的事件 称为不可能事件。
上例中,观察正反面正面出现的次数为3次——这一事件为不可
能事件
二、事件的关系和运算
(1)包含——事件A发生必然导致B发生, A包含于B
例:抛两个硬币,观察正反面情况:可能结果:①1正2 反,②1反2正,③12全正,④12全反四个基本事件。
解:P(A)=40%,P(B)=50%,P(AB)=30%, P(A+B)=40%+50%-30%=60%; P(A/B)(抽一个公司,已知它进行销售预测,那么它研究 广告效果的概率)=P(AB)/P(B)=30%/50%=60%。 P(B/A)(已知这个公司研究广告效果,那么它进行销售 预测的概率是多少)=P(AB)/P(A)=30%/40%=75%。
(二)概率的运算法则
1、加法公式
两个互斥事件A、B,P(A+B)=P(A)+P(B) A、B互斥(A、B没有交集),P(A+B)(A、B至少 一个发生的概率)=P(A)+P(B)
2、乘法公式
(1)条件概率(事件B已经发生的条件下 事件A发生的概率)。 P(A/B)=P(AB)/P(B)
例:将一枚硬币掷两次,观察出现正反面的情况,设事件 A为“至少一次为正面”,事件B为“两次掷出同一面”, 现在来求已知事件A已经发生的条件下事件B发生的概率 P(B/A)。 解:S={正正、正反、反正、反反}, A={正正、正反、反正}, B={正正,反反}, A已经发生(抛两次硬币后,知道至少有一次正面), 那么掷出同一面的概率是1/3。
概率分布及概率分布图
概率密度函数图
总结词
概率密度函数图是一种展示连续概率分布的图形,通过曲线的高低表示概率密度的大小。
详细描述
概率密度函数图是连续概率分布的图形表示,它通过曲线的高低表示概率密度的大小。在概率密度函数图中,曲 线下方的面积表示事件发生的概率。这种图形可以帮助我们了解连续随机变量的分布情况,并用于估计和预测未 来的事件。
02 离散概率分布
二项分布
01
02
03
定义
二项分布是描述在n次独 立重复的伯努利试验中成 功的次数的概率分布。
公式
$B(n, p) = C(n, k) p^k (1-p)^{n-k}$,其中C(n, k)是组合数,表示从n个 不同项中选取k个的方法 数。
应用场景
例如,抛硬币的结果(正 面或反面),或者给定数 量的独立事件中成功事件 的次数。
泊松分布
定义
泊松分布是描述在单位时间内(或单 位面积内)随机事件的次数,当这些 事件以小概率发生,并且这些事件之 间是独立的。
公式
应用场景
例如,放射性衰变或者网络中同时发 生的请求数。
$P(X=k) = frac{e^{lambda}lambda^k}{k!}$,其中 $lambda$是事件的平均发生率。
05 概率分布及概率分布图的 应用实例
在统计学中的应用
1 2 3
描述性统计
概率分布图可以用来描述数据的分布情况,如频 数分布图、直方图等,帮助我们了解数据的集中 趋势、离散程度等。
假设检验
在假设检验中,概率分布图可以用来表示样本数 据和理论分布之间的比较,帮助我们判断样本数 据是否符合预期的分布。
概率分布的种类
离散概率分布
描述离散随机变量的取值概率,如二项分布、泊 松分布等。
管理统计学6 第六章 概率及其分布
星蓝海学习网
6.4 二项分布和泊松分布
6.4.1 二项分布
由于概率P的取值不同,二项分布的形状有差异。当P=0.25时,均值偏向 中心值以下的小值一方;当P=0.5时,均值处于中心位置;当P=0.75时,均 值偏向中心值以上的大值一方。所以,二项分布图形随着不合格率P的变 化而变化,当P=0.5时基本对称。
式中,Cnx
n!
x!n
x!
表示n个产品取x个不合格品的组合数。
星蓝海学习网
6.4 二项分布和泊松分布
6.4.1 二项分布
例题: 已知产品合格率为0.9,对产品检验100次,出现2次不合格品的概 率。 解:
C1200 0.120.91002 4950 0.01 0.00003279 0.0016231
星蓝海学习网
6.3 正态分布
6.3.1 正态分布的特点
总体落在总体平均数1倍标准差周围的概率为68.26%。即 当t=1时,则有
P X P X 1 68.26%
总体落在总体平均数2倍标准差周围的概率为95.45%。即 当t=2时,则有
二项分布的均值为 标准差为
np
npq
由于概率P的取值不同,二项分布的形状有差异。当P=0.25时,均值偏向 中心值以下的小值一方;当P=0.5时,均值处于中心位置;当P=0.75时, 均值偏向中心值以上的大值一方。所以,二项分布图形随着不合格率P的 变化而变化,当P=0.5时基本对称。
3 星蓝海学习网
学习目标
本章要掌握: 1. 数据与概率的关系; 2. 从概率分布上把握统计的特点; 3. 正态分布及其概率计算方法(学习的重点)。
4 星蓝海学习网
统计基础试题——概率与概率分布
第六章概率与概率分布一、填空题1.随机变量按其取值情况可以分为和两类。
2.任一离散型随机变量的分布都必须满足以下两个条件:条件一是,条件是。
3.某种考试有10道判断题,若有一个对题目毫无所知的人,对10道题任意猜测,猜对的题目数为X,则X服从分布,其猜对6题的概率是,及格(猜对6题以上)的概率是。
4.正态分布的概率密度函数曲线的图形是一个曲线,它是关于直线对称的。
5.大数定律也称。
其中最著名的是大数定律和大数定律。
6.中心极限定理是指在一定条件下,大量相互独立的随机变量的分布是以为极限的一系列定理的总称。
最常用的中心极限定理有中心极限定理和中心极限定理。
二、单项选择题1.必然事件的概率为1,不可能事件的概率为0,反之,如果已知P(A)=1,P(B)=0,则()A.A为必然事件,B为不可能事件B.A为必然事件,B不必为不可能事件C.A不必为必然事件,B为不可能事件D.都不一定2.设X~N(μ,σ2),Y=aX+b,则Y服从()。
A.N(aμ+b,σ2)B.N(aμ,aσ2)C.N(aμ+b,a2σ2)D.N(aμ,bσ2)3.一张考卷上有5道选择题,每道题有4个备选答案,其中有一个答案是正确的,若有一个对题目毫无所知的学生,对5道题任意猜测,则其至少猜对4道题的概率为()。
A.1/64 B.1/62 C.1/66 D.1/684.已知一批计算机元件的正品率为80%,现随机抽取n个样本单位,其中χ为正品数,则χ的分布服从()。
A.正态分布B.二项分布C.泊松分布D.超几何分布5.某工厂生产的零件出厂时每200个装一盒,这种零件分为合格和不合格两类,合格率为约为99%。
设每盒中的不合格数为X,则X通常服从()。
A.正态分布B.二项分布C.泊松分布D.超几何分布6.甲、乙两人在同样条件下各生产100天,在一天中出现废品的概率分布分别如下:如果以废品数的多少作为衡量技术高低的标准,试评定两人技术的高低()。
第六章概率分布2-二项分布、样本分布
抽样图示
抽样图示
回顾直方图、正态分布、近似正态
概率直方图——正态曲线
把一枚硬币抛100次,可能的型式有多少种?出现其中一种型 式的先验概率是多少?怎么计算?
正态近似:每个人都相信【正态近似】,试验者想这 是一个数学定理,数学家想这是一个试验事实。—— G.Lippman法国物理学家(1845-1921)
χ2分布为正偏态分布,自由度越小,偏 斜度越大,当自由度无限增大时,χ2分 布趋于正态分布
在统计检验中,χ2是计数资料分析常用 的统计检验方法。
189页, χ2的和服从自由度的和的χ2分 布
样本分布之四——F分布
F分布是由美国统计学家斯纳德克 (G.W.Snedecor)提出的一种分布。
概率P(A)的数学定义
P(A) Lim n N N
概率的运算规则
概率运算(n个事件同时发生) 加法:互不相容事件
乘法:互相独立的事件
互不相容事件和互斥事件
正态分布
概率密度函数式 正态分布图形态、构成、概率分布特点 正态分布的应用
总体——样本——样本点 正态分布——标准量尺 统一度量衡目的是什么——公平与效率
频率:FN(A)=n/N 概率:当观测次数N趋近于无穷大+∞时,
FN(A)趋近于一个稳定的数值,我们把它叫做 事件A发生的概率P(A)。
显然,如果对于事件A,经过无穷大+∞的观察, 果然存在一个P(A)值,那么这个值是由随机事 件本身客观的属性决定的。
在事件A发生的条件稳定的话,它的发生只有唯一 一个P(A)值与它对应。
正态分布曲线下,标准差和概率有一定的数量关系。
正态分布表包括三个部分内容:Z分数、y值和p值。
概率论与数理统计 --- 第六章{样本及抽样分布} 第四节:抽样分布
P T 1.059
0.15.
例2:
从正态总体N ( , 0.5 )中抽取样本X 1 , , X 10 .
2
数理统计
10 2 (1)已知 0,求概率P X i 4 ; i 1 10 2 (2)未知,求概率P ( X i X ) 2.85 . i 1
S1 和S2 分别是这两个样本的样本方差, 则有:
2 2
(1)
S1
2 2
S2
~ F ( n1 1, n2 1);
2 2
若两方差 1 2,则
S1 1
2 2
2 2
S2 2
~ F ( n1 1, n2 1);
(2)
X Y ( 1 2 ) ( n1 1) S1 ( n2 1) S2
n取不同值时
( n 1) S
2
2
的分布
定理3 (样本均值的分布) 数理统计 设X1, X2, …, Xn是取自正态总体 N(μ, σ2)的样本, 2 X和S 分别为样本均值和样本方差, 则有:
X S n ~ t ( n 1)
证:由定理1、和t分布的定义可得: 2
X ~ N (0,1), ( n 1) S
2) F分布的分位点:
对于给定的, 1, 称满足条件: 0
P F F ( n1 , n2 )
( y )dy
F ( n1 , n2 )
的点F ( n1 , n2 )为F ( n1 , n2 )分布的上 分位点.
F分布的上分位点的性质:
F1 ( n1 , n2 ) 1 F ( n2 , n1 )
第二版 工程数学-概率统计简明教程-第六章 随机变量的函数及其分布
-2X 2 0 -2
-4 -5
pk 0.2 0.1 0.1 0.3 0.3
-2X 2 0 -2 -4 -5
X -1 0 1
2 2.5
pk 0.2 0.1 0.1 0.3 0.3
(2)
X2 1 0
1
4 9/4
pk 0.2 0.1 0.1 0.3 0.3
X2
0
1
pk 0.1 0.3
4 9/4 0.3 0.3
fX x
1
x2
e2
2
fY y
1
y2
e2
2
且X与Y 独立
f x, y
fX x
fY
y
1
x2 y2
e2
2
y
FZ z P Z z P X Y z
f ( x, y)dxdy
D
这里积分区域 D={(x, y): x+y ≤z}
一般方法
(1) 求Y的分布函数 FY(y)
FY ( y) 根据分布函数的定义 P(Y y) P(g( X ) y)
(2) 对FY(y) 求导,得到 fY(y)
P( X )
fY ( y) FY( y)
解不等式转化 为求关于X的概率
例2 设X的概率密度函数
f
X
x
x 2
,
0 x2
0, 其它
求随机变量Y=3X+2的概率密度函数。
第一步: 先求Y= 3X+2的分布函数 FY (y).
解
FY y
PY y P3X 2 y
y2
P
概率论与数理统计6.第六章:样本及抽样分布
),
,
,
,
是来
Z=
(
-
证明统计量 Z 服从自由度为 2 的 t 分布。
14
),
,
,
,
是来 , .ຫໍສະໝຸດ 自 总 体 X 的 样 本 , E( ) 则 ,D( )=
是来自总体 X ,D(X)= . ,
,D( )=
11
3. 设 , 本 ,E(X)=
, , 为来自总体 X 的样 ,D(X)=9, 为样本均值 , 试用 < ≥ ,
切比雪夫不等式估计 P{ P{ 4.设 , 则当 K= > ≤ , , . 是总体 X
lim f (t ) (t )
n
1 e 2
t2 2
, x
3.分位点 设 T~t(n), 若对 :0<<1,存在 t(n)>0,
4
满足 P{Tt(n)}=, 则称 t(n)为 t(n)的上侧分位点 注: t1 (n) t (n) 三、F—分布 1.构造 若 1 ~2(n1), 2~2(n2),1, 2 独立,则
y0
2. F—分布的分位点 对于 :0<<1,若存在 F(n1, n2)>0, 满足 P{FF(n1, n2)}=, 则称 F(n1, n2)
5
为 F(n1, n2)的上侧 分位点; 注: F1 (n1 , n2 )
1 F (n2 , n1 )
§ 6.3 正态总体的抽样分布定理
X Y /n ~ t ( n)
t(n)称为自由度为 n 的 t—分布。 t(n) 的概率密度为
n 1 ) 1 t 2 n2 2 f (t ) (1 ) , t n n n ( ) 2 (
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第六章概率分布第一节概率的基本概念一、什么是概率概率指用一个比值来概括某事件出现的可能性大小。
因为纯粹利用概率的概念是无法计算出概率的,所以它有几个用于不同情况下的计算办法:(一)古典概率(先验概率)基本事件:如果某一随机实验可以分成有限的n种可能结果,这n种结果之间是互不交叉的,而且这些结果出现的可能性相等,我们把这n种可能结果称为基本事件。
如抛置骰子这一随机试验的基本事件为:{1}{2}{3}{4}{5}{6}。
基本事件必须具备如下的五个条件:①等可能性:实验中基本事件发生的概率相等(根据对称性来判断)。
②互斥性:各个基本事件不可能在一次试验中同时发生,或者说一次试验中只能发生基本事件中的一个。
③完备性:一次试验中所有基本事件必然有一个发生,即所有基本事件概率之和为100%。
④有限性:全部结果只有有限的n种。
⑤不可再分性:不可能有比基本事件范围更小的事件。
若把抛置骰子的基本事件取为:A={1,2,3},B={4,5,6},则它满足前面的所有4上条件,但它们可以再分。
古典概率的定义:在只含有有限个基本事件的试验中,任意事件A发生的概率定义为:(二)统计概率(后验概率)统计概率常用于随机现象不满足“基本事件等可能发生”的条件,或者某些试验不可能分为等可能的互不相交的事件。
在相同条件下进行n次试验,事件A出现了m次,如果试验次数n充分地大,且事件A出现的频率稳定在某一数值p附近,则称p为事件A的概率。
由于p也是一抽象的值,常常用n在充分大时的代替。
即:。
二、概率的基本性质1、概率的加法定理两个互不相容事件A、B之和的概率,等于两个事件概率之和,P(A+B)=P(A)+P(B)2、概率的乘法定理两个独立事件同时出现的概率等于该两事件概率的乘积,P(AB)=P(A)×P(B)例6-1:一枚硬币掷三次,或三枚硬币各掷一次,问出现两次或两次以上H的概率是多少?解:这样掷硬币可能出现地情况有:HHH,HHT,HTH,THH,TTH,THT,HTT,TTT 共八种。
每种结果可能出现的概率,依概率乘法规则计算: 各为1/8。
设:P(A)代表3次H 的概率,P(B)代表“HHT ”这种结果的概率,P(C)代表“HTH ”的概率,P(D)代表“THH ”的概率,依概率加法规则计算: P(A+B+C+D)= P(A) +P(B) +P(C)+ P(D)=答:一枚硬币掷三次,或三枚硬币各掷一次,出现两次或两次以上H 的概率是1/2。
三、概率分布类型(一)离散分布与连续分布 1、离散分布如果随机变量只能取有限的或无限但可以数下去的数值,则这种随机变量取值的概率规律称为离散分布。
这类分布往往将随机试验的所有结果及其相应的概率一一列出来以表示分布规律。
例如:抛置硬币这一随机试验可以用如下一些方式来表示其分布规律: ①记A={正面向上},B={反面向上},则P(A)=0.5,P(B)=0.5。
②令出现正面向上用1表示,反面向上用0表示,则P(ξ=1)=0.5,P(ξ=0)=0.5 ③用图形来表示:2、连续分布如果随机变量可以取连续的数值,则这种随机变量取值的概率规律称为连续分布。
对于连续分布,不能列出所有取值及其对应的概率。
连续分布的表示方法有别于离散分布,一般采用概率密度函数来表示。
当样本的容量及分组逐渐增加时,次数分布图将趋近于一条稳定而连续的曲线,这条曲线就称为连续随机变量的概率密度函数,一般记为f(x)。
(二)经验分布与理论分布根据分布情况如果获得分成这样两类。
1、经验分布经验分布是根据观察或实验所获得的数据而编制的次数分布或相对频率分布,经验分布往往是总体的一个样本的情况,用来反映总体的大致情况,因此经验分布也称为样本分布。
在第一章中对100个考生成绩所做的次数分布就是一个经验分布的例子。
81212121=⨯⨯2181818181=+++2、理论分布理论分布是指根据理论推演出来的随机变量的概率分布模型,它指的是总体的分布规律(与样本分布相对应)。
在我们的学习中要学到的理论分布有正态分布、二项分布、T 分布、F 分布、χ2分布。
在不同的理论分布中,反映它们特征的参数是不一样的。
(三)基本随机变量分布与抽样分布 1、基本随机变量分布基本随机变量是一个与随机变量的函数相对应的。
随机变量的函数仍然是随机变量,后面将学习到的t 分布、χ2分布和F 分布,都是由正态随机变量构造而成。
2、抽样分布抽样分布是样本统计量的理论分布,又称随机变量函数的分布。
抽样是从总体中随机地选取一个样本的过程,每一个样本都可以计算平均数、方差、标准差、相关系数等指标,显然从同一总体的抽取出的不同样本的这些指标是不一样的。
比如说对于一个容量为50的有限总体,其容量为5的不同样本一共有505= 312,500,000个(允许重复的组合),显然这是一个很大的数值,这里的每一个样本可以计算一个平均数,故一共有312,500,000个平均数,这些平均数的分布情况(或分布规律)就是从容量为50的有限总体中抽取容量为5的样本的抽样分布。
第二节 正态分布一、正态分布(一)正态分布定义正态分布也称常态分布,是连续随机变量概率分布的一种,中间量数次数分布多,两端量数次数分布少,呈对称型的概率分布。
正态分布的概率密度函数为:其中,Y 为概率密度,σ为分布的标准差,X 为变量值,μ为分布的平均数,e 和π为常数(e =2.7183,π=3.1416)。
在正态分布中,平均数μ和标准差σ决定着分布曲线的位置和形状。
其中,平均数决定着曲线在x 轴上的位置,标准差σ决定着曲线的形状。
当σ相同而μ不同时,曲线形状相同,位置各异。
当μ相同而σ不同时,正态曲线有不同的形状,σ越大,曲线越是“低阔”,σ越小曲线越是“高窄”, (二)正态分布的特征1、正态分布的形式是对称的,对称轴是经过平均数的垂线;2、正态分布的中央点最高,然后逐渐向两侧下降,曲线先向内弯,后向外弯,两端靠近基线处无限延伸;3、正态曲线下的面积为1,故对称轴将正态曲线下的面积划分为相等的两部分;4、正态分布是一族分布。
二、标准正态分布()22221σμπσ--=X eY所有正态分布都可以通过Z 分数公式转换成标准正态分布。
标准正态分布是标准差(σ)为1,平均数(μ)为0的正态分布,其函数为 标准正态分布的特征:1.曲线以=z 0为中心,双侧对称。
2.曲线在=z 0处为最高点。
当=z 0时,21e Y π==0.39894,这是y 的最大值。
3.曲线以最高点向左右两侧缓慢下降,且无限延伸,但永远不与基线相交。
4.标准正态曲线只有一条。
三、正态分布表的编制与使用(一)正态分布曲线的面积,高度与标准分数在正态分布中,总次数N 的几何意义是曲线与x 轴间所包含的总面积,用p 表示,且1=p 。
以曲线中线为界,每边为分布50%的面积。
垂线为曲线的纵线高度,以y 表示。
基线是Z 分数的刻度。
本教材上的标准正态概率表的编制方法是从 Z=0 开始,逐渐变化Z 值,计算从 Z=0 至某一定值之间的概率,如图所示。
(二)标准正态分布曲线相应内容的求解方法 1.已知Z 值,求面积值p1)求均数(Z=0)与某个Z 值之间的p 值,可直接查正态曲线表。
例如:求0=Z 至Z = -1之间的面积。
查表可知Z = 1时,3413.0=p ;因为正态分布为具有对称性,所以有Z = -1时,3413.0=p 。
2)求任何两个Z 值之间的p例如:求1=Z ~2=Z 之间的面积。
首先,查出0=Z 至每个Z 值间的面积,即有1=Z ,3413.0=p ;2=Z ,475.0=p 其次,求两个Z 值之间的面积,即有1337.03413.0475.0=-=P 2221ze Y -∙=π规律:Z 值符号相反,用加法求p ;Z 值符号相同,用减法求p 。
3)求某个Z 值以下或以上的面积例如:求85.0-=Z 以下和76.1=Z 以上的面积。
首先,出0=Z 至每个Z 值间的面积,即有85.0-=Z ,3023.0=p ,76.1=Z ,4608.0=p其次,用正态分布一半的面积(0.50)减去所查出的面积,即有0082.04918.05000.01=-=p ,1151.03849.05000.02=-=p2.已知p 值求Z 值.1)查表法——求近似的Z 值 例如,求30.0=p 时,Z 的面积。
正态曲线表中并无可30.0=p 的面积,只有与其接近的两个值,即29955.01=p ,30234.02=p ,前者与0.30相差0.00045,后者与0.30相差0.00234。
可见,0.29955与0.30更接近,其对应的Z 值0.84,即为30.0=p 时Z 的近似值。
2)内插法——求精确的Z 值,其公式为()121211Z Z P P P P Z Z X ---+=pZ1p0.29955 0.84()84.085.029955.030234.029955.030.084.0---+=X Zp0.30000 X Z8416.00016.084.0=+=2p0.302340.853.已知p 值求y 值 查表法——求近似的y 值:例如,求当30.0=p 的y 值。
同样,与0.30接近的p 值为0.29955,其y 值为0.28034。
(三)正态分布中的几个常用值在σ1±,σ2±,σ3±及其σ96.1±,σ58.2±范围内的面积值。
四、正态分布理论在测验中的应用 (一)化等级评定为连续数据1、处理等级评价时面临的问题及其解决思路 问题:①不同评价者由于各自的标准不同,在对同一个心理量进行评定时可能给出不同的等级分数,如何综合评价各评价者的结果。
②如何比较不同被评者的心理量的差异。
2、转化的前提条件:被评定的心理量从意义上来说应是一个测量数据,而且服从正态分布(凭常识),只是人为地在评定时划分为等级。
对于一个具体的样本来说,他们所服从的正态分布是固定的,只是不同评价者对这个正态分布的划分不一样。
3、转化方法——用各等级中点对应的Z 分数代表该等级分数。
①根据各等级被评者的数目求出各等级的人数比率。
②求各等级中点以下的累加比率。
③用累加比率查正态表求Z 分数,用Z 分数代表各等级的测量值。
④求各被评者所得评价等级的测量分数的算术平均数,即为综合评定分数。
例6-2:甲、乙、丙三位教师对100名学生的学习能力进行等级评定见表6-2。
表6-3是三名同学所获得的评定等级。
试比较三个学生学习能力的高低。
表6-2 3位教师对100名学生学习能力的评定等级评 定 结 果转 换 过 程 与 结 果甲乙丙甲 教 师乙 教 师丙 教 师nn npp Fp 'Zpp Fp 'Zpp Fp 'ZA 510 20 0.05 .975 .495 1.96 0.10 .95 .45 1.64 0.20 .900 .400 1.28 B 25 20 25 0.25 .825 .325 0.93 0.20 .80 .30 0.84 0.25 .675 .175 0.45 C 40 40 35 0.40 .500 .000 0.000.40 .50.00 0.000.35 .325 .125 -0.32D 25 20 15 0.25 .175 .325 -0.93 0.20 .20 .30 -0.84 0.15 .125 .375 -1.15 E5 1050.05 .025 .475 -1.96 0.10 .05.45 -1.64 0.05 .025 .475 -1.96 ∑100 100 100 1.00———1.00———1.00———1)求各等级人数分布的比例p 值,见表7-12。