田间试验与统计方法第四章理论分布和抽样分布
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 如果每次抽5个单株,抽n=400次,则理论上我们能够得 到y=2的次数应为: • 理论次数=400×P(2)=400×0.3364=134.56(次)
•
•表4.2 调查单位为5株的概率分布表(p=0.35,q=0.65)
•
•
受害株数(y)
•图4.1 棉株受危害的概率分布图 •(p=0.35,n=5)
•
•(•三) 小概率事件实际不可能性原理
•小概率事件----随机事件的概率表示随机事件在试验中出现的 可能性大小。随机事件的概率很小如,小于0.05或0.01或0.001
•小概率原理----统计学上,把小概率事件在一次试验中看成是 实际不可能发生的事件,称为小概率事件实际不可能性原理, 简称小概率原理。
估计的概率称为实验概率或统计概率,以
表示。
•此处P代表概率,P(A)代表事件A的概率,P(A)变化的范围为 0~1,即0≤P(A)≤1。
•
பைடு நூலகம்
(二) 概率的古典定义
概率的统计定义是在大量的试验中以频率的稳定性为基础上提出来的。
不需要做试验,根据随机事件本身的特性就可以确定事件出 现的概率,称为古典概率。
这就要求有一个能够刻划事件发生可能性大小的数量指标, 这指标应该是事件本身所固有的,且不随人的主观意志而改变 ,人们称之为概率(probability)。
事件A的概率记为P(A)。
•
•二、概率 (一)概率的统计定义
思考:投掷一枚硬币,出现正面的概
率是多大?(0表示反面,1表示正 面)反复做它,那么所有出现正面 的结果平均值是多少?
•
结果事前不可预言,呈偶然性、不确定性
•
例,种子发芽,抛硬币
•
随机现象或不确定性现象,有如下特点: (1)在一定的条件实现时,有多种可能的结果发生,事前人们不 能预言将出现哪种结果;对一次或少数几次观察或试验而言, 其结果呈现偶然性、不确定性; (2) 但在相同条件下进行大量重复试验时,其试验结果却呈现出 某种固有的特定的规律性——频率的稳定性,通常称之为随机 现象的统计规律性。
• 英国数学家皮尔逊做24000次抛硬币试验
• 正面向上12012 次
频率 =
•随着试验次数的增多,正面朝上的频率越来越接近0.5.
•
• 例,
•表 在相同条件下盲蝽象在某棉田危害程度的调查结果
•调查株数n较多时的稳定频率才能较好地代表棉株受害的可能性
•
•统计学上用n较大时稳定的p近似代表概率。通过大量实验而
例:从100件产品(其中合格品95件,废品5件)中任取10件,
求每次抽到废品数的概率分布。
•概率分布表
•累积概率分布表
•
•(二)连续型随机变量(continuous random variate) ----
• 对于随机变量,若存在非负可积函数f(y)(-∞<y<+
∞),对任意a和b (a<b)都有P(a≤y<b)=
如 “取得一个编号是 2的倍数”是一个复合事件,它由 “ 取得一个编号是 2 ”、 “ 是4”、“是6、“是8”…“是20” 10个基本事件组合而成。
•
(2)必然事件
我们把在一定条件下必然会发生的事件称为必然事件( certain event),用Ω表示。其概率为1
例如,标准大气压下,水加热到100°C必然沸腾,就是一个必然事件。
•这一分布律也称贝努里( Bernoulli )分布,并有 •累积函数F(y):变量小于等于y的所有可能取值的概率之和
•理论次数:对于任意y,理论次数=nP(y)
•
•的泰勒展开式为:
• 可以看到,上式右边的每一项即为二项分布中变量y 取0、1、2、…、n时的概率,又p+q=1,从而 (p+q)n=1
•
•事件间的关系
•A
•积事 件AB
•B
•和事件A+B
•A+B, “或A发生,或B发生”。 •AB, “A和B同时发生或相继发生”
•A
•B
•互斥事件
•A·B=V,事件A和B互斥或互不相容
•A
•B
•对立事件
•A+B=U,A·B=V,事件B为事件A的对立事件,并记B为
•
二、概 率
研究随机试验,仅知道可能发生哪些随机事件是不够的,还需了解各种随机事 件发生的可能性大小,以揭示这些事件的内在的统计规律性,从而指导实践。
•
(二)随机试验与随机事件
1、随机试验 通常我们把根据某一研究目的 , 在一定条件下对自然现象 所进行的观察或试验统称为试验(trial)。
而一个试验如果满足下述三个特性 , 则 称 其 为 一个 随机试 验(random trial),简称试验:
•
(1)试验可以在相同条件下多次重复进行; (2)每次试验的可能结果不止一个 ,并且事先知道会有哪 些可能的结果; (3)每次 试验总是恰好出现这些可能结果中的一个 ,但在 一次试验之前却不能肯定这次试验会出现哪一个结果。 例如小麦发芽试验,抛硬币。
•概率 •也可用函数f(y)表述,称为概率函数。
•
• 前面例1、例2中的y就是离散型随机变量,将其可能取值与对应
概率一一列出,即为:
•常用概率分布表或概率分布图表示
•
• 离散型变量概率的分布函数:离散型变量概率的向上
累积。其公式为
,即随机
变量小于等于某一可能值(x0)的概率。
•
离散型概率分布的例子
田间试验与统计方法第 四章理论分布和抽样分
布
2024年10月3日星期四
一、事 件
(一)必然现象与随机现象
• 必然现象(inevitable phenomena)或确定性现象(definite phenomena):
•
结果可预言,确定的,必然的,可重复
•
例,标准大气压下,水加热到100°C必然沸腾
• 随机现象(random phenomena )或不确定性现象(indefinite phenomena):
•一、二项总体及二项式分布 •二、二项式分布的概率计算方法 •三、二项式分布的形状和参数 •四、多项式分布
•
•一、二项总体及二项式分布
•二项总体(binary population),就是非此即彼的两项构成的总 体. • •例:小麦种子发芽和不发芽,
• 大豆子叶色为黄色和青色, • 调查棉田危害分为受害株和不受害株等等。
小于300kg的概率为0.1。
•
•则用变量y的取值范围来表示的试验结果为
•
P(y≤300)=0.10,
•
P(300<y≤500)=0.65,
•
P(y>500)=0.25。
•
•随机变 量
•离散型
•连续型
(与我们前面所讲的连续型数据和离散型数据的意义一样)
•
•(一) 离散型随机变量 ----当试验只有几个确定的结果,并 可一一列出,变量y的取值可用实数表示,且y取某一值时,其 概率是确定的,这种类型的变量称为离散型随机变量。 • • 将这种变量的所有可能取值及其对应概率一一列出所形成 的分布称为离散型随机变量的概率分布:
• 随机变量是指随机变数所取的某一个实数值。表示随机现象 结果的变量,也就是在随机试验中被测定的量,所取得的值称 为观察值。
• 例1:抛硬币试验,两种结果:
•
用数“1”表示“币值面向上”, “0”表示“国徽面向上”
•
把 0,1作为变量y的取值
•
• 可以简单地把抛硬币试验用取值为0,1的变量来表示:
•
•
•[例4.1] • 棉田盲危害的统计概率乃从调查2000株后获得近似值 p=0.35。现受害株事件为A,其概率为p=0.35,未受害株事 件为对立事件,其概率q=(1-0.35)=0.65。
•
• 如调查5株为一个抽样单位,即n=5,则受害株数y=0, 1,2,3,4和5的概率可以计算出来,
•和其累计函数
– 随机事件A的概率:0<P(A)<1 – 必然事件W的概率为1,即P(W)=1 – 不可能事件(V)的概率为0,即P(V)=0 – 概率接近于0(如P<0.05)的事件称为小概率事件。
•
•第二节 概率分布
•
(probability distribution)
•一、随机变量 •二、概率分布
•
•一、随机变量(random variable)
•概率是曲线下面积 !
•f(x)
•X •a •b
•概率密度曲线f (x)与x轴所围成的面积为•1
分布函数(或称为累积分布函数)是随机变量X取得小于 x0的值的概率
•
概率密度函数图和概率分布函数图
•y=p(x)
y=
F(x)
•x
•x
1
2
•概率密度函数图
•
或
•概率分布曲线
•x
•x
1
2
概率分布函数图
或
累积分布函数图
•
2、随机事件
随机试验的每一种可能结果,在一定条件下可 能 发 生 ,也 可 能 不 发生,称为随机事件(random event),简称 事 件
(event),通常用A、B、C等来表示。
(1)基本事件
我 们 把 不 能 再 分的事件称为基本事件(elementary event ) , 也 称 为 样本点(sample point)。
,
• 则 称y为连续型随机变量(continuous random variate),
•
f(y)称为y的概率密度函数(probability density function)或分布密度(distribution density)
。
• 上述例3中的y就是一个连续型随机变量。
•
概率密度的图形f (x),称为分布曲线。
P(y=1)=0.5,P(y=0)=0.5
•
•
•例2:用“1”表示“能发芽种子”,其概率为p;用“0”表示 “不能发芽种子”,其概率为q。 •显然 p+q=1, •则 P(y=1)=p,P(y=0)=q=1-p。
•
•例3:用变量y表示水稻产量,若y大于500kg的概率为
0.25,大于300kg且等于小于500kg的概率为0.65,等于
• 二项总体的抽样试验具有重复性和独立性. ➢ 重复性是指每次试验条件不变,即在每次试验中“此
”事件出现的概率皆为p.
➢ 独立性是指任何一次试验中“此”事件的出现与其余 各次试验中出现何种结果无关.
•
•二、二项式分布的概率计算方法
•数学上的组合公式为:
•
•二项式中包含两项,这两项的概率为p、q,并且p+q=1 ,可推知变量y的概率函数为:
•
(3)不可能事件
我们把在一定条件下不可能发生的事件称为不可能事件( impossible event),用ф表示。其概率为0
例,没有生活能力的种子播种后会出苗,就是一个不可能事件。 •必然事件与不可能事件实际上是确定性现象,即它们不是随机 事件, 但 是 为了方便起见,我们把它们看作为两个特殊的随机 事件。
•P(x1<x<x2)=F(x2)-F(x1)
•
连续型随机变量概率分布的性质:
分布密度函数总是大于或等于0,即f (x)≥0; 当随机变量x取某一特定值时,其概率等于0;
即 (c为任意实数)
因而,对于连续型随机变量,仅研究其在某一个区间
内取值的概率,而不去讨论取某一个值的概率。
•
•第三节 二项式分布
•这里的0.05或0.01称为小概率标准,农业试验研究中通常使用 这两个小概率标准。
•小概率事件实际不可能性原理是统计学上进行假设检验(显著 性检验)的基本依据。
•
•(四) 概率的性质 概率是事件在试验结果中出现可能性大小的定量计量。它
是度量随机事件发生的可能性的统计学指标。 是事件固有的属性,有以下明显的性质:
古典概型必须满足以下条件:
– 随机试验的全部可能结果(基本事件数)是有限的; – 各基本事件间是互不相容且发生是等可能的。
定义:
P(A)=m / n m为事件A中所包含的基本事件数 n为基本事件总数。
•
•例,在1、2、3、…20这20个数字中随机抽取1个 ,求下列事件的概率 •(1)A=“抽得1个数字小于5” •(2)B=“抽得1个数字是2的倍数”
•
例如,在编号为1、2、3、…、20 的数字中随机抽取1个,有20 种不同的可能结果:
“ 取 得 一 个 编 号 是 1” 、 “ 取得一个编号是2”、…、“取得一个编号 是10”,这10个事件都是不可能再分的事件,它们都是基本事件。
由若干个基本事件组合而成的事件称为 复合事件 (compound event)。
•
•通常将二项总体中的“此”事件以变量“1”表示,具概率p
;
•将“彼”事件以变量“0”表示,具概率q。
•
•如果从二项总体进行n次重复抽样,设出现“此”的次数为 y,那么y的取值可能为0、1、2、…、n,共有n+1种可能 取值,这n+1种取值各有其概率,因而由变量y及其概率就 构成了一个分布,这个分布叫做二项式概率分布, •简称二项分布( binomial distribution )。B(n,p)
•
•表4.2 调查单位为5株的概率分布表(p=0.35,q=0.65)
•
•
受害株数(y)
•图4.1 棉株受危害的概率分布图 •(p=0.35,n=5)
•
•(•三) 小概率事件实际不可能性原理
•小概率事件----随机事件的概率表示随机事件在试验中出现的 可能性大小。随机事件的概率很小如,小于0.05或0.01或0.001
•小概率原理----统计学上,把小概率事件在一次试验中看成是 实际不可能发生的事件,称为小概率事件实际不可能性原理, 简称小概率原理。
估计的概率称为实验概率或统计概率,以
表示。
•此处P代表概率,P(A)代表事件A的概率,P(A)变化的范围为 0~1,即0≤P(A)≤1。
•
பைடு நூலகம்
(二) 概率的古典定义
概率的统计定义是在大量的试验中以频率的稳定性为基础上提出来的。
不需要做试验,根据随机事件本身的特性就可以确定事件出 现的概率,称为古典概率。
这就要求有一个能够刻划事件发生可能性大小的数量指标, 这指标应该是事件本身所固有的,且不随人的主观意志而改变 ,人们称之为概率(probability)。
事件A的概率记为P(A)。
•
•二、概率 (一)概率的统计定义
思考:投掷一枚硬币,出现正面的概
率是多大?(0表示反面,1表示正 面)反复做它,那么所有出现正面 的结果平均值是多少?
•
结果事前不可预言,呈偶然性、不确定性
•
例,种子发芽,抛硬币
•
随机现象或不确定性现象,有如下特点: (1)在一定的条件实现时,有多种可能的结果发生,事前人们不 能预言将出现哪种结果;对一次或少数几次观察或试验而言, 其结果呈现偶然性、不确定性; (2) 但在相同条件下进行大量重复试验时,其试验结果却呈现出 某种固有的特定的规律性——频率的稳定性,通常称之为随机 现象的统计规律性。
• 英国数学家皮尔逊做24000次抛硬币试验
• 正面向上12012 次
频率 =
•随着试验次数的增多,正面朝上的频率越来越接近0.5.
•
• 例,
•表 在相同条件下盲蝽象在某棉田危害程度的调查结果
•调查株数n较多时的稳定频率才能较好地代表棉株受害的可能性
•
•统计学上用n较大时稳定的p近似代表概率。通过大量实验而
例:从100件产品(其中合格品95件,废品5件)中任取10件,
求每次抽到废品数的概率分布。
•概率分布表
•累积概率分布表
•
•(二)连续型随机变量(continuous random variate) ----
• 对于随机变量,若存在非负可积函数f(y)(-∞<y<+
∞),对任意a和b (a<b)都有P(a≤y<b)=
如 “取得一个编号是 2的倍数”是一个复合事件,它由 “ 取得一个编号是 2 ”、 “ 是4”、“是6、“是8”…“是20” 10个基本事件组合而成。
•
(2)必然事件
我们把在一定条件下必然会发生的事件称为必然事件( certain event),用Ω表示。其概率为1
例如,标准大气压下,水加热到100°C必然沸腾,就是一个必然事件。
•这一分布律也称贝努里( Bernoulli )分布,并有 •累积函数F(y):变量小于等于y的所有可能取值的概率之和
•理论次数:对于任意y,理论次数=nP(y)
•
•的泰勒展开式为:
• 可以看到,上式右边的每一项即为二项分布中变量y 取0、1、2、…、n时的概率,又p+q=1,从而 (p+q)n=1
•
•事件间的关系
•A
•积事 件AB
•B
•和事件A+B
•A+B, “或A发生,或B发生”。 •AB, “A和B同时发生或相继发生”
•A
•B
•互斥事件
•A·B=V,事件A和B互斥或互不相容
•A
•B
•对立事件
•A+B=U,A·B=V,事件B为事件A的对立事件,并记B为
•
二、概 率
研究随机试验,仅知道可能发生哪些随机事件是不够的,还需了解各种随机事 件发生的可能性大小,以揭示这些事件的内在的统计规律性,从而指导实践。
•
(二)随机试验与随机事件
1、随机试验 通常我们把根据某一研究目的 , 在一定条件下对自然现象 所进行的观察或试验统称为试验(trial)。
而一个试验如果满足下述三个特性 , 则 称 其 为 一个 随机试 验(random trial),简称试验:
•
(1)试验可以在相同条件下多次重复进行; (2)每次试验的可能结果不止一个 ,并且事先知道会有哪 些可能的结果; (3)每次 试验总是恰好出现这些可能结果中的一个 ,但在 一次试验之前却不能肯定这次试验会出现哪一个结果。 例如小麦发芽试验,抛硬币。
•概率 •也可用函数f(y)表述,称为概率函数。
•
• 前面例1、例2中的y就是离散型随机变量,将其可能取值与对应
概率一一列出,即为:
•常用概率分布表或概率分布图表示
•
• 离散型变量概率的分布函数:离散型变量概率的向上
累积。其公式为
,即随机
变量小于等于某一可能值(x0)的概率。
•
离散型概率分布的例子
田间试验与统计方法第 四章理论分布和抽样分
布
2024年10月3日星期四
一、事 件
(一)必然现象与随机现象
• 必然现象(inevitable phenomena)或确定性现象(definite phenomena):
•
结果可预言,确定的,必然的,可重复
•
例,标准大气压下,水加热到100°C必然沸腾
• 随机现象(random phenomena )或不确定性现象(indefinite phenomena):
•一、二项总体及二项式分布 •二、二项式分布的概率计算方法 •三、二项式分布的形状和参数 •四、多项式分布
•
•一、二项总体及二项式分布
•二项总体(binary population),就是非此即彼的两项构成的总 体. • •例:小麦种子发芽和不发芽,
• 大豆子叶色为黄色和青色, • 调查棉田危害分为受害株和不受害株等等。
小于300kg的概率为0.1。
•
•则用变量y的取值范围来表示的试验结果为
•
P(y≤300)=0.10,
•
P(300<y≤500)=0.65,
•
P(y>500)=0.25。
•
•随机变 量
•离散型
•连续型
(与我们前面所讲的连续型数据和离散型数据的意义一样)
•
•(一) 离散型随机变量 ----当试验只有几个确定的结果,并 可一一列出,变量y的取值可用实数表示,且y取某一值时,其 概率是确定的,这种类型的变量称为离散型随机变量。 • • 将这种变量的所有可能取值及其对应概率一一列出所形成 的分布称为离散型随机变量的概率分布:
• 随机变量是指随机变数所取的某一个实数值。表示随机现象 结果的变量,也就是在随机试验中被测定的量,所取得的值称 为观察值。
• 例1:抛硬币试验,两种结果:
•
用数“1”表示“币值面向上”, “0”表示“国徽面向上”
•
把 0,1作为变量y的取值
•
• 可以简单地把抛硬币试验用取值为0,1的变量来表示:
•
•
•[例4.1] • 棉田盲危害的统计概率乃从调查2000株后获得近似值 p=0.35。现受害株事件为A,其概率为p=0.35,未受害株事 件为对立事件,其概率q=(1-0.35)=0.65。
•
• 如调查5株为一个抽样单位,即n=5,则受害株数y=0, 1,2,3,4和5的概率可以计算出来,
•和其累计函数
– 随机事件A的概率:0<P(A)<1 – 必然事件W的概率为1,即P(W)=1 – 不可能事件(V)的概率为0,即P(V)=0 – 概率接近于0(如P<0.05)的事件称为小概率事件。
•
•第二节 概率分布
•
(probability distribution)
•一、随机变量 •二、概率分布
•
•一、随机变量(random variable)
•概率是曲线下面积 !
•f(x)
•X •a •b
•概率密度曲线f (x)与x轴所围成的面积为•1
分布函数(或称为累积分布函数)是随机变量X取得小于 x0的值的概率
•
概率密度函数图和概率分布函数图
•y=p(x)
y=
F(x)
•x
•x
1
2
•概率密度函数图
•
或
•概率分布曲线
•x
•x
1
2
概率分布函数图
或
累积分布函数图
•
2、随机事件
随机试验的每一种可能结果,在一定条件下可 能 发 生 ,也 可 能 不 发生,称为随机事件(random event),简称 事 件
(event),通常用A、B、C等来表示。
(1)基本事件
我 们 把 不 能 再 分的事件称为基本事件(elementary event ) , 也 称 为 样本点(sample point)。
,
• 则 称y为连续型随机变量(continuous random variate),
•
f(y)称为y的概率密度函数(probability density function)或分布密度(distribution density)
。
• 上述例3中的y就是一个连续型随机变量。
•
概率密度的图形f (x),称为分布曲线。
P(y=1)=0.5,P(y=0)=0.5
•
•
•例2:用“1”表示“能发芽种子”,其概率为p;用“0”表示 “不能发芽种子”,其概率为q。 •显然 p+q=1, •则 P(y=1)=p,P(y=0)=q=1-p。
•
•例3:用变量y表示水稻产量,若y大于500kg的概率为
0.25,大于300kg且等于小于500kg的概率为0.65,等于
• 二项总体的抽样试验具有重复性和独立性. ➢ 重复性是指每次试验条件不变,即在每次试验中“此
”事件出现的概率皆为p.
➢ 独立性是指任何一次试验中“此”事件的出现与其余 各次试验中出现何种结果无关.
•
•二、二项式分布的概率计算方法
•数学上的组合公式为:
•
•二项式中包含两项,这两项的概率为p、q,并且p+q=1 ,可推知变量y的概率函数为:
•
(3)不可能事件
我们把在一定条件下不可能发生的事件称为不可能事件( impossible event),用ф表示。其概率为0
例,没有生活能力的种子播种后会出苗,就是一个不可能事件。 •必然事件与不可能事件实际上是确定性现象,即它们不是随机 事件, 但 是 为了方便起见,我们把它们看作为两个特殊的随机 事件。
•P(x1<x<x2)=F(x2)-F(x1)
•
连续型随机变量概率分布的性质:
分布密度函数总是大于或等于0,即f (x)≥0; 当随机变量x取某一特定值时,其概率等于0;
即 (c为任意实数)
因而,对于连续型随机变量,仅研究其在某一个区间
内取值的概率,而不去讨论取某一个值的概率。
•
•第三节 二项式分布
•这里的0.05或0.01称为小概率标准,农业试验研究中通常使用 这两个小概率标准。
•小概率事件实际不可能性原理是统计学上进行假设检验(显著 性检验)的基本依据。
•
•(四) 概率的性质 概率是事件在试验结果中出现可能性大小的定量计量。它
是度量随机事件发生的可能性的统计学指标。 是事件固有的属性,有以下明显的性质:
古典概型必须满足以下条件:
– 随机试验的全部可能结果(基本事件数)是有限的; – 各基本事件间是互不相容且发生是等可能的。
定义:
P(A)=m / n m为事件A中所包含的基本事件数 n为基本事件总数。
•
•例,在1、2、3、…20这20个数字中随机抽取1个 ,求下列事件的概率 •(1)A=“抽得1个数字小于5” •(2)B=“抽得1个数字是2的倍数”
•
例如,在编号为1、2、3、…、20 的数字中随机抽取1个,有20 种不同的可能结果:
“ 取 得 一 个 编 号 是 1” 、 “ 取得一个编号是2”、…、“取得一个编号 是10”,这10个事件都是不可能再分的事件,它们都是基本事件。
由若干个基本事件组合而成的事件称为 复合事件 (compound event)。
•
•通常将二项总体中的“此”事件以变量“1”表示,具概率p
;
•将“彼”事件以变量“0”表示,具概率q。
•
•如果从二项总体进行n次重复抽样,设出现“此”的次数为 y,那么y的取值可能为0、1、2、…、n,共有n+1种可能 取值,这n+1种取值各有其概率,因而由变量y及其概率就 构成了一个分布,这个分布叫做二项式概率分布, •简称二项分布( binomial distribution )。B(n,p)