第3章概率与抽样分布

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
六、标准正态表
z
表列数字是z左边的面积
z = - 0.44
z左边的面积为0.33
- 0.44
0.33
z
表列数字是z左边的面积
z = 0.44
z左边的面积为0.67
六、标准正态表
七、双侧临界值
在标准正态曲线图下, 右方与 左方的面积和为 a ,则称 为标准正态分布概率为 a 的双侧临界值。可查表。
1. 样本频率总是围绕概率上下波动 2. 样本含量n越大,波动幅度越小,频率越接近概率。
频率与概率的关系:
调查株数(n)
5
25
50
100
200
500
1000
1500
2000
受害株数(a)
2
12
15
33
72
177
351
525
704
棉株受害频率(a/n)
0.40
0.48
0.30
0.33
查附表,当u=-0.8时,FN(26)=0.2119,说明这一分布从-∞到26范围内的变量数占全部变量数的21.19%,或者说,x≤26概率为0.2119.
九、计算
[例3] 在应用正态分布时,经常要讨论随机变数x离其平均数的差数大于或小于若干个值的概率。例如计算离均差绝对值等于小于和等于大于1 的概率为:
Section 3.3 Normal Distributions 正态分布
一、特点
正态曲线 所有正态曲线都有相同的外型 具有对称、单峰及钟形的特性。 正态曲线所代表的分布即为正态分布(normal distribution) 每一正态分布都有其平均值μ 与标准差σ
m
s
一、特点
正态曲线σ较大
总体均值 总体方差 总体标准差
六、样本均值、方差与标准差
总体均值 总体方差 总体标准差
七、样本的概率分布
统计量(为样本的函数),亦为随机变量,其概率分布称为抽样分布(sampling distribution)。 一般统计量的抽样分布,则多根据重复抽样(实验)结果来了解其概率分布。 的抽样分布 大数法则,中心极限定理
八、大数法则
Number of observations, n
三、示例
若问10头中不超过2头死去的概率为多少?则应该应用累积函数,即
三、示例
四、二项分布的期望值与标准差
期望值: E(X) = np 方差: Var(X) = np(1-p) 标准差:
Section 3.2 The Binomial Distributions 二项分布
一、二项分布设定 The Binomial Setting
固定的观察次数 n。 n 次的观察都独立,每次的观察都不会对其他观察提供任何信息。 每次的观察都只有两种可能的结果,多假设为“成功”或“失败”两种。 每次的观察“成功”的概率都一样,设定为 p。
二、二项分布 Binomial Distribution
满足二项分布设定的试验,以 X 记录 n次观察中“成功”的次数,则称 X 的分布为参数为 X 的所有可能取值为{0, 1, …, n}。 对应的概率函数为 P(X = x) = P(x)。
m = 0
面积为a/2
面积为a/2
八、单侧临界值
在标准正态曲线图下, 右方的面积为 a ,则称 为标准正态分布概率为 a 的单侧临界值。可查表。
m = 0
面积为a
[例2] 假定y是一随机变数具有正态分布,平均数 =30,标准差 =5,试计算小于26,小于40的概率,介乎26和40区间的概率以及大于40的概率。
二、随机变量
用以记录随机试验结果(outcome)的变量,称为随机变量(random variable),用大写英文字母X, Y 等代表。 随机变量X的概率分布,表达 X 的可能取值和取这些值的概率规则。
离散型和连续型随机变量
随机变量的可能取值是离散的数字,如计数型或分类型等,称为离散型随机变量(discrete random variable)。 {0, 1,…, 9} 。 20次实验中成功的次数, 二项式分布。 随机变量的可能取值是某一实数的区间,如“大于0”或“-2~2之间”等,称为连续型随机变量(continuous random variable)。 正态随机变量
三、68-95-99.7规则
正态分布有其特定的数据分布规则: 平均值为μ , 标准差为σ 的正态分布 68%的观察资料落在m 的 1σ 之内 95%的观察资料落在m 的 2σ 之内 99.7%的观察资料落在m 的 3σ 之内
0
1
2
3
-1
-2
-3
m
m+s
m+2s
m+3s
m-s
m-2s
m-3s
68% 的资料
九、计算
同理可求得:
九、计算
同理, 亦可写成:
以上 乃正态曲线下左边一尾x从-∞到 上的面积和右边一尾y从 到∞上的面积之和,亦可写成:
若观察资料数量够大,则直方图(组数适当增加)的整体形态可用一近似的平滑曲线显示。 直方图中纵轴改为次数比例,则该平滑曲线称为密度曲线(density curve)。
概率密度曲线
密度曲线的性质
曲线都在水平线上 (密度函数>=0)。 曲线下所涵盖的全部面积正好为1(所有可能性为1)。 曲线下任何范围所涵盖的面积,为观察值落在该范围的比例(概率)。 密度曲线可视为是观察变量的理论分布图形。
Section 3.1 Random Variables 随机变量
事件的实际发生率称为频率。设在相同条件下,独立重复进行n次试验,事件A出现f 次,则事件A出现的频率为f/n。 概率:随机事件发生的可能性大小,用大写的P 表示;取值[0,1]。
一、频率与概率frequency and probability
九、计算
Section 3.4 Sampling Distributions 抽样分布
一、总体与样本 population and sample
总体:根据研究目的确定的同质研究对象的全体(集合)。分有限总体与无限总体
样本:从总体中随机抽取的部分研究对象
二、总体容量与样本容量 population size and sample size
也可以简写为
九、计算
相应地,离均差绝对值等于小于2 、等于大于2 、等于小于3 和等于大于3 的概率值为:
九、计算
[例4] 计算正态分布曲线的中间概率为0.99时,其y或u值应等于多少?
因为正态分布是对称的,故在曲线左边从-∞到- u的概率和在曲线右边从u到∞的概率都应等于 1/2(1-0.99)=0.005。 查表,u=-2.58时, fN(x) =0.00494≈0.005。 于是知,当 ±2.58时,在其范围内包括99%的变量,仅有1%变量在此范围之外。上述结果写作:
参数:总体的统计指标,如总体均数、标准差,采用希腊字母分别记为μ、σ。固定的常数
总体
样本
抽取部分观察单位
统计量
参 数
推断inference
统计量:样本的统计指标,如样本均数、标准差,采用英文字母分别记为 。 参数附近波动的随机变量 。
五、总体均值、方差与标准差
八、大数法则
由具有有限(finite)平均数 m 的总体随机抽样,随着样本容量的增加,样本平均数 越接近总体的均数 m 。 样本平均数的这种行为称为大数法则(law of large numbers)。
以 代表样本容量为 n 的资料平均数,逐渐增加样本容量,将 n 及对应的 图示如后。
首先计算:
先将x转换为u值
九、计算
同理可得: FN(40)=0.9773
所以:P(26<x≤40)=FN(40)-FN(26)=0.9773-0.2119 = 0.7654
P(x>40)=1-P(x≤40)=1-0.9773 =0.0227
总体容量(N):总体中所包含的个体数目。根据N大小,总体分有限总体和无限总体
样本(n):从总体中随机抽取的部分研究对象
三、随机抽样 random sampling
为了保证样本的可靠性和代表性,需要采用随机的方法抽取样本(在总体中每个个体具有相同的机会被抽到)。
四、参数与统计量 parameter and statistic
四、连续型随机变量的概率密度
随机变量X的一切可能取值的完备组中,各可能取值xi与其相对应的概率pi乘积之和 描述随机变量取值的集中程度 计算公式为
五、随机变量的数学期望
随机变量X的每一个取值与期望值的离差平方和的数学期望,记为D(X) 描述离散型随机变量取值的分散程度 计算公式为
六、随机变量的方差
四、变量标准化(Standardization)
五、标准正态分布
变量 X 服从平均值为 μ ,标准差为 σ 的正态分布,简记为 X ~ N(μ, σ 2)。 X 经过标准化后为 Z (=(X-μ)/ s ),则 Z 也服从正态分布,并且平均值为 0 ,标准差为 1,即Z ~ N(0, 1)。我们称 Z 服从标准正态(standard normal)。
[例1] 某种昆虫在某地区的死亡率为40%,即p=0.4,现对这种害虫用一种新药进行治疗试验,每次抽样10头作为一组治疗。试问如新药无疗效,则在10头中死3头、2头、1头,以及全部愈好的概率为多少?
按上述二项分布概率函数式计算
7头愈好,3头死去概率: 8头愈好,2头死去概率: 9头愈好,1头死去概率: 10头全部愈好的概率:
0.36
0.354
0.351
0.350
0.352
表 在相同条件下盲蝽象在某棉田危害程度的调查结果
一、频率与概率frequency and probability
一、频率与概率frequency and probability
小概率原理 若事件A发生的概率较小,如小于0.05或0.01,则认为事件A在一次试验中不太可能发生,这称为小概率事件实际不可能性原理,简称小概率原理。这里的0.05或0.01称为小概率标准,农业试验研究中通常使用这两个小概率标准。
95% 的资料
99.7% 的资料
三、68-95-99.7规则
四、变量标准化(Standardization)
令观察值 x 服从平均值为μ ,标准差为σ 的分布,则 x 的标准化值(standardized value)定义为 标准化值又称为 z-值(z-score)。
标准化变量 可以证明 z的平均值为0 z的标准差为1
m
s
一、特点
正态曲线的拐点
拐点落在一个σ处
拐点落在-σ处
一、特点
二、为什么这么重要
Good descriptions for some distributions of real data 身高, 体重, 考试成绩 Good approximations to the results of many kinds of chance outcomes Tossing a coin many times Many statistical inference procedures are based on normal distributions
二、随机变量
三、离散型随机变量的概率分布
X = xi
x1 ,x2 ,… ,xn
P(X =xi)=pi
p1 ,p2 ,… ,pn
列出离散型随机变量X的所有可能取值 列出随机变量取这些值的概率 通常用下面的表格来表示 P(X =xi)=pi称为离散型随机变量的概率函数
四、连续型随机变量的概率密度
相关文档
最新文档