第五章 概率与概率分布
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一节
概率的基本概念
简而言之,概率就是在某种条件下,某个事件出 现的可能性。显然,这个事件可能会出现, 也可 能不出现, 所以通常称之为 “随机事件” 。 概 率可分为两类: “后验概率” 与 “先验概率” 。
一、 后验概率
后验概率(或统计概率)是指通过实际观测,根 据在总观测次数中某事件所出现的次数来计算该 事件出现的概率,这种概率其实是一个相对频率, 是实际概率的估计值。
就不用一一计算了,只要把观测值换算成标准分,
然后查正态分布表即可得到答案。
三、 正态分布表的用法 1.由Z值查A值 (1)查某Z值与平均数之间的面积。 先在第一列找到要查的Z值, 其后的数值即是该Z 值值与平均数之间所夹的面积。例如:
(2) 查某Z值以上或以下的面积(即该Z值所截去 的尾 巴的面积)。 由于表中A值为某Z值与平均数之间的面积,而平 均数以上或以下(即平均数右侧或左侧)的面积 各占曲线下总面积的一半,所以,在按照上述方 法查到A值之后,还要进行一些简单的计算: 求某Z值以上的面积时,如果Z为正值, 用0.5减 去A值就可得到, 如果Z为负值,则要用A值加上 0.5平均数右侧的面积)才能得到;求某Z值以下 的面积时,如果Z为正值,用A值加上0.5就可得 到, 如果Z为负值, 则要用0.5平均数左侧的 减 去值才能得到。
(4)在曲线下, 从任一标准差 (整数或小数均 可) 作垂线, 截取的 “尾巴”所占总面积的比 例都可以精确地计算出来。任一标准差与平均数 之间的面积也可以精确地计算出来。任何两个标 准差之间的面积也是固定的。正态曲线下的总面 积为1, 因而任一面积与总面积之比 (即该面积 本身)可以视为随机变量的值出现的概率。当直 方形的宽度(即分组区间)相等时,各直方形的 面积与相应的分组区间的数值的次数或频率也是 成比例的,而数值出现的次数与总次数之比就是 数值出现的概率。
分析:求每个等级的人数,首先要计算每个等级 在正态分布中的面积或概率,然后乘以总人数即 可得到各等级的人数。在讨论正态分布的特征时 我们看到,正负三个标准差基本上包括了正态曲 线下所有的面积,因此我们可以将6个标准差除以 等级的个数5,就可以把整个面积等分成5个部分。
计算: 第一步:将6个标准差除以等级的个数5,得 1.2个标准差,即平均每一等级约包含1.2个标 准差或Z分数。这5个等级为:
第二节
随机变量及其概率分布
随机变量是指在实验中受随机(或偶然)因素的 影响,其取值无法进行准确预测的变量。譬如, 我们要随机选取一些学生,来调查其家庭的人口 数, “人口数” 是一个随机变量, 因为它可以 取这一个值, 也可以取那一个值, 究竟取哪一个 值完全是偶然的, 无法碗切地预测, 这要等到实 验 (实际抽取)之后才能得知。我们可以用某种 方法对随机变量可取数值的概率分布进行描述, 这就是随机变量的概率分布。
SK —偏态量数 M—算术平均数; Mo—众数; Md—中数。 如果SK为正值,则分布为正偏态,如果SK为 负值,则分布为负偏态,如果SK的值为零,则分 布为正态。
小
结
显然,这个事件可能会出现, 也可能不出现, 所 以通常称之为 “随机事件” 。 概率可分为两类: “后验概率” 与 “先验概率” 。随机变量是指 在实验中受随机(或偶然)因素的影响,其取值 无法进行准确预测的变量。正态分布也叫正态曲 线,有时也称作高斯分布或高斯曲线。正态分布 其实是次数分布的其中一种,但是它在统计学中 (尤其是推断统计中)具有特殊的重要性。正态 分布理论和正态分布表在语言研究中有着重要的 实用份值。
标准差与正态曲线下的面积的对应关系见图5.2
二、 正态分布表 由于任何形态的正态分布都可以转换成标准正态
分布,我们就有可能依据标准正态分布编制一个
通用的表,列出与各Z值相对应的正态曲线下的面 积(或概率),这就是正态分布表(附表2)。当 我们想知道一个正态分布中的某个观测值所对应 的面积时,或者已知面积,求相对应的观测值时,
一般用A代表随机事件 (例如 “全体学生中的男 生” ) ,用P代表频率 (概率估计值) ,或用n 表示观测的次数,用m表示事件出现的次数, 则
(5.1) 二、 先验概率 当可能出现的情况 (叫做 “基本事件” ) 是有 限的, 而且其出现的可能性相等时, 所计算的概 率称为 “先验概率” 或 “古典概率” (无需经 过实际观测)。用n表示基本事件的总数,用m表 示事件A所包括的基本事件, 用P代表概率,则 (5.2)
3.等级评定前确定各等级或档次的人数 我们在按照某种能力指标、考试分数等对学生评 定等级或分档时,为了保证各等级人数分布合理, 可以利用正态分布的理论,计算出各等级或档次 应该包含的人数。 例1 如果100个学生的能力服从正态分布,要把他 们分成5个等级(A,B,C,D,E),求每个等级应该包 含的人数。
0.5 -0.05=0.45,查表得Z=-1.64 (表中面积
为0.44950)。
(3)已知正态曲线下中央部分的面积,求两侧分 界点的值。由于分布曲线是对称的,两侧的Z值其 实是一样的,只是符号不同而已,所以只查一侧 的Z值即可。由于表中列出的只是平均数与一侧Z 值之间的面积,所以查表之前,要先用2去除中央 部分的面积。例如:求中央部分面积为0.68的两侧 分界点的Z值:
方法之四是比较算术平均数、众数与中数。从正
态分布的特征可知,在正态分布中这三个数值完
全相同,在正偏态分布中,平均数高于中数和众 数,而在负偏态分布中,平均数则低于中数和众 数,因此通过比较它们的接近程度,就可以知道 数据的分布是否呈正态分布。根据三者之间的关
系,皮尔逊提出了一个偏态量数公式:
式中
0.68/2=0.34,查表得Z=±1.00(表中面积为 0.34134).
四、正态分布理论的实际应用
正态分布理论和正态分布表在语言研究中有着重 要的实用份值。 下面是一些主要的应用示例。 1.选拔与淘汰
在包括外语教学在内的各类教育中,我们都面着 对学生进行选拔和淘汰的问题,如高考时选拔考 生、教学中选拔优等生或淘汰差生等等。在所有 这些工作中,正态分布的理论都能给予我们有益 的指导。
第五章 概率与概率分布
第一节
概率的基本概念
来自百度文库
一、后验概率 二、先验概率 第二节 随机变量及其概率分布 第三节 正态分布 一 、正态分布的特征 二、正态分布表 三、正态分布表的用法 四、正态分布理论的实际应用 五、检验分布是否为正态的方法
在语言实验研究中,我们通常选取研究对象的一 部分(即样本)加以研究, 在此基础上, 通过推 断统计对所有的研究对象 (即总体) 的情况作出 推断。在进行这种推断时,我们不仅要指出总休 可能是什么情况,而且还要指出我们进行这种推 断的把握程度有多大,或者总体出现这种情况的 可能性有多大, 这个 “可能性” 就是概率。 因 此, 要学好推断统计, 就要对概率这一概念有所 了解。
一、 正态分布的特征 正态分布主要具有以下几个特征: (1)其形状如钟, 中央点 (最高点) 为平均数 点, 整个分布以过该点的垂线左右对称,横坐标 代表标准差,即横坐标上各点表示离开平均数的 标准差单位数,曲线两端向靠近横坐标处无限延
伸,但永远不能与之相交(见图5.1)
(2)在正态分布的中央点,平均数、中数与众数 相等或重合(见图5.1)。 (3)正态曲线完全是由平均数和标准差两个参数 碗定的。有了这两个值,就可以利用正态分布的 密度函数绘出正态曲线。当随机变量的平均数与 标准差的值不同时,正态分布就会呈现不同的形 态。在平均数相同的情况下,标准差大的正态曲 线低平宽阔,而小的则高尖狭窄。但是我们可以 把一个正态分布里的观测值换算成标准分 (见第 四章),即把原来的随机变量转换成一个标准正 态变量,这样就可以把各种不同形态的正态分布 转换成标准正态分布。
第三节
正态分布
正态分布也叫正态曲线,有时也称作高斯分布或 高斯曲线。正态分布其实是次数分布的其中一种, 但是它在统计学中(尤其是推断统计中)具有特 殊的重要性。首先,在自然界、现实生活以及我 们的语言研究中,许多现象或特征都是呈正态分 布。 就统计工作本身来讲,正态分布具有一些特 殊的数学特征,使得我们能够预测总体中多大比 例的个体将会在一定范围内取正态分布的变量的 某些值,此外,一些重要的差异显著性检验也要 求所涉及的变量呈正态分布(见第七章)。
偏态值就是分布的偏刹程度的指标,正值表示分 布为正偏态,负值表示分布为负偏态,如果其值 为0,则表示分布为正态。峰值表示分布曲线的顶 点尖峭的程度,正值表示分布曲线较尖,称“尖 峰态”,负值表示分布曲线较平,称为“低峰 态”,如果其值为0,则表示分布曲线为正态(见 图5.4)计算偏态值与峰值的公式为
(3)求两个Z值之间的面积。
求两个Z值之间的面积时也要进行一些运算。例如: 求Z=1.00和Z=2.00之间的面积。 查表得:Z=1.00时,A=0.34134,Z=2.00时,则 A=0.47725 Z=1.00和Z=2.00之间的面积应为 0.47725-0.34134=0.13591
2.由A 值查Z值 (1)已知平均数与某Z值之间的面积A,查与之 对应的Z值。
只要在标有A的一列里找到该面积值,其前的数值 即是对应的Z值。如果已知的面积在表里没有列出, 则用表里与之最接近的面积值。如果不知道该面 积是平均数以上还是以下的面积,则查出的Z值可
能是正值,也可能是负值。例如:
已知平均数以上的面积A=0.067,Z=0.17(表中面 积为0.06749);已知平均数以下的面积A=0.35, Z=-1.04 (表中面积为0.35083)
第二步:查表求对应于每一等级的而积或概率:
第三步:用各等级的面积乘以总人数100,得各等 级应该包含的人数(应四舍五入取整数,如果各 等级的人数之和与总人数有出入,则在中间一个 等级调整):
五、检验分布是否为正态的方法 对于一组数据是否为正态分布,可以用多种方法 进行检验。 方法之一是绘制直力一图或多边图,这样就可以 非常直观地看出数据分布的形态是否大休对称或 呈单众数分布。 方法之二是比较理论分布与实际分布中各标准差 之间的而积或概率。 方法之三是计算数据分布的偏态值和峰值。如果 分布的形态不是对称的,而是偏向一边,称为 “偏态”。如果偏向左边,即低数值的次数偏高, 称为“正偏态”反之,则称为“负偏态’(见图 5.3)。
(2)已知正态分布两端的面积值,求该面积的分 界点的值。由于表中所给面积为平均数与值之间 的面积,因而查表时不能直接用两端的面积,而 是要用0.5减去两端的面积,然后再查表求Z值。 例如:求分布曲线右端面积为0.025的分界点的 值:
0.5 -0.025=0.475,查表得Z=1.96; 求分布曲线左端面积为0.05的分界点的Z值:
2.考试后分数的分档
在各类教育评估中,都会遇到对分数或能力进行 分档的问题,例如在考试后,往往要统计每个分 数段的人数。当考生人数比较少时,直接数一数 就可以了,但是对于大规模的考试(例如涉及数 以千计、数以万计的考生),这一做法显然不太 经济有效。这时,如果考试的平均分和标准差已 知,利用正态分布表就可以估计出各分数段的人 数。该人数为理论值,它与实际人数是比较接近 的。