第一章 概率统计基础知识(3)随机变量及其分布
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二节随机变量及其分布
第二节随机变量及其分布
一、随机变量
表示随机现象结果的变量称为随机变量。常用大写字母等表示,它们的取值用相应的小写字母x, y, z 等表示。
假如一个随机变量仅取数轴上有限个点或可列的个数点 (见图1.2-1) ,则称此随机变量为离散随机变量,或离散型随机变量。
假如一个随机变量的所有可能取值充满数轴上一个区间 (a,b)( 见图1.2-2) ,则称此随机变量为连续随机变量,或连续型随机变量,其中a可以是,b 可以是+ 。
[例1.2-1]
[例1.2-1] 产品的质量特性是表征产品性能的指标,产品的性能一般都具有随机性,所以每个质量特性就是一个随机变量。例如:
(1) 设x是一只铸件上的瑕疵数,则x是一个离散随机变量,它可以取
0,1,2,…等值。
为了方便,人们常用随机变量x的取值来表示事件,如“x=0”表示事件“铸件上无瑕疵”;“x=2”表示事件“铸件上有两个瑕疵”;"x>2"表示事件“铸件上的瑕疵超过两个"等等。这些事件可能发生,也可能不发生,因为x取0,1,2 …等值是随机的。类似地,一平方米玻璃上的气泡数、一匹布上的疵点数、一台车床在一天内发生的故障数都是取非负整数 {0,1,2,3,…}的离散随机变量。
(2) 一台电视机的寿命x(单位:小时)是在[0,∞)上取值的连续随机变量。"x=0" 表示事件"一台电视机在开箱时就发生故障";"x 10000" 表示事件:"电视机寿命不超过10000 小时";"x>40000" 表示事件"电视机寿命超过40000小时"。
(3) 检验一个产品,结果可能是合格品,也可能是不合格品。设x表示检验一个产品的不合格品数,则x是只能取0或1两个值的随机变量。"x=0"表示产品是合格品,"x=1" 表示产品是不合格品。类似地,若检验10个产品,其中不
合格品数x是仅可能取0,1,…,10等11个值的离散随机变量。更一般的,在n个产品中的不合格品数x是可能取0,1,2,…,n等n+1 个值的离散随机变量。
二、随机变量的分布
二、随机变量的分布(p15-20)
虽然随机变量的取值是随机的,但其本质上还是有规律性的,这个规律性可以用分布来描述。认识一个随机变量x的关键就是要知道它的分布,分布包含如下两方面内容:
(1) x 可能取哪些值,或在哪个区间上取值。
(2) x 取这些值的概率各是多少,或x在任一区间上取值的概率是多少?
下面分离散随机变量和连续随机变量来叙述它们的分布,因为这两类随机变量是最重要的两类随机变量,而它们的分布形式是有差别的。
(一) 离散随机变量的分布
离散随机变量的分布可用分布列来表示,比如,随机变量x仅取n个值: ,随机变量取的概率为取的概率为,…,取的概率为p n 。这些可用一张表清楚地表示:
或用一个简明的数学式子表示: 作为一个分布,满足以下两个条件: 满足这两个条件的分布称为离散分布,这一组也称为分布的概率函数。
[例1.2-2 ]
[例1.2-2 ] 掷两颗骰子,点数分布的样本空间为:
考察与这个随机现象有关的一些随机变量:
(1)设x表示“掷两颗子骰子,6点出现的个数”,它的分布列为:
(2)设y表示“掷两颗子,出现的点数之和”
这些随机变量x, y 都是各从一个侧面表示随机现象的一种结果,每个随机变量的取值都是随机的,但其分布告诉我们该随机变量取每个值的概率,使人们不仅对全局做到心中有数,而且还看到了取哪些值的可能性大,x取哪些值的可能性小,比如:
x取0可能性最大,x取2的可能性最小;
y取7的可能性最大,y取2或12的可能性最小;
这些分布中的概率都可用古典方法获得,每个概率都是非负的,其和均为1。[例1.2-3]
[例1.2-3]设在10个产品中有2个不合格品,从中随机取出4个,其中不合格品数x 是离散随机变量,它仅可取0,1,2 等三个值。x取这些值的概率为 (详见例1.1-4):
具体计算后可得如下分布列:
从表中可见,事件 "x=l" 出现的机会最大。
对同样的问题,若用放回抽样,则从10个产品(其中有2个不合格品)中随机取出4个,其中不合格品数y是另一个随机变量,它可取0,1,2,3,4 等五个值。y取这些值的概率为(详见例1.1-6):
m=0,1,2,3,4
具体计算后可得如下分布列:
这个分布显示了y取哪些值概率大,哪些值概率小。还可计算有关事件的概率,比如:
例[1.2-4]
[例1.2-4]某厂生产的三极管,每100 支装一盒,记x为一盒中不合格品数,厂方经多次抽查,根据近千次抽查的记录,用统计方法整理出如下分布:
从这个分布可以看出,最可能发生的不合格品数在1到3之间,而超过5个不合格品的概率很小。实际上,这两个事件的概率分别为:
(二) 连续随机变量的分布
(二) 连续随机变量的分布
连续随机变量x的分布可用概率密度函数p(x)表示。下面以产品的质量特性x,(如加工机械轴的直径)为例来说明p(x)的由来。
假定我们一个接一个地测量产品的某个质量特性值x, 把测量得到的x值一个接一个地放在数轴上。当累积到很多x值时,就形成一定的图形,为了使这个图形得以稳定,把纵轴改为单位长度上的频率,由于频率的稳定性,随着被测质量特性值x的数量愈多,这个图形就愈稳定,其外形显现出一条光滑曲线。这条曲线就是概率密度曲线,相应的函数表达式p(x)称为概率密度函数,它就是一种表示质量特性x随机取值的内在统计规律性的函数。
概率密度函数
概率密度函数p(x)有多种形式,有的位置不同,有的散布不同,有的形状不同。这些不同的分布形式反映了质量特性总体上的差别,这种差别正是管理层应该特别关注之处。
这里应强调的是:图上的纵轴原是“单位长度上的频率”,由于频率的稳定性,可用概率代替频率,从而纵轴就成为 "单位长度上的概率",这就是概率密度的概念,故最后形成的曲线称为概率密度曲线。概率密度函数p
(x)是连续随机变量特有的概念,它有如下性质。
(1)p(x)一定位于x轴上方,即p(x) > 0。
(2)p(x)与x轴所夹的面积恰好为1,即
(3) 连续随机变量
(3) 连续随机变量x在区间[a, b] 上的取值的概率为概率密度曲线下,在区间[a, b] 上所夹的曲边梯形面积 (见图1.2-3) 。
(4) 连续随机变量x取一点的概率为零,即p(x=a)=0,因为在一点上的积分永远为零。