统计学基础
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
26
离散型随机变量的概率分布模型
超几何分布
描述每次实验只有两种可能特征,(通常称为”成功 “失败”),不同实验相互影响,在n次实验中成功 的次数为x次的概率函数为:
P(x)
C C x n x S NS
C
S N
n:样本量 N:总体数量 S:总体中成功的数量
累积概率为:
P( x X )
与茎叶图对应的频数和相对频数分布
18
连续型随机变量频数分布图形描述
直方图
频数
电阻的直方图
9
8
7
6
5
4
3
2
1
0
580
590
600
610
620
630
640
电阻
19
频数分布的数学模型
根据以下的方式可以推导出随机变量频数分布所遵循的数学模型: 数学精确推导 大样本观察 模拟
随机变量频数分布的数学模型为随机变量所服从的概率分布模型。 典型的离散型随机变量的概率分布模型如下:
事件的概率
9
事件的概率
设有1000件产品,其中850件是正品,150件是次品,从中依 此抽取2件,2件都是次品的概率是多少?
A1为第一次抽到次品,A2为第二次抽到次品,则:
150 P( A1)
1000
149 P( A2 | A1)
999
运用乘法法则可得
150 149
P( A1A2) P( A2 | A1) P( A1)
二项分布 泊松分布 超几何分布 典型的连续型随机变量的概率分布模型如下: 正态分布 均匀分布 指数分布 对数指数分布 威布尔分布
20
概念回顾
通常主要通过以下方面来描述一个分布: 形态 是属于何种分布类型? 位置或者中心趋势 反映了分布的中心或者分布数据的中点。 离散程度 反映了分布数据的变化范围。
33
连续型随机变量的概率分布模型
威布尔分布 用来对广泛的随机变量的分布进行预测:
威布尔分布由三个参数决定:
β:形状参数:反应了曲线 的模式
β=1,指数分布 β=2,对数正态分布 β=3.5,近似正态分布 η:尺度参数 γ:位置参数
34
数据正态性的检测(供参考)
可利用软件Minitab对数据的正态进行检测.
数据有顺序的组合。
Pnn n!
Pnr
n! (n r )!
组合(Combination)
数据没有顺序的组合。
C
n n
C
o n
1
C
r n
n! (n r)! r!
12
随机变量
随机变量 取值与某项实验的各种事件相关联的变量称为 随机变量,如:
抛100枚硬币出现正面向上的次数X; 电子元器件的寿命X; 加工件的直径X; 电容的耐压值X ...
随机现象的样本空间(Ω) 随机事件一切可能的样本点称为该随机事件的样本空间,记成""。 实验
对一个或多个实验单元进行一次观察或测量的过程,称为一次实验,如: 抛一次硬币,丢一次色子等。
随机事件 实验的结果称为随机事件,常用大写字母A、B、C表示。如丢色子 中出现偶点数的随机事件A={2,4,6} 随机事件的结果都存在不确定性,这种不确定性用概率来表示。
泊松分布
描述某段时间、距离、空间内某稀有事件发生次数的
概率。
ex
P( x) x!
λ:x的平均值 e=2.71828(自然常数)
累积概率为:
P( x X )
X
ex
x0
x!
2
25
离散型随机变量的概率分布模型
根据历史记录,公司平均每天请假的人数为6个, 那么在一个工作日里,整个公司请假的人数的概 率分布如下:
21
总体:关心的对象所有个 体的集合。
样本:总体的一个子集。
概念回顾
总体参数
平均值 标准差(方差) 比例(百分比)
μ σ(σ2)
P
样本统计量
X
S(S2) pБайду номын сангаас
22
离散型随机变量的概率分布模型
二项分布
描述每次实验只有两种可能特征(通常称为“成功” 和“失败”),不同实验相互独立,在n次实验中 成功的次数为X次的概率函数为:
分位值的常用的表示方法为
常用分布的重要分位值已经做好了标准表格供查询
30
连续型随机变量的概率分布模型
均匀分布 描述在区间[a,b]之间的均匀分布:
31
连续型随机变量的概率分布模型
对数正态分布 是随机变量的自然对数呈正态分布的一种分布,其 概率密度函数
32
连续型随机变量的概率分布模型
指数分布 当随机变量是非负值时所服从的一种分布(特别是 当随机变量为时间相关时),其概率密度函数为:
5
随机事件的关系
随机事件存在以下三个关系: 包含 互不相容 相等
随机事件间的运算有四种: 对立(余) 并 交 差
6
事件的概率
随机事件的概率
随机事件A发生的可能性称为事件A的概率,记为 P(A)
P(A)=
A 发 生 的 机 会 = A发生的机会
A发生的机会+A不发生的机会 总机会
7
事件的关系 互补: P( A) 1 P( A) 互斥:A,B相互排斥,P(AUB)=0 条件概率:事件B发生条件下事件A发生的条件概 率,记为P(A|B)
8
概率的两个重要法则 加法法则 P(AUB)=P(A)+P(B)-P(AB) 乘法原则 P(AB)=P(A|B)P(B)
或者 P(AB)=P(B|A)P(A)
四
3
五, 2, 10%
二, 4, 20%
五
2
六
3
四, 3, 15%
三, 6, 30%
条形图
六
饼图
16
连续型随机变量频数分布图形描述
茎叶图
收集了30个电阻的电 阻观察值如下:
电阻值
608
茎
630
610
60
636
63
637
…
604 631 610 626 602 604 636
叶 8 0
17
连续型随机变量频数分布图形描述
事件的概率
联合事件
联合:包含两种可能性:并集或者交集 事件的并集(Union of Events) 事件A或者事件B的集合,记作(AUB),P(AUB)称为A或B的概率 事件的交集(Interaction of Events) 事件A和事件B同时发生的集合,记作(A B),P(AB)称为A与B的概率
10次机器故障停机可转化为机器停机的时间间隔等。
3
测量的刻度
数据类型 测量刻度
描述
例子
二元 (Binary) 只有两个级别
离散型数据 名义刻度 仅仅分成各个类别,类别 (Nominal) 间没有顺序
顺序刻度 数据分成各个类别,类别 (Ordinal) 间有顺序
连续型数据
定距刻度 变量数据刻度,没有物理
• 0.0224
1000 999
即抽到工件都是次品的概率是2.24%
10
事件的概率
事件的独立性 两个事件中不论哪一个事件发生与否并不影响另
一个事件发生的概率,则称这两个事件相互独立 P(AB)=P(A)*P(B) 案例:放回抽样和不放回抽样
11
排列和组合
排列和组合
排列(Permutation)
X
C
x S
C
n x NS
x0
C
S N
nS
N
2 n( S )( N S )( N n )
N N N 1
27
连续型随机变量的概率分布模型
正态分布
描述左右对称的钟形分布,其模型的概率密度函数为:
x 2
f x
1
e
2 2
2
累积概率为:
X
P( x X ) f ( x)dx
人们已经把累积概率制作成标准表 格以方便查询。
(Interval)
原点,数据间的比例没有 意义
定比刻度 变量数据刻度,有物理原 (Ratio) 点,数据间的比例有意义
合格/不合格,通过/不通过 黄色/红色/橙色/绿色 非常差/差/一般/好/非常好 30摄氏度并不是比10摄氏度热3倍 30米比10米长3倍
4
相关术语
随机现象
在一定条件下,并不总是出现相同结果的现象,如: 自然现象:抛硬币,丢色子,人的身高、体重 工业现象:来料同一型号的电容的电容值,设备故障间的间隔时 间.....
随机变量分成以下两种:
连续型随机变量 离散型随机变量
13
随机变量的频数分布
相关术语: 数据借以分类的各种类别之一称之为一个类 (对于连续型随机变量为数值区间); 落在某一特定类的观察值数,称为这个类的频 数; 某个特定类的频数除以观察值总数的商称为相 对频数。
频数分布为观察值的分布
14
P( x) Cnx px 1 p nx p:单次实验中成功的概率
累积概率为:
P(x X )
X x0
Cnx p x 1 p n x
np
2 np(1 p)
23
离散型随机变量的概率分布模型
以下为抛100次硬币出现正面向上的概率分布:
24
离散型随机变量的概率分布模型
2
数据的类型
把属性数据转换为变量数据 因为变量数据能够提供更丰富的信息,所以在相
同样本量的情况下应该尽可能的得到变量数据。 在收集属性数据的时候识别把属性数据转换为变
量数据的机会,如通过收集偏离公差的多少来代 替“好”和“坏”;“喜欢”“不喜欢”可转化 为有多大程度上的不喜欢。例如:
产品表面上有10道刮痕可以通过同总的刮痕长度为 21.3cm;
统计学基础
数据属性 概率
随机变量分布
数据的属性
数据来源于对象、情景和现象。 数据被用来分类、描述、改善和控制对象、情景和现象。 有些数据可以用连续的刻度来加以区别;换言之,这种
刻度可以被合理的细分到更准确的增量,因此这种数据 被称为连续型数据(计量数据)。 但我们也可以用记数的方式来获取数据。这种数据不能 被合理的细分,只能被区分为有限的等级,因此被称为 离散型数据(计数数据)。
使用文件正态性检验.mtw 选择"Minitab>统计>基本统计量>正态性检验"并如下设置对话框:
35
数据正态性的检测(供参考)
正态分布的数据在图形上呈直线分布, 并且均匀落在蓝色直线的两旁
P≤0.05,数据不服从 正态分布;
P>0.05,没有足够 的证据说明数据不服 从正态分布
36
数据正态性的检测(供参考)
离散型随机变量 条形图 饼图
连续型随机变量 直方图 茎叶图
频数分布的图形描述
15
离散型随机变量频数分布图形描述
例子
7
抛20次色子收集 6
的点数观察值如
5 4
下:
3 2
1
0
点数 频数
一
抛20次色子的频数分布
二
三
四
五
一
2
二
4
三
6
抛20次色子的频数分布
六, 3, 15%
一, 2, 10%
茎叶图
茎叶 58 4,9 59 3,5 60 2,2,4,4,4,6,7,8, 61 0,0,0,4,5,5,8 62 1,6,9,9 63 0,1,2,6,6 64 0,1
茎叶图
频数分布 2 2 8 7 4 5 2
累积频数分部 2 4 12 19 23 28 30
相对频数 7% 7% 27% 23% 13% 17% 7%
非正态分布的例子:
37
28
连续型随机变量的概率分布模型
对于和不同的正态分布都可以通过以下转换成为标 准正态分布N(0,1):
Z x
转换后可以通过查标准正态 分布表得到累积概率.
标准正态分布也叫Z分布
29
分布的分位值(数)
分布的分位值(数)是相对位置的衡量,有以下几个重 要的分位数: 0.025分位数 0.05份位数 0.50分位数 0.95分位数 0.975分位数
离散型随机变量的概率分布模型
超几何分布
描述每次实验只有两种可能特征,(通常称为”成功 “失败”),不同实验相互影响,在n次实验中成功 的次数为x次的概率函数为:
P(x)
C C x n x S NS
C
S N
n:样本量 N:总体数量 S:总体中成功的数量
累积概率为:
P( x X )
与茎叶图对应的频数和相对频数分布
18
连续型随机变量频数分布图形描述
直方图
频数
电阻的直方图
9
8
7
6
5
4
3
2
1
0
580
590
600
610
620
630
640
电阻
19
频数分布的数学模型
根据以下的方式可以推导出随机变量频数分布所遵循的数学模型: 数学精确推导 大样本观察 模拟
随机变量频数分布的数学模型为随机变量所服从的概率分布模型。 典型的离散型随机变量的概率分布模型如下:
事件的概率
9
事件的概率
设有1000件产品,其中850件是正品,150件是次品,从中依 此抽取2件,2件都是次品的概率是多少?
A1为第一次抽到次品,A2为第二次抽到次品,则:
150 P( A1)
1000
149 P( A2 | A1)
999
运用乘法法则可得
150 149
P( A1A2) P( A2 | A1) P( A1)
二项分布 泊松分布 超几何分布 典型的连续型随机变量的概率分布模型如下: 正态分布 均匀分布 指数分布 对数指数分布 威布尔分布
20
概念回顾
通常主要通过以下方面来描述一个分布: 形态 是属于何种分布类型? 位置或者中心趋势 反映了分布的中心或者分布数据的中点。 离散程度 反映了分布数据的变化范围。
33
连续型随机变量的概率分布模型
威布尔分布 用来对广泛的随机变量的分布进行预测:
威布尔分布由三个参数决定:
β:形状参数:反应了曲线 的模式
β=1,指数分布 β=2,对数正态分布 β=3.5,近似正态分布 η:尺度参数 γ:位置参数
34
数据正态性的检测(供参考)
可利用软件Minitab对数据的正态进行检测.
数据有顺序的组合。
Pnn n!
Pnr
n! (n r )!
组合(Combination)
数据没有顺序的组合。
C
n n
C
o n
1
C
r n
n! (n r)! r!
12
随机变量
随机变量 取值与某项实验的各种事件相关联的变量称为 随机变量,如:
抛100枚硬币出现正面向上的次数X; 电子元器件的寿命X; 加工件的直径X; 电容的耐压值X ...
随机现象的样本空间(Ω) 随机事件一切可能的样本点称为该随机事件的样本空间,记成""。 实验
对一个或多个实验单元进行一次观察或测量的过程,称为一次实验,如: 抛一次硬币,丢一次色子等。
随机事件 实验的结果称为随机事件,常用大写字母A、B、C表示。如丢色子 中出现偶点数的随机事件A={2,4,6} 随机事件的结果都存在不确定性,这种不确定性用概率来表示。
泊松分布
描述某段时间、距离、空间内某稀有事件发生次数的
概率。
ex
P( x) x!
λ:x的平均值 e=2.71828(自然常数)
累积概率为:
P( x X )
X
ex
x0
x!
2
25
离散型随机变量的概率分布模型
根据历史记录,公司平均每天请假的人数为6个, 那么在一个工作日里,整个公司请假的人数的概 率分布如下:
21
总体:关心的对象所有个 体的集合。
样本:总体的一个子集。
概念回顾
总体参数
平均值 标准差(方差) 比例(百分比)
μ σ(σ2)
P
样本统计量
X
S(S2) pБайду номын сангаас
22
离散型随机变量的概率分布模型
二项分布
描述每次实验只有两种可能特征(通常称为“成功” 和“失败”),不同实验相互独立,在n次实验中 成功的次数为X次的概率函数为:
分位值的常用的表示方法为
常用分布的重要分位值已经做好了标准表格供查询
30
连续型随机变量的概率分布模型
均匀分布 描述在区间[a,b]之间的均匀分布:
31
连续型随机变量的概率分布模型
对数正态分布 是随机变量的自然对数呈正态分布的一种分布,其 概率密度函数
32
连续型随机变量的概率分布模型
指数分布 当随机变量是非负值时所服从的一种分布(特别是 当随机变量为时间相关时),其概率密度函数为:
5
随机事件的关系
随机事件存在以下三个关系: 包含 互不相容 相等
随机事件间的运算有四种: 对立(余) 并 交 差
6
事件的概率
随机事件的概率
随机事件A发生的可能性称为事件A的概率,记为 P(A)
P(A)=
A 发 生 的 机 会 = A发生的机会
A发生的机会+A不发生的机会 总机会
7
事件的关系 互补: P( A) 1 P( A) 互斥:A,B相互排斥,P(AUB)=0 条件概率:事件B发生条件下事件A发生的条件概 率,记为P(A|B)
8
概率的两个重要法则 加法法则 P(AUB)=P(A)+P(B)-P(AB) 乘法原则 P(AB)=P(A|B)P(B)
或者 P(AB)=P(B|A)P(A)
四
3
五, 2, 10%
二, 4, 20%
五
2
六
3
四, 3, 15%
三, 6, 30%
条形图
六
饼图
16
连续型随机变量频数分布图形描述
茎叶图
收集了30个电阻的电 阻观察值如下:
电阻值
608
茎
630
610
60
636
63
637
…
604 631 610 626 602 604 636
叶 8 0
17
连续型随机变量频数分布图形描述
事件的概率
联合事件
联合:包含两种可能性:并集或者交集 事件的并集(Union of Events) 事件A或者事件B的集合,记作(AUB),P(AUB)称为A或B的概率 事件的交集(Interaction of Events) 事件A和事件B同时发生的集合,记作(A B),P(AB)称为A与B的概率
10次机器故障停机可转化为机器停机的时间间隔等。
3
测量的刻度
数据类型 测量刻度
描述
例子
二元 (Binary) 只有两个级别
离散型数据 名义刻度 仅仅分成各个类别,类别 (Nominal) 间没有顺序
顺序刻度 数据分成各个类别,类别 (Ordinal) 间有顺序
连续型数据
定距刻度 变量数据刻度,没有物理
• 0.0224
1000 999
即抽到工件都是次品的概率是2.24%
10
事件的概率
事件的独立性 两个事件中不论哪一个事件发生与否并不影响另
一个事件发生的概率,则称这两个事件相互独立 P(AB)=P(A)*P(B) 案例:放回抽样和不放回抽样
11
排列和组合
排列和组合
排列(Permutation)
X
C
x S
C
n x NS
x0
C
S N
nS
N
2 n( S )( N S )( N n )
N N N 1
27
连续型随机变量的概率分布模型
正态分布
描述左右对称的钟形分布,其模型的概率密度函数为:
x 2
f x
1
e
2 2
2
累积概率为:
X
P( x X ) f ( x)dx
人们已经把累积概率制作成标准表 格以方便查询。
(Interval)
原点,数据间的比例没有 意义
定比刻度 变量数据刻度,有物理原 (Ratio) 点,数据间的比例有意义
合格/不合格,通过/不通过 黄色/红色/橙色/绿色 非常差/差/一般/好/非常好 30摄氏度并不是比10摄氏度热3倍 30米比10米长3倍
4
相关术语
随机现象
在一定条件下,并不总是出现相同结果的现象,如: 自然现象:抛硬币,丢色子,人的身高、体重 工业现象:来料同一型号的电容的电容值,设备故障间的间隔时 间.....
随机变量分成以下两种:
连续型随机变量 离散型随机变量
13
随机变量的频数分布
相关术语: 数据借以分类的各种类别之一称之为一个类 (对于连续型随机变量为数值区间); 落在某一特定类的观察值数,称为这个类的频 数; 某个特定类的频数除以观察值总数的商称为相 对频数。
频数分布为观察值的分布
14
P( x) Cnx px 1 p nx p:单次实验中成功的概率
累积概率为:
P(x X )
X x0
Cnx p x 1 p n x
np
2 np(1 p)
23
离散型随机变量的概率分布模型
以下为抛100次硬币出现正面向上的概率分布:
24
离散型随机变量的概率分布模型
2
数据的类型
把属性数据转换为变量数据 因为变量数据能够提供更丰富的信息,所以在相
同样本量的情况下应该尽可能的得到变量数据。 在收集属性数据的时候识别把属性数据转换为变
量数据的机会,如通过收集偏离公差的多少来代 替“好”和“坏”;“喜欢”“不喜欢”可转化 为有多大程度上的不喜欢。例如:
产品表面上有10道刮痕可以通过同总的刮痕长度为 21.3cm;
统计学基础
数据属性 概率
随机变量分布
数据的属性
数据来源于对象、情景和现象。 数据被用来分类、描述、改善和控制对象、情景和现象。 有些数据可以用连续的刻度来加以区别;换言之,这种
刻度可以被合理的细分到更准确的增量,因此这种数据 被称为连续型数据(计量数据)。 但我们也可以用记数的方式来获取数据。这种数据不能 被合理的细分,只能被区分为有限的等级,因此被称为 离散型数据(计数数据)。
使用文件正态性检验.mtw 选择"Minitab>统计>基本统计量>正态性检验"并如下设置对话框:
35
数据正态性的检测(供参考)
正态分布的数据在图形上呈直线分布, 并且均匀落在蓝色直线的两旁
P≤0.05,数据不服从 正态分布;
P>0.05,没有足够 的证据说明数据不服 从正态分布
36
数据正态性的检测(供参考)
离散型随机变量 条形图 饼图
连续型随机变量 直方图 茎叶图
频数分布的图形描述
15
离散型随机变量频数分布图形描述
例子
7
抛20次色子收集 6
的点数观察值如
5 4
下:
3 2
1
0
点数 频数
一
抛20次色子的频数分布
二
三
四
五
一
2
二
4
三
6
抛20次色子的频数分布
六, 3, 15%
一, 2, 10%
茎叶图
茎叶 58 4,9 59 3,5 60 2,2,4,4,4,6,7,8, 61 0,0,0,4,5,5,8 62 1,6,9,9 63 0,1,2,6,6 64 0,1
茎叶图
频数分布 2 2 8 7 4 5 2
累积频数分部 2 4 12 19 23 28 30
相对频数 7% 7% 27% 23% 13% 17% 7%
非正态分布的例子:
37
28
连续型随机变量的概率分布模型
对于和不同的正态分布都可以通过以下转换成为标 准正态分布N(0,1):
Z x
转换后可以通过查标准正态 分布表得到累积概率.
标准正态分布也叫Z分布
29
分布的分位值(数)
分布的分位值(数)是相对位置的衡量,有以下几个重 要的分位数: 0.025分位数 0.05份位数 0.50分位数 0.95分位数 0.975分位数