数学建模中可能用到的概率知识

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


期望和方差
随机变量X的期望就是平均值的意思,记作EX或
EX xp( x)dx


方差
DX ( x EX ) p( x)dx
2

总体均值(方差)与样本均值(方差)的关系:
1 n Ex Exi EX n i 1
1 Dx 2 n DX Dxi n i 1
路政部门的问题:多长时间进行一次灯泡的全部更换? • 换早了,很多灯泡还没有坏; • 换晚了,要承受太多的罚款。
8
2. 数据的整理和描述
• • • • 数据的收集和样本的概念 数据的整理、频数表和直方图 统计量 MATLAB命令
9
数据的收集
• 银行随机选了50名顾客进行调查 • 测量每个顾客感觉舒适时的柜台高度(单位:厘米)
13
直方图(histogram):频数分布图
12
10
8
6
4
2
0 90
95
100
105
110
115
120
125
130
135
140
柜台高度直方图
14
平均值
频数表和直方图给出某个范围的状况,
无法直接给出具体值,如确定柜台具体高度 平均值 (mean,简称样本均值)定义为
1 n x xi n i 1
序号
甲班 乙班
17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
69 86 88 78 79 68 88 87 55 93 79 85 90 53 99 81 85 73 90 77 81 82 82 80 86 83 77 78
现象1:甲班平均值:82.75分,乙班平均值:81.75分
1 n s [ ( xi x ) 2 ]1 / 2 n 1 i 1 1 n s1 [ ( xi x ) 2 ]1/ 2 n i 1
甲班的标准差为10.98分,乙班的标准差为3.98分, 表明甲班成绩的分散程度远大于乙班。 统计量:由样本加工出来的、集中反映样本数量特 征的函数。
x 1 e , x0 p( x) 0, 其他
EX , DX
2
27
相应的密度函数
U(0,2) 0.5 0.4 0.3
U(1,5)
0.2
0.1
0 -1
0
1
2
3
4
5
6
0.5 0.4 0.3 0.2 0.1 0 Exp(4) Exp(2)
0
2
4
6
8
10
28
F ( x) P( X x)


p( x)dx
F () 0, F () 1
P{a X b} F (b) F (a)
dF p ( x) dx
24
示例
0.24
p(x)
90
95
100
105
110
115
120
125
130
135
140
25
EX xp( x)dx
100.05 104.75 109.45 114.15 118.85 123.55 128.25 132.95 137.65
4
3
6
8
12
5
4
2
2
作用:推测出总体的某些简单性质。 如上表表明选择柜台高度在107.10至125.90的有31人, 占总人数的62%,柜台高度设计在这个范围内,会得到 大多数顾客的满意。
常用的概率分布
2分布(Chi square):
2
第二类:数理统计(抽查) 全部产品中随机抽取100件,发现2件次品
随机调查了200位居民,得到月平均支出为788元 次品率:2%;月平均支出788元
优点:调查、收集的数据量小,经费投入小,适合 不允许全部检验的产品,如灯泡、电器的寿命等 缺点:结果是随机的,是否可信? 任务:怎样用它来估计整体的状况(全部产品的 次品率,全体居民的月平均支出)
常用的概率分布
正态分布(Norm distribution):
p ( x)
0.4 0.3 0.2 0.1 0 -6 N(0,22) -4 -2 0 2 4 6
29
X ~ N ( , 2 )
(x )2 exp( ) 2 2 2 1
EX ,
DX 2
N(0,1)
标准 正态 分布
n 1
V (n) [(b a)r (a c)(n r )] f (r ) [(b a)n] f (r )
r 0 r n
7
实例2:路灯更换策略
路政部门: 路灯维护 条件: 需要专用云梯车进行线路检测和更换灯泡; 向相应管理部门提出电力使用和道路管制申请; 向雇用的各类人员支付报酬等 更换策略: 整批更换 管理部门:不亮灯泡,折合计时进行罚款。
大学数学实验
Mathematical Experiments 实验10 数据的统计与分析
谢金星
清 华 大 学 数 学 科 学 系
办公室:理科楼1202# 电话:62787812 E-mail: jxie@math.tsinghua.edu.cn http: //faculty.math.tsinghua.edu.cn/~jxie
1
数据的统计与分析的两类方法
第一类:一般意义的统计(普查)
对生产的全部1000件产品逐一检验,发现18件次品 对全区居民逐一调查,得到月平均支出为828元 次品率:1.8%;月平均支出为828元
优点:结果完全确定,可信 缺点:调查、收集的数据量可能很大,经费投入大; 有些产品不允许全部检验,如灯泡、电器的寿命等
注意事项
[n,y]=hist(x)中 k取缺省值10 同上
std(x)
var(x) skewness(x)
标准差
方差 偏度 峰度
同上
同上 同上 同上
标准差s
方差s2 偏度g1 峰度g2
std(x,1): s1
var(x,1): s12
kurtosis(x)
20
示例
求银行柜台高度的频数表、直方图及均值等统计量:
需求 量 100 — 120 — 140 — 160 — 180 — 200 — 220 — 240 — 260 — 280 —
天数
3
9
13
22
32
35
20
15
8
2
设a=0.8元,b=1元,c=0.75元,为报童提供最佳决策
6
实例1:报童的利润(续)
分析:每天报纸需求量随机,报童每天利润也随机; 以每天平均利润最大为目标,确定最佳决策。 数学模型近似: 每天需求为r的天数所占的百分比,记做f(r); 如200(-219)份所占的百分比为35/159=22% 决策变量:报童每天购进报纸的份数n 平均利润:V(n)
输出图和下列结果:
N = 4 4 3 6 8 12 5 4 2 2 Y= 95.3500 100.0500 104.7500 109.4500 114.1500 118.8500 123.5500 128.2500 132.9500 137.6500 x1 = 115.2600,x2 =116.5000 x3 =47,x4 =10.9690 x5 = -0.0971,x6 =2.6216
35.69% 20.14% 17.50 %
比较直观,比较清晰的结论 21—50岁的中青年患者大约占总发病人数的 3/4, 提醒民众中青年是易感人群。
12
频数表
将数据的取值范围划分为若干个区间,统计这组数据在 每个区间中出现的次数,称为频数,得到一个频数表。 柜台高度频数表
中点 95.35 频数 4
21
3. 随机变量的概率分布及数字特征
• • • • • 频率与概率 概率密度与分布函数 期望和方差 常用的概率分布 MATLAB命令
22
频率与概率
频率: 样本数据在一个确定区间(a, b] 的频数k与样 本容量n的比值
k f ( a X b) n
保证抽取样本的随机性和独立性: 样本容量无限增大时,频率会趋向一个确定值; 这个值称为随机变量 X 落入区间(a,b]的概率 (Probability), 记作
一组相互独立的、同分布的随机变量。
11
数据的整理
北京地区SARS患者的统计数据(截至2003年5月5日)
10岁以 11-20 年龄 下 岁 145 人数 24 比例 1.27% 7.64% 21-30 岁 677 31-40 岁 382 41-50 岁 332 51岁以 总数 上 337 1897 17.77% 100 %
19
MATLAB数据描述的常用命令
命令 [n,y]=hist(x,k) hist(x,k) mean(x) median(x) range(x) 名称
频数表 直方图 均值 中位数 极差
输入
x: 原始数据行向量 k:等分区间数 同上 x: 原始数据行向量 同上 同上
输出
n: 频数行向量 y: 区间中点行向量 直方图 中位数 极差
三类统计量:位置,变异程度,分布形状
18
表示位置的还有:
统计量
中位数(median):将数据由小到大排序后处于中间位置 的那个数值。 n为奇数时,中位数唯一确定; n为偶数时,定义为中间两数的平均值
表示变异程度的还有: 极差(range):x1, x2, , xn的最大值与最小值之差。 方差(variance):标准差的平方s2。 表示分布形状的: 1 n g1 3 ( xi x )3 偏度(skewness):分布对称性 ns1 i 1 1 n 峰度(kurtosis ):分布形状 g 2 4 ( xi x ) 4 ns1 i 1
P(a X b)
23
概率密度与分布函数
对于连续随机变量
P(a X b) p( x)dx
a b
概率密度函数(Probability density function,简称 概率密度) : p ( x) 0 p( x)dx 1 概率分布函数(Cumulative distribution function, x 简称分布函数)
124
128
115
110
• 银行怎样依据它确定柜台高度呢?
10
样本:统计研究的主要对象
• • • • 总体--研究对象的全体。如所有顾客感觉舒适的高度 个体--总体中一个基本单位。如一位顾客的舒适高度 样本--若干个体的集合。如50位顾客的舒适高度 样本容量--样本中个体数。如50
顾客群体的舒适高度~随机变量X,概率分布F(x) n位顾客的舒适高度{ xi, i= 1,…n} (样本)~相互独立的、 分布均为F(x)的一组随机变量。 样本:随机取值的一组数据;
100 110 136 97 104 100 95 120 119 99
126
118 105
113
117 95
115
114 117
108
106 109
93
110 140
116
119 121
102
127 122
122
119 131
121
125 108
122
119 120
115
112
130
116
119
134
26
源自文库
n
常用的概率分布
均匀分布(Uniform distribution) :X~U (a,b)
1 , p ( x) b a 0, x [a, b], 其他。
ab (b a) 2 EX , DX 2 12
指数分布(Exponential distribution): X~Exp ()
结 论:大致表明甲班的平均成绩稍高于乙班 现象2:甲班90分以上7人,但有2人不及格,分数分散 乙班全在73分到90分之间,分数相对集中
16
考试成绩直方图
14 18 16 12


14 12
10
8
10 8 6
6
4 4 2 2 0 40
0 40
60
80
100
60
80
100
17
标准差
描述数据的分散程度(统计上称为变异) 样本x=(x1, x2, , xn)的标准差(Standard deviation)为:
3
本实验基本内容
1. 实例及其分析 2. 数据的整理和描述 3. 随机变量的概率分布及数字特征 4. 用随机模拟计算数值积分 5. 实例的建模和求解
4
1. 实例及其分析
5
实例1: 报童的利润
报童每天购进报纸零售,晚上将卖不掉的报纸退回; 每份报纸购进价a,零售价 b,退回价c: b≥a≥c; 为获得最大利润,该报童每天应购进多少份报纸? 159天报纸需求量的情况
x 115 .26
可作为设计柜台高度的参考值
15
例:两个班的一次考试成绩
序号
甲班 乙班
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16
92 88 85 92 95 79 84 87 88 65 93 73 88 87 94 80 84 83 82 85 82 81 82 90 84 78 75 83 78 85 84 79
相关文档
最新文档