MATLAB 统计工具箱
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1, 大学 x4 = 0, 其它
资历每加一年薪金的增长是常数; 资历每加一年薪金的增长是常数; 管理,教育, 管理,教育,资历之间无交互作用 线性回归模型
y = a0 + a1 x1 + a 2 x2 + a3 x3 + a 4 x4 + ε
a0, a1, …, a4是待估计的回归系数,ε是随机误差 是待估计的回归系数,
年 龄 39 47 45 … 56 体重 指数 24.2 31.1 22.6 … 19.3 吸烟 习惯 0 1 0 … 0 序 号 21 22 23 … 30 血 压 136 142 120 … 175 年 龄 36 50 39 … 69 体重 指数 25.0 26.2 23.5 … 27.4 吸烟 习惯 0 1 0 … 1
管理与教育的组合 组合 1 2 3 4 5 6 管理 0 1 0 1 0 1 教育 1 1 2 2 3 3
e 与资历 1的关系 与资历x
2000 1000
e与管理 教育组合的关系 与管理—教育组合的关系 与管理
2000 1000 0 -1000 -2000
0
-1000
-2000 0 5 10 15 20
编 号 01 02 03 04 05 薪金 13876 11608 18701 11283 11767 资 历 1 1 1 1 1 管 理 1 0 1 0 0 教 育 1 3 3 2 3 编 号 42 43 44 45 46 薪金 27837 18838 17483 19207 19346 资 历 16 16 16 17 20 管 理 1 0 0 0 0 教 育 2 2 1 2 1
p
P1 0
P2 n r
MATLAB 统计工具箱常用命令(一) 统计工具箱常用命令(
命令 名称 输入 输出 [n,y]=hist(x,k) 频数表 x: 原始数据行向 n: 频数行向量 量 y: 区间中点行向 k:等分区间数 量 同上 直方图
hist(x,k) m=mean(x) s=std(x)
直方图 均值 标准差
MATLAB 统计工具箱 在数学建模中的应用
确定性模型和随机性模型
随机因素可以忽略 随机因素影响可以简单 地以平均值的作用出现 随机因素影响必须考虑 概率模型 回归模型 确定性模型
随机性模型 马氏链模型
概率模型
零售价a 零售价 (=1元) 元
例: 报童的利润
购进价b 购进价 (=0.8元) 元
报童早上购进报纸零售,晚上将未卖掉的报纸退回. 报童早上购进报纸零售,晚上将未卖掉的报纸退回. 退回价c 退回价 (=0.75元) 元
中学: 中学:x3=1, x4=0; x1~资历(年) 资历( 资历 x2 = 1~ 管理, 大学:x3=0, x4=1; 管理, 大学: x2 = 0~ 非管理 更高:x3=0, x4=0. 更高:
结果分析
残差 e = y y
残差分析方法
y = a0 + a1 x1 + a 2 x 2 + a3 x3 + a 4 x 4
参数 参数估计值 置信区间 a0 11032 [ 10258 11807 ] a1 546 [ 484 608 ] a2 6883 [ 6248 7517 ] a3 -2994 [ -3826 -2162 ] a4 148 [ -636 931 ] R2=0.957 F=226 p=0.000 R2,F, p→ 模型整体上可用 →
资历~ 从事专业工作的年数;管理~ =管理人员, = 资历 从事专业工作的年数;管理 1=管理人员,0= 非管理人员;教育~ =中学, =大学, = 非管理人员;教育 1=中学,2=大学,3=更高程度
分析与假设
y~ 薪金,x1 ~资历(年) 薪金, 资历( 资历
1, 中学 x3 = 0, 其它
x2 = 1~ 管理人员,x2 = 0~ 非管理人员 管理人员, 教 育 1=中学 = 2=大学 = 3=更高 = 中学: 中学:x3=1, x4=0 ; 大学: 大学:x3=0, x4=1; ; 更高: 更高:x3=0, x4=0
问题分析
随机性优化模型
存在一个合 适的购进量
购进太多→卖不完退回→赔钱 购进太多→卖不完退回→ 购进太少→不够销售→ 购进太少→不够销售→赚钱少 应根据需求确定购进量 每天需求量是随机的
每天收入是随机的
目标函数应是长期的日平均利润 = 每天收入的期望值 需求量的随机规律由162天报纸需求量的调查得到 天报纸需求量的调查得到 需求量的随机规律由 每天需求量为 r 的概率 f(r), r=0,1,2…
1
2
3
4
5
6
残差大概分成3个水平, 残差大概分成 个水平, 个水平 6种管理 教育组合混在 种管理—教育组合混在 种管理 一起, 一起,未正确反映
体重( ) 身高 身高( ) 体重指数 = 体重(kg)/身高(m)的平方 吸烟习惯: 0表示不吸烟,1表示吸烟 吸烟习惯 表示不吸烟, 表示吸烟 表示不吸烟 建立血压与年龄,体重指数,吸烟习惯之间的回归模型 建立血压与年龄,体重指数,吸烟习惯之间的回归模型
模型建立
血压y,年龄x1,体重指数x2,吸烟习惯x3 血压 ,年龄 体重指数 吸烟习惯
模型求解
xinjindata.m xinjin.m 资历增加1年 资历增加 年 薪金增长546 薪金增长 管理人员薪金 多6883 中学程度薪金比 更高的少2994 更高的少 大学程度薪金比 更高的多148 更高的多 a4置信区间包含零 解释不可靠! 点,解释不可靠!
y = a0 + a1 x1 + a 2 x2 + a3 x3 + a 4 x4 + ε
根据数据确定需求量的概率分布 p(x)
a b 由 ∫ p ( x) dx = ∞ ac
n
(2) 计算 n
baotong1.m
baotongdata.m
回归 模型
序 号 1 2 3 … 10 血 压 144 215 138 … 154
血压与年龄,体重指数, 例1: 血压与年龄,体重指数,吸烟习惯
y=normpdf(1.5,1,2)
正态分布x=1.5的概率密度 (=1, σ=2)
y=fcdf(1,10, 50) F分布x= 1的分布函数 (自由度n1=10, n2=50) y =tinv(0.9,10) 概率α=0.9的逆t分布 (α分位数, 自由度n=10)
用MATLAB 统计工具箱求解报童模型
y与x1的散点图 与 线性回归模型
y与x2的散点图 与
y = β 0 + β1 x1 + β 2 x2 + β 3 x3 + ε
由数据估计, 回归系数β0, β1, β2, β3 由数据估计 ε是随机误差
MATLAB 统计工具箱常用命令(二) 统计工具箱常用命令(
b=regress(y,X) [b,bint,r,rint,s]=regress(y,X,alpha) 输入: 因变量 列向量), 因变量(列向量 与自变量组成的矩阵, 输入 y~因变量 列向量 X~1与自变量组成的矩阵, 与自变量组成的矩阵 Alpha~显著性水平α(缺省时设定为 缺省时设定为0.05) 显著性水平 ) 输出:b=( β 0 , β1 , ( ), ),bint: b的置信区间, 输出 的置信区间, r:残差 列向量 ,rint: r的置信区间 残差(列向量 残差 列向量), 的 s: 3个统计量:决定系数 2,F值, F(1,n-2)分布大于 个统计量: 个统计量 决定系数R 值 F值的概率 ,p<α时回归模型有效 值的概率p, 回归模型有效 值的概率 rcoplot(r,rint) 残差及其置信区间作图 残差及其置信区间作图 及其
G(n) = ∑[(a b)r (b c)(n r)] f (r ) + ∑ (a b)nf (r)
r =0 r =n+1
n
∞
求 n 使 G(n) 最大
模型建立
n
r视为连续变量 视为连续变量
f (r ) → p (r ) (概率密度)
∞
G(n) = ∫0 [(a b)r (b c)(n r)]p(r)dr + ∫n (a b)np(r)dr
结果解释
n
∫ p ( r ) dr = a b b c ∫ p ( r ) dr
0 ∞ n
n
∫ p(r )dr = P , ∫ p(r )dr = P
0 1 n
∞
2
P1 a b 取n使 使 = P2 b c
a-b ~售出一份赚的钱 售出一份赚的钱 b-c ~退回一份赔的钱 退回一份赔的钱
( a b) ↑ n ↑ (b c) ↑ n ↓
售出一份赚 a-b
退回一份赔 b-c
162天报纸需求量的调查 天报纸需求量的调查
199 136 214 195 219 224 197 213 187 187 … … … 230 172 227 157 114 156
为了获得最大的利润,报童每天应购进多少份报纸? 为了获得最大的利润,报童每天应购进多少份报纸?
模型 求解
xueya01.m
回归系数
0.3604 [-0.0758 0.7965 ] 3.0906 [1.0530 5.1281] 11.8246 [-0.1482 23.7973] R2= 0.6855 F= 18.8906 p<0.0001 s2 =169.7917 回归系数
β0 β1 β2 β3
模型建立
已知售出一份赚 a-b;退回一份赔 b-c ; 设每天购进 n 份,日平均收入为 G(n)
若需求量 r ≤ n → 售出 r → 赚 ( a b ) r ; → 退回 n r → 赔 (b c )( n r )
利润:a b ) r 来自百度文库 b c )( n r ) (
若需求量 r > n → 售出 n → 赚 ( a b ) n ;不退回
回归系数估计值 回归系数置信区间 回归系数估计值 回归系数置信区间 45.3636 [3.5537 87.1736]
剔除异常点 (第2点和第 第 点和第 10点)后 点后
β0 β1 β2 β3
R2= 0.8462
回归系数估计值 回归系数置信区间 回归系数估计值 回归系数置信区间 58.5101 [29.9064 87.1138] 0.4303 [0.1273 0.7332] 2.3449 [0.8509 3.8389] 10.3065 [3.3878 17.2253] F= 44.0087 p<0.0001 s2 =53.6604
x: 原始数据行向 均值m 量 同上 标准差s
1 n m = ∑ xi n i =1
1 n s =[ ( xi m) 2 ]1/ 2 ∑ n 1 i =1
MATLAB 统计工具箱常用命令(一) 统计工具箱常用命令(
χ2 分布 均匀 指数 正态 t F 二项 泊松 分布 分布 分布 分布 分布 分布 分布 分布 t f bino poiss 字符 unif exp norm chi2 功能 字符 概率 密度 pdf 分布 函数 cdf 逆概率 分布 inv 均值与 方差 stat 随机数 生成 rnd
0 ∞ n
n
模型建立
∫ ∫
n
0 ∞
p ( r ) dr
n
ab = bc p ( r ) dr
n
(1)
a b ∫∞ p( x)dx = a c
n
( 2)
∫
0
p ( x ) dx ≈
∫
n
∞
p ( x ) dx
∫
∞
n
p( x)dx = 1 ∫ p( x)dx
∞
n
d 2G <0 2 dn
由(1)或(2)得到的 是每天 ) )得到的n是每天 平均利润最大的最佳购进量. 平均利润最大的最佳购进量.
dG ( a b ) np ( n ) n (b c ) p ( r ) dr = ∫0 dn ∞ (a b)np(n) + ∫ (a b) p(r )dr
n
= (b c) ∫ p(r )dr + (a b) ∫ p(r )dr
0 n
n
∞
dG =0 dn
∫ p ( r ) dr = a b b c ∫ p ( r ) dr
y = 58.5101 + 0.4303x1 + 2.3449 x 2 + 10.3065 x3
回归模型
例2 软件开发人员的薪金
建立模型研究薪金与资历,管理责任, 建立模型研究薪金与资历,管理责任,教育程度的关系 分析人事策略的合理性, 分析人事策略的合理性,作为新聘用人员薪金的参考 46名软件开发人员的档案资料 名软件开发人员的档案资料