数理统计模型
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
•直线的方程式是 Y = a +bX • a是 常数, b是斜率.
b e
• “拟合线”是包括实际点和直线的 平 方差的和最小化后形成的直线. • 实际资料的点和直线的差异称为 残差(residuals(e)).
1.回归模型 的参数确定
y=a+bx 由历史数据得一组x、y值,可求出参数a、
b 由最小二乘法得: a y bx
中间程度的正相关
弱的正相关
| r | = 0.936
例2
-2.08797 2.651822 48.34758 Y=2.65X1-2.09X2+48.35 预测:x1=82, X2=35 y=?
Y=192.71
作业
2000年某企业产品销售量Y与企业销
售投入量X1、销售点增加量X2历史 数据如下表,试用回归方法求其参 数值。说明两者的相关关系幵对 (X1=140,X2=41)的Y值进行预测。
回归分析相关是告诉关系的程度回归分析是找出yfx的函数关系式单纯线性回归回归分析的阶段data收集用散点图确认关系用最小二乘法推断总体用最小二乘法推断总体进行方差分析画直线linefitting画直线linefitting分析残差此章的因子为一个因子和输出值y的关系为直线关系的单纯线性回归simplelinearregression通过样本推测的直线未知的真实直线是相互独立的遵守n0的概率变量单纯线性回归模型bxmodel定义一个独立变量x与一个从属变量y间的关系方程式化后显示的方法将误差平方和最小化的推断方法找出将残差平方最小化的直线
遵守N(0, 2) 的概率变量
y
ε
(xi, yi)
i
通过样本推测的直线
ei
ˆ y a bx
未知的真实直线
y / x x
x
最小平方和的单纯回归
将误差平方和最小化的推断方法,找出将残差平方最小化的直线.
420
410 400 390
直线是以“最小平方和推断法
此章的因子为一个,因子和输出值 (Y)的关系为直线关系的单纯线性 回归(Simple Linear Regression)
单纯线性回归模型
Model
在这里, ε
Yi = + xi + i (i = 1,.…, n)
i
~ iid N(0,σ 2)
i 是相互独立的
定义 一个独立变量(x)与 一个从属变量(Y)间的关系 方程式化后显示的方法
(x
i
x )2
N
二、离散趋势分析
(一)含义 离散趋势分析是反映测量数据的分散程度,其常用 指标有:极差(range)与标准差(standard deviation)。极差是测量数据中的最大值与最小 值之间的差异,由两个极端值来决定,只适用于 定距与定比数据。标准差综合反映所有数据的分 散程度,与平均数配套使用,适用于定距于定比 数据, (x i x )2 其计算式为: N 其中,为标准差,x为样本值,X为平均数,N 为样本总数。
(4)判定系数——r2 ——Y 的估计值与实际值之比
范围在 0 到 1 之间。如果为 1,则
样本有很好的相关性,Y 的估计值与 实际值之间没有差别。而在另一方 面,如果判定系数为 0,则回归方程 不能用来预测 Y 值。
1、统计值说明
(5)Y 估计值的标准误差——sey ——真值在Y估值正负1的标准差区间概率
与回归直线的 差异(误差)
380
370 360 350
340
330 320
(least square estimation)”的 原则画出的.从资料的点到直线 的距离的平方和最小化.
单纯回归直线
350
400Βιβλιοθήκη 450独立变量拟合线,回归方程式构造
Scatter Plot Y vs.X with Fitted Line Y = a + bX
| r | = 0.560
| r | = 0.3390
例:
想了解某种新产品在各省会城市的销售量, 我们可抽去一些省会城市调查其销售量, 然后求其平均值,即为平均销售量估计。 当然,如果另外抽取几个城市,就会发现 其平均销售量不完全一致,这说明点估计 值本身就是一个随机变量。
2、区间估计
区间估计不是采用通常度量准确性的方法,如允许 估计值与真实值有百分之几的误差,而要判断真 实值有多大可能落在样本统计值分布的某一范围、 (置馈区间)之内。这一范围越大,估计值的准确 性就越低。统计值落在允许偏差的范围的概率越 大,故计值的可靠性就越高。一般来说,在管理 研究中,置信水平选择95%或99%,即O.95或 0.99的概率,真实值落在偏差范围之内,允许 不超过0.05或O.01的概率超出此范围。
强的负相关
中间程度的负相关
弱的负相关
回归分析
回归…寻找“Y”与“X”关系的方法
什么是回归?
描述“ Y”与“X”关系的数学方法 - 创建过程的“ 模型”。
确立X与Y的关联性
相关是告诉关系的程度,回归分析是找出Y=F(X)的函数关系式
单纯线性回归
回归分析的阶段
Data 收集 用散点图确认关系 用最小二乘法 推断总体 进行方差分析 画直线 (Line Fitting) 分析残差
销售量
X
1、回归模型的概念
强的正相关
是2/3 (6) F 统计值或 F 观察值——F 使用 F 统计可以判断因变量和自变量之间 是否偶尔发生过观察到的关系。 (7)置信度——df 用于在统计表上查找 F 临界值。所查得的 值和函数 LINEST 返回的F统计值的比值 可用来判断模型的置信度。
1、统计值说明
(8)回归平方和ssreg (9)残差平方和ssresid
第三节 推论性统计模型
统计推断的功能 从随机样本中推断总体参数特征、以统计为 基础验证假设。
一、双变量的回归分析与相关分析
4.4.1 回归分析模型 收入——X
居民储蓄量——Y
50 45 40 35 30 25 20 15 10 5 0 0 2 4 6
销售量
(一)回归模型
Y
50 45 40 35 30 25 20 15 10 5 0 0 2 4 6
运算步骤
1、统计值的说明
各统计值在计算机参数输出中的位置:
mn Sen r2 F SSreg
mn-1 Sen-1 Sey df SSresid
… …
m2 Se2
m1 Se1
b Seb
1、统计值说明
(1)解释变量、被解释变量:
y=m1x1+m2x解释 2+b
变量
被解释变量
(2)系数
第二节 描述性统计模型
一、集中趋势分析 (一)含义: 集中量数也称集中趋势量数,是用一个数值 去代表一组数据的一般水平。常用的集中 量数有平均数、中位数和众数。平均数是 所有测量数据的算术平均值,中位数是将 测量数据按大小顺序一分为二的变量属性 值,即位于排列顺序中间位置的数值,众 数是测量数据中出现频率最高的数值。
作业4
某企业的资金投入X与销售收入Y如下表:
试用一元回归方法求出回归线,说明两者 的相关关系并对X=57万元企业销售额进 行预测。
1
2 X(万元) 10 18 Y(万元) 130 180
3 4 5
23 35 42
200 250 310
例2
某市国内生产总值y与固定资产投入X1、劳动力投入 X2的历史数据如下表,试用线性回归方法确定其参数值。 序号 1 2 3 4 5 6 7 y 53 64 82 92 120 160 180 X1 9 19 21 34 43 56 72 X2 11 14 15 17 19 20 29
1.2
6.4
7.0
40.96
49
2.56
8.4
6
平均
0.3
2.8 0.56
7.0
34.7 6.94
49
296.33 59.26
2.1
24.2 4.84 3.886 48.16
计算结果
某企业年投入资本(十万元)x与销售量
x y 24.22 x 296.33
i i 2 i
(万台)y的历史数据如下:
三、 频数与频率分析
为直观地反映一组测量数据的分布状况,经 常用频数与频率分析。频数分布描述测量 值中各属性值出现的次数,频率分布则是 用比率的形式来表示,各属性值除以样本 总数即可得到该属性值的频率。
频数分布也可转化为可视化的表达方式,
如长条图、直方图、饼图。 在SPSS统计软件中,具体操作是:在统 计菜单(statiatics)中单击摘要(summarize)、 频数(frequencies),并在频数对话框中选 择所要的图表(charts),即可获得这些图 表
二、统计的两种功能
描述与推理 描述性统计(descriptive statistics) 描述性统计是概括所取得数据的共有性质。 推论性统计(inferential statistics)。 推论性统计帮助研究人员对数据做出判断。
三、管理研究中统计分析的功能
统计分析的方法可以为管理研究提供一 种清晰精确的形式化语言; 统计分析是进行科学预测、探索未来的 重要方法; 统计分析技术是处理调查研究资料的必 要工具。
例
有一组数据是9位工人本月的产量:96、96、 97、99、100、101、102、104、155, 则:平均数为105.5,中位数为100,众数 为96。
(二)集中趋势分析的作用
集中量数说明某一管理现象在一定条件下,其数
量的一般水平。 集中量数可以对于在不同空间的同类现象进行比 较。 集中量数可以对一定管理现象在不同时间中的变 化进行比较,以说明这些现象的发展趋势和规律。 集中量数可以用来分析某些管理现象之间的依存 关系。
作业
序号 1 2 3 4 5 6 7 8 9 Y 42 62 83 80 99 120 160 190 230 X1 20 23 50 70 77 89 99 110 120 X2 5 7 9 12 15 18 20 30 31
三、参数估计
(一)含义 参数估计是从样本的统计值来估计总体的 参数值,其逻辑程序是先有样本分布,再推测总体。 当样本对总体参数进行估计时,有两种估计方法: 点估计(poim estimation)与区间估计(interval estimation)。 1、点估计 点估计是将样本中某统计量的值作为相应总体参数 值的单一估计。
m1,m2,...,mn ——系数是解释变量对预测值的贡献
1、统计值说明
(3)系数的标准误差值 se1,se2,...,sen 系数 m1,m2,...,mn 的标准误差值。 ——真值在系数估值正负1的标准差 区间概率是2/3 Seb
——常数项 b 的标准误差值
1、统计值说明
第六讲 数理统计模型
张永安
主要内容
数理统计模型概述 描述性统计 推论性统计模型 统计模型中常见的错误 统计模型建立程式
第一节 数理统计模型概述
一、统计分析概述
统计分析通过计算研究对象的特征的样本平 均值、方差,或者所占百分比,研究样本 特征值与母体特征值的关系,研究变量之 间的关系,特别是因果关系,从而发现被 研究对象的发展规律,或者验证有关假想、 结论是否成立,验证有关理论在新的时空 中是否成立。进而可以针对深层原因,引 出改变客观世界的策略。
b
xy x y x2 x 2
例
某企业年投入资本(十万元)x与销售量
(万台)y的历史数据如下:
y x
1
2
0
0.9
1.9
12.4
4
5
0.4
1.2
6.4
7.0
6
7
0.3
7.0
8
例
y 1 2 0 0.9 x 1.9 12.4 x2 3.61 153.7 xy 0 11.1
xy
x2
4
5
0.4
2
x y 3.8864 x 48.163
24.22 3.8864 b 0.086 296.33 48.1636 a 0.038 y 0.038 0.086x
2、用软件进行回归分析的运算
(1)一元回归模型的软件运算 a.图象分析 b.回归运算
二、二元回归模型的软件运算