11数理统计11018020049全国汽油消费总量影响因素回归分析解析

11数理统计11018020049全国汽油消费总量影响因素回归分析解析
11数理统计11018020049全国汽油消费总量影响因素回归分析解析

我国汽油消费总量影响因素回归分析

一、问题设计

改革开放以来,随着经济体制的改革深化和经济的快速增长,中国的对汽油的消费量越来越大。为了研究中国汽油消费量增长的主要因素,分析汽油消耗量的变动规律,预测中国汽油消费增长趋势,需要建立计量经济学模型。

二、理论基础

影响汽油消费量增长的因素很多,本文主要针对1996—2012年间,我国汽油消费支出的变化及其影响因素进行分析,通过收集我国经济活动人口总量、人均国民收入、居民消费价格指数、我国石油消耗总量的数据,建立统计模型。

相关概念解析

1居民消费价格指数:消费者物价指数(Consumer Price Index),英文缩写为CPI,是反映与居民生活有关的产品及劳务价格统计出来的物价变动指标,通常作为观察通货膨胀水平的重要指标。

2 经济活动人口总数:指在一定年龄以上,有劳动能力,参加或要求参加社会经济活动的人口。包括就业人员和失业人员。就业人员指16岁及以上以上,有劳动能力,从事一定社会劳动并取得劳动报酬或经营收入的人员,一般对石油的消费主要还是依靠经济活动人口数, 而不是总人口数。

3 人均国民收入:人均国民收入是一国在一定时期内(通常为一年)按人口平均的国民收入占有量,反映国民收入总量与人口数量的对比关系。

三、数理经济学方程

Y = C(1) + C(2)*X

Y i=β0+β2X2+β3X3+β4X4

四、计量经济学方程

设定线性回归模型为:

Y i=β0+β1X1β2X2+β3X3+β4X4+μ

五、数据收集

从《国家统计局》获取以下数据:

全国城镇居民1996—2011汽油消费量、经济活动人口总量、人均国民收入、居民消费价格指数、石油消耗总量的数据.

Obs 年份汽油消费总量经济活动

人口人均国民收

消费价格

指数

石油总消耗量

1 201

2 7495.95 78894 38459.41 102.6 20747.8

2 2011 6886.21 78579 35197.79 105.4 20287.55

3 2010 6172.69 78388 30015.05 103.3 20241.4

4 2009 6145.52 77510 25607.53 99.3 18948.96

5 2008 5519.09 7704

6 23707.71 105.9 19043.06

6 200

7 5242.55 76531 20169.46 104.

8 18631.82

7 2006 4854.91 76315 16499.7 101.5 18476.57

8 2005 4695.72 76120 14185.36 101.8 18135.29

9 2004 4072.02 75290 12335.58 103.9 17587.33

10 2003 3749.32 74911 10541.97 101.3 16959.98

11 2002 3597.57 74492 9398.05 99.2 16700.00

12 2001 3504.56 73884 8621.71 100.7 16395.87

13 2000 3478.32 73992 7857.68 100.4 16300.33

14 1999 3366.56 72791 7158.5 98.6 16100022

15 1998 3100.38 72087 6796.03 99.2 16000.56

16 1997 2987.97 70800 6420.18 102.8 15809.24

17 1996 2765.56 69765 5845.89 108.3 15300.78

六、使用最小二乘法(OLS)估计回归模型

(1)分析对象为上表1996-2012的时间序列数据。其中被解释变量Y为汽油消费量,引进四个解释变量分别为X1经济活动总人口数、X2人均国民收入、X3消费价格指数、X4石油消耗总量。

(2)Sas数据显示

Obs year y x1 x2 x3 x4

2 2011 6886.21 78579 35197.79 105.4 20287.55

3 2010 6172.69 78388 30015.05 103.3 20241.40

4 2009 6145.52 77510 25607.53 99.3 18948.96

5 2008 5519.09 7704

6 23707.71 105.9 19043.06

6 200

7 5242.55 76531 20169.46 104.

8 18631.82

7 2006 4854.91 76315 16499.70 101.5 18476.57

8 2005 4695.72 76120 14185.36 101.8 18135.29

9 2004 4072.02 75290 12335.58 103.9 17587.33

10 2003 3749.32 74911 10541.97 101.3 16959.98

11 2002 3597.57 74492 9398.05 99.2 16700.00

12 2001 3504.56 73884 8621.71 100.7 16395.87

13 2000 3478.32 73992 7857.68 100.4 16300.33

14 1999 3366.56 72791 7158.50 98.6 16100.22

15 1998 3100.38 72087 6796.03 99.2 16040.56

16 1997 2987.97 70800 6420.18 102.8 15890.24

17 1996 2765.56 69765 5845.89 108.3 15300.78

(3)汽油消费量、经济活动人口总量、人均国民收入、居民消费价格指数、我国石油消耗总量分别作散点图。

Y遇X1的散点关系图

Y与X2散点关系图

Y与X3散点关系图

Y与X4散点关系图

综上所述,我们认为人均消费支出、人均可支配收入与居民消费价格指数之间存

在线性关系,并建立多元回归模型:

Y=β+β1X1+β2X2+β3X3+β4X4+μt

其中

Y——汽油消费量;

β1、β2、β3、β4——回归方程的待定系数;

X1——经济活动人口总量;

X2——人均国民收入;

X3——居民消费价格指数;

X4——石油消耗总量;

μt——随机误差项。

(4)影响汽油消费量的因素分析

利用Sas输出结果如下:

方差分析

源自由度平方均方 F 值Pr > F

模型 4 24568045 6142011 222.80 <.0001 误差11 303241 27567

校正合计15 24871287

均方根误差

166.03423 R 方0.9878

因变量均值4383.68437 调整 R 方0.9834

变异系数 3.78755

参数估计值

变量自由度

参数

估计值

标准

误差t 值Pr > |t|

Intercept 1 -3902.13091 4787.31217 -0.82 0.4323 x1 1 0.08318 0.07299 1.14 0.2786 x2 1 0.09685 0.01993 4.86 0.0005 x3 1 -16.05813 20.47531 -0.78 0.4494 x4 1 0.12767 0.19078 0.67 0.5172

根据上面模型,R2=0.0.9879,可决系数高,拟合度较好。且在0.05的显著水平下通过了F检验,由此可以得出该回归曲线具有很好的拟合程度。

1、拟合优度:R2=0.9870,修正的可决系数为R2=0.9849这说明模型对样本拟合的很好。

2、F检验:针对H0: β1 =β2=β3=β4=0,给定的显著性水平α=0.05,在F分布表中查出自由度为K-1=3和n-k=13的临界值Fα(3,16)=8.53.由Sas得到F=222.80>8.53,应拒绝原假设H0,说明回归方程显著有显著影响。

得回归曲线:

Y=-3902.13091+0.08318X1+0.09685X2+-16.05813X3+0.12767X4

(5)参数检验

1、T检验针对H0: β0=0给定的显著性水平α=0.05,在t分布表中查出自由度为16的临界值为2.105由Sas得到|t|=0.82<2.105,应接受原假设H0,说明回归方程显著有显著影响。同理β1接受原假设β2接受原假设β3拒接原假设β4接受原假设。由于解释变量并没有全部通过T检验。需要对解释变量之间的共线性检验

2、多重共线性检验

参数估计值

变量自由度

参数

估计值

标准

误差t 值Pr > |t|

方差

膨胀

Intercept 1 -3902.13091 4787.31217 -0.82 0.4323 0 x1 1 0.08318 0.07299 1.14 0.2786 19.51373 x2 1 0.09685 0.01993 4.86 0.0005 18.54420 x3 1 -16.05813 20.47531 -0.78 0.4494 1.80349 x4 1 0.12767 0.19078 0.67 0.5172 49.52656 由图表可得方差膨胀系数存在大于10的项因此解释变量之间存在共线性。

共线性修正(逐步回归法)

方差分析

源自由度平方

和均方 F 值Pr > F

模型 2 24546851 12273426 491.79 <.0001 误差13 324435 24957

校正合计15 24871287

变量

参数

估计值

标准

误差II 型 SS F 值Pr > F

Intercept -7324.85947 2389.99156 234418 9.39 0.0090 x1 0.13558 0.03355 407426 16.33 0.0014 x2 0.10338 0.00940 3020430 121.03 <.0001

条件数字的边界: 4.5559, 18.224

留在模型中的所有变量的显著性水平都为 0.1000。

没有其他变量满足 0.1000 显著性水平,无法输入该模型。

“逐步选择”的汇总

步变量

已输入

变量

已删除

数字

Vars In

R 方

模型

R 方C(p) F 值Pr > F

1 x

2 1 0.9706 0.9706 14.5481 461.77 <.0001

2 x1 2 0.0164 0.9870 1.7688 16.3

3 0.0014

REG 过程

模型: MODEL1

因变量: y

方差分析

源自由度平方

和均方 F 值Pr > F

模型 2 24546851 12273426 491.79 <.0001

误差13 324435 24957 校正合计15 24871287

均方根误差

157.97642 R 方0.9870

因变量均值4383.68437 调整 R 方0.9849 变异系数 3.60374

参数估计值

变量自由度

参数

估计值

标准

误差t 值Pr > |t|

方差

膨胀

Intercept 1 -7324.85947 2389.99156 -3.06 0.0090 0 x1 1 0.13558 0.03355 4.04 0.0014 4.55588 x2 1 0.10338 0.00940 11.00 <.0001 4.55588

共线性诊断

数字特征值条件指数

偏差比例

Intercept x1 x2

1 2.82235 1.00000 0.00003316 0.00003025 0.00636

2 0.17752 3.98737 0.00028234 0.00017960 0.22336

3 0.00012940 147.68808 0.99968 0.99979 0.77028

由上表可以得出方差膨胀系数小于10,切t值在0.05的显著水平下都通过了显著性检验,且方差膨胀系数都小于10,从而此时消除了共线性。

可以得出回归方程如下:

Y=-7324.85947+0.13558*X1+0.10338*X2

(6)异方差分析

得出结果:

方差分析

源自由度平方

和均方 F 值Pr > F

模型 4 5225305418 1306326354 2.65 0.0856 误差12 5917755650 493146304

校正合计16 11143061067

均方根误差

22207 R 方0.4592

因变量均值19170 调整 R 方0.2919

变异系数115.84218

怀特统计量n(R*R)=16*0.4592=7.3472因此在0.05的显著水平

2

(9.49)下接受

同方差检验。

如果存在异方差,则采用加权最小二乘法修正异方差程序附录已给出,

可得出修成后的回归函数关系式从而消除异方差。

(8)序列相关检验(DW检验法)

Durbin-Watson D 2.144

观测数16

第一阶自相关-0.089

已知DW=2.144,若给定α=0.05,查表得DW检验临界值d L=1.02,d U=1.54。因为DW=2.144,属于区间(d U 4-d U)依据判别原则,认为误差d U 不存在自相关。

(拉格朗日检验法)

Dependent Variable: resid Residual

Number of

Observations

16

Read

Number of

Observations

Used

15

Number of

Observations

with Missing

Values

1

Analysis of Variance

Source DF

Sum of

Squares

Mean

Square F Value Pr > F

Model 5 10756 2151.1834

2 0.07 0.996

Error 9 293520 32613

Corrected

Total

14 304276

Root MSE 180.59155 R-Squar

e

0.0353

Dependent Mean 5.80850 Adj

R-Sq

-0.5006

Coeff Var 3109.0934

2

Parameter Estimates

Variable Label DF Parameter

Estimate

Standard

Error

t

Value

Pr >

|t|

Intercept Intercept 1 2443.9100

8 6733.9153

9

0.36 0.725

x1 1 -0.02190 0.05767 -0.38 0.712

9

x2 1 0.00865 0.01808 0.48 0.643

6

x3 1 -9.00608 31.49686 -0.29 0.781

4

x4 1 -0.0000010

6 0.0000134

8

-0.08 0.938

9

resid_1 1 0.17898 0.46725 0.38 0.710

6 R2=0.0353 统计量n R2=16*0.0353=0.5648 ,查自由度为为1、显著水平为0.05的2 分布相应临界值为 3.84,所以不会拒绝原假设,即模型不存在序列相

关性。如果模型存在一阶序列相关性,还得继续做更高阶的检验,来判断序列相关性的阶数。

经过上述线性回归函数分析后

Y=-7324.85947+0.13558*X1+0.10338*X2

七、经济意义检验

模型估计结果说明,在假定其他变量不变的情况下,当年经济活动人口每增长1万人,汽油消费量就会增长1331吨;在假定其他变量不变的情况下,当年人均国民收入增长1万元,汽油消费量就会增长1045吨;而截距项为负说明在经济落后,科技水平落后,经济活动人口数量少经济环境下对汽油的消费需求很低,只有经济发展科技进步达到一定程度情况下才会产生对汽油油的需求,例如在一起的封建社会经济落后的情况下,并没有对气油消耗需求。

八、经济模型预测

汽油对一个国家的经济发展、社会经济秩序的稳定、人民日常生活有着十分重要的影响。国内汽油价格的波动就会对国内经济健康稳定、有序的正常运行带特别是替代品的供给,也是刚性的,有些需求如果一旦养成了消费习惯以后,是很难改变的。那个时候供给增加,需求下降,油价如果跌下来的时候,也会使得产油国、投机商受到重大的损害,对本国经济的稳定发展也是不利的。而国内汽油价格受到供求关系的

一定影响。因此政府需要通过分析前几年国内汽油消耗量以及影响因素准确预测未来我国汽油消费量。及时调节好汽油的供需,保持汽油价格稳定,使我国经济健康稳定发展。

2012年我国经济活动人口数为78894万人,人均国民收入为38459.41万元。有上述回归方程

Y=-7324.85947+0.13558*X1+0.10338*X2

2012年国内汽油消费量预测值为7347.52万吨。而2012年国内实际汽油消费量为7495.95万吨可见相对误差为2.0%。可以得出结论 该预测模型相对比较准确。 下面给出2012年全国汽油消费量的置信区间由于在样本期内 E (x1)=74906.3125 E (x2)=15022.3869 Var(x1)=6732215 var(x2)=85842000 因为理论上为'1'10/2000/200[()()]Y t X X X X Y t X X X X αασσ---?+?, 设定

于是在95%的置信度水平下E (y 2012)的预测区间为(7006 7865)。

【参考文献】

计量经济学第三版(李子奈)

附录:

data qiyou;

input year y x1 x2 x3 x4; cards ;

2011 6886.21 78579 35197.79 105.4 20287.55 2010 6172.69 78388 30015.05 103.3 20241.4 2009 6145.52 77510 25607.53 99.3 18948.96 2008 5519.09 77046 23707.71 105.9 19043.06 2007 5242.55 76531 20169.46 104.8 18631.82 2006 4854.91 76315 16499.7

101.5 18476.57

2005 4695.72 76120 14185.36 101.8 18135.29 2004 4072.02 75290 12335.58 103.9 17587.33 2003 3749.32 74911 10541.97 101.3 16959.98 2002 3597.57 74492 9398.05 99.2 16700 2001 3504.56

73884 8621.71

100.7 16395.87

2000 3478.32 73992 7857.68 100.4 16300.33

1999 3366.56 72791 7158.5 98.6 16100022

1998 3100.38 72087 6796.03 99.2 16000.56

1997 2987.97 70800 6420.18 102.8 15809.24

1996 2765.56 69765 5845.89 108.3 15300.78

;run;

proc print data=qiyou;

散点图

proc gplot data=qiyou;

plot y*x1;

plot y*x2;

plot y*x3;

plot y*x4;

symbol i=none v=plus;

run;

1、多元最小二乘估计程序

proc reg data=qiyou;

model y= x1 x2 x3 x4;

run;

2、共线性检验

proc reg data=qiyou;

model y=x1 x2 x3 x4/collin vif ;

run;

3、逐步回归法消除共线性

proc print data=qiyouyou;

proc reg data=qiyouyou;

model y=x1 x2 x3 x4/collin vif selection=stepwise slentry=0.10 slstay=0.10;

run;quit;

4、异方差检验(没有交叉项的怀特检验法)

data shiyou;

set shiyou ;

x1x1=x1*x1;

x2x2=x2*x2;

run;

proc reg data=shiyou;

model y=x1 x2 ;

run;

data shiyou;

set shiyou;

e=y-(-7324.85947+0.13558*X1+0.10338*X2)

;

e1=abs(e);

e2=e*e;

proc reg data=shiyou;

model e2=x1 x2 x1x1 x2x2;

run;

5、异方差修正

data shiyou;

set shiyou;

Yjiaq=Y/e1;

X1jiaq=X1/e1;

X2jiaq=X2/e1;

proc print data=shiyou;

run;

proc reg data=shiyou;

model Yjiaq=X1jiaq X2jiaq /DW noint;

run;

6、序列相关检验(DW检验法)

proc reg data=shiyou;

model y=x1 x2 /dw;

7、拉格朗日乘数检验

data tourismdata2;/*get square of e and lag of e*/

Merge tourismdata

om;resid2=resid**2;resid1=abs(resid);resid_1=lag(resid); proc print data=tourismdata2;run;

proc reg data=tourismdata2;

model resid=CPPI AVE TT resid_1;

title"LM test"; run;/*language test*/

概率论与数理统计知识点总结!

《概率论与数理统计》 第一章随机事件及其概率 §1.1 随机事件 一、给出事件描述,要求用运算关系符表示事件: 二、给出事件运算关系符,要求判断其正确性: §1.2 概率 古典概型公式:P (A )= 所含样本点数 所含样本点数 ΩA 实用中经常采用“排列组合”的方法计算 补例1:将n 个球随机地放到n 个盒中去,问每个盒子恰有1个球的概率是多少?解:设A : “每个盒子恰有1个球”。求:P(A)=?Ω所含样本点数:n n n n n =???... Α所含样本点数:!1...)2()1(n n n n =??-?-?n n n A P ! )(=∴ 补例2:将3封信随机地放入4个信箱中,问信箱中信的封数的最大数分别为1、2、3的概率各是多少? 解:设A i :“信箱中信的最大封数为i”。(i =1,2,3)求:P(A i )=? Ω所含样本点数:6444 443==?? A 1所含样本点数:24234=?? 8 36424)(1== ∴A P A 2所含样本点数: 363423=??C 16 9 6436)(2== ∴A P A 3所含样本点数:443 3 =?C 16 1644)(3== ∴A P 注:由概率定义得出的几个性质: 1、0

P(A 1+A 2+...+ A n )= P(A 1) + P(A 2) +…+ P(A n ) 推论2:设A 1、 A 2、…、 A n 构成完备事件组,则 P(A 1+A 2+...+ A n )=1 推论3: P (A )=1-P (A ) 推论4:若B ?A ,则P(B -A)= P(B)-P(A) 推论5(广义加法公式): 对任意两个事件A 与B ,有P(A ∪B)=P(A)+P(B)-P(A B) 补充——对偶律: n n A A A A A A ???=???......2121 n n A A A A A A ???=??? (2121) §1.4 条件概率与乘法法则 条件概率公式:P(A/B)= )()(B P AB P (P(B)≠0)P(B/A)= ) () (A P AB P (P(A)≠0) ∴P (AB )=P (A /B )P (B )= P (B / A )P (A ) 有时须与P (A+B )=P (A )+P (B )-P (AB )中的P (AB )联系解题。 全概率与逆概率公式: 全概率公式: ∑==n i i i A B P A P B P 1 )/()()( 逆概率公式: ) () ()/(B P B A P B A P i i = ),...,2,1(n i = (注意全概率公式和逆概率公式的题型:将试验可看成分为两步做,如果要求第二步某事件的概率,就用全概率公式;如果求在第二步某事件发生条件下第一步某事件的概率,就用逆概率公式。) §1.5 独立试验概型 事件的独立性: )()()(B P A P AB P B A =?相互独立与 贝努里公式(n 重贝努里试验概率计算公式):课本P24 另两个解题中常用的结论—— 1、定理:有四对事件:A 与B 、A 与B 、A 与B 、A 与B ,如果其中有一对相互 独立,则其余三对也相互独立。 2、公式:)...(1)...(2121 n n A A A P A A A P ???-=??? 第二章 随机变量及其分布

多元线性回归模型练习题及答案.doc

ESS&i-k)A RSS[(k -1) ESS /(SI)I). TSS/(n-k) 多元线性回归模型练习 一、单项选择题 1. 在由〃 =30的一组样本估计的、包含3个解释变量的线性回归模型中,计算 得可决系数为0.8500,则调整后的可决系数为(D ) A. 0. 8603 B. 0. 8389 C. 0. 8655 D. 0. 8327 2. 用一组有30个观测值的样本估计模型乂 =如玷气+E +0后,在0. 05的 显著性水平上对九的显著性作「检验,则气显著地不等于零的条件是其统计量, 大于等于 (C ) A. ,O .O 5(3°) B . ‘。025(28) c.,。。25(27) p ^*0.025 (^28) 3?线性回归模型乂 =4+"1也+勾% +……+ b k x h +u i 中,检验 =0(,= 0,1,2,..人)时,所用的统计量 服从(C ) A. t (n _k+l ) B. t (n -k -2) C. t (n -k _l ) D. t (n -k+2) 4. 调整的可决系数与多元样本判定系数R ,之间有如下关系( D ) 局=公—/?2 职=]_qj R2 A. n-k -1 B ? n-k-\ R 2=[—- (1 + R2) 斤 2 =]— (I-/?2) C. n-k-\ D. n-k-\ 5. 对模型Y L B 。+ B 伏"B 2X 2i + u 「进行总体显著性F 检验,检验的零假设是 (A ) A. P 1= 3 2=0 B. 3 i=0 C. B 2-O D. B 0二0 或 B i=0 6. 设k 为[q 归模型中的参数个数,n 为样本容量。则对多元线性同归方程进行 显著性检验时,所用的F 统计量可表示为(B ) R2/ k B (1-R2)/(D b/d) c. (1-R2)/(S1) 7. 多元线性问归分析中(回归模型中的参数个数为k ),调整后的可决系数与 可决系数R2之间的关系(A )

农民收入影响因素的多元回归分析

农民收入影响因素的多元回归分析 自改革开放以来,虽然中国经济平均增长速度为9.5 % ,但二元经济结构给经济发展带来的问题仍然很突出。农村人口占了中国总人口的70 %多,农业产业结构不合理,经济不发达,以及农民收入增长缓慢等问题势必成为我国经济持续稳定增长的障碍。正确有效地解决好“三农”问题是中国经济走出困境,实现长期稳定增长的关键。其中,农民收入增长是核心,也是解决“三农”问题的关键。本文力图应用适当的多元线性回归模型,对有关农民收入的历史数据和现状进行分析,寻找其根源,探讨影响农民收入的主要因素,并在此基础上对如何增加农民收入提出相应的政策建议。 一、回归模型的建立 (1)数据的收集 根据实际的调查分析,我们在影响农民收入因素中引入3个解释变量。即:X2-财政用于农业的支出的比重, X3-乡村从业人员占农村人口的比重, X4-农作物播种面积

(1)回归模型的构建 Y i=1+2X2+3X3+4X4+u i 二、回归模型的分析 (1)多重共线性检验 系数a 模型非标准化系数标准系数 t Sig. 共线性统计量 B 标准误差试用版容差VIF 1 (常量) -2983.479 803.141 -3.715 .003 X2 -14.221 15.007 -.141 -.948 .361 .579 1.726 X3 5.201 3.760 .258 1.383 .190 .368 2.717 X4 .021 .006 .614 3.677 .003 .459 2.177 a. 因变量: y 表1 多重共线性是指解释变量之间存在相关关系,判断解释变量之间的多重共线性一般可看方差膨胀因子VIF和容忍度这两个指标,如果解释变量之间存在多重共线性,一般采用逐步剔除VIF最大的解释变量来消除解释变量之间多重共线性的问题。从表1可知,解释变量,X1,X2,X3三者的方差膨胀因子VIF分别为1.726,2.717和2.177,均小于10。且三者的容忍度均大于0.1。所以可以判断解释变量X1,X2,X3三者之间不存在多重共线性。 (2)模型异方差的检验 异方差产生的原因有:数据质量原因、模型设定原因。由异方差 引起的后果一般会导致回归系数估计结果误差较大、有关统计检验失 去意义、模型的预测失效等危害,所以在建立模型的过程中必须要检 验模型之间是否存在异方差。若存在异方差解决办法——加权最小二 乘法。

概率论与数理统计公式定理全总结

第一章 P(A+B)=P(A)+P(B)- P(AB) 特别地,当A 、B 互斥时, P(A+B)=P(A)+P(B) 条件概率公式 概率的乘法公式 全概率公式:从原因计算结果 Bayes 公式:从结果找原因 第二章 二项分布(Bernoulli 分布)——X~B(n,p) 泊松分布——X~P(λ) 概率密度函数 怎样计算概率 均匀分布X~U(a,b) 指数分布X~Exp (θ) 分布函数 对离散型随机变量 对连续型随机变量 分布函数与密度函数的重要关系: 二元随机变量及其边缘分布 分布规律的描述方法 联合密度函数 联合分布函数 联合密度与边缘密度 离散型随机变量的独立性 连续型随机变量的独立性 第三章 数学期望 离散型随机变量,数学期望定义 连续型随机变量,数学期望定义 ● E(a)=a ,其中a 为常数 ● E(a+bX)=a+bE(X),其中a 、b 为常数 ● E(X+Y)=E(X)+E(Y),X 、Y 为任意随机变量 随机变量g(X)的数学期望 常用公式 ) () ()|(B P AB P B A P =)|()()(B A P B P AB P =) |()(A B P A P =∑ ==n k k k B A P B P A P 1)|()()(∑ ==n k k k i i k B A P B P B A P B P A B P 1 )|()()|()()|() ,...,1,0()1()(n k p p C k X P k n k k n =-==-,,...) 1,0(! )(== =-k e k k X P k ,λλ 1)(=? +∞ ∞ -dx x f )(b X a P ≤≤?=≤≤b a dx x f b X a P )()() 0(1 )(/≥= -x e x f x θ θ ∑≤==≤=x k k X P x X P x F ) ()()(? ∞ -=≤=x dt t f x X P x F )()()(? ∞ -=≤=x dt t f x X P x F )()()() ,(y x f ),(y x F 0 ),(≥y x f 1),(=?? +∞∞-+∞ ∞ -dxdy y x f 1),(0≤≤y x F },{),(y Y x X P y x F ≤≤=?+∞ ∞ -=dy y x f x f X ),()(?+∞ ∞ -=dx y x f y f Y ),()(} {}{},{j Y P i X P j Y i X P =====) ()(),(y f x f y x f Y X =∑+∞ -∞ =?= k k k P x X E )(? +∞ ∞ -?=dx x f x X E )()(∑ =k k k p x g X g E )())((∑∑=i j ij i p x X E )(dxdy y x xf X E ??=),()() (1 )(b x a a b x f ≤≤-= ) ()('x f x F =

概率与数理统计典型例题

《概率与数理统计》 第一章 随机事件与概率 典型例题 一、利用概率的性质、事件间的关系和运算律进行求解 1.设,,A B C 为三个事件,且()0.9,()0.97P A B P A B C ==U U U ,则()________.P AB C -= 2.设,A B 为两个任意事件,证明:1|()()()|.4 P AB P A P B -≤ 二、古典概型与几何概型的概率计算 1.袋中有a 个红球,b 个白球,现从袋中每次任取一球,取后不放回,试求第k 次 取到红球的概率.(a a b +) 2.从数字1,2,,9L 中可重复地任取n 次,试求所取的n 个数的乘积能被10整除的 概率.(58419n n n n +--) 3.50只铆钉随机地取来用在10个部件上,其中有3个铆钉强度太弱,每个部件用3只铆钉,若将3只强度太弱的铆钉都装在一个部件上,则这个部件强度就太 弱,从而成为不合格品,试求10个部件都是合格品的概率.(19591960 ) 4.掷n 颗骰子,求出现最大的点数为5的概率. 5.(配对问题)某人写了n 封信给不同的n 个人,并在n 个信封上写好了各人的地址,现在每个信封里随意地塞进一封信,试求至少有一封信放对了信封的概率. (01(1)! n k k k =-∑)

6.在线段AD上任取两点,B C,在,B C处折断而得三条线段,求“这三条线段能构成三角形”的概率.(0.25) 7.从(0,1)中任取两个数,试求这两个数之和小于1,且其积小于 3 16 的概率. (13 ln3 416 +) 三、事件独立性 1.设事件A与B独立,且两个事件仅发生一个的概率都是 3 16 ,试求() P A. 2.甲、乙两人轮流投篮,甲先投,且甲每轮只投一次,而乙每轮可投两次,先投 中者为胜.已知甲、乙每次投篮的命中率分别为p和1 3 .(1)求甲取胜的概率; (2)p求何值时,甲、乙两人的胜负概率相同?( 95 ; 5414 p p p = + ) 四、条件概率与积事件概率的计算 1.已知10件产品中有2件次品,现从中取产品两次,每次取一件,去后不放回,求下列事件的概率:(1)两次均取到正品;(2)在第一次取到正品的条件下第二次取到正品;(3)第二次取到正品;(4)两次中恰有一次取到正品;(5)两次中 至少有一次取到正品.(28741644 ;;;; 45954545 ) 2.某人忘记了电话号码的最后一个数字,因而他随意地拨号,假设拨过了的数字不再重复,试求下列事件的概率:(1)拨号不超过3次而接通电话;(2)第3次拨号才接通电话.(0.3;0.1) 五、全概率公式和贝叶斯公式概型 1.假设有两箱同种零件:第一箱内装50件,其中10件为一等品;第二箱内装30件,其中18件为一等品,现从两箱中随意挑选出一箱,然后从该箱中先后随机取出两个零件(取出的零件均不放回),试求:(1)先取出的零件是一等品的概率;(2)在先取出的零件是一等品的条件下,第二次取出的零件仍然是一等品 的概率.(2690 ; 51421 ) 2.有100个零件,其中90个一等品,10个二等品,随机地取2个,安装在一台设备上,若2个零件中有i个(0,1,2 i=)二等品,则该设备的使用寿命服从参

excel一元及多元线性回归实例

野外实习资料的数理统计分析 一元线性回归分析 一元回归处理的是两个变量之间的关系,即两个变量X和Y之间如果存在一定的关系,则通过观测所得数据,找出两者之间的关系式。如果两个变量的关系大致是线性的,那就是一元线性回归问题。 对两个现象X和Y进行观察或实验,得到两组数值:X1,X2,…,Xn和Y1,Y2,…,Yn,假如要找出一个函数Y=f(X),使它在 X=X1,X2, …,Xn时的数值f(X1),f(X2), …,f(Xn)与观察值Y1,Y2,…,Yn趋于接近。 在一个平面直角坐标XOY中找出(X1,Y1),(X2,Y2),…,(Xn,Yn)各点,将其各点分布状况进行察看,即可以清楚地看出其各点分布状况接近一条直线。对于这种线性关系,可以用数学公式表示: Y = a + bX 这条直线所表示的关系,叫做变量Y对X的回归直线,也叫Y对X 的回归方程。其中a为常数,b为Y对于X的回归系数。 对于任何具有线性关系的两组变量Y与X,只要求解出a与b的值,即可以写出回归方程。计算a与b值的公式为:

式中:为变量X的均值,Xi为第i个自变量的样本值,为因变量的均值,Yi为第i个因变量Y的样本值。n为样本数。 当前一般计算机的Microsoft Excel中都有现成的回归程序,只要将所获得的数据录入就可自动得到回归方程。 得到的回归方程是否有意义,其相关的程度有多大,可以根据相关系数的大小来决定。通常用r来表示两个变量X和Y之间的直线相关程度,r为X和Y的相关系数。r值的绝对值越大,两个变量之间的相关程度就越高。当r为正值时,叫做正相关,r为负值时叫做负相关。r 的计算公式如下: 式中各符号的意义同上。 在求得了回归方程与两个变量之间的相关系数后,可以利用F检验法、t检验法或r检验法来检验两个变量是否显著相关。具体的检验方法在后面介绍。

多元线性回归模型案例

我国农民收入影响因素的回归分析 本文力图应用适当的多元线性回归模型,对有关农民收入的历史数据和现状进行分析,探讨影响农民收入的主要因素,并在此基础上对如何增加农民收入提出相应的政策建议。?农民收入水平的度量常采用人均纯收入指标。影响农民收入增长的因素是多方面的,既有结构性矛盾因素,又有体制性障碍因素。但可以归纳为以下几个方面:一是农产品收购价格水平。二是农业剩余劳动力转移水平。三是城市化、工业化水平。四是农业产业结构状况。五是农业投入水平。考虑到复杂性和可行性,所以对农业投入与农民收入,本文暂不作讨论。因此,以全国为例,把农民收入与各影响因素关系进行线性回归分析,并建立数学模型。 一、计量经济模型分析 (一)、数据搜集 根据以上分析,我们在影响农民收入因素中引入7个解释变量。即:2x -财政用于农业的支出的比重,3x -第二、三产业从业人数占全社会从业人数的比重,4x -非农村人口比重,5x -乡村从业人员占农村人口的比重,6x -农业总产值占农林牧总产值的比重,7x -农作物播种面积,8x —农村用电量。

资料来源《中国统计年鉴2006》。 (二)、计量经济学模型建立 我们设定模型为下面所示的形式: 利用Eviews 软件进行最小二乘估计,估计结果如下表所示: DependentVariable:Y Method:LeastSquares Sample: Includedobservations:19 Variable Coefficient t-Statistic Prob. C X1 X3 X4 X5 X6 X7 X8 R-squared Meandependentvar AdjustedR-squared 表1最小二乘估计结果 回归分析报告为: () ()()()()()()()()()()()()()()() 2345678 2? -1102.373-6.6354X +18.2294X +2.4300X -16.2374X -2.1552X +0.0100X +0.0634X 375.83 3.7813 2.066618.37034 5.8941 2.77080.002330.02128 -2.933 1.7558.820900.20316 2.7550.778 4.27881 2.97930.99582i Y SE t R ===---=230.99316519 1.99327374.66 R Df DW F ====二、计量经济学检验 (一)、多重共线性的检验及修正 ①、检验多重共线性 (a)、直观法 从“表1最小二乘估计结果”中可以看出,虽然模型的整体拟合的很好,但是x4x6

数理统计复习题第五章

第五章 大数定律与中心极限定理 一、 典型题解 例1设随机变量X 的数学期望()(){}2,3E X u D X X u σσ==-≥方差,求P 的大小区间。 解 令3εσ=,则有切比雪夫不等式有: ()() ()22 221 ,339D X P X E X P X E X σεσεσ????-≥≤ -≥≤=????有 例2在n 次独立试验中,设事件A 在第i 次试验中发生的概率为()1,2,....i p i n = 试证明:A 发生的频率稳定于概率的平均值。 证 设X 表示n 次试验中A 发生的次数,引入新的随机变量0i A X A ?=??1,发生? ,不发生 ()12,...i n =, ,则X 服从()01-分布,故 ()()(),1i i i i i i i E X p D X p p p q ==-=, 又因为 () ()2 2 4140i i i i i i i i p q p q p q p q -=+-=-≥, 所以 ()()1 1,2, (4) i i i D X p q i n =≤ = 由切比雪夫大数定理,对,o ε?>有()11lim 1n i i n i p X E X n ε→∞ =?? -<=???????? ∑ 即 11lim 1n i n i X p p n n ε→∞ =?? -<=???? ∑ 例 3 对于一个学生而言,来参加家长会的家长人数是一个随机变量,设一个学 生无家长,1名家长、2名家长来参加会议的概率分别为。若学校共有400名学生,设各学生参加会议的家长数相互独立,且服从同一分布。(1)求参加会议的家长数X 超过450的概率;(2)求有1名家长来参加会议的学生数不多于340的概率。 解(1)以()400,,2,1 =k X k 记第k 个学生来参加会议的家长数,则k X 的分布律为 k X 0 1 2 k P 0.05 0.8 0.15

我国国内旅游收入影响因素的多元回归分析

我国国内旅游收入影响因素的多元分析 班级:统计学129 姓名: 杨芳 学号:200712918 2010年3月3日

问题背景: 我国的旅游业一直保持较高的发展速度,旅游作为国民经济新的增长点,在整个社会经济发展中的作用日益显现。我国的旅游业分为国际旅游和国内旅游两大市场,虽然国际旅游外汇收入的年均增长率高于国内旅游收入,但国内旅游收入在中国旅游收入中占50%以上的比例,因此,有必要对影响我国国内旅游业快速发展的因素进行分析。数据的选择及处理: 影响国内旅游收入的因素有很多,本文选择了影响国内旅游收入因素(y)的因素有人均收入(x1)、国内旅游人数(x2)、城镇人均旅游支出(x3)、农村人均旅游支出(x4)、公路里程(x5)、铁路里程(x6)。 国内旅游收入数据资料 年份国内旅游收 入(亿元) 人均收 入(元) 国内旅游 人数(百 万人次) 城镇人均 旅游支出 (元) 农村人 均旅游 支出 (元) 公路里程 (万公 里) 铁路里 程(万公 里) 1994 1023.51 4044 524 414.67 54.88 111.78 5.9 1995 1375.7 5046 629 464.02 61.47 115.7 6.2389 1996 1638.38 5846 640 534.1 70.45 118.58 6.49 1997 2112.7 6420 644 599.8 145.68 122.64 6.6 1998 2391.18 6796 695 607 197 127.85 6.64 1999 2831.92 7159 719 614.8 249.5 135.17 6.74 2000 3175.54 7858 744 678.6 226.6 140.27 6.87 2001 3522.4 8622 784 708.3 212.7 169.8 7.0058 2002 3878.36 9398 878 739.7 209.1 176.52 7.19 2003 3442.27 10542 870 684.9 200 180.98 7.3 2004 4710.7 12336 1102 731.8 210.2 187.07 7.44 2005 5285.9 14053 1212 737.1 227.6 334.52 7.54376 2006 6229.74 16165 1394 766.4 221.9 345.6999 7.70838 2007 7770.6 19524 1610 906.9 222.5 358.3715 7.79659 数据来自《中国统计年鉴2008》 国内旅游收入(亿元):指国内游客在国内旅行、游览过程中用于交

数理统计复习题第八章

第七章 假设检验 三、典型题解 例1:某车间用一台包装机包装葡萄糖, 包得的袋装糖重是一个随机变量, 它服从正态分布.当机器正常时, 其均值为0.5千克, 标准差为0.015千克.某日开工后为检验包装机是否正常, 随机地抽取它所包装的糖9袋, 称得净重为(千克): 0.498 0.506 0.518 0.524 0.498 0.511 0.520 0.515 0.512, 问机器是否正常? 解: 根据样本值判断5.05.0≠=μμ还是.提出两个对立假设 0100:5.0:μμμμ≠==H H 和 选择统计量:)1,0(~/0 N n X Z σμ-= 取定0.05a =,则/20.025 1.96,z z a ==又已知 9, 0.015, n s ==由样本计算得0.511x =, 2.2 1.96=>,于是拒绝假设 0H , 认为包装机工作不正常. 例2:某工厂生产的固体燃料推进器的燃烧率服从正态分布),(2 σμN , s cm s cm /2,/40==σμ,现用新方法生产了一批推进器,从中随机取25n =只,测得燃 烧率的样本均值为s cm x /25.41=.设在新方法下总体均方差仍为s cm /2,问这批推进器的燃烧率是否较以往生产的推进器的燃烧率有显著的提高?(取显著性水平05.0=α) 解:根据题意需要检验假设 00 :40H m m ?(即假设新方法没有提高了燃烧率), 10 :H m m >(即假设新方法提高了燃烧率), 这是右边检验问题,拒绝域为 0.05 1.645x z z = ?,由 3.125 1.645 x z = =>可得z 值落到拒绝域中故在显著性水平0.05 a =下拒绝0 H . 即认为这批推进器的燃烧率较以往有显著提高. 例3:某切割机在正常工作时, 切割每段金属棒的平均长度为10.5cm, 标准差是0.15cm, 今

(完整版)多元线性回归模型习题及答案

多元线性回归模型 一、单项选择题 1.在由30n =的一组样本估计的、包含3个解释变量的线性回归模型中,计算得多重决定系数为0.8500,则调整后的多重决定系数为( D ) A. 0.8603 B. 0.8389 C. 0.8655 D.0.8327 2.下列样本模型中,哪一个模型通常是无效的(B ) A. i C (消费)=500+0.8 i I (收入) B. d i Q (商品需求)=10+0.8i I (收入)+0.9i P (价格) C. s i Q (商品供给)=20+0.75i P (价格) D. i Y (产出量)=0.650.6i L (劳动)0.4 i K (资本) 3.用一组有30个观测值的样本估计模型01122t t t t y b b x b x u =+++后,在0.05的显著性水 平上对1 b 的显著性作t 检验,则1 b 显著地不等于零的条件是其统计量t 大于等于( C ) A. )30(05.0t B. ) 28(025.0t C. ) 27(025.0t D. ) 28,1(025.0F 4.模型 t t t u x b b y ++=ln ln ln 10中,1b 的实际含义是( B ) A.x 关于y 的弹性 B. y 关于x 的弹性 C. x 关于y 的边际倾向 D. y 关于x 的边际倾向 5、在多元线性回归模型中,若某个解释变量对其余解释变量的判定系数接近于1,则表明模型中存在( C ) A.异方差性 B.序列相关 C.多重共线性 D.高拟合优度 6.线性回归模型01122......t t t k kt t y b b x b x b x u =+++++ 中,检验0:0(0,1,2,...) t H b i k ==时,所用的统计量 服从( C ) A.t(n-k+1) B.t(n-k-2) C.t(n-k-1) D.t(n-k+2)

基于多元线性回归模型的影响居民消费水平相关因素分析

计量分析软件课程论文 论文题目:基于多元线性回归模型的影响居民消费 水平相关因素分析 姓名:学号: 学院:专业: 联系电话: 年月日 基于多元线性回归模型的影响居民消费 水平相关因素分析 一、研究背景 中国GDP总量超越日本,成为仅次于美国的第二大经济体,但我国人均GDP 依然很低,全球排名87位,这很大程度上制约了居民消费水平的提高。到2020年实现全面建成小康社会的目标,十八大明确提出提高居民人均收入和人均消费水平,共享改革开放成果。我国居民消费水平在改革开放后有了很大提高,但消费水平依然很低,消费量占GDP比重依然很小。为此,本文旨在根据全国经济宏观政策、国内生产总值、职工平均工资指数、城镇居民消费价格指数、普通中学及高等学校在校生数、卫生机构数和基本设施铁路公路货运量等因素的变化情况,来分析如何提高居民消费水平,以判断是否能使居民消费水平有很大的提高。本文通过对1978-2010年影响居民消费水平因素数据的分析,找到影响居民消费水平的主要原因,通过计量经济分析方法来建立合理的模型,探讨影响居民消费增长的长期趋势规律,并给政府提出合理的建议,以提高居民消费水平。 二、影响居民消费水平的因素 宏观经济模型) + GDP- + + =,经济发展应该紧紧抓住消费这一 I (M C X G 驾马车,而居民消费水平的高低受制于多种因素。凯恩斯消费理论认为居民消费主要受收入影响,我国居民消费一直很低,消费意愿不强,本文通过计量分析找

到影响我国居民消费水平的主要因素,从根本上改善消费不足,促进我国经济的持续稳定健康发展。 消费分为居民消费和,居民消费包括农村居民消费和城镇居民消费。本文结合居民消费水平的影响因素,列出了国内生产总值、职工平均工资指数、城镇居民消费价格指数、普通中学及高等学校在校生数、卫生机构数和基本设施铁路公路货运量等相关因素,进行计量分析,得到回归模型。 三、居民消费水平模型的总体分析框架 (1)多元线性回归法OLS 概述[1] 回归分析是计量经济分析中使用最多的方法,在现实问题研究中,因变量往往受制于多个经济变量的影响,通过统计资料,根据多个解释变量的最优组合来建立回归方程预测被解释变量的回归分析称为多元线性回归法。其模型基本形式为: 其中0β、1β、2β、3β…k β是1+k 个未知参数,称为多元回归系数。Y 称为被解释变量,t X 1、t X 2、t X 3…kt X 是k 个可以精确测量和可控的一般解释变量, t μ是随机误差项。当2≥k 时,上式为多元线性回归模型。 (2)多元回归模型的建立 定义被解释变量和解释变量,被解释变量为居民消费水平(Y 元),解释变量为国内生产总值(1X 亿元)、职工平均工资指数(2X )、城镇居民消费价格指数(3X )、普通中学及高等学校在校生数(4X 万人)、卫生机构数(5X 个)和基本设施铁路公路货运量(6X 万吨)。 (3)统计数据选取 本文所有数据均来自中国统计局和中国统计局外网中国统计年鉴。[2] 1978 184 21261 169732 195301 1979 208 175142 382929 1980 238 180553 493327 1981 264 190126 471336 1982 288 193438 492737 1983 316 196017 520197

概率论与数理统计公式总结

概率论与数理统计公式总 结 Prepared on 22 November 2020

第一章 P(A+B)=P(A)+P(B)- P(AB) 特别地,当A 、B 互斥时, P(A+B)=P(A)+P(B) 条件概率公式 概率的乘法公式 全概率公式:从原因计算结果 Bayes 公式:从结果找原因 第二章 二项分布(Bernoulli 分布)——X~B(n,p) 泊松分布——X~P(λ) 概率密度函数 怎样计算概率 均匀分布X~U(a,b) 指数分布X~Exp (θ) 分布函数 对离散型随机变 量 对连续型随机变量 分布函数与密度函数的重要关系: 二元随机变量及其边缘分布 分布规律的描述方法 联合密度函数 联合分布函 数 联合密度与边缘密度 ) () ()|(B P AB P B A P = )|()()(B A P B P AB P =) |()(A B P A P =∑==n k k k B A P B P A P 1 ) |()()(∑== n k k k i i k B A P B P B A P B P A B P 1 ) |()() |()()|() ,...,1,0()1()(n k p p C k X P k n k k n =-==-,,...) 1,0(! )(== =-k e k k X P k ,λ λ 1)(=?+∞ ∞-dx x f ) (b X a P ≤≤?=≤≤b a dx x f b X a P )()() 0(1 )(/≥= -x e x f x θ θ ∑≤==≤=x k k X P x X P x F ) ()()(? ∞ -=≤=x dt t f x X P x F )()()(? ∞ -=≤=x dt t f x X P x F )()()(),(y x f ) ,(y x F 0 ),(≥y x f 1),(=??+∞∞-+∞ ∞-dxdy y x f 1 ),(0≤≤y x F } ,{),(y Y x X P y x F ≤≤=)(1 )(b x a a b x f ≤≤-= ) ()('x f x F =

多元线性回归模型练习题及答案

多元线性回归模型练习 一、单项选择题 1. 在由n =30的一组样本估计的、包含3个解释变量的线性回归模型中,计算 得 可决系数为0.8500,贝U 调整后的可决系数为(D ) A. 0.8603 B. 0.8389 C. 0.8655 D.0.8327 2. 用一组有30个观测值的样本估计模型 y t =b o ? b i x it b 2 X 2t U t 后,在0.05的 显著 性水平上对b l 的显著性作t 检验,则b l 显著地不等于零的条件是其统计量 t 大于等于(C ) A t o 』5(3O ) B t o.025 (28) C t o.o25(27) D F 0.025 (1,28) 3. 线性回归模型y t =b ° "旳+6x 21 + ............ +b k X kt +4中,检验 A H o :b =0(i 二。,1,2 ,.*)时,所用的统计量 / ■■ ■X 服从(C ) A.t (n-k+1) B.t (n-k-2) C.t (n-k-1) D.t( n k+2) 4. 调整的可决系数 :与多元样本判定系数: ‘之间有如下关系( D) R 2= n " R 2 R 2 =1 - n " R 2 A . n- k-1 B. n -k -1 R 2=1 - n " (1 R 2) R 2 =1 - n " (1-R 2 ) C n —k -1 D. n- k-1 5.对模型Y = B 0+ B 1X i + B 2X 2i + 卩 i 进行总体显著性F 检验,检验的零假设是 A ) A . B 1= B 2=0 B. B 1=0 C .B 2=0 D. B 0=0 或 B 1=0 6?设 k 为回归模型中的参数个数,n 为样本容量。则对多元线性回归方程进 行显著性检验时,所用的F 统计量可表示为( B ) ESS (n-k ) 一k A. RSS (k-1) B . (1-R 2 )/(n —k — 1 ) R 2 (n - k) C. (1 - R 2) '(k-1) 7.多元线性回归分析中(回归模型中的参数个数为 k ),调整后的可决系数 R 2与可决系数R 2之间的关系( A ) n -1 R 2 =1 _(1 _R 2 ) ESS/(k-1) D. TSS (n-k)

多元回归分析SPSS

多元线性回归分析预测法 多元线性回归分析预测法(Multi factor line regression method,多元线性回归分析法) [编辑] 多元线性回归分析预测法概述 在市场的经济活动中,经常会遇到某一市场现象的发展和变化取决于几个影响因素的情况,也就是一个因变量和几个自变量有依存关系的情况。而且有时几个影响因素主次难以区分,或者有的因素虽属次要,但也不能略去其作用。例如,某一商品的销售量既与人口的增长变化有关,也与商品价格变化有关。这时采用一元回归分析预测法进行预测是难以奏效的,需要采用多元回归分析预测法。 多元回归分析预测法,是指通过对两上或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时,称为多元线性回归分析。 [编辑] 多元线性回归的计算模型[1] 一元线性回归是一个主要影响因素作为自变量来解释因变量的变化,在现实问题研究中,因变量的变化往往受几个重要因素的影响,此时就需要用两个或两个以上的影响因素作为自变量来解释因变量的变化,这就是多元回归亦称多重回归。当多个自变量与因变量之间是线性关系时,所进行的回归分析就是多元性回归。

设y为因变量,为自变量,并且自变量与因变量之间为线性关系时,则多元线性回归模型为: 其中,b 0为常数项,为回归系数,b1为固定时,x1每增加一 个单位对y的效应,即x 1对y的偏回归系数;同理b2为固定时,x2每增加一 个单位对y的效应,即,x 2对y的偏回归系数,等等。如果两个自变量x1,x2同一个因变量y呈线相关时,可用二元线性回归模型描述为: 其中,b 0为常数项,为回归系数,b1为固定时,x2每增加 一个单位对y的效应,即x 2对y的偏回归系数,等等。如果两个自变量x1,x2同一个因变量y呈线相关时,可用二元线性回归模型描述为: y = b 0 + b1x1 + b2x2 + e 建立多元性回归模型时,为了保证回归模型具有优良的解释能力和预测效果,应首先注意自 变量的选择,其准则是: (1)自变量对因变量必须有显著的影响,并呈密切的线性相关; (2)自变量与因变量之间的线性相关必须是真实的,而不是形式上的; (3)自变量之彰应具有一定的互斥性,即自变量之彰的相关程度不应高于自变量与因变量之 因的相关程度; (4)自变量应具有完整的统计数据,其预测值容易确定。 多元性回归模型的参数估计,同一元线性回归方程一样,也是在要求误差平方和()为最小的前提下,用最小二乘法求解参数。以二线性回归模型为例,求解回归参数的标准方程组为 解此方程可求得b 0,b1,b2的数值。亦可用下列矩阵法求得

概率论与数理统计公式总结

第一章 P(A+B)=P(A)+P(B)- P(AB) 特别地,当A 、B 互斥时, P(A+B)=P(A)+P(B) 条件概率公式 概率的乘法公式 全概率公式:从原因计算结果 Bayes 公式:从结果找原因 第二章 二项分布(Bernoulli 分布)——X~B(n,p) 泊松分布——X~P(λ) 概率密度函数 怎样计算概率 均匀分布X~U(a,b) 指数分布X~Exp (θ) 分布函数 对离散型随机变量 对连续型随机变量 分布函数与密度函数的重要关 系: 二元随机变量及其边缘分布 分布规律的描述方法 联合密度函数 联合分布函数 联合密度与边缘密度 ) () ()|(B P AB P B A P = )|()()(B A P B P AB P =) |()(A B P A P =∑==n k k k B A P B P A P 1 ) |()()(∑== n k k k i i k B A P B P B A P B P A B P 1 ) |()() |()()|() ,...,1,0()1()(n k p p C k X P k n k k n =-==-,,...) 1,0(! )(== =-k e k k X P k ,λ λ 1)(=? +∞ ∞ -dx x f ) (b X a P ≤≤?=≤≤b a dx x f b X a P )()() 0(1 )(/≥= -x e x f x θ θ ∑≤==≤=x k k X P x X P x F ) ()()(? ∞ -=≤=x dt t f x X P x F )()()(? ∞ -=≤=x dt t f x X P x F )()()(),(y x f ) ,(y x F 0 ),(≥y x f 1),(=?? +∞ ∞ -+∞ ∞ -dxdy y x f 1 ),(0≤≤y x F } ,{),(y Y x X P y x F ≤≤=?+∞ ∞ -=dy y x f x f X ),()(?+∞ ∞ -=dx y x f y f Y ),()() (1 )(b x a a b x f ≤≤-= ) ()('x f x F =

数理统计典型例题分析

典型例题分析 例1.分别从方差为20和35的正态总抽取容量为8和10的两个样本,求第一个样本方差是第二个样本方差两倍的概率的范围。 解 以21 S 和22 S 分别表示两个(修正)样本方差。由22 22 12σσy x S S F =知统计量 22 2 1222175.13520S S S S F == 服从F 分布,自由度为(7,9)。 1) 事件{}2 2 212S S =的概率 {}{}05.32035235 20222221222122 2 1 ===??? ????==??????===F P S S P S S P S S P 因为F 是连续型随机变量,而任何连续型随机变量取任一给定值的概率都等于0。 2) 现在我们求事件{}二样本方差两倍第一样本方差不小于第=A 的概率: {} {}5.322 221≥=≥=F P S S P p 。 由附表可见,自由度9,721==f f 的F 分布水平α上侧分位数),(21f f F α有如下数值: )9,7(20.45.329.3)9,7(025.005.0F F =<<=。 由此可见,事件A 的概率p 介于0.025与0.05之间;05.0025.0<

解 由随机变量2χ分布知,随机变量σ/12S n )(-服从2χ分布,自由度 1-=n v ,于是,有 {}{}95.0)1(5.1)1(5.1)1(2,05.0222 2=≤≥-≤=? ?????-≤-=v v v P n P n S n P χχχσ 其中2v χ表示自由度1-=n v 的2χ分布随机变量,2 ,05.0v χ是自由度为1-=n v 的水 平05.0=α的2χ分布上侧分位数(见附表)。我们欲求满足 2,05.015.1v n χ≥-)( 的最小1+=v n 值,由附表可见 2 26,05.0885.3839)127(5.1χ=>=-, 22505.0652.375.401265.1,)(χ=<=-。 于是,所求27=n 。 例3.假设随机变量X 在区间[]1,+θθ上有均匀分布,其中θ未知: )(1n X X ,, 是来自X 的简单随机样本,X 是样本的均值,{} n X X X ,,min 1)1( =是最小观察值。证明 21?1-=X θ 和 11?12+-=n X ) (θ 都是θ的无偏估计量。 解 由X 在[]1,+θθ上均匀分布,知2/)12(+==θEX EX i 。 1) 由 θθθθ=-+=-+=-=∑∑==2 121212221211?111n i n i i n EX n E , 可见1?θ是θ的无偏估计量。 2) 为证明2?θ是θ的无偏估计。我们先求统计量)1(X 的概率分布。

相关文档
最新文档