回归分析课程设计
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
成绩评定表
课程设计任务书
目录
1 设计目的 (1)
2 问题分析 (2)
3 设计程序 (3)
3.1 设计步骤 (3)
3.2 编写程序 (3)
3.3 得出结果 (7)
4 结果分析 (7)
5 设计总结 (8)
致谢 (9)
参考文献 (10)
摘要
数理统计是具有广泛应用的数学分支,而回归分析问题在其中占有很重要的地位。回归分析是数理统计中研究变量之间相关关系的一种有效方法。在现实世界中,经常出现一些变量,它们相互联系,互相依存,因而它们之间存在着一定的关系。一般说来变量之间的关系大致可分为两类:一是确定性的关系,也就是我们所熟知的函数关系;另一类是非确定性关系,我们称为相关关系。对于具有相关关系的变量,虽然不能找到它们之间的精确表达式,但是通过大量的试验(观测)数据,可以发现它们之间存在一定的统计规律性。对于实际问题非确定性问题居多。它主要分为一元和多元,也分为线性和非线性的回归分析。
近年来,我国居民的生活水平有了逐步提高,金融市场体制也逐步完善,全民参与股票投资的趋势也逐步明显,本文借助mathlab软件,建立数学模型,得到股票交易额与居民可支配收入和职工平均工资的线性相关方程。
关键词:回归分析;相关关系;多元线性回归;残差图;置信区
股票市场与人民生活水平相关的回归分析
1 设计目的
为了更好的了解概率论与数理统计的知识,熟练掌握概率论与数理统计在实际问题上的应用,并将所学的知识结合MATLAB对数据的处理解决实际问题。本设计是利用二元线性回归理论对股票交易额问题建立数学模型,并用MATLAB分析工具库中的回归分析软件进行解算。
设计问题:
本文从中经网统计数据库和搜数网中分别采集了1992年至2011年以来在全国的股票交易额(亿元)、居民人均可支配收入(元)、职工平均工资(元)三项指标,数据如下(表格1):
表格1
2 问题分析
回归分析一般分为线性回归分析与非线性回归分析。本题采用的是线性回归分析中的二元线性回归。
本设计是一道确定血压与年龄和体质指数关系问题,首先用MATLAB 绘出残差图,经过一系列的剔除坏点,得到相对准确的数据,再由图分析该数据属于线性回归问题,在MATLAB 软件中得出回归方程系数,置信区间与相关性检验所需的数据。然后对其进行多元线性回归分析 设计原理:
二元线性回归分析模型及参数的确定。二元线性回归分析预测法的回归方程为:
式中:x 1,x 2——自变量;
——因变量,即线性回归分析估值,或预测值;
a ,
b 1,b 2——待定回归方程参数。
最小二乘法建立的求参数的方程为:
∑∑∑∞
=∞=∞=++=1
2
2
1
1
1
1
n n n x
b x b na y
∑∑∑∑∞
=∞
=∞
=∞
=++=1
2
12
1
1
1
1
1
1
1
n n n n x
x b x b x a y x
∑∑∑∑∞
=∞
=∞
=∞
=++=1
2
2221
111
21
2n n n n x b x x b x a y x
只需将历史资料自变量2和对应的因变量—v 的数据代人上面公式,并联立求解方程组,即可求得回归参数a ,b 1,b 2
再将这些参数代人回归方程,即可得预测模型。
3 设计程序
3.1 设计步骤
为了研究这些数据中所蕴含的规律,将股票交易额Y 看做因变量,1X (居民可支配收入),2X (职工平均收入),看做自变量,用MATLAB 画出它们的残差图,可见存在异常点,剔除异常点,找出线性回归方程,假定Y 与1X ,2X 有如下关系
22110x b x b b y ++=。
3.2 编写程序
输入命令:
y=[681,3627,8128,4036,21332,30722,23544,31319,60827,38305,27990,32115,42334,31665,90469,500556,267113,535987,545634,600354],
x1=[1826,2337,3179,3893,4839,5160,5245,5854,6280,6860,7703,8472,9422,10327,11759,13786,15781,17175,19109,21004]
x2=[2711,3371,4538,5500,6210,6470,7469,8346,9371,10870,12422,14040,16024,19998,21001,24932,29229,32736,36539,38669] n=length(y);
x=[ones(n,1),x1',x2'];
[b,bint,r,rint,s]=regress(y',x); b,bint,s
输出:
b =
-132.0000 0. 0132 0. 0167 bint =
-192.9521 -34.2895
0.0100 0.0212 0.0104 0.0246 s =
0.5401 87.778 0.0067 9.6720
然后继续输入 rcoplot(r,rint) 其残差图为:
-3
-2
-1
1
2
3
5
Residual Case Order Plot
R e s i d u a l s
Case Number
残插图 1
从图中发现第14,第16个为异常点,剔除它重新计算并画图
y=[681,3627,8128,4036,21332,30722,23544,31319,60827,38305,27990,32115,42334, 90469, 267113,535987,545634,600354],
x1=[1826,2337,3179,3893,4839,5160,5245,5854,6280,6860,7703,8472,9422, 11759, 15781,17175,19109,21004]
x2=[2711,3371,4538,5500,6210,6470,7469,8346,9371,10870,12422,14040,16024, 21001, 29229,32736,36539,38669] n=length(y);
x=[ones(n,1),x1',x2'];
[b,bint,r,rint,s]=regress(y',x); b,bint,s 输出结果为
b =