基于改进多元线性回归的股票价格预测模型

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

经济研究

基于改进多元线性回归的股票价格预测模型

李俊豪

(辽宁师范大学数学学院,辽宁 大连 116021)

摘 要:当前股票市场价格波动剧烈,不论是专业股票投资者以及相关从业人员还是二级市场中的散户都希望找到一条行之有

效的路径进行股票价格预测,这不仅能帮助投资者控制风险,也可以帮助其减少不必要的损失。本文以当前比较流行的多元线性

回归法为基础,并使用因子分析将这一方法进行改进对贵州茅台(SHSE. 600519)这一支股票进行股价预测,最终通过比较预测效果,推行出适用于该股票的股价预测模型。

关键词:量化投资;多元线性回归;因子分析;股价预测;数学建模

0 引言

事实上,量化投资就是使用数学的方法与手段在经济现象中找到数据存在的内在联系,通过K线图的观察,可以看到当前某些股票有明显的时间序列上的线性关系,那么进而可以大胆的假设,实际上股票价本身是否与自身的各个指标之间有着较强的线性关系。本文建立了多元线性回归模型,把股价作为被解释变量,其他影响因素作为解释变量,进行模型模拟。[1]我们在对该模型进行共线性诊断时会发现,开盘价、最高价、最低价、收盘价、总手数、次日开盘价这些自变量间存在严重的多重共线性,影响了模型的预测效果。事实上,计量经济学理论给出了多种消除多重共线性有多种处理方式,本文选择使用较为简便的方式,即因子分析来消除多重共线性。在进行因子分析后,我们将多个解释变量最终分为两个因子,分别是价格因子和数量因子,以这两个因子为自变量,次日收盘价为因变量进行多元线性回归,得到的回归方程模型进行预测的结果远远优于之前的回归模型。[2]本文最终使用东方财富软件上的日K线图上的数据作为数据来源,选取贵州茅台(SHSE.600519)这只绩优的白马股作为目标股票,把2018.10.30-2019.4.17共计114个交易日作为模型建立的训练集,把2019.4.18-2019.4.30共计9个交易日作为模型检验回测期。

1 多元线性回归

1.1 模型建立

多元线性回归使用当日开盘价、最高价、最低价、总手数,次日开盘价为自变量,次日收盘价为因变量作出多元线性方程进行求解预测。

表1 模型汇总b

模型R R 方调整 R 方标准 估计的误差

更改统计量

Durbin-Watson R 方更改 F 更改df1df2Sig. F 更改

1.994a.989.9881

2.49938.9891569.4876107.000 2.092

a. 预测变量: (常量), 次日开盘价, 总手数, 当日开盘价, 收盘价, 最低价, 最高价;

b. 因变量: 次日收盘价

表2 系数

模型B

非标准化系数标准系数

t Sig.容差

共线性统计量标准 误差试用版VIF

1

(常量)-8.0997.652-1.058.292

当日开盘价-.082.236-.080-.347.729.002501.052最高价.296.348.294.852.396.0011133.479最低价.412.292.395 1.413.161.001743.459收盘价-.724.304-.713-2.383.019.001852.180总手数 3.722E-007.000.008.540.590.50731.974次日开盘价 1.112.167 1.098 6.673.000.004257.667

设次日收盘价为Y,当日开盘价为X1,最高价为X

2

,最低价为X3,收盘价为X4,总手数为X5,次日开盘价为X6,可以得到多元回归方程为:

Y=-8.099-0.082X

1

+0.296X2+0.412X3-0.724X4+ 3.722*10-7X5+1.112X6

其中R2为0.988,说明数据的拟合程度相当好,并且根据DW检验数值显示,由于DW值在2左右,该模型不具有自相关性。1.2 模型预测

将各解释变量的数值代入多元线性回归方程中有:Y=-8.099-0.082X

1

+0.296X2+0.412X3-0.724X4+ 3.722*10-7X5+1.112X6

次日收盘价(2019.04.18-2019.04.30)的预测值是:942.59,948.55,961.15,962.3,981.01,973.27,956.91,956.03,967.04

与观察值的绝对误差分别为:2.91,4.01,11.95,

12.65,11.01,20.9,11.91,15.94,9.96

平均绝对误差为:11.22

平均绝对误差百分比:1.18%

可以看到所得到的模型的预测效果非常好,绝对误差的百分比只有1.18%,估计值几乎已经无限接近于实际观察值。2 模型改进

2.1 模型建立

由表2可以看到该模型具有非常强的多重共线性,VIF值远远大于10,所以本文采用因子分析法来减少多重共线性对模型的冲击,首先要进行因子分析的前提条件假设。

表3 相关矩阵

当日开盘价最高价最低价收盘价总手数次日开盘价

相关当日开盘价 1.000.996.998.994.330.990最高价.996 1.000.997.999.276.996最低价.998.997 1.000.997.628.994收盘价.994.999.997 1.000.465.998总手数.330.276.628.465 1.000.373次日开盘价.990.996.994.9598.373 1.000

可以看到绝大多数的相关系数均超过了0.6,并且由接近70%的相关系数在0.9以上说明当前各变量之间有较强的相关性。基于这样的强相关性,可以看出当前各组数据比较适合进行因子分析,但是本文还对该组数据进行了其他相关检验保证数据的合理性。

表4 KMO和Bartlett 的检验

取样足够度的 Kaiser-Meyer-Olkin 度量.812

Bartlett 的球形度检验近似卡方2604.772

df15

Sig..000

根据检验结果可以看出由表知巴特利特球度检验

的检验统计量为2604.772,该观测值较大,且对应的概

率P值小于给定的显著性水平,且KM0值为0.812,表

明原有变量适合作因子分析。

在基于该模型适合做因子分析的情况下,本文使

用spss软件进行了数据的因子分析:

两个因子对总变量的解释程度达到了99.762%,

解释效果良好,可以形成两个因子。

由此就得到了两个因子,第一个因子的方差贡献

率是5.013,第二个因子的方差贡献率是0.973。从而可表5 解释的总方差

成份

初始特征值提取平方和载入旋转平方和载入

合计方差的 %累积 %合计方差的 %累积 %合计方差的 %累积 %

1 5.01383.55383.553 5.01383.55383.553 4.95982.65482.654

2.97316.20999.762.97316.20999.762 1.02617.10899.762

3.011.18199.943

4.002.03199.974

5.001.01899.991

6.001.009100.000

提取方法:主成份分析。

表6 成份矩阵a

成份

12当日开盘价.996-.063

最高价.999-.016

最低价.997-.065

收盘价.999-.027

总手数.192.981

次日开盘价.987-.018提取方法 :主成份。

a. 已提取了2个成份。以对两个因子进行命名,因子一:价格因子,因子二:数量因子。

F

1

=0.996X1+0.999X2+0.997X3+0.999X4+0.192X5+ 0.997X6

F

2

=-0.063X1-0.016X2-0.065X3-0.027X4+0.981X5- 0.018X6

2.2 改进模型回测

根据下表可以看到调整后的R方为0.984,说明模型拟合程度相当好,并且significant-F值为0.000<0.05。该模型经过DW检验后,DW值为1.761在2附近,可以认为不存在自相关性。 (下转第64页)

相关文档
最新文档