基于股票财务数据的贝叶斯网络的参数学习_张莹
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2017年 1月 Journal of Science of Teachers′College and University Jan. 2017文章编号:1007-9831(2017)01-0023-06
基于股票财务数据的贝叶斯网络的参数学习
张莹
(华南理工大学 数学学院,广东 广州 510640)
摘要:研究了基于最大似然估计、贝叶斯估计与EM算法的贝叶斯网的参数学习.选取上市公司的10个股票财务变量构建贝叶斯网络,利用创建好的贝叶斯网络进行统计推断.对比最大似然估计和贝叶斯估计得到的参数值并展示EM算法不同迭代次数时的指数似然值,把EM算法得到的CPT表和最大似然估计的值相比较,对比较得到的结果进行归纳与分析.为基于不同算法的贝叶斯网络的参数学习提供了实证分析.
关键词:贝叶斯网络;参数估计;最大似然估计;贝叶斯估计;EM算法
中图分类号:TP301.6 文献标识码:A doi:10.3969/j.issn.1007-9831.2017.01.006
Parameter learning of Bayesian network based on the financial data of stock
ZHANG Ying
(School of Mathematics,South China University of Technology,Guangzhou 510640,China)
Abstract:Mainly introduces the parameter learning of Bayesian network based on maximum likelihood estimation, Bayesian estimation and EM algorithm. Selects10financial variables of quoted companies to build Bayesian networks,which is used to perform statistical inference.Compares the parameter from these two estimations and showes the exponential likelihood values from EM algorithm of different iterations,draws a conclusion from the CPT table as well as the parameter of maximum likelihood estimation. Also provides an empirical analysis for parameter learning of Bayesian network based on different algorithms.
Key words:Bayesian network;parameter estimation;maximum likelihood estimation;Bayesian estimation;EM algorithm
在数据挖掘[1]领域中,贝叶斯网络能够定性和定量地分析属性之间的依赖关系,进行概率推理.它作为不确定性环境下一种有力的知识表示方式和概率推理模型,得到了广泛的应用.近年来,人们研究了直接从数据中学习并建立贝叶斯网络的问题,并把它成功应用到机器学习、人工智能、生物医学和金融等众多领域.贝叶斯网络的学习包括参数学习和结构学习2个方面[2].其中,参数学习是指已知网络结构,确定网络参数的问题;结构学习是指既要确定网络结构,又要确定网络参数的问题.本文重点研究贝叶斯网络的参数学习问题,计算不同估计方式下的CPT表,并进行比较和分析,探讨最大似然估计、贝叶斯估计、EM算法以及它们之间的联系.
1 数据处理
用贝叶斯网来分析一组数据,就是要从这组数据出发,找出一个相对于数据在某种意义下最优的贝叶
收稿日期:2016-11-10
作者简介:张莹(1993-),女,黑龙江密山人,在读硕士研究生,从事数据挖掘、贝叶斯统计与知识推理研究.E-mail:305625843@
斯网.所得的结构是关于数据的一个统计[3]
模型,称为贝叶斯网模型.在实际收集的528个样本中,上市公司的财务数据指标为每股收益、每股净资产、调整后净资产、净资产收益率、股东权益比率、每股未分利润、主营收入增长率、主营利润增长率、主营业务利润率、总资产增长率、股东权益增长率、每股收益增长率、流动比率、速动比率、应收账款周转率、存货周转率、资产负债比、总资产、流动资产、长期投资、固定资产、无形其他资产、流动负债、长期负债、股东权益、资本公积金、主营业务收入、主营业务利润、利润总额、净利润和未分配利润这31个指标,将31个指标按顺序分别用1231, , , X X X 表示. 不同的指标变量之间单位不同,数量级不同,不能按照同一标准度量.因此,为排除由于各个指标的单位不同和其数量级间的差距较大而产生不合理的影响,减少错误发生,需要先对各个因素指标进行类型一致化处理,再进行无量纲化处理.在31个指标中,股东权益比率、流动比率、速动比率和资产负债比是居中型指标,流动负债和长期负债是极小型指标,其余25个均为极大型指标,进行指标类型一致化和无量纲化处理后,把每家上市公司的4年财务数据取均值作为该家公司的评估依据,实际得到132个样本.
选取1210, , , X X X 这10个变量进行贝叶斯网模型的构建,为了方便建立贝叶斯网络和生成 CPT 表,对这10个变量进行离散化处理.本文采用Clementine 提供的分箱技术将数据离散为1,2这2种取值,具体过程见图1.
图1 Clementine 分箱离散化数据流程
2 贝叶斯网络建模
2.1 参数学习算法函数
本文采用的统计建模工具为MATLAB,其中的贝叶斯网络工具箱(BNT)提供了丰富的参数学习函数,当数据完整时,主要用最大似然估计与贝叶斯估计的调用函数;当数据缺失时,如果已知网络拓扑结构,用EM 算法的调用函数计算网络参数.
为了提高运算速度,使各种推理算法能够有效应用,BNT 工具箱采用了引擎机制,不同的引擎根据不同的算法完成模型转换、细化和求解.本文采用的引擎是联合树推理引擎.
2.2 建立贝叶斯网
根据贝叶斯网络的结构学习,建立贝叶斯网络模型,在此网络的基础上进行贝叶斯参数估计.贝叶斯网络结构图见图2.
图2 上市公司10个财务变量构建的贝叶斯网络
由图2可以看出,变量5X ,即股东权益比率,与其余9个变量关系不大.