金融数据挖掘共30页文档

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对两个距离的说明。现在可以得到线行判别函数为:
④、如何建立预测规则
* 指标的判断:正指标还是负指标(正指标)。
* 根据两种误判的损失估计确定合适的临界值
现在根据使两种误判尽可能接近的方法,得到:
临界值:d = 1.2
⑤、预测规则:
对每个上市公司计算对应的d,若d>1.2,则判断其一年后 不会陷入财务困境;若d<1.2,则判断其一年后会陷入财务 困境。
* 随机建立训练样本组、检验样本组的SAS程序 # data a;
set sasuser.sj0; k=uniform(15); run; # 对已进行k排序的数据库a data b; set a; m=int(_n_/2); run; (sj1,sj2)
二、构造分类预测模型的方法
1、判别分析法
①、判别分析方法的统计学原理
4、报表变动情况: 1994年合并会计报表 2019年资产减值准备
5、研究所需数据
①、预测变量选取——实践经验、其他文献使用的预测变
量、采用技术手段(统计技术、数据挖掘技术)选取预测变 量、在一定理论指导下构造新的预测变量;
②、样本数据的结构形式
③、采集样本数据时应注意的问题
* 尽量采用跨年度数据 * 需要删除的数据
1990年代末,在对100名美国著名科学家的问卷调查 中,数据挖掘被列为21世纪对人类发展影响最大、最有前途 的10大技术的第三位。
我国对数据挖掘技术的重视(开发与应用)
1、863、963项目; 2、国家及省重点科学领域; 3、国家统计局在全国组织数据挖掘培训(2000); 4、企业特别是银行对数据挖掘技术的重视; 5、人民大学数据挖掘研究与应用中心。
3、数据管理策略研究,从数据库管理技术等领域; 4、数据挖掘技术的应用研究,其中数据挖掘技 术在金融领域的应用是一个重要方面。
三、几种相对比较成熟的数据挖掘技术
数据挖掘是一门新兴的、正在不断发展中的技 术,近年来,几类十分重要、且相对比较成熟的数 据挖掘技术是:
1、分类与预测 2、特征化、比较与关联规则挖掘 3、聚类分析 4、序列发现
分类——对离散型变量进行预测 预测——对连续型变量进行预测
二、分类案例教学—— 上市公司财务困境预测模型构建
1、要求:
将因财务状况异常而被特别处理的ST公司界定为财务困 境公司、非ST公司界定为财务正常公司,利用上市公司的财 务报表数据,建立上市公司财务困境预测模型(提前一年预 测,即用第t-2年的数据预测企业在第t年是否会陷入财务困 境)。 分类变量y的取值
假设有两个总体——财务困境公司与财务正常公司,每个
总体都可以用一个六维随机变量
表示,不同的总
体分布不同。预测上市公司是否会陷入财务困境,就是判断
这个公司所对应的样本属于哪个总体。
判别分析是利用距离(相似程度的体现)来判断样本的归
属。较常用的距离度量是马氏距离:
,判别分
析实际上是利用距离差:
为判断指标来判断样本的归
用y表示类变量,y取离散的几个值,分类就是判断或预测 样本的y究竟取什么值
2、预测
预测是指对连续性变量的取值进行预测,如: * 某个借款人的违约概率是多少 * 银行资产组合明天在99%置信度下的最大损失(VaR)有 多大 * 如果某开放式基金因面临巨额赎回申请而不得不大量抛 售某种证券,这种证券的价格会下跌多少
总负债/总资产、主营业务收入/总资产、总利润/总资产、 (货币资金+短期投资净额)/流动资产、留存盈余/总资产、 总资产的自然对数。
⑥、随机抽样构造训练样本组、检验样本组的SAS方法:
* 将EXCEL数据库转为SAS数据库; * SAS随机数函数——uniform(seed),随机种子数seed 取奇数,产生[0,1]区间上的一个随机数
第一Leabharlann Baidu:概论
一、何为数据挖掘(data mining) 现代信息社会的特征:信息(数据)泛滥、知识缺乏,
如何从海量数据(广义的概念)中挖掘出决策有用信息?
数据挖掘是结合现代数学、统计学,机器学习、人工智 能、数据库管理、计算机图形学、软件工程等各领域的技术 和知识,1990年代在西方国家出现的一种高新技术——从 海量数据中挖掘出决策有用信息的技术。
本课程主要内容:几类数据挖掘技术的基本原 理、数据挖掘方法、及这些挖掘技术在金融领域的 应用。
第二章:分类与预测
一、分类与预测的概念
1、分类 已知离散的、有限的几个类,判断或预测样本属于那个类。 * 某人否具有某种疾病 * 上市公司是否会陷入财务困境、是否会被外资并购 * 借款人是否会违约
* 这个客户是否为银行的潜在优质客户、是否会转向其他 银行
* 尽量不采用配对抽样
④、随机构造的训练样本组与检验样本组(过度拟合现象)
⑤、本案例的数据说明(sj0):
* 2019年底前上市的公司; * 删除其他原因被特别处理的公司; * 数据跨期2019-2019,分别预测2019-2019; * 删除在预测年度已陷入财务困境的公司; * 共有非ST公司数据1008个,ST公司数据111个; * 采用的6个预测变量为(第一种方法):
海量数据——沙漠,隐含的知识——金子, 数据挖掘——从沙漠中挖掘金子的技术。
二、不同学科对数据挖掘技术的研究与开发
1、理论研究——各种数据挖掘技术的理论基础、 理论依据研究,从数学、统计学、人工智能、计算机 图形学等不同领域;
2、挖掘技术研究,从统计学、人工智能、机器 学习、计算机图形学、软件工程等领域;
y=0 如果公司为财务困境公司 y=1 如果公司为财务正常公司
2、类似案例:
* 外资并购目标公司预测 * 防信用卡诈骗预警系统 * 银行客户关系管理 * 税务稽核
3、数据来源:CSMAR数据库 1990-2019 资产负债表、损益表, 1990-2019 财务状况变动表 2019-2019 现金流量表
属。
由于马氏距离为一个二次型,因此当
时,距离差
也会一个二次型,这样在计算时较复杂,如果
,且两
个总体均服从正态分布,则距离差为一个线性函数(线性判
别函数),可利用这个线性函数建立预测规则。
②、判别分析的SAS程序: proc discrim data=sasuser.sj1; class y; run; ③、SAS结果
相关文档
最新文档