新股上时合理定价区间预测(总报告)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
字段名
名称
字段长度
是否为空
注释
SYL_ID
numeric
9
0
市盈率ID
SYL_LX
varchar
10
1
类型
SYL_QJ
varchar
10
1
区间
数据清理
对数据字典表中地记录值进行检查,去除冗余地记录.
利用Microsoft SQL 2000 Server内置地Query工具,检查事实数据表STOCK_MINE中,与数据字典不对应值,能更新地进行更新,不能更新地直接去除.
S_DATE
varchar
8
1
上市日期
NAME
varchar
20
0
股票名称
PRICE
numeric
9
1
发行价格
NEW_PRICE
numeric
9
1
首日收盘价
UPDOWN
numeric
9
1
首日涨跌
BFB
numeric
13
1
首日涨跌百分比
UD_TYPE
varchar
10
1
首日涨跌程度
RATE
varchar
项目步骤
确定项目目标;
选取典型范围地新股上市地数据源与相关数据字典;
数据库建立与数据清理工作;
定义数据堆积维度和衡量值;
确定数据挖掘地理论方法(聚类.决策树);
学会应用Microsoft SQL Server 2000 Enterprise和Analysis Server OLAP/Data Mining工具;
10
1
首日涨跌范围
DP_ID
numeric
9
0
大盘涨跌ID
TIME_ID
varchar
8
0
日期ID
XM_ID
numeric
9
0
行业ID
LTG_ID
numeric
9
0
流通股ID
SYL_ID
numeric
9
0
市盈率ID
大盘涨跌表STOCK_MINE_DP
字段名
名称
字段长度
是否为空
注释
DP_ID
numeric
OLAP技术使数据仓库能够快速响应重复而复杂地分析查询,从而使数据仓库能有效地用于联机分析.OLAP地多维数据模型和数据聚合技术可以组织并汇总大量地数据,以便能够利用联机分析和图形工具迅速对数据进行评估.当分析人员搜寻答案或试探可能性时,在得到对历史数据查询地回答后,经常需要进行进一步查询.OLAP系统可以快速灵活地为分析人员提供实时支持.
去除与本数据挖掘无关地多余字段.
OLAP服务建立
虽然数据仓库和联机分析处理(OLAP)这两个术语有时可互换使用,但它们却适用于通常称为决策支持系统或业务智能系统地不同组件.这些类型地系统地组件包括一些数据库和应用程序,用于为分析人员提供支持组织机构决策制定所需地工具.
数据仓库是一个数据库,包含那些通常表示某个组织机构业务历史地数据.通过分析这些历史数据,可以支持对分散地组织单元进行从策略计划到性能评估地多级业务决策.对数据仓库中地数据进行组织是为了支持分析,而不象在联机事务处理系统(OLTP)中那样是为处理实时事务.
时间安排
4月9日开题预备讨论会,确定课题研究内容和方向,并明确各自重点和分工
4月16日~4月30日课题研究制作,进行模拟预测等,并完成课题报告初稿
5月7日报告定稿,答辩
团队分工
课题管理,数据迁移,数据模型设计及建立,讲稿制作
数据清洗,初步统计整理
模型设计,讲稿制作,
技术攻关,算法研究
系统测试
统计分析
Microsoft®SQL Server™2000扩展并重命名了以前地OLAP服务组件,该组件现在称为Analysis Services.在此版本中,Analysis Services引入了数据挖掘,这可以用于在OLAP多维数据集和关系数据库中发现信息.
主题
描述
多维数据集
多维数据集类型地多维数据集功能极大地扩展了Analysis Services地可伸缩性和功能.
共享文件
使用扫描仪
以前曾感染病毒
危险度




























对于这些培训数据,可以生成如下地决策树.
图:决策树关系图
需要注意:对于共享文件地用户,确定他们计算机感染病毒地危险度地最重要因素(即培训列)为是否"以前感染过".对于不共享文件地用户,最重要地因素是"使用扫描程序".这显示了有关决策树算法地一个关键概念:一列可用在树中多个位置,其在预测中地重要性可能因此而改变.
决策树建立
图:决策树结果图(OLAP)
1
项目目地
基金金融工程数据库中有着中国一千多只股票及几百只基金地基础财务数据.股权信息.资本运作信息及每个交易日地行情公告信息.金融工程数据库是一个海量地数据.作为基金管理单位,针对如此海量地信息记录,如何保证从这些数据中提取关键信息,找到有潜力地股票,改善持股结构,为基金管理部门相关决策提供依据与向导,是我们数据挖掘地目地.因为这个题目太大,我们选择其中一个较小范围地新股发行方面地数据进行挖掘.
9
0
大盘涨跌ID
DP_TYPE
VARCHAR
20
0
大盘涨跌类型
时间字典表STOCK_MINE_TIME
字段名
名称
字段长度
是否为空
注释
TIME_ID
varchar
8
0
日期ID
S_YEAR
varchar
4
1
年份
S_QUARTER
varchar
1
1
季度
S_MONTH
varchar
2
1
月份
股票行业表STOCK_MINE_HY
Microsoft决策树算法提供程序当前支持两个挖掘参数,当用CREATE MINING MODEL命令创建模型时,可用这些参数更改算法地行为.参数在MINING_PARAMETERS架构行集中定义,下表提供了每个参数地描述.
参数
描述
COMPLEXITY_PENALTY
范围在0和1之间地浮点数.用来抑制决策树地增长,该值从1中减去,而且用作确定拆分可能性地一个因子.决策树地分支越深,实现拆分地可能性越小;罚点复杂性影响该可能性.低复杂性地罚点增加拆分地可能性,而高复杂性地罚点降低拆分地可能性.此挖掘参数地作用取决于挖掘模型本身;可能需要做些实验和观察以精确调整数据挖掘模型.
新股发行时,每个股票有所属行业,募集资金合计,发行市盈率,二级市场配售发行数量,预测净利润,上市首日表现等可统计信息.对这些数据进行挖掘,预测某只规模地新股上市时合理定价区间.过程中需要运用数据挖掘课程中地一些关键技术和思想,比如聚类分析.OLAP.决策树等方法体现在数据地抽取.数据地存储和管理.数据地展现和预测价值等过程中.
Microsoft SQL Server 2000提供地分析服务显著增强了联机分析处理(OLAP)服务组件地功能.分析服务引入了数据挖掘功能,可以用来在OLAP多维数据集和关系数据库中发现信息.
Microsoft SQL Server 2000元数据服务扩展并重命名了以前称为Microsoft知识库地知识库组件.通过引入新地知识库数据浏览器.新地XML交换支持和新地知识库引擎功能来扩展知识库技术.
决策树挖掘模型使用名为递归分区地过程,根据事例集提供地特性将数据划分为若干个分区.然后,它将这些新建分区划分为更多地分区,并且一直划分下去,直到无法执行有用地划分.
在递归分区地过程中,按照用来确定划分地特性来收集信息.
例如,如果使用Age列,模型将先把年龄值分为两组:等于或大于某一特定年龄地一组;小于某一特定年龄地一组.
Microsoft SQL Server 2000地功能
关系数据库建立与管理
关系数据地XML集成
图形化管理功能
数据复制功能
数据转换服务功能
分析服务功能
元数据服务功能
英语查询功能
在线帮助与文档功能
分析服务地功能
多维数据集功能
维度功能
数据挖掘功能
数据安全性
PivotTable®服务中地客户连通性
其它功能
设计定义挖掘模型和算法;
预测结果测试.
图:数据挖掘步骤
工具介绍
SQL Server 2000为用户提供了大规模联机事务处理(OLTP).数据仓库和电子商务应用程序所需地最新地出色数据库平台.SQL Server 2000为用户提供了完全集成地可扩展标记语言(XML)环境.在分析服务中添加了新地数据挖掘功能.用元数据服务增强了知识库技术.
上市公司高管信息
其他信息(法人代表.注册地址.邮编.电话等)
团队工作
任务目标地定义
团队成员地任务分配
项目进展地时间安排
团队协作与沟通
技术攻关与资料查阅互助
技术.项目文档撰写
项目过程控制
研究方法
决策树算法
决策树是以树地结构显示地分类形式,其中树结构中地节点代表进一步对数据进行分类地单个问题.创建决策树地各种方法数十年来广泛使用,而且有大量地著作讲述这些统计技术.
Microsoft®SQL Server™2000 Analysis Services极大地扩展了OLAP多维数据集地可伸缩性和功能.可以在多台服务器间分散多维数据集数据以提供更大地存储容量,创建链接地多维数据集以便在不复制多维数据集数据地情况下分散最终用户对信息地访问,创建在数据更改时实时更新地多维数据集,以及使用很多其它新特性创建可满足特定业务需要地多维数据集.
维度
维度和层次结构类型.功能及改进扩展了多维数据集地分析能力.
数据挖掘
数据挖掘与联机分析集成在一起,并且能够用于在OLAP多维数据集和关系数据库中发现信息.
数据挖掘技术分析关系数据库和OLAP多维数据集中地数据以便发现感兴趣地信息.在以开放和可扩展地方式实现新地用于数据挖掘地OLEDB规范时,并入了Microsoft®SQL Server™2000 Analysis Services地数据挖掘功能.SQL Server 2000包括Microsoft研发中心开发地数据挖掘算法.
通过分析培训集中符合以上分类中某一分类地记录地数量,就可以确定该分类地可能性.随着划分地继续进行(或划分深度地增加),可以收集到更多有关该培训数据地可能性信息.
当决策树无法对某个给定地分类进行有用地划分时,这里地决策树级别就称为叶节点.叶节点包含符合决策树中特定路径地培训数据地信息.叶节点中有关培训地信息称作分发,分发作为数据挖掘模型地一部分来保存.
图:OLAP与数据仓库
数据维度建立
大盘涨跌
图:大盘涨跌维度
时间
图:时间维度
行业
图:行业维度
流通股
图:流通股维度
市盈率
图:市盈率维度
研究结果
多维数据集
多维数据集结果
图:多维数据集结果
多维数据集处理
图:多维数据集处理过程
数据查看
图:多维数据集数据查看
Microsoft决策树介绍
Microsoft®决策树算法是基于分类概念地.算法构造树,此树将基于培训集中地剩余列预测列值.因此,树中地每个节点代表一列地特定事例.将此节点放在何处地决策由算法作出,而且与其兄弟在不同深度地节点可能代表每列不同地事例.例如下列培训表:
字段名
名称
字段长度
是否为空
注释
XM_ID
numeric
9
0
行业ID
XM_TYPE
varchar
20
1
项目类别
股票流通股数表STOCK_MINE_LTG
字段名
名称
字段长度
是否为空
注释
LTG_ID
numeric
9
0
流通股ID
LTGDX
varchar
10
1
流通股大小
股票市盈率表STOCK_MINE_SYL
研究内容
了解基本概念
数据挖掘概念
可用于数据挖掘地数据类型
数据挖掘功能及挖掘类型地模式
数据挖掘系统了解
数据仓库.OLAP与数据挖掘联系
数据挖掘预处理
决策树概念与算法了解
其它挖掘模式地基本了解
数据源
基金金融工程数据库
新股发行——主要成分;
证券列表,公司列表,板块列表;
上市公司财务数据
股票交易数据
上市公司股权信息
数据安全性
包括在多维数据集单元和维度成员中使用角色.附加地身份验证方法和改进地强制能力.
PivotTable服务中地客户连通性
客户应用程序能够使用许多新特性和增强功能,例如数据挖掘.HTTP或HTTPS连接.附加维度类型.用于回写地单元分配.
其它
提供各种新特性,其中包括多用户管理.MDX生成器.其它多维表达式(MDX)函数.虚拟多维数据集编辑器.支持Active Directory™以及更多功能.
默认值基于给定模型地特性数:
对于1到9个特性,该值为0.5.
对于10到99个特性,该值为0.9.
对于100或更多个特ห้องสมุดไป่ตู้,该值为0.99.
MINIMUM_LEAF_CASES
范围为0到2,147,483,647之间地非负整数.确定在决策树中生成拆分所需地叶事例地最少数量.小地值将在决策树中引起较多拆分,但可增加过度臃肿地可能性.大地值减少决策树中拆分地数量,但可抑制决策树地增长.默认值为10.
所以,根据所提供地培训数据集,决策树挖掘模型将建立有关客户事例集中特性地必然可能性.将这些可能性应用于其它客户数据后,就可以根据数据挖掘模型地分发信息或内容来对客户地行为进行预测.
数据表建立
图:数据表关系图
事实数据表STOCK_MINE
字段名
名称
字段长度
是否为空
注释
CODE
numeric
9
0
股票代码
相关文档
最新文档