数据挖掘课程论文
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
海南大学数据挖掘论文
题目:股票交易日线数据挖掘
学号:20100602310002
姓名:
专业:10信管
指导老师:
分数:
目录
目录 (2)
1. 数据挖掘目的 (3)
2.相关基础知识 (3)
2.1 股票基础知识 (3)
2.2 数据挖掘基础知识 (4)
2.2.2数据挖掘的任务 (5)
3.数据挖掘方案 (6)
3.1. 数据挖掘软件简介 (6)
3.2. 股票数据选择 (7)
3.3. 待验证的股票规律 (7)
4. 数据挖掘流 (8)
4.1数据挖掘流图 (8)
4.2规律验证 (9)
4.2.2规律2验证 (10)
4.2.3规律三验证 (12)
4.3主要节点说明 (14)
5.小结 (15)
1.数据挖掘目的
数据挖掘的目的就是得出隐藏在数据中的有价值的信息,发现数据之间的内在联系与规律。对于本次数据挖掘来说,其目的就是学会用clementine对股票的历史数据进行挖掘,通过数据的分析,找出存在股票历史数据中的规律,或者验证已存在的股票规律。同时也加深自己对股票知识的了解和对clementine软件的应用能力。为人们决策提供指导性信息,为公司找出其中的客户为公司带来利润的规律,如二八原则、啤酒与尿布的现象等。
2.相关基础知识
2.1 股票基础知识
2.1.1 股票
是一种有价证券,是股份公司在筹集资本时向出资人公开或私下发行的、用以证明出资人的股本身份和权利,并根据持有人所持有的股份数享有权益和承担义务的凭证。股票代表着其持有人(股东)对股份公司的所有权,每一股同类型股票所代表的公司所有权是相等的,即“同股同权”。股票可以公开上市,也可以不上市。在股票市场上,股票也是投资和投机的对象。对股票的某些投机炒作行为,例如无货沽空,可以造成金融市场的动荡。
2.1.2 开盘价
开盘价又称开市价,是指某种证券在证券交易所每个交易日开市后的第一笔买卖成交价格。世界上大多数证券交易所都采用成交额最大原则来确定开盘价。
2.1.3 收盘价
收盘价是指某种证券在证券交易所一天交易活动结束前最后一笔交易的成
交价格。如当日没有成交,则采用最近一次的成交价格作为收盘价,因为收盘价是当日行情的标准,又是下一个交易日开盘价的依据,可据以预测未来证券市场行情;所以投资者对行情分析时,一般采用收盘价作为计算依据。.
2.1.4 最高价
指某种证券在每个交易日从开始到收市的交易过程中所产生的最高价。
2.1.5最低价
指某种证券在每个交易日从开始到收市的交易过程中所产生的最低价。
2.1.6成交量
成交量是指一个时间单位内对某项交易成交的数量。一般情况下,成交量大且价格上涨的股票,趋势向好。成交量持续低迷时,一般出现在熊市或股票整理阶段,市场交投不活跃。成交量是判断股票走势的重要依据,对分析主力行为提供了重要的依据。
2.1.7 K 线
K 线图这种图表源处于日本德川幕府时代(1603~1867 年),被当时日本米
市的商人用来记录米市的行情与价格波动,后因其细腻独到的标画方式而被引入到股市及期货市场。通过 K 线图,我们能够把每日或某一周期的市况现完全记录下来,股价经过一段时间的盘档后,在图上即形成一种特殊区域或形态,不同的形态显示出不同意义。插入线、抱线和利好刺激线这三种 K 线组合是最常见的经典见底形态。
2.1.8 日线
任何一天的开盘价\收盘价\最高价\最低价,划出的一跟中间粗一些,两端细一些的线,就是日线,日线是每天一根的 K 线.5PMA,10PMA,20PMA。分别代表 5 日、10 日、20 日均线。黄色的是 5PMA 即 5 日均线;紫色的是 10PMA 即 10 日均线;绿色的是 20PMA 即 20 日均线。
2.2 数据挖掘基础知识
2.2.1 数据挖掘
数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的
数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。随着信息技术的高速发展,人们积累的数据量急剧增长,动辄以 TB 计,如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。是知识发现(Knowledge Discovery in 的关键步骤。Database).
2.2.2数据挖掘的任务
(1)关联分析(association analysis)
关联规则挖掘是由 Rakesh Apwal 等人首先提出的。两个或两个以上变量的取
值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则
的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。
(2) 聚类分析(clustering)
聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。
(3) 分类(classification)
分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。
(4)预测(predication)
预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。(5)时序模式(time-series pattern)
时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。
(6) 偏差分析(deviation)