数据挖掘作业1

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘技术选修课大作业
学院:计算机学院
专业:软件工程
姓名:王小妮
班级:软工1201
学号:1208010107
1.1数据挖掘技术的定义
1.2数据挖掘的含义
1.3数据挖掘商业角度的定义
1.4数据挖掘和数据仓库
1.5数据挖掘和在线分析处理
1.6软硬件发展对数据挖掘的影响2数据挖掘的典型技术
2.1聚类分析
2.1关联规则
2.3回归分析
2.4其他技术
3数据挖掘技术的应用
3.1在intnet的应用
3.2在金融的应用
4学习收获
参考文献:
1.1数据挖掘技术的定义
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

1.2数据挖掘技术的含义
与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。

这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。

----何为知识?从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。

人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样。

原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。

发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。

发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。

因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。

在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。

这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。

实际上,所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。

最好能用自然语言表达所发现的结果。

1.3数据挖掘在商业上的定义
数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的
关键性数据。

简而言之,数据挖掘其实是一类深层次的数据分析方法。

数据分析本身已经有很多年的历史,只不过在过去数据收集和分析的目的是用于科学研究,另外,由于当时计算能力的限制,对大数据量进行分析的复杂数据分析方法受到很大限制。

商业领域产生了大量的业务数据,这些数据不再是为了分析的目的而收集的,而是由于纯机会的(Opportunistic)商业运作而产生。

分析这些数据也不再是单纯为了研究的需要,更主要是为商业决策提供真正有价值的信息,进而获得利润。

但所有企业面临的一个共同问题是:企业数据量非常大,而其中真正有价值的信息却很少,因此从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也因此而得名。

因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。

1.4数据挖掘与数据仓库
数据挖掘库可能是你的数据仓库的一个逻辑上的子集,而不一定非得是物理上单独的数据库。

但如果你的数据仓库的计算资源已经很紧张,那你最好还是建立一个单独的数据挖掘库。

当然为了数据挖掘你也不必非得建立一个数据仓库,数据仓库不是必需的。

建立一个巨大的数据仓库,把各个不同源的数据统一在一起,解决所有的数据冲突问题,然后把所有的数据导到一个数据仓库内,是一项巨大的工程,可能要用几年的时间花上百万的钱才能完成。

只是为了数据挖掘,你可以把一个或几个事务数据库导到一个只读的数据库中,就把它当作数据集市,然后在他上面进行数据挖掘。

1.5数据挖掘与在线分析处理
(OLAP)一个经常问的问题是,数据挖掘和OLAP到底有何不同。

下面将会解释,他们是完全不同的工具,基于的技术也大相径庭。

数据挖掘和OLAP具有一定的互补性。

在利用数据挖掘出来的结论采取行动之前,你也许要验证一下如果采取这样的行动会给公司带来什么样的影响,那么OLAP工具能回答你的这些问题。

而且在知识发现的早期阶段,OLAP工具还有其他一些用途。

可以帮你探索数据,找到哪些是对一个问题比较重要的变量,发现异常数据和互相影响的变量。

这都能帮你更好的理解你的数据,加快知识发现的过程。

1.6硬件对数据挖掘技术的影响
数据挖掘就是利用了统计和人工智能技术的应用程序,他把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题。

基于并行系统的数据库管理系统也给数据挖掘技术的应用带来了便利。

如果你有一个庞大而复杂的数据挖掘问题要求通过访问数据库取得数据,那么效率最高的办法就是利用一个本地的并行数据库。

所有这些都为数据挖掘的实施扫清了道路,随着时间的延续,我们相信这条道路会越来越平坦。

2数据挖掘的典型技术
2.1聚类分析
聚类:数据库中的记录可被化分为一系列有意义的子集,即聚类。

聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。

聚类技术主要包括传统的模式识别方法和数学分类学。

80年代初,Mchalski提出了概念聚类技术牞其要点是,在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。

聚类步骤:
1,任意选取K个对象作为medoids(O1,O2,…Oi…Ok)。

以下是循环的:
2,将余下的对象分到各个类中去(根据与medoid最相近的原则);
3,对于每个类(Oi)中,顺序选取一个Or,计算用Or代替Oi后的消耗—E(Or)。

选择E最小的那个Or来代替Oi。

这样K个medoids就改变了,下面就再转到2。

4,这样循环直到K个medoids固定下来。

这种算法对于脏数据和异常数据不敏感,但计算量显然要比K均值要大,一般只适合小数据量。

Clara
上面提到K-medoids算法不适合于大数据量的计算。

Clara算法,这是一种基于采样的方法,它能够处理大量的数据。

Clara算法的思想就是用实际数据的抽样来代替整个数据,然后再在这些抽样的数据上利用K-medoids算法得到最佳的medoids。

Clara算法从实际数据中抽取多个采样,在每个采样上都用K-medoids算法得到相应的(O1, O2 …Oi …Ok),然后在这当中选取E最小的一个作为最终的结果。

Clarans
Clara算法的效率取决于采样的大小,一般不太可能得到最佳的结果。

在Clara算法的基础上,又提出了Clarans的算法,与Clara算法不同的是:在Clara算法寻找最佳的medoids的过程中,采样都是不变的。

而Clarans算法在每一次循环的过程中所采用的采样都是不一样的。

与上面所讲的寻找最佳medoids的过程不同的是,必须人为地来限定循环的次数。

2.2关联规则算法
所谓关联,反映的是一个事件和其他事件之间依赖或关联的知识。

当我们查找英文文献的时候,可以发现有两个英文词都能形容关联的含义。

第一个是相关性relevance,第二个是关联性association,两者都可以用来描述事件之间的关联程度。

设I={i1,i2…,im}为所有项目的集合,设A是一个由项目构成的集合,称为项集。

事务T是一个项目子集,每一个事务具有唯一的事务标识Tid。

事务T包含项集A,当且仅当AT。

如果项集A中包含k个项目,则称其为k项集。

D为事务数据库,项集A在事务数据库D中出现的次数占D中总事务的百分比叫做项集的支持度(support)。

如果项集的支持度超过用户给定的最小支持度阈值,就称该项集是频繁项集(或大项集)。

关联规则就是形如XY的逻辑蕴含关系,其中XI,YI且XY=Φ,X称作规则的前件,Y是结果,对于关联规则XY,存在支持度和信任度。

支持度是指规则中所出现模式的频率,如果事务数据库有s%的事务包含XY,则称关联规则XY在D中的支持度为s%,实际上,可以表示为概率P(XY),即support(XY)= P(XY)。

信任度是指蕴含的强度,即事务D中c%的包含X的交易同时包含XY。

若X的支持度是support(x),规则的信任度为即为:support(XY)/support(X),这是一个条件概率P(Y|X),即confidence(XY)= P(Y|X)。

2.3其他的挖掘技术
各种统计方法,假设检验,方差分析,回归分析,逻辑回归,聚类分析,因子分析,关联规则,决策树,支持向量机,神经网络,朴素贝叶斯等等。

3数据挖掘技术的应用
3.1在intnet的应用
Internet的迅猛发展,尤其是Web的全球普及,使得Web上信息量无比丰富,Web上的数据信息不同于数据库。

数据库有规范的结构,如关系数据库的二维表结构;毕竟数据库的创建是为了机器可读,因此有统一的格式,它是一种结构化的文件。

Web上的信息则不然,主要是文档,它的初始创建目的是为了人类使用。

文档结构性差,好者半结构化,坏者如纯自然语言文本则毫无结构。

因此Web上的开采发现需要用到不同于常规数据库开采的很多技术。

下面将从信息发现和用户访问模式发现两个不同的Web开采任务角度对这方面工作的研究现状进行评述。

Web信息发现也称信息搜索或查询。

它的一般过程是,用户向系统提出查询条件,系统调用搜索引擎开始工作,然后把搜索结果提交给用户。

根据用户希望查找的对象可分为两种:资源发现和信息提取。

前者目的在于根据用户要求找出有关的Web文档位置;后者则是能自动从有关文档中抽取出满足用户需要的信息。

目前在用的索引系统有十几种,用户输入同样的关键词在不同的索引下可能会得到不同的返回结果。

为了提高搜索的准确度,研究人员又开发了一种建立在上述索引系统之上的高层系统——MetaCrawler,它能并行地把用户输入的关键词提交给9种不同的索引系统,然后把这9种系统的:研制新的更好的索引系统、利用
已有索引系统或搜索引擎(如Yahoo)开发高层次的搜索或发现系统。

相比之下,后者的研究更为活跃。

从技术上看,自动文档分类或归类方法将对这方面的研究有很大作用。

用户使用Web获取信息的过程中需要不停地从一个Web站点通过超文本链接跳转到另一个站点,这种过程存在一定的普遍性,发现此规律即是Web用户访问模式发现。

这是一种完全不同于上述所讲的资源发现的任务。

理解Web上的用户访问模式有这些好处:辅助改进分布式网络系统的设计性能,如在有高度相关的站点间提供快速有效的访问通道;能帮助更好地组织设计Web主页;帮助改善市场营销决策,如把广告放在适当的Web页上或更好地理解客户的兴趣。

3.2在金融方面的应用
典型的金融分析领域有投资评估和股票交易市场预测,分析方法一般采用模型预测法(如神经网络或统计回归技术)。

由于金融投资的风险很大,在进行投资决策时,更需要通过对各种投资方向的有关数据进行分析,以选择最佳的投资方向。

目前国内有很多进行股票分析的软件,并且定期有专家进行股票交易预测,这些人工的预测一般是根据自己的经验再通过对已有的股票数据的分析而得到的,由于是人工处理,很难对更大量的股市数据进行分析。

无论是投资评估还是股票市场预测,都是对事物发展的一种预测,而且是建立在对数据的分析基础之上的。

数据挖掘可以通过对已有数据的处理,找到数据对象之间的关系,然后利用学习得到的模式进行合理的预测。

这方面的系统有
FidelityStockSelector,LBSCapitalManagement。

前者的任务是使用神经网络模型选择投资,后者则使用了专家系统、神经网络和基因算法技术来辅助管理多达6亿美元的有价证券。

3.3还有在其他方面的应用
医疗保健、市场业、零售业、制造业、司法、工程和科学、保险业等领域的应用。

4学习收获
经过这学期这门课的学习我基本掌握了数据挖掘的节本知识,这门课感觉挺有意思的,尤其是老师上课的方式,很有启发性,让我不对数据感兴趣的学生也对数据挖掘,大数据这样的字眼感兴趣了。

现在特想继续学习你的这门课,我
会继续研究下去,作为兴趣也好,作为爱好也罢。

反正我会继续学习数据挖掘这方面的知识。

老师上课的方式我再所说说,他讲课的方式特幽默。

而且举得例子也特有意思。

非常喜欢上他的课。

在选择一种数据挖掘技术的时候,应根据问题的特点来决定采用哪种数据挖掘形式比较合适。

应选择符合数据模型的算法,确定合适的模型和参数,只有选择好正确的数据挖掘工具,才能真正发挥数据挖掘的作用。

相关文档
最新文档