第1章 数据挖掘概述_2.0
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一部分正确认识数据挖掘技术
第一章数据挖掘概述
案例分析1:
假如一个医院将诊断过的所有病人的情况记录在一个数据库中,下表是数据样本的一个小部分,分析人员希望归纳出判断病人是否患了链球菌种感染性炎症的诊断规则,于是他们运用一些我们即将介绍的方法进行了分析。
表1 疾病诊断假想训练数据
经过一段时间,分析人员从以上数据中归结出以下规则:
1.如果病人淋巴肿,则可以诊断为链球菌感染性咽炎症;
2.如果病人没有淋巴肿的症状,但是发烧,则可以诊断为感冒;
3.如果病人没有淋巴肿的症状,也不发烧,则可以诊断为敏感症。
案例分析2:一些会计学者对数据挖掘的误解
美国鲍勃·瑞安等人合著的《财务和会计研究方法与方法论》中,作者总结了会计学研究的传统领域,以及研究内容的发展和研究范式的演变,从中可以发现会计研究的基本目标。
1.早期的规范会计理论:归纳学派和演绎学派.
1929年的世纪大萧条使得对会计理论的研究受到重视,对会计准则的研究成果纷纷涌现。
2.先验研究方法
反对会计进行武断地理论解释,呼吁采用科学的严谨的方法对会计学科构造科学的大厦,建立符合经济学原理又符合会计规则的收益计量原理模型。
运用先验的理论假说对现存的理论进行演绎推导。
3.经验研究方法
20世纪60年代后期,会计准则的研究成为美国英国的主要问题,但是由于缺少前后如一的理论框架,并且不同利益集团对会计的立场不同,导致美国会计准则公布的31份意见公告书和4份报告得不到承认。
由此认为,没有理想的收益计量模型,只是不同决策背景下的使用者要求使用不同的收益模型,会计学这应该建立符合使用者的收益决定模型,并且有助于做决策。
4.实证会计研究方法
对于“实证会计”的批评从一产生就存在了,在20世记50年代实证研究的开始阶段,就有学者对此产生怀疑,例如Stephen A.Ross等人在《公司理财》第6版中认为:对实证会计方法感到怀疑的人批评这种所谓的“数据挖掘”。研究人员在研究过程中选择那些特别的参数常常是因为它们已经显示出与收益有关。例如,对于美国亚利桑那州的SA T成绩与其它变量之间的关系,但是你可能发现成绩与长颈鹿的生长有密切的关系,而数据也能够显示出之中关系。可是,事实上果真如此吗?由于,相关性的偶然性是显示于其它更多的地方,所以单纯的分析并不能够说明内在的实证规律。
会计人员更多地习惯了“假设---检验”模式的数据分析思路,许多人不能正确地理解数据挖掘。由于对数据挖掘理解的错误或者不准确造成对数据挖掘的误解,原因可以归结为如下几点原因:
(1)所处的年代没有为他们提供理解数据挖掘所必需的技术环境;
(2)他们自身的学术背景使得他们自己不能透彻理解数据挖掘技术;
(3)他们对知识的发现过程持有不同的观念,他们反对“透过现象来归纳知识”,而是喜欢从一个推论到另外一个推论;
第一节数据挖掘的定义
数据挖掘(Data Mining)的定义多种多样,但是基本上可以将其看作利用一种或者多种计算机学习技术,自动分析数据库中的数据并提取知识的处理过程,或者说数据挖掘是一个利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系的过程,这些模型和关系可以用来作出决策或预测。
数据库中的知识发现,以下简称为KDD(Knowledge Discovery in Database),是一个通常可以和DM互换的术语。
于是,上述定义可以知道,数据挖掘(DM)具有以下几个特征:
1.数据挖掘处理的是“海量数据”,事先对数据中的规律并不晓得,但是可能有一个基本
的预期;
2.强调计算机自动处理;
3.揭示事物本质的面貌,需要领域知识和数据挖掘知识的结合;
同时,可见知道数据挖掘的本质如下:1.数据挖掘并非漫无目的,只是在挖掘之前并不知道最终的结果
挖掘,野地里挖宝。应该是有针对性的挖掘,但是确实不知道最终的结果。
案例分析3:
1984年,一台推土机在狮子山村西南取土的时候偶然铲出了一批汉代兵马俑,根据经验分析这是汉墓的一部分,象征着卫戍王陵的部队。但是,考古队耗费了大量的资金却没有能够发现最终的墓地。
后来,在6年之后的一次闲谈中,考古家王垲在村里和人交谈的时候,了解到村里一户人家的地窖特别大,超过了一般人的想象,于是感到有点奇怪。于是,经过挖掘才找到了最终的陵墓。
可以发现两个问题:(1)考古工作者为什么在发现实物后才推论附近可能存在墓
地,而没有根据古代的记载?(2)依据经验,发现兵马俑之后就应该发现王陵,可是为什么却没有理解发现呢?
2.“假设----验证”不是发现规律的唯一途径
很多人认为数据挖掘不是理性的推导所建立的规律,而是数据的分析,因此显得不够“理论化”。果真如此吗?
案例分析4:
“日心说”在哥白尼1543年的《天体运行论》发表以后提出的,但是却由于没有数据的支持被认为是“异端邪说”。但是1609年的加利略的天文望远镜的发明为“日心说”提供了有利证据,但是直到开普勒(1571-1630)的椭圆说代替了圆形轨道,才被证实是完全正确的。
由此,只有不断地发现才能够接近于真理,而部分数据的支持是不能够作为坚强的理论的。目前的海量数据和计算机技术的发展使得一切成为可能
数据挖掘网站:
可以查看目前的产品;
/~mlearn/MLOther.html是
机器学习研究的数据仓库。
第二节数据挖掘的起源
一、数据挖掘技术是人们长期以来对数据库技术进行研究和开发的结果。
海量数据的存储是数据挖掘技术存在的客观基础。
仅仅把数据存储在计算机中是不能够获取其应该有的收益,而是需要进行检索和汇总,方便地获取其中内在的潜在关系。二、传统的统计学“推理-----假设----检验”模式,实际上已经有一种先入为主的认知,存在先天的缺陷。
为了克服上述研究的缺陷,研究人员选择的数据不是精心设计的,而是数据的时机性样本(Opportunistic Sample),而不是随机样本(Random Sample)。
三、计算机技术的发展为数据挖掘技术的发展提供了发展空间。