数据挖掘与数据库知识发现_统计学的观点_马江洪
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘与数据库知识发现:统计学的观点
马江洪,张文修,徐宗本
(西安交通大学理学院,西安710049)
摘要:数据挖掘和数据库知识发现是当前国际科技界的一个研究热点。这计学问题、独特的思想方
法以及广泛的应用前景所吸引,因而阅读了不少相关的文献,1999年初形成了本文的初稿
并在小范围内进行了交流。本文就是在此基础上经进一步充实、修改完成的。这里,我们并不试图对数据挖掘作一全面介绍,而只是希望从统计学的观点出发,着重论述数据挖掘中相关的统计学问题、传统统计学面临的挑战问题以及这个领域将带来的一些研究方向。全文的第2节说明数据挖掘的主要特点,第3节介绍数据挖掘的统计学方法与其它有关方法,第
4节论述统计学与数据挖掘的联系,第5节简要描述统计学和数据挖掘相关的一些软件及
应用,第6节是数据挖掘的研究方向及统计学可能提供的解决方案。
2数据挖掘及其显著特点
简单地说,KDD就是把数据转化为信息、把信息转化为决策的一个交互迭代的过程。
文[1]把KDD定义为“从数据中识别那些有效、新颖、潜在有用、最终可理解模式的一个复杂过程”,而把数据挖掘看作这个过程中的一个特殊步骤,是运用统计学、人工智能等方法(或算法)发现模式和规律、发现有价值的关系或知识的一个阶段,其它步骤包括:数据仓储、目标数据选择、清洗、预处理、变换和缩减、模型选择、评价和解释、知识证实和使用等(如图
1所示)。这个定义中所指的“模式”已超出其传统意义,包括了数据中的模型或结构。应该说,这个过程的大部分步骤都是统计学家所熟悉的。从数据中找有用的模式在不同的领域
有不同的名称,比如,类似的名称有知识提取、信息发现、信息获取、数据考古、数据模式处理
等。由于数据挖掘对于KDD的重要性,目前大多数KDD的研究都集中在数据挖掘的算法
和应用上,因此,很多研究者往往对数据挖掘与KDD不作严格区分,把二者混淆使用。以
后,我们也将采用这种做法,用“数据挖掘”这一名称作为KDD及相关领域的总称。数据挖掘这一称呼主要由统计学家和数据库研究者使用,现在的商业和管理信息系统(MIS)也都
使用这一称呼。其实,这一称呼在统计中并不新鲜,而且曾经含有贬义,因为,一个全面彻底
的搜索总会找到某种“模式”,即使这些“模式”并不代表数据的任何本质结构,而仅仅是随机
波动的结果。统计学家起先用数据挖掘讽刺那些不顾数据本质、一味机械使用数据分析工具的做法。数据分析的目的并不是模拟那些转瞬即逝的随机模式,而是要找到反映问题本
质的、可重复的基本模式结构。
图1DM&KDD过程[1]
从概括数据、发现结构、建立模型、抽取知识的角度看,统计学和数据挖掘有许多相似之处,因而,不少方法可相互借鉴,但它们之间的差异也是明显的,突出反映在数据挖掘固有的
以下特点上:
2.1数据集的容量
不言而喻,数据挖掘最显著的特点就是其数据的超大容量,这是引发数据挖掘这一领域
的根本原因所在。经典统计学一般涉及成百上千个数据,但现在的数据库通常包含几百万
2工程数学学报第19卷
不能纳入到标准统计学
方法的框架中去,需要创立新的研究方法。大数据集面临的问题包括:
1)虽然计算机存贮能力有了极大的提高,但如此大容量的数据仍不能进入内存。若想
全部数据在一个分析器中处理,就需要开发自适应或序贯方法。
2)数据集大是由于记录个数多或变量维数大所致。当变量维数很大时,就会遭遇“维
数祸根”(the curse of dimensionality)的影响。这在统计学也是一个非常困难的问题。
3)数据可能存贮在多个文件里,可能不在一个地方,而分散在几个机器上或多个地点
中(如WWW网上的数据),可能还有某种结构等致使数据的存取和抽样变得既复杂又耗
时。
4)经典统计学面临的场合往往是数据的缺乏,而对大数据集来说,情况则恰好相反,数
据不仅不缺乏而且可能是超冗余的。
2.2非平稳性和选择偏差
大数据集不大可能以独立同分布(i.i.d.)方式产生,而很可能的是:在不同时间,变量空
间的某个区域上抽样显著多于其它区域,这就使很多基于i.i.d.的统计学方法失去效用。
更困难的是数据总体的非平稳性(也称总体漂移)和选择偏差。因为总体的变化(如银行贷
款申请人总体就随经济发展的快慢而变)或其它原因,总体漂移问题就会产生。而经典统计学考虑的总体通常是不变的。另外,数据库本身也是动态的,可能每天都在变化(如Mal- Mart每天的交易,AT&T用户每天的呼叫),必须实时地进行处理,因为6月份发生的事,
如果9月份才得到分析结果,那可能已没什么价值了。
当选到的样本并非简单随机样本时,就会产生选择偏差。这是一个重要而被低估的问
题。例如,在选择病人作临床试验和选择受试者作心理研究时都可能遇到这样的问题。一
般地,大数据集可能受到多种选择偏差的影响,从统计学的观点看,大数据集可能是未加控
制的方便(convenience)样本或偶然(opportunistic)样本,而非统计学家理想化的i.i.d.样本。
因而,数据挖掘引发了许多有趣而又困难的推断问题,有些已得到很好的研究,还有很多尚
未被考虑,至少还未得到解决。选择偏差是否重要依赖于数据分析的目标:如果想对总体作推断,那么任何选择偏差都可能使结果无效。处理选择偏差可能需要一个考虑样本选择机
制的更大模型,遗憾的是,这个模型通常不易构造。不过,统计学在医学(特别是当代流行病学)及有关观测值研究中的许多方法可能会对处理数据挖掘的方便样本提供帮助。
2.3数据的污染和丢失
数据的污染也是大数据集的一个重要问题。例如,千分之一的污染数据对常规统计可
能没什么大影响,但对十亿个记录的大数据集而言,就意味着一百万个污染记录,这么大规
模的数据量是不能把它忽略掉的。由于编码误差、测量误差等原因,数据库中的数据几乎总是含有噪声的,所以,概率统计方法不可或缺。
数据的丢失问题在商业数据库中特别突出。如果数据库不是精心设计的,那么重要的
特征可能丢失。丢失数据可能来自操作者的疏漏,实际系统或测量的失效,也可能来自数据采集过程在时间上的修正。如现在测量的一个新变量,在几个月之前,却被看作是不重要的而未测量。
2.4寻找有意义的模式
我们不能简单要求计算机去“寻找有意义的模式”或“查看数据中是否存在任何结构”。
3第1期马江洪等:数据挖掘与数据库知识发现:统计学的观点
是一个介于统计学、模式识
别、人工智能、机器学习、数据库技术以及高性能并行计算等领域的交叉新兴学科,具有极