SPSS在统计学中的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
SPSS基础之一:数据挖掘与统计学应用
数据挖掘与统计学应用数据挖掘与统计学应用基本框架一、关键词与摘要数据挖掘与统计应用之间关系数据挖掘的发展前景二、简介数据挖掘与统计学有着共同目标,但分析方法和性质不同三、统计学的性质统计学决不是数学的分支,而是一门独立学科统计分析是以样本推断总体,而数据挖掘使用的往往是总体数据统计应用和数据挖掘中模型的差别数据挖掘接触到的大量数据中的偶然因素可以使统计方法失效统计分析之前需要准备大量数据,以期得到确定的目的;数据挖掘往往已有数据库,而目的也是不确定的四、数据挖掘的性质什么是数据挖掘——不同学者对数据挖掘的定义目前数据挖掘的主要软件当前数据挖掘软件的特点当前的数据挖掘软件包中被用到的统计分析过程数据挖掘和计算机科学的联系在统计科学中萌芽,但随后绝大部分又被统计学忽略的方法领域——数据挖掘是否也会如此?五、讨论对数据挖掘的认识的误区数据挖掘与统计应用的前景一、关键词和摘要关键词:统计学数据挖掘知识发现摘要: 1、数据挖掘与统计应用之间关系统计学和数据挖掘有很多共同点,但与此同时它们也有很多差异。本文讨论了两门学科的性质,重点论述它们的异同。数据挖掘,顾名思义就是从大量的数据中挖掘出有用的信息。DM(数据挖掘)是揭示存在于数据里的模式及数据间的关系的学科,它强调对大量观测到的数据库的处理。它是涉及数据库管理,人工智能,机器学习,模式识别,及数据可视化等学科的边缘学科。用统计的观点看,它可以看成是通过计算机对大量的复杂数据集的自动探索性分析。目前对该学科的作用尽管有点夸大其词,但该领域对商业,工业,及科学研究都有极大的影响,且提供了大量的为促使新方法的发展而进行的研究工作。尽管数据挖掘和统计分析之间有明显的联系,但迄今为止大部分的数据挖掘方法都不是产生于统计学科。这篇文章对这一现象作了一些解释,并说明了为什么统计学家应该关注数据挖掘。统计学可能会对数据挖掘产生很大影响,但这可能要求统计学家们改变他们的一些基本思路及操作原则。 2、数据挖掘的发展前景随着计算机应用的越来越广泛,每年都要积累大量的数据,运用数据挖掘技术在这些数据当中我们可以找出“金子”来。数据挖掘技术主要又分成“关联规则”,“时间序列”“聚集”,“分类”,“估值”等这几类. 据国外专家预测,在今后的5—10年内,随着数据量的日益积累以及计算机的广泛应用,数据挖掘将在中国形成一个产业。2000年7月IDC发布了关于信息存取工具市场的报告,其中估计1999年的数据挖掘的市场大概是7.5亿美元,估计在下个5年内市场的年增长率(Compound Annual Growth Rate)为32.4%,其中亚太地区为26.6%,并且预测此市场在2002年时会达到22亿美元。二、简介数据挖掘与统计学有着共同目标,但分析方法和性质不同统计学和数据挖掘有着共同的目标:发现数据中的结构。事实上,由于它们的目标相似,一些人(尤其是统计学家)认为数据挖掘是统计学的分支。这是一个不切合实际的看法。因为数据挖掘还应用了其它领域的思想、工具和方法,尤其是计算机学科,例如数据库技术和机器学习,而且它所关注的某些领域和统计学家所关注的有很大不同。统计学和数据挖掘研究目标的重迭自然导致了迷惑。事实上,有时候还导致了反感。统计学有着正统的理论基础(尤其
是经过本世纪的发展),而现在又出现了一个新的学科,有新的主人,而且声称要解决统计学家们以前认为是他们领域的问题。这必然会引起关注。更多的是因为这门新学科有着一个吸引人的名字,势必会引发大家的兴趣和好奇。把“数据挖掘”这个术语所潜在的承诺和“统计学”作比较的话,统计的最初含义是“陈述事实”,以及找出枯燥的大量数据背后的有意义的信息。当然,统计学的现代的含义已经有很大不同的事实。而且,这门新学科同商业有特殊的关联(尽管它还有科学及其它方面的应用)。本文的目的是逐个考察这两门学科的性质,区分它们的异同,并关注与数据挖掘相关联的一些难题。首先,我们注意到“数据挖掘”对统计学家来说并不陌生。例如,Everitt定义它为:“仅仅是考察大量的数据驱动的模型,从中发现最适合的”。统计学家因而会忽略对数据进行特别的分析,因为他们知道太细致的研究却难以发现明显的结构。尽管如此,事实上大量的数据可能包含不可预测的但很有价值的结构。而这恰恰引起了注意,也是当前数据挖掘的任务。三、统计学的性质统计学决不是数学的分支,而是一门独立学科试图为统计学下一个太宽泛的定义是没有意义的。尽管可能做到,但会引来很多异议。相反,我要关注统计学不同于数据挖掘的特性。统计学决不是数学的分支,而是一门独立学科统计学是一门比较保守的学科,目前有一种趋势是越来越精确。当然,这本身并不是坏事,只有越精确才能避免错误,发现真理。但是如果过度的话则是有害的。这个保守的观点源于统计学是数学的分支这样一个看法,我是不同意这个观点的.管统计学确实以数学为基础(正如物理和工程也以数学为基础,但没有被认为是数学的分支),但它同其它学科还有紧密的联系。数学背景和追求精确加强了这样一个趋势:在采用一个方法之前先要证明,而不是象计算机科学和机器学习那样注重经验。这就意味着有时候和统计学家关注同一问题的其它领域的研究者提出一个很明显有用的方法,但它却不能被证明(或还不能被证明)。统计杂志倾向于发表经过数学证明的方法而不是一些特殊方法。数据挖掘作为几门学科的综合,已经从机器学习那里继承了实验的态度。这并不意味着数据挖掘工作者不注重精确,而只是说明如果方法不能产生结果的话就会被放弃。统计分析是以样本推断总体,而数据挖掘使用的往往是总体数据正是统计文献显示了(或夸大了)统计的数学精确性。同时还显示了其对推理的侧重。尽管统计学的一些分支也侧重于描述,但是浏览一下统计论文的话就会发现这些文献的核心问题就是在观察了样本的情况下如何去推断总体。当然这也常常是数据挖掘所关注的。下面我们会提到数据挖掘的一个特定属性就是要处理的是一个大数据集。这就意味着,由于可行性的原因,我们常常得到的只是一个样本,但是需要描述样本取自的那个大数据集。然而,数据挖掘问题常常可以得到数据总体,例如关于一个公司的所有职工数据,数据库中的所有客户资料,去年的所有业务。在这种情形下,推断就没有价值了(例如,年度业务的平均值),因为观测到的值也就是估计参数。这就意味着,建立的统计模型可能会利用一系列概率表述(例如,一些参数接近于0,则会从模型中剔除掉),但当总体数据可以获得的话,在数据挖掘中则变得毫无意义。在这里,我们可以很方便的应用评估函数:针对数据的足够的表述。事实是,常常所关注的是模型是否合适而不是它的可行性,在很多情形下,使得模型的发现很容易。例如,在寻找规则时常常会利用吻合度的单纯特性(例