知识发现的五个过程是如何实现的
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
知识发现的五个过程是如何实现的
由于计算机数据采集工具以及关系数据库技术的发展,目前各行业存储了大量的数据,航空航天、气象、医疗、农业等行业尤为突出。传统的数据分析手段难以应付,导致越来越严重的数据灾难,迫使决策者出现或是穷于应付,或是置之不理的事实。关系数据库提供的简单查询及报表生成功能,只能获得数据的表层信息,而不能获得数据属性的内在关系和隐含的信息,即淹没了包含的知识,造成了资源的浪费。为了使消耗大量财力与物力所收集与整理的宝贵数据资源得以利用,有效解决数据丰富性及知识贫乏性的矛盾,需要新技术智能、自动地分析处理原始数据,促使了数据库中的知识发现(KDD, Knowledge Discovery in Database),也有人称为数据挖掘(Data Mining)技术的出现。
到目前为止已经出现了许多知识发现技术,分类方法也有很多种,按被挖掘对象分有基于关系数据库、多媒体数据库;按挖掘的方法分有数据驱动型、查询驱动型和交互型;按知识类型分有关联规则、特征挖掘、分类、聚类、总结知识、趋势分析、偏差分析、文本采掘。知识发现技术可分为两类:基于算法的方法和基于可视化的方法。大多数基于算法的方法是在人工智能、信息检索、数据库、统计学、模糊集和粗糙集理论等领域中发展来的。
典型的基于算法的知识发现技术包括:或然性和最大可能性估计的贝叶斯理论、衰退分析、最近邻、决策树、K一方法聚类、关联
规则挖掘、Web和搜索引擎、数据仓库和联机分析处理(On—line Analytical Processing,OLAP) 、神经网络、遗传算法、模糊分类和聚类、粗糙分类和规则归纳等。
知识发现过程的步骤:
1.问题的理解和定义:数据挖掘人员与领域专家合作.对问题进行深入的分析.以确定可能的解决途径和对学习结果的评测方法。
2.相关数据收集和提取:根据问题的定义收集有关的数据。在数据提取过程中,可以利用数据库的查询功能以加快数据的提取速度。 3.数据探索和清理:了解数据库中字段的含义及其与其他字段的关系。对提取出的数据进行合法性检查并清理含有错误的数据。
4.数据工程:对数据进行再加工.主要包括选择相关的属性子集并剔除冗余属性、根据知识发现任务对数据进行采样以减少学习量以及对数据的表述方式进行转换以适于学习算法等。为了使数据与任务达到最佳的匹配.这个步骤可能反复多次。
5.算法选择:根据数据和所要解决的问题选择合适的数据挖掘算法.并决定如何在这些数据上使用该算法。
6.运行数据挖掘算法:根据选定的数据挖掘算法对经过处理后的数据进行模式提取。
7.结果的评价:对学习结果的评价依赖于需要解决的问题.由领域专家对发现的模式的新颖性和有效性进行评价。数据挖掘是KDD 过程的一个基本步骤.它包括特定的从数据库中发现模式的挖掘算
法。KDD过程使用数据挖掘算法根据特定的度量方法和阈值从数据库中提取或识别出知识,这个过程包括对数据库的预处理、样本划分和数据变换。
知识发现过程的多种描述.它们只是在组织和表达方式上有所不同,在内容上并没有非常本质的区别。知识发现过程包括以下步骤:∙ 数据准备包括3个子步骤:数据集成、数据选择、数据预处理。
数据集成将多文件或多数据库运行环境中的数据进行合并处理,解决语义模糊性、处理数据中的遗漏和清洗脏数据等。数据选择的目的是辨别出需要分析的数据集合,缩小处理范围,提高数据采掘的质量。预处理是为了克服目前数据采掘工具的局限性。
∙ 数据挖掘
∙ 要先决定如何产生假设,是让数据挖掘系统为用户产生假设,还是用户自己对于数据库中可能包含的知识提出假设。前一种称为发现型的数据挖掘,后一种称为验证型的数据挖掘。
∙ 选择合适的工具。
∙ 挖掘知识的操作。
∙ 证实发现的知识。
∙ 结果表达和解释根据最终用户的决策目的对提取的信息进行分析,把最有价值的信息区分出来,并且通过决策支持工具提交给决策者,因此这一步骤任务不仅是把结果表达出来,还要对信息进行过滤处理,如果不能令决策者满意,需要重复以上数据挖掘过程。
事实上知识发现的潜在应用是十分广阔的.已经远远超出了最初的”货架子工程”。从工业到农业,从天文到地理从预测预报到决策支持,KDD都发挥着越来越重要的作用。目前许多计算机软件开发商都已经推出了其数据挖掘产品,如IBM.Microsoft,SPSS.SGI,SLPInfoware,SAS(ObjectBusiness)等。数据挖掘作为信息处理的高新技术已经在实际应用中崭露头角。