数据挖掘的应用

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据挖掘的应用
近年来随着数据库和计算机网络的广泛应用,加之使用先进的自动数据生成和采集工具,人们所拥有的数据量急剧增大。

条形码技术在商业上的普遍使用使得不少行业每天都积累了大量数据,如超级市场上的 POS 系统每天都要存储上万笔的顾客购买数据。

先进的现代科学观测仪器的使用造成每天都要产生巨量的数据,如各种同步卫星每小时传回地球的遥感图象数据就达 50giga(千兆)字节。

Internet 的迅猛发展使得网络上的各种资源信息异常丰富,在其中进行信息的查找真如大海捞针。

数据的迅速增加与数据分析方法的滞后之间的矛盾越来越突出, 人们也希翼能够在对已有的大量数据分析的基础上进行科学研究、商业决策或者企业管理,但是目前所拥有的数据分析工具很难对数据进行深层次的处理,使得人们只能望"数"兴叹。

数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据的分析处理而浮现的。

数据挖掘从大量数据中提取出隐藏在数据之后的实用的信息,它被越来越多的领域所采用,并取得了较好的效果,为人们的正确决策提供了很大的匡助。

科学研究：
从科学研究方法学的角度看,科学研究可分为三类:理论科学、实验科学和计算科学。

计算科学是现代科学的一个重要标志。

计算科学工作者主要和数据打交道,每天要分析各种大量的实验或者观测数据。

随着先进的科学数据采集工具的使用,如观测卫星、遥感器、DNA 份子技术等,数据量非常大,传统的数据分析工具无能为力,因此必须有强大的智能型自动数据分析工具才行。

数据挖掘在天文学上有一个非常著名的应用系
统:SKICAT(SkyImageCatalogingan
dAnalysisTool)。

它是美国加州理工学院喷气推进实验室(即设计火星探测器漫游者号的实验室)与天文科学家合作开辟的用于匡助天文学家发现遥远的类星体的一个工具。

SKICAT 既是第一个获得相当成功的数据挖掘应用,也是人工智能技术在天文学和空间科学上第一批成功应用之一。

利用 SKICAT,天文学家已发现了 16 个新的极其遥远的类星体,该项发现能匡助天文工作者更好地研究类星体的形成以及早期宇宙的结构。

数据挖掘在生物学上的应用主要集中于份子生物学特殊是基因工程的研究上。

基因研究中,有一个著名的国际性研究课题——人类基因组计划。

据报导,1997 年 3 月,科学家宣布已完成第一步计划:绘制人类染色体基因图。

然而这仅仅是第一步,更重要的是对基因图进行解释从而发现各种蛋白质(有 10,000 多种不同功能的蛋白质)和RNA 份子的结构和功能。

近几年,通过用计算生物份子系列分析方法,特别是基因数据库搜索技术已在基因研究上作出了不少重大发现。

市场行销
由于管理信息系统和 POS 系统在商业特别是零售业内的普遍使用,特殊是条形码技术的使用,从而可以采集到大量关于用户购买情况的数据,并且数据量在不断激增。

对市场行销来说,通过数据分析了解客户购物行为的一些特征,对提高竞争力及促进销售是大有匡助的。

利用数据挖掘技术通过对用户数据的分析,可以得到关于顾客购买取向和兴趣的信息,从而为商业决策提供了可靠的依据。

数据库数据挖掘在行销业上的应用可分为两类:数据库行销(databasemarketing) 和货篮分析(basketanalysis)。

数据库行销的任务是通过交互式查询、数据分割和模型预测等方法来选择潜在的顾客以便向它们推销产品,通过对已有的顾客数据的分析,可以将用户分为不同级别,级别越高,其购买的可能性就越大。

为进行行销分析,首先必须将已有的用户信息进行手工分类,分类的依据可以由专家根据用户的实际表现给出,这样得到训练数据后,由数据挖掘进行学习将用户进行分类的模式,这样当一个新用户到来时, 可以有已经学习后的系统给出其购买可能性的预测结果,从而可以根据结果有针对性地对顾客进行推销。

货篮分析是分析市场销售数据(如 POS 数据库)以识别顾客的购买行为模式,例如:如果 A 商品被选购,那末 B 商品被购买的可能性为95%,从而匡助确定商店货架的布局排放以促销某些商品,并且对进货的选择和搭配上也更有目的性。

这方面的系统
有:OpportunityExplorer,它可用于超市商品销售异常情况的因果分析等;此外 IBM 公司也开辟了识别顾客购买行为模式的一些工具(IntelligentMiner 和 QUEST 中的一部份)。

金融投资
典型的金融分析领域有投资评估和股票交易市场预测,分析方法普通采用模型预测法(如神经网络或者统计回归技术)。

由于金融投资的风险很大,在进行投资决策时,更需要通过对各种投资方向的有关数据进行分析,以选择最佳的投资方向。

目前国内有不少进行股票分析的软件,并且定期有专家进行股票交易预测,这些人工的预测普通是根
据自己的经验再通过对已有的股票数据的分析而得到的,由于是人工处理,很难对更大量的股市数据进行分析。

无论是投资评估还是股票市场预测,都是对事物发展的一种预测,而且是建立在对数据的分析基础之上的。

数据挖掘可以通过对已有数据的处理,找到数据对象之间的关系,然后利用学习得到的模式进行合理的预测。

这方面的系统有FidelityStockSelector,LBSCapitalManagement。

前者的任务是使用神经网络模型选择投资,后者则使用了专家系统、神经网络和基因算法技术来辅助管理多达 6 亿美元的有价证券。

欺诈甄别
银行或者商业上时常发生诈骗行为,如恶性透支等,这些给银行和商业单位带来了巨大的损失。

对这种诈骗行为进行预测,哪怕正确率很低的预测,都会减少发生诈骗的机会,从而减少损失。

进行诈骗甄别主要是通过总结正常行为和诈骗行为之间的关系,得到诈骗行为的一些特性,这样当某项业务符合这些特征时,可以向决策人员提出警告。

这方面应用非常成功的系统有:FALCON 系统和 FAIS 系统。

FALCON 是 HNC 公司开辟的信用卡欺诈估测系统,它已被相当数量的零售银行用于探测可疑的信用卡交易;FALCON的数据格式主要针对一些流行的信用卡公司,如 VISA,MASTER 等,因此它的应用面很大。

FAIS 则是一个用于识别与洗钱有关的金融交易的系统,它使用的是普通的政府数据表单。

产品创造
随着现代技术越来越多地应用于产品创造业,创造业已不是人们想象中的手工劳动,而是集成为了多种先进科技的流水作业。

在产品的生产创造过程中往往伴有有大量的数据,如产品的各种加工条件或者控制参数(如时间、温度等控制参数),这些数据反映了每一个生产环节的
状态,不仅为生产的顺利进行提供了保证,而且通过对这些数据的分析,得到产品质量与这些参数之间的关系。

这样通过数据挖掘对这些数据的分析,可以对改进产品质量提出针对性很强的建议,而且有可能提出新的更高效节约的控制模式,从而为创造厂家带来极大的回报。

这方面的系统有 CASSIOPEE(由 Acknosoft 公司用 KATE 发现工具开辟的),已用于诊断和预测在创造波音飞机创造过程中可能浮现的问题。

通信网络管理
现代社会越来越依赖于通信系统来沟通信息,通信系统的结构非常复杂,如何保证通信系统安全运转成为一个极其重要的问题。

在通信网络运行过程中,会产生一系列警告,这些警告有的可以置之不理, 而有的如果不及时采取措施则会带来不可挽回的损失。

由于警告产生的随机性很大,究竟哪些警告可以不予理睬,哪些警告必须迅速处理往往很难判断,普通需要由人工根据经验进行处理,效率不高。

数据挖掘可以通过分析已有的警告信息的正确处理方法以及警告之间的前后关系的记录,得到警告之间的关联规则,这些有价值的信息可用于网络故障的定位检测和严重故障的预测等等任务中。

根据当前的警告信息,就可以得到其后续发生各种情况的可能性,对危（wei）险事件可以起到预防的作用,从而使通信网络得以安全运转。

这方面的系统有:芬兰 Helsinki 大学与一家远程通信设备创造厂家合作的TASA 系统。

Internet 应用
Internet 的迅猛发展,特别是 Web 的全球普及,使得 Web 上信息量无比丰富,Web 上的数据信息不同于数据库。

数据库有规范的结构,如关系数据库的二维表结构;毕竟数据库的创建是为了机器可读,因此有统一的格式,它是一种结构化的文件。

Web 上的信息则不
然,主要是文档,它的初始创建目的是为了人类使用。

文档结构性差, 好者半结构化,坏者如纯自然语言文本则毫无结构。

因此 Web 上的开采发现需要用到不同于常规数据库开采的不少技术。

下面将从信息发现和用户访问模式发现两个不同的 Web 开采任务角度对这方面工作的研究现状进行评述。

Web 信息发现也称信息搜索或者查询。

它的普通过程是,用户向系统提出查询条件,系统调用搜索引擎开始工作,然后把搜索结果提交给用户。

根据用户希翼查找的对象可分为两种:资源发现和信息提取。

前者目的在于根据用户要求找出有关的 Web 文档位置;后者则是能自动从有关文档中抽取出满足用户需要的信息。

资源发现本质上是网上搜索,关键在于自动生成 Web 文档的索引。

典型的索引生成系统有 WebCrawler 和 AltaVista 等等,它们能对上百万数量的 Web 文档进行索引,文档中的每一个单词的倒排索引均保存起来,技术上类似全文检索。

用户通过输入关键词就能对所有建了索引的文档进行检索。

目前在用的索引系统有十几种,用户输入同样的关键词在不同的索引下可能会得到不同的返回结果。

为了提高搜索的准确度, 研究人员又开辟了一种建立在上述索引系统之上的高层系统—— MetaCrawler,它能并行地把用户输入的关键词提交给9 种不同的索引系统,然后把这 9 种系统的:研制新的更好的索引系统、利用已有索引系统或者搜索引擎(如 Yahoo)开辟高层次的搜索或者发现系统。

相比之下,后者的研究更为活跃。

从技术上看, 自动文档分类或者归类方法将对这方面的研究有很大作用。

用户使用 Web 获取信息的过程中需要不停地从一个 Web 站点通过超文本链接跳转到另一个站点,这种过程存在一定的普遍性,发现此规律即是 Web 用户访问模式发现。

这是一种彻底不同于上述所讲的资源发现的任务。

理解 Web 上的用户访问模式有这些好处:辅助改进分布式网络系统的设计性能,如在有高度相关的站点间提供快
速有效的访问通道;能匡助更好地组织设计 Web 主页;匡助改善市场营销决策,如把广告放在适当的 Web 页上或者更好地理解客户的兴趣。