数据挖掘在电子商务中的应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘在电子商务中的应用
一、引言
在信息和知识经济时代,随着网络技术的迅猛发展和社会信息化水平的提高,传统的贸易正经历一次重大的变革,电子商务显示出巨大的市场价值和发展潜力。电子商务是商业领域的一种新兴商务模式,它是以网络为平台、现代信息技术为手段、以经济效益为中心的现代化商业运转模式,其最终目标是实现商务活动的网络化、自动化与智能化。
电子商务的产生改变了企业的经营理念、管理方式和支付手段,给社会的各个领域带来了巨大的变革。当电子商务在企业中得到应用时,企业信息系统将产生大量数据,这些
激增的电子化数据意味着人们面临“数据丰富而知识贫乏”的问题。出现了“数据爆炸但知识贫乏”的现象,如何才能不被信息的汪洋大海所淹没,从中及时发现有用的信息和知识因此,需要有新一代的技术和工具来对海量数据进行合理及更高层次的分析,做出归纳性推理,从中挖掘出潜在的模式,提取有用的知识,帮助电子商务企业决策者调整市场策略,进行商业预测,做出正确的决策,从而提高信息利用率,降低风险,给企业带来巨大的利润。数据挖掘就是为顺应这些需要应运而生发展起来的数据处理技术。
八十年代末兴起的数据挖掘(Data Mining)技术,就是从这样的商业角度开发出来的。数据挖掘技术可以为新的商业处理信息,把历史积累的大量数据进行抽取、转换、分析和其他模型化的挖掘和处理,从中发现隐藏的规律或模式,提取辅助商业决策的关键性数据,为决策提供支持。利用数据挖掘技术,能对数据进行充分挖掘,发现数据所蕴涵的有用知识,帮助企业业务决策和战略发展,从而使企业在市场竞争中获得优势地位。因此数据挖掘在电子商务系统中的应用成为当前研究的重要课题。
电子商务是现代信息技术迅速发展的必然产物,也是未来企业模式的必然选择。数据
挖掘技术引入电子商务,给企业的商务活动提供全面支持,为客户提供个性化服务,增强企业的商务智能。数据挖掘是电子商务取得更多成就的必然方向,它将数据转化为知识,是数据管理、信息处理领域研究、开发和应用的最活跃的分支之一。它帮助决策者寻找数据间潜在的关联,发现被忽略的因素,是解决数据爆炸而信息贫乏问题的一种有效方法。数据挖掘的一个重要分支—关联规则挖掘,主要用于发现数据集中项之间的相关联
系。由于关联规则挖掘技术形式简洁、易于解释和理解并可以有效地捕捉数据间的重要关系,从大型数据库中挖掘关联规则问题己成为数据挖掘中最成熟、最重要、最活跃的研究内容。
二、
1
1.1数据挖掘的历史及研究现状
数据库技术的迅速发展以及数据库管理系统的广泛应用,积累的数据越来越多。爆炸式增长的数据背后隐藏着许多重要的信息,为了更好地利用这些数据,就要进行更高层次的分析。数据库系统虽然可以高效地实现数据的录入、查询、统计等功能,但是不能发现数据中存在的关系和规则,无法根据现有的数据对未来的发展进行预测,缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。
挖掘数据背后的知识可以用数据库管理系统来存储数据、用机器学习的方法来分析数据,两者的结合促成了数据库中的知识发现(KDD:Knowledge Discovery In Databases)的产生。实际上,数据库中的知识发现是一门交叉性学科,涉及到机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算和专家系统等多个领域。从数据库中发现出来的知识可以在信息管理、过程控制、科学研究和决策支持等多个方面应用1989年8月在
美国底特律召开的第一届国际人工智能联合会议的专题讨论会上首次出现在数据库中的知识发现KDD这个术语,它泛指所有从源数据中挖掘模式或联系的方法,包括了最开始的制定业务目标到最终的结果分析。随后在1991年、1993年和1994年都举行KDD专题讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、数据分析算法、知识表示和知识运用等问题。随着参与人员的不断的增多,KDD国际会议发展为年会。1998年在美国纽约举行的第四届知识发现与数据挖掘国际学术会议不仅进行了学术讨论,而且有30多家软件公司展示了他们的数据挖掘软件产品,很多软件己经在北美、欧洲等国家得到应用。迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了很多次,会议规模由原来的专题讨论会发展成国际学术大会,研究重点也逐渐从发现方法转向了系统应用,注重了多种发现策略和技术的集成以及多个学科之间的相互渗透。从大型数据库中发现信息或知识已经成为数据库和机器学习领域的一个重要的研究课题,同时很多公司都意识到数据挖掘在提高公司决策能力、增加企业收益、提高企业竞争力等方面将起到重要的作用。数据挖掘发现的知识可以应用于信息管理、决策支持、过程控制等领域,数据挖掘也使数据库领域、机器学习、统计学、知识工程与知识管理、人工智能等领域的专家都对它产生了浓厚的兴趣与爱好。数据挖掘是KDD最核心的部分,是采用机器学习、统计等方法进行知识学习的阶段数据挖掘算法的好坏直接影响到所发现知识的好坏。目前大多的研究都集中在数据挖掘算法和应用上。人们往往因为不严格区分数据挖掘和数据库中的知识发现,而把两者混淆使用。通常在科研领域中称之为KDD,而在工程领域中则称之为数据挖掘。
促进数据挖掘诞生、发展和应用有许多原因,主要有以下四种:
(1)大规模数据库,尤其是数据仓库的出现,使数据挖掘技术有了赖已生存的基础
(2)先进的计算机技术,尤其是网络技术和并行处理体系的发展,使大量办公室人
员得以摆脱繁重的日常信息处理工作,提高了工作效率的同时也节省了时间,有多余的时间和精力对激增的数据进行高层次的分析,从中寻找对企业战略发展有重要意义的商业规律和市场趋势。
(3)经营管理的需要。企业经营管理者迫切希望能够利用数据挖掘技术从企业积累
的大量历史数据中找到有价值的信息,来应对日趋严重的竞争压力。
(4)数据挖掘的精深计算能力。大规模数据挖掘需要复杂和精深的计算能力,这些
精深的计算能力主要是基于统计学、集合论、信息论、认识论和人工智能等各种学科理论而促进数据挖掘诞生和发展的中坚力量正是这些精深的计算能力。
因此,数据挖掘是信息技术发展到一定阶段的必然产物,是拥有了大规模数据库、高
效的计算能力、经营管理的压力和有效的计算方法后的产物,是从数据库或其他信息库中存放的大量数据中挖掘有用知识的一个过程。
数据挖掘(Data Mining,简称DM),也称知识发现,是从海量数据中提息的工具,被描述为从数据中抽取出隐含的、具有潜在用途的、人类可理解的挖掘通过发现有用的新规律和新概念,提高人们对大量、看似不相关数据的更解、认识以及应用。数据挖掘技术是目前国际上数据库和信息决策领域最前沿之一,同时也是学术界和商业界共同关注的热点问题。
2.1数据挖掘的概念
数据挖掘是一种综合了数据库、人工智能以及统计学等多个学科技术的信息处理
法。通过对历史积累的大量数据的有效挖掘,试图从这些数据中提取出先前未知但有效
有用的知识。
Bhavani(1999)定义数据挖掘为:The proeess of diseovering meaningful new correlation Patterns,and trends by sifting through large amount of stored data,using pattern reeogniti technologies and statistieal and mathematical technologies。(数据挖掘是从大量存储的数据中