web数据挖掘在电子商务中的应用研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
电子商务是利用计算机技术、网络技术和远程通信技术,实现整个商务(买卖)过程中的电子化、数字化和网络化。在全球X围内,基于Internet的电子商务迅猛发展,促使各企业经营者必须及时搜集大量的数据,并且将这些数据转换成有用的信息,为企业创造更多潜在的利润。利用Web数据挖掘技术可以有效地帮助企业分析从网上获取的大量数据,提取出有效信息,进而指导企业调整营销策略,给客户提供动态的个性化的高效率服务。同时Internet是一个巨大、分布广
泛、全球性的信息资源储备库。随着上网人数的急剧增加,电子商务的蓬勃发展,各种基于互联网的商业Web站点也面临越来越激烈的竞争。Web包含了丰富和动态的超信息,以及Web页面的访问和使用信息,这也为数据挖掘提供了大量丰富的资源。[1][2]
Web数据挖掘(Web Data Mining)是利用数据挖掘从Web文档及Web服务中自动发现并提取用户感兴趣的、潜在的、有用的模式和隐藏信息。Web数据挖掘的主要目标就是从Web的访问记录中抽取用户感兴趣的模式,服务器中的访问日志,记录了关于用户访问和交互的信息,通过Web数据挖掘,就可以根据用户的访问兴趣、访问频度、访问时间动态地调整页面结构,改进服务,开展有针对性的电子商务活动,以更好地满足客户的需求。
3 Web挖掘的过程和方法
3.1 Web挖掘的过程
电子商务中的Web挖掘过程一般由3个主要阶段组成:数据准备、挖掘操作、结果表达和解释。
(1)数据准备:这个阶段又可分成3个子步骤:数据集成、数据选择、数据预处理。数据集成将多文件或多数据库运行环境中的数据进行合并处理,解决语义模糊准备,这个阶段又可分成为处理数据中的遗漏等。数据选择的目的是辨别出需要分析的数据集合,缩小处理X围,提高数据挖掘的质量。预处理是为了克服数据挖掘工具的局限性。
(2)数据挖掘:这个阶段进行实际的挖掘操作,包括的要点有:决定如何产生假设;选择合适的工具;发掘知识的操作;证实发现的知识。
(3)结果表述和解释:根据最终用户的决策目的对提取的信息进行分析,把最有价值的信息区分开来,并且通过决策支持工具提交给决策者。因此,这一步骤的任务不仅是把结果表达出来,还要对信息进行过滤处理,如果不能令决策者满意,需要重复上述过程。
3.2 Web数据挖掘的方法
(1)协同过滤:协同过滤技术采用最近邻技术,利用客户的历史、喜好信息计算用户之间的距离,目标客户对特点商品的喜好程度由最近邻居对商品的评价的加权平均值来计算。
(2)关联规则:关联规则是寻找在同一个事件中出现的不同项的相关性,用数学模型来描述关联规则发现的问题:x=>y的蕴含式,其中x,y为属性——值对集(或称为项目集),且X∩Y空集。在数据库中若S%的包含属性——值对集X的事务也包含属性——值集Y,则关联规则X=>Y的置信度为C%。
(3)Web日志的聚类算法:聚类分析是把具有相似特征的用户或数据项归类,在管理中通过聚类具有相似浏览行为的用户。基于模糊理论的Web页面聚类算法与客户群体聚类算法的模糊聚类定义相同,客户访问情况可用URL(Uj)表示。
有Suj={(Ci,fSuj(Ci))|Ci∈C},其中fSuj(Ci)→[0,1]是客户Ci和URL(Uj)间的关联度:式中m为客户的数量,hits(Ci)表示客户Ci访问URL(Uj)的次数。利用Suj和模糊理论中的相似度度量Sfij定义建立模糊相似矩阵,再根据相似类[Xi]R的定义构造相似类,合并相似类中的公共元素得到的等价类即为相关Web页面。
(4)序列分析:序列模式分析和关联分析类似,其目的也是为了挖掘数据之间的联系,但序列模式分析的侧重点在于分析数据间的前后序关系。它能发现数据库中如“在某一段时间内,客户购买商品A,接着会购买商品B,尔后又购买商品C,即序列A→B→C出现的频率高”之类的信息。序列模式描述的问题是:在给定的交易序列数据库中,每个序列按照交易的时间排列的一组交易集,挖掘序列函数作用是返回该数据库中高频率出现有序列。
(2)关联规则:关联规则主要关注事物内的关系。在Web使用挖掘中,关联规则挖掘就是挖掘出用户在一个访问期间从服务器上访问的页面/文件之间的关系,找出在某一次服务器会话中最经常一起出现的相关画面。例如,40%的客户再购买了CD之后又购买了CD清洁剂。利用挖掘出来的这些相关性,我们可以更好的组织站点,实施有效的市场策略。
(3)序列模式:序列模式挖掘就是挖掘出交易集之间有时间序列关系的模式,在Web日志中发现所有满足用户规定的最小支持度的大序列模式。序列模式的发现就是在时间戳有序的事务集中,找到那些“一些项跟随另一个项”的内部事务模式。例如:在/class/book1上进行过在线定购的顾客,有60%的人在过往15天内也在/class/bag1处下过订单。发现序列模式能够便于进行电子商务的组织猜测客户的访问模式,对客户开展有针对性的广告服务。通过系列模式的发现,能够在服务器方选取有针对性的页面,以满足访问者的特定要求。
(4)分类规则:分类技术主要是根据用户群的特征挖掘用户群的访问特征。在Web数据挖掘中,分类规则的发现就是给出识别一个特殊群体的公共属性的描述,这个描述可以用来分类新的项,例如:在/class/book2 进行过在线定购的顾客中有55%是20-30岁生活在南方的年轻人。得到这一分类后,就可以进行适合这一类客户的商务活动。
(5)聚类:聚类技术是对符合某一访问规律特征的用户进行用户特征挖掘。聚类分析可以从Web 访问信息数据中聚集出具有相似特性的那些客户。在Web 事务日志中,聚类顾客信息或数据项能够便于开发和执行未来的市场战略。这种市场战略包括:自动给一个特定的顾客聚类发送销售,为一个顾客聚类动态地改变一个特殊的站点等。[3]
用OLAP方法发现数据中的特定模式结果。
(4)可视化。主要是采用可视化的技术以图形界面的方式表示挖掘的成果。[ 6 电子商务中的应用
尽管Web挖掘的形式和研究方向层出不穷,但随着电子商务的兴起和迅猛发展,未来Web挖掘的一个重要应用方向将是电子商务系统。而与电子商务关系最为密切的是Web访问信息挖掘。下面是Web访问信息挖掘在电子商务中的几点具体的应用。
(1)发现潜伏客户:在对Web的客户访问信息的挖掘中,利用分类技术可以在Internet上找到未来的潜伏客户。通常的策略是先对己经存在的访问者进行分类,对于一个新的访问者,通过在Web上的分类发现,识别出这个客户与己经分类的老客户的一些公共的描述,从而对这个新客户进行正确的分类。然后从它的分类判定这个新客户是属于有利可图的客户群,还是属于无利可图的客户群,决定是否要把这个新客户作为潜伏的客户来对待。客户的类型确定后,就可以对客户动态地展示Web页面,页面的内容取决于客户与销售商提供的产品和服务之间的关联。
(2)提供优质个性化服务:对客户来说,传统客户与销售商之问的空间间隔在电子商务中己经不存在了。在网上,每一个销售商对于客户来说都是一样的,那么如何使客户在自己的销售站点上驻留更长的时间,对销售商来说将是一个挑战。为了达到这一目的,就应该了解客户的浏览行为,知道客户的爱好及需求所在,动态地调整Web页面,以满足客户的需要。通过对客户访问信息的挖掘,就能知道客户的浏览行为,从而了解客户的爱好及需求。
(3)改进站点设计:对Web站点的结构的优化可从三方面来考虑:(1)通