基于KMeans聚类算法的智能化站点设计与实现

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

河南科技大学
硕士学位论文
基于K-Means聚类算法的智能化站点设计与实现
姓名:高利军
申请学位级别:硕士
专业:计算机应用技术
指导教师:王辉
@
摘要
论文题目:基于K-Means聚类算法的智能化站点设计与实现
专业:计算机应用技术
研究生:高利军
指导教师:王辉
摘要
Internet和电子商务的发展带动了面向Web的数据挖掘技术的研究。

在个性化推荐系统中,运用数据挖掘技术对服务器上的日志文件等数据进行用户访问信息的Web数据挖掘,根据对用户的访问行为、访问时间的分析,得到群体用户行为和方式的普遍知识,动态地调整页面结构,改进服务,给用户个性化的界面,从而更好地服务于用户,提升网站的整体质量。

Web挖掘技术使得人们能够充分了解Web页面之间,以及Web站点的组织形式与用户的访问模式之间的关联。

其中,面向服务器日志的Web日志挖掘技术尤其得到众多研究人员的关注。

利用Web日志挖掘,可以了解用户对网站的浏览模式、浏览习惯以及浏览行为,进而发现行为相似的用户群,同时根据Web页面被用户访问的情况将具有相同特征的页面进行分组。

本文在充分分析国内外研究现状的基础上,提出了通过挖掘Web日志,根据当前用户的访问行为实时地为用户进行个性化推荐的智能化网站基本架构,特别是对其中的关键技术做了深入细致的研究,主要内容如下:
(1) 提出了通过Web日志对用户兴趣进行隐式获取的方法。

(2)对k-Means聚类算法做出了改进,使得管理员无需背景知识也能很好地对网站用户进行聚类。

在关键技术研究的基础上,提出了一个提高Web服务质量的解决方案,并实现了一个基于用户访问模式进行实时推荐的智能化站点原型系统,同时将其关键技术应用到河南科技大学洛浦清风校园文化网站,取得了良好的效果。

本文对智能化站点原型系统的研究和实验结果分析,将对智能化站点从理论研究向现实网站中应用,起到一定的指导和推动作用。

关键词:聚类,Web日志挖掘,关联规则,数据挖掘,协同过滤.
论文类型:应用研究
河南科技大学硕士学位论文
Subject: Design and Realization of Intelligent Website Based on K-Means Clustering
Specialty: Computer Applications Technology
Name:Gao Li-jun
Supervisor:Wang Hui
ABSTRACT
At present, the development of Internet and e-commerce drives the research for data mining technology facing web. In personalized recommendation system, the user’s browsing behavior can be discovered by applying data mining technology on web data such as server logs, and the general knowledge of the group user’s behaviors and patterns can be obtained by analyzing the user’s accessing behavior and accessing time. In addition, the page structure, the service and marketing strategies can be modified and improved dynamically according to the discovered knowledge to serve the user well and promote the overall quality of the website.
Web mining technology makes people can fully find out the relation between the web pages, and the connection between the web organizational forms of website and the access mode of the customer. Among them, the web log mining technology gets the concern of numerous researchers especially. By utilizing the web log mining, we can know the browsing pattern、browsing custom as well as browsing behavior of the customer, find the similar user group according to browser behaviors and divide the pages with the same characteristic into groups by the web pages visited by the user.
This paper proposed the basic construction of the intellectualized website which can offer the personalized recommendation to the user in real time by mining the Web log and according to the current user's visit behavior on the basis of fully analyzing the research of present situation in the domestic and foreign. This paper has done the thorough careful research to key technologies specially; the primary content is as follows:
(1) Proposed a method of obtaining user’s interests by mining web log implicitly.
(2) Improved the K-Means clustering algorithm, the new algorithm realizes automatically cluster, which improves cluster validity without background knowledge and can be implemented to cluster users.
摘要
On the basis of the research of the key technologies, this paper proposed the solution to improve the web quality of service, and realized the intellectualized prototype system to provide real-time recommendation based on the user’s visit pattern, simultaneously applied the key technologies to the LPQF campus culture website, and obtained good effect.
This paper researched the intellectualized prototype system and analyzed the experimental result, which has important instruction and significant impetus to drive the intellectualized website from fundamental theory research to reality application.
KEY WORDS:Data Mining, Intelligent Website, Data Preprocessing, Web Mining, Web Log Mining, Clustering, Collaborative Filtering.
Dissertation Type: Application research
第1章绪论
第1章绪论
1.1 课题背景
当今人类已经处于一个信息极度丰富的时代,人们可以从各种各样的传播媒体中获得信息,如报纸、电视、杂志、万维网等。

Web为人们提供越来越多信息的同时,其结构也变得更加复杂,那些Web经验不足的用户经常会“迷失”在网络空间中,面对庞大的网络空间不知何去何从[1,2]。

虽然Web上的信息量巨大,但是用户往往因为找不到需要的信息而发愁,面对搜索引擎返回结果中大量的超链接或者一个完全陌生的网站,从中寻找需要的信息对一般的用户而言是比较困难的任务。

另一方面,在互联网市场竞争日趋激烈的今天,用户成为网站的最大财富,用户数量与架构在网站上的电子商务以及投放的广告的收入紧密相关,随着用户网络经验的增长,网站仅仅靠提供大量的信息已经不能完全吸引用户,用户需要质量更高、效果更好的Web服务。

人们期望得到个性化的服务[3-6],希望可以根据自己的兴趣对网页的风格以及内容进行定制,同时,希望网站可以根据用户的兴趣所在,为用户推荐可能感兴趣但是尚未阅读的内容,以减少用户搜索信息的时间。

因此设计开发面向用户的智能化站点成为目前的研究热点。

1.2 研究现状
目前的用户需求对网站的设计提出了更高的要求。

目前,国内外已经有一些比较成熟的Internet个性化服务系统,如Stanford大学的个性化推荐系统Fab,卡内基.梅隆大学的WebWatcher,清华大学的Open Bookmark等。

此外,很多电子商务站点也采用了个性化推荐技术[7-9],向用户推荐满足用户兴趣的商品,如Amazon、Ebay、BestBuy等。

西安交通大学的沈均毅等人提出了基于Web日志的协作推荐系统,采用对Web日志进行预处理,然后根据全部用户兴趣的平均值,把平均值最高的前几项推荐给用户的方式。

东北师范大学的王大玲等人提出一种具有最大推荐非空率的关联规则挖掘方法来实现推荐。

智能化站点目前常用的技术有:Web定制服务、推荐系统[10-13]以及自适应站点[14]等,现分别描述如下:
(1) Web定制服务
定制服务(Web Customization Service):Web服务器通过与用户交互的过程收
河南科技大学硕士学位论文
集用户的信息,服务器根据这些信息对用户请求的页面进行裁剪,使得页面的内容和风格都符合用户的要求,将该定制的页面作为请求结果返回给用户。

例如:当用户注册提供定制服务的网站后,用户可以从服务器提供的选项中选取感兴趣的栏目(新闻、股票、天气预报等)以及喜欢的页面风格、布局、颜色等。

以后服务器响应该用户的请求时,就根据用户的定制信息将页面修改后返回给用户。

目前,许多网站都提供定制服务,如:MyYahoo! (/)、我的网易 (/)等。

在文献[15]中提出用框架技术(Frame)实现定制服务,一个Web页面由多个框架组成,每个框架对应不同的内容。

例如:对一个新闻网站,其页面框架可能包含国内、国际、科技、社会等栏目,用户也可以创建新的框架结构。

Web服务器在与用户的交互过程中为每个用户创建用户模型(User Model),用户模型中可以包含:用户的注册信息(姓名、Email、用户标识符和口令等)、颜色偏好、用户的访问历史以及其它一些与用户相关的信息。

根据每个用户的用户模型,Web服务器执行一些服务器端的程序后,为Web页面中的各个框架填充用户感兴趣的内容,最后将生成的定制页面返回给用户。

对于定制服务,用户要通过显式地圈定他所感兴趣的内容,来完成定制页面的工作。

对一个大的门户网站而言,如Yahoo!(/),可能包含上百个选项,从这些选项中挑出感兴趣的条目,对用户来讲是个大的负担;另一方面,用户只有在很好地了解了站点之后,才能做出正确的选择。

所以,在用户深入了解站点之前,用户可能并不知道怎样定制站点内容,因而也就不能充分享受Web站点的定制服务。

(2) 推荐系统
推荐系统(Recommend System):直观地讲,推荐系统就是Web服务器根据用户的喜好,为用户推荐可能感兴趣的内容或者可能购买的商品。

近几年电子商务的快速发展推动了推荐系统的发展,推荐系统已经逐渐成为电子商务中的主流发展方向。

例如,亚马逊(/)、当当网站()、eBay(/)等都是包含推荐系统的电子商务网站。

推荐系统可以为电子商务网站带来一系列的好处[16]:能够更好地吸引新的访问者,并将访问者转变为购买者,同时可以增加客户在网站的停留时间和他们对网站的忠诚度。

另外,推荐系统可以针对不同的用户为其推荐可能感兴趣的广告,从而提高广告的效率,这一系列的变化最终将增加网站的利润。

据因特网研究机构Jupiter Communications(/)报道[17,19],通过对25个电子
第1章绪论
商务消费网站的观察发现,这些网站在提供了推荐系统后的第一年中,平均增加了47%的新客户,利润同比增加了52%。

另一个因特网研究机构Nielsen NetRating(/)报道,与一般的电子商务网站比较,提供推荐系统的电子商务网站可以将更多的访问者变为购买者。

推荐系统的自动化程度(Degree of Automation)指用户为了得到推荐系统的推荐是否需要显示的输入信息,而推荐系统的持久度(Degree of Persistence)指推荐系统产生推荐是基于客户当前的单个会话还是基于客户的多个会话。

根据推荐系统的自动化程度和持久度这两个参数,可以将推荐系统进行分类:
①非个性化推荐系统(Non-Personalized Recommendation)
这种推荐系统独立于用户,所有访问的用户得到的推荐结果都是相同的。

这种推荐系统产生的推荐结果主要基于多数用户对于该产品的平均评价。

例如:Amazon网站的Average customer rating、eBay网站的Customer Comments。

②基于属性的推荐系统(Attributed-Based Recommendation)
推荐系统的推荐主要基于产品的属性特征为用户进行推荐,与用户的兴趣以及浏览行为无关。

例如:Reel网站(/)的Movie Map,Amazon网站的Delivers。

③基于项目之间相关性的推荐系统(Item-to-Item Correlation
Recommendation )
推荐系统根据客户感兴趣的产品推荐与此相关的产品。

例如:
Amazon网站的Customers who bought this book also bought。

CNNOW网站(/)的Album Advisor。

④基于客户相关性的推荐系统(People-to-People Correlation Recommendation)
这种推荐系统又称作基于协同过滤(Collaborative Filtering)的推荐系统,推荐系统根据客户与其它已经购买了商品的客户之间的相关性进行推荐。

例如:Amazon网站的Book Matcher,Movie Finder网站的Web Predict。

可以通过多种方法实现推荐系统,常用的技术有:
①关联规则(Association Rules)——根据商品之间的相互关联关系,为用户推荐相关的商品。

基于关联规则的推荐是商品级(item level)的推荐。

②协同过滤(Collaborative Filtering) ——根据与当前用户兴趣相似的用户对商品的评价和打分,为该用户推荐可能感兴趣或者购买的商品。

基于协同过滤的推荐是用户级(customer level)的推荐。

③聚类(Clustering)——根据用户过去的购买行为将用户进行聚类,然后根据当前用户所在的用户组为其进行推荐。

基于聚类的推荐是小组级(group level)
河南科技大学硕士学位论文
的推荐。

④信息过滤(Information Filtering)——也称作基于内容的过滤(Content-based
filtering),根据商品的属性和特征为用户推荐。

目前,许多电子商务网站都采用了协同过滤技术实现推荐系统。

基于协同过滤技术的推荐系统的构造过程为:首先收集用户对各个文档的评分,根据用户的评分,寻找与当前用户的兴趣和购买行为相似的用户群,这个用户群称为当前用户的邻居,将他们的评分集成在一起,最后根据这些邻居的综合评分为当前用户进行推荐。

基于协同过滤技术的推荐系统的主要限制是:必须有一定数量的文档被用户评价和打分,并且被服务器推荐给当前用户的文档至少要有一个用户已经对它进行了打分。

同时,由于用户的评分标准不一样,导致打分会有所偏差。

例如:两个用户同样都喜欢旅游,由于两个人的性格以及行事风格不同,其中一个用户对于自己喜欢的东西,他最高只给4分(假设打分采用5分制),而另外一个对于自己喜欢的则给5分,这两个分数虽然数值不同,但为其打分的两个用户都同等程度地喜欢旅游,只是由于用户的自身原因造成分数值不同,系统根据这样的打分结果进行推荐就可能会产生偏颇[19]。

(3) 自适应站点
自适应站点(Adaptive Web Site)利用Web日志挖掘技术从Web日志中获取用户的访问模式,根据用户的访问情况,实时推荐用户可能感兴趣的超链接[20]。

建立自适应站点的一般步骤是:发现用户聚类,然后为每个聚类的用户建立配置文件(Profile),并将之保存在Web服务器中,当用户访问站点时,服务器判断当前用户属于哪个聚类,寻找该聚类相应的配置文件,并将用户请求的页面经过变形后返回给用户。

自适应站点的目的是为用户推荐页面的变化或是站点结构的变化,以更加适合用户的需求。

对站点结构的变化可以包括:将受欢迎的页面放在醒目的位置、突出显示用户感兴趣的链接、将相关的页面互连、将相似的文档组织在一起等。

相对于定制服务,自适应站点可以将用户的定制属性在一定范围内共享,它通过用户聚类,将访问者划分为不同“类型”的用户,根据每一类用户不同的兴趣和目的为其定制页面,每一类用户具有相同的定制属性。

如果某类用户中的一些用户对站点的某一部分感兴趣,那么在自适应站点中则认为属于同一类的其他用户也会对这些信息感兴趣。

第1章绪论
1.3 研究内容
Internet的发展推动了Web服务质量的提高,为此出现了定制服务、自适应站点以及推荐系统,这三者都不同程度地提高了Web服务的质量,然而他们之间既有联系又有区别。

由于定制服务是由用户自己定制的页面内容以及显示风格,所以,定制服务应当说是这三者中最令用户满意的,但是对定制服务而言,用户承担了定制的负担,同时,用户的定制信息不能够共享,这样,用户可能会错过自己感兴趣的内容。

另一方面,网站所能提供的定制项目以及定制内容也会影响定制服务的质量。

自适应站点与推荐系统的创建过程比较相似,但是两者处理的数据以及结果的表现形式不同,自适应站点是从Web服务器的日志数据中挖掘用户聚类,而推荐系统需要获得用户对项目的评分,然后根据用户的评分寻找当前用户的邻居。

这样,相对而言,推荐系统由于需要用户对项目进行打分,因而加重了用户的负担。

对于结果的表示,自适应站点根据与用户聚类相对应的变形将Web页面变形后返回给用户,用户可能并不知道该页面是Web服务器根据其访问特征为其定制的。

而推荐系统返回给用户的页面中通常包含两部分:Web服务器本来的页面内容和服务器为用户推荐的内容,用户可以明显区分这两部分。

对于自适应站点而言,如果服务器判断失误,则可能导致用户看到的内容不是自己感兴趣的,这种情况的出现就不可避免会产生用户流失。

利用这三种不同的技术都可以在一定程度上提高Web服务质量。

如何吸取这三种技术的长处,为用户提供更加满意的Web服务,就成为本文的主要研究内容。

Internet的发展带动了基于Web的数据挖掘技术的发展,Web挖掘技术使得人们能够充分了解Web中页面之间的相互关系,以及Web站点的组织形式与用户的访问模式之间的关联。

其中,基于Web服务器日志的Web日志挖掘技术尤其得到众多研究人员的关注,利用Web日志挖掘,可以知道用户对网站的浏览模式,同时也可以根据用户的浏览行为发现行为相似的用户群,以及根据Web 页面被用户访问的情况将具有相同特征的页面分组。

本文在充分分析了国内外研究现状的基础上,提出了通过挖掘Web日志,根据当前用户的访问行为实时地为用户进行个性化推荐的智能化网站基本架构,特别是对其中的关键技术做了深入细致的研究,主要内容如下:
(1)提出了通过Web日志对用户兴趣进行隐式获取的方法。

(2)对K-Means聚类算法做出了改进,使得管理员无需背景知识也能很好地
河南科技大学硕士学位论文
对网站用户进行聚类。

在关键技术研究的基础上,提出了一个提高Web服务质量的解决方案,并实现了一个基于用户访问模式进行实时推荐的智能化站点原型系统。

智能Web 站点利用Web日志数据,采用数据挖掘技术,隐式地获取用户访问模式,根据当前用户访问的情况,实时地推荐用户可能感兴趣的内容。

智能化站点的提出,综合了自适应站点和推荐系统的特点,与自适应站点一样,智能化站点利用Web日志,采用数据挖掘技术,从中获取用户访问模式,不会给用户增加额外的打分工作。

同时为了避免出现自适应站点由于判断失误导致用户流失的情况发生,智能站点采用了推荐系统的输出形式,用户浏览的页面既包含Web站点提供的“静态”页面,也包含智能站点为每个用户推荐的内容。

1.3.1 智能Web站点体系结构
本文提出的基于Web日志挖掘技术的智能Web站点原型系统分为三个主要部分:首先是Web日志预处理部分,该部分主要完成对日志数据的清洗以及用户识别、会话识别、兴趣获取等步骤;其次是推荐引擎部分,该部分利用预处理后的数据,对用户进行聚类,然后在此基础上运行协同过滤推荐算法;最后一部分是智能化站点页面,该页面得到在线浏览用户的IP地址,然后调用推荐引擎部分产生的推荐结果,动态生成用户访问个性化页面。

图1-1 智能化站点结构
Fig.1-1 framework of intelligent website
1.3.2 站点结构分析
Web日志预处理是在Web日志挖掘前,对Web日志进行清洗、过滤以及重新组合的过程。

Web日志预处理的目的是剔除日志中对挖掘过程无用的属性及
第1章绪论
数据,并将Web日志数据转换为挖掘算法可以识别的形式。

Web日志预处理部分主要完成数据的准备工作。

该部分采用河南科技大学洛浦清风网站日志作为数据源,通过对原始日志进行数据清洗等步骤,去掉无用的页面,从中提取用户对各页面的浏览兴趣,实现了用户兴趣的隐式获取,预处理的结果作为后面的聚类和协同过滤的输入。

该部分的详细内容在第二章进行讨论。

推荐引擎部分首先根据预处理的结果对用户进行聚类,然后根据用户对所访问页面的评分,应用协同过滤推荐算法对用户进行推荐。

推荐引擎首先查找Web服务器检测到的目标用户的IP地址,根据用户的IP地址判断用户所属聚类,然后将协同过滤算法产生的推荐结果传送给Web服务器,再由Web服务器将推荐的结果转化为动态的页面呈现给用户。

对于每一个不同的用户来说,他们看到的都是不同的个性化页面。

用户聚类是对用户的会话进行分析,根据用户的访问动作,寻找行为模式相似的用户,即用户的兴趣相近、访问页面具有较多的重合,将这些用户分为一组,则组内的用户可以共享一个用户配置文件,即该组用户访问频率高的页面集合。

通过同组其他用户的兴趣来预测目标用户的兴趣度。

本文将在第三章对聚类技术进行分析,并详细介绍应用K-Means聚类算法对用户进行聚类。

协同过滤推荐是目前较成功的推荐技术,它根据邻居用户的评分产生对目标用户的推荐。

协同过滤推荐的实现可以分为三步:即输入数据表示、最近邻居生成和推荐生成。

“数据表示”任务解决用户数据如何表示。

“最近邻居生成”任务解决如何搜索最近邻居。

“推荐生成”任务从目标用户的邻居中产生Top-N 推荐。

在本文的第四章将讨论协同过滤技术,对协同过滤技术在智能化站点中的应用进行详细介绍。

1.4 论文的组织结构
本文共分5章,文章结构及各章内容简介如下:
第一章探讨了智能化站点提出的背景及其研究意义,介绍了Web定制服务、推荐系统、个性化站点的研究现状,分析了当今Web面临的主要问题,介绍了本论文主要的研究内容,最后,给出了本文的整体组织结构。

第二章主要介绍了数据挖掘以及Web日志挖掘中的数据预处理技术,对传统的以点击次数作为用户兴趣评估方法进行了改进,提出了一种自动兴趣评估方法,并且进行了实验验证。

第三章首先对聚类技术进行了介绍,然后详细了介绍了应用K-Means聚类
河南科技大学硕士学位论文
算法对用户进行聚类。

针对传统聚类算法存在的初始值问题,对传统K-Means 聚类算法做了改进,并通过实验进行了验证。

第四章主要讲述了协同过滤技术,对协同过滤技术在智能化站点中的应用进行了介绍。

最后通过实验验证了推荐算法的有效性。

第五章是对全文的总结,总结了前面所做的工作,并对下一步的工作进行了规划和展望。

第2章 Web日志挖掘相关技术
第2章 Web日志挖掘相关技术
本文研究的主要内容是利用Web日志挖掘技术实现能够进行有效实时推荐的智能站点。

本章简要介绍了有关数据挖掘的定义和概念、数据挖掘在Web上的应用以及数据预处理技术。

本章首先概述了数据挖掘技术的起源、定义和分类,并着重介绍数据挖掘的一个重要分支—Web挖掘。

接着,重点介绍了日志挖掘技术及相关概念,对传统的以点击次数作为用户兴趣评估方法进行了改进,提出了一种自动兴趣评估方法,并且进行了实验验证。

2.1 数据挖掘和Web挖掘技术概述
2.1.1 KDD和数据挖掘
数据挖掘(Data Mining),又称知识发现,是在数据库或数据仓库中提取隐含的、先前未知的、潜在有用的知识或信息模式的决策支持方法。

同传统的统计分析技术相比,数据挖掘的主要特点是系统的主动性。

传统的统计分析方法具有确定性,是正向思维,即首先由用户设定一个前提,然后证实或否定它,是用户发挥主动性。

而数据挖掘技术具有探索性,是一种逆向思维,即由系统发现合适的前提,再证实或否定,是系统在发挥主动性。

数据挖掘技术出现以来,经过不断的探索和开发,目前已在市场营销、银行、保险、医药、交通、电信和公司经营管理等部门得到应用,并取得了长足的发展。

KDD即数据库知识发现,为Knowledge Discovery in Database的缩写。

这一术语首先出现在1989年在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上。

从1997年开始,KDD已经拥有了专门的杂志(Knowledge Discovery and Data Mining)。

国外在这方面发表了众多的研究成果和论文,并且开发了一大批数据挖掘软件,对数据挖掘的研究已成为计算机领域的一个热门课题。

知识发现的过程主要由以下几个步骤组成:
(1) 数据清理(消除噪声或不一致数据)
(2) 数据集成(多种数据源可以组合在一起)
(3) 数据选择(从数据库中检索分析与任务相关的数据)。

相关文档
最新文档