基于挖掘日志分析用户兴趣技术

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于挖掘日志分析用户兴趣技术
1、引言
近年来，Internet尤其是WWW飞速发展，其信息量正以指数级速度迅猛增长和扩展。

这使得广大用户更有可能享受丰富、方便的资源，然而传统服务模式的落后却使用户为信息所累，传统的Internet服务模式存在着一系列问题，比如：资源分散，检索集中，对所有用户是一副面孔，有求则应，无求不动；用户按格式请求，系统按字面匹配，查询方式局限、死板；没有统一的标准，门户林立，各自为政，不同信息源使用不同服务机制，不同服务使用不同身份认证机制等。

解决这些问题的关键在于将Internet从被动接受浏览者的请求转化为主动感知浏览者的信息需求，实现Internet系统对浏览者的主动信息服务。

新一代的信息服务将是个性化主动信息服务，如何从海量的数据和信息中高效地获取有用知识，如何从迅速膨胀的信息中及时地获取最新信息，如何提高信息检索与推送的智能水平，以及如何满足各种用户不同的个性化需求等，都是新的信息服务系统面临的挑战性课题。

个性化服务是Internet信息增长的必然结果。

传统的“人找信息”的服务模式己经越来越难以适应迅速增长的Internet信息资源，用户迫切需要一种能够根据用户的特点自动组织和调整信息的服务模式。

个性化主动信息服务是未来信息服务的主流模式，它实现的是“信息找人，按需服务”。

个性化服务的形式是多种多样的，既可以是向用户推荐页面或新闻的个性化推荐服务，也可以是在用户检索信息的过程中提供个性化检索结果的个性化检索服务，还可以是减少用户浏览负担、调整网站显示的个性化网站等。

但所有这些不同形式的个性化服务都首先需要建立对用户的描述，然后才能针对不同的用户提供不同的个性化服务。

一个好第1章引言基于用户兴趣挖掘的个性化模型研究与设计的个性化服务系统，要能自动判断哪些信息是用户感兴趣的，哪些是用户不感兴趣的，对于用户不感兴趣的信息则阻止反馈给用户。

为用户建立模型的目的就在于通过对用户信息需求、兴趣爱好和访问历史的收集、统计、分析，建立一个反映用户基本兴趣和信息需求的信息模型，并将模型用于帮助用户更好地获取新的信息。

作为个性化服务的基础和核心，用户模型的质量直接关系到个性化服务的质量。

只有当用户的兴趣、偏好和访问模式等用户信息可以很好地被系统“理解”的时候，才可能实现理想的个性化服务。

利用用户信息构建用户模型，即用户建模，也就成为了个性化服务的核心和关键技术。

只有在高质量的用户建模的基础上，才能实现个性化服务系统所追求的各种目标。

所以，有必要将建模技术从具体的个性化服务形式中脱离出来作为一项基础技术研究，它能促进个性化服务的发展，提高个性化服务系统的易用性。

2、用户兴趣挖掘技术
回归分析是进行相关分析的一种重要方法，在研究某种对象之间存在着某种相互依存关系，可以借助回归分析法寻求其定量规律及其数学表达式
回归分析的中心问题，是在分析研究对象变化的基础上建立函数模型，通过统计计算和检验，归纳分析结果，用于对多方面问题的求解。

关键是找出反映用
户规律的回归图像和回归方程并验证其可靠性。

回归分析用于用户分析的大致步骤如下：
（1）根据研究目标进行用户特征统计测量，获取一系列特征数据；
（2）对统计量进行分析，用户某一函数进行拟合；
（3）分析拟合函数，通过计算得出总体特征的回归方程；
（4）用户相关洗漱法检验关西的显著性，确定回归方程的可靠性；
（5）提交研究结果。

在用户研究中，常常需要研究某些事件之间的相互关系，这就是所谓的相关分析。

相关分析分为函数分析和统计分析，Web用户浏览网页时所表现出来的信息行为和用户对某个网页是否感兴趣密切相关。

我们研究的相关因素之间存在某种函数关系，可以利用统计学中的回归分析方法解决[1]我们计算一个用户各种浏览行为的行为参数，就是要根据用户的多项浏览数据来得到的，因此，若能判断出所有提取出的浏览行为与网页兴趣度直接按呈线性关系，对于此问题，多元线性回归不失为一种好的方法。

回归分析的中心问题，是在分析研究对象的变化趋势的基础上建立函数模型，通过统计计算和检验，归纳分析结果，因而在用户研究中用户对多方面的问题的求解。

该方法的关键是找出反映用户规律的回归图像和回归方程，并检验其可靠性。

3、用户兴趣来源
从静态上分布上看可以分为突出兴趣和次要兴趣；从动态演化上看可以分为稳定兴趣和偶然兴趣。

特征提取成为了数据预处理和数据挖掘技术的重要的步骤之一
特征选择有两大步骤：计算评价函数值和特征子集搜寻。

评价函数功能就是评价出特征向量与数据类信息的匹配程度。

一组具有相似稳定用户兴趣的人访问的文档有可能相关，由于人们的兴趣是稳定的，所以页面p被用户U访问这一动作的发生在相当大程度上是由用户u 的的稳定兴趣所驱动的，而不是用户u的一次随机访问或者偶然兴趣所驱动的，也就说说这种访问时有规律的，我们利用用户访问频率矩阵进行了相关文档检索，用户访问频率矩阵我们成为用户兴趣矩阵。

4、系统设计与实现
4.1、设计方案
搜索引擎日志挖掘研究可以看作Web挖掘中的一种使用记录挖掘（Web usage mining），即从用户查询行为中抽取有意义的模式。

具体地，研究用户如何使用Web搜索引擎？用户在Web上查找什么样的信息？整体或单个用户的查询具有什么样的特征与规律？如何利用这些用户的访问信息改进搜索引擎系统的性能？系统设计总体图如下所示。

因地域、文化背景、语言的不同，用户群的查询行为方式以及查询内容上可能有所不同。

1、数据分析基本工作原理。

4.2、实验内容
经过统计分析：。