基于Web用户兴趣的聚类模型挖掘与分析
基于聚类分析策略的Web文本挖掘方法
关键 词 : b挖 掘 ; We 文本挖 掘 ; 聚类 分析 ; 特征 向量 中图分 类号 :i 9 Tt 1 3 文献 标识 码 : A 文章 编号 :0 46 2 2 0 )40 2 -4 10 -0 X( 0 7 0 -0 20
随着计 算 机 网络 的 迅 速 发 展 和 应 用 的不 断普 及,t t I e 已发 展 成 为 当今 世 界 上 最 大 的信 息 仓 n me
12 We . b文本挖 掘过 程
传统 的数据挖 掘所处理的数据是结构化的, 如 关系的、 事务的、 数据仓库的数据 , 其特征数 目通常 不超过几 百个 , It t 而 n me 上的信息是 以网页形式 e
存放的, 网页 的内容 又多 以文本 方式来 表示 , 没有 是 结构 的 , 换为 特征 矢 量 后特 征 数 将 达 到几 万 甚 至 转 几十万 。同时 由于用 户感兴 趣 的文本 集往 往存 在不 同主题 , 果没 有对 训练 文档进 行类别 区分 , 是将 如 而 所有 的特 征词 全部 放 到 同一 个 向量 中 , 可 能会 导 有
We 文本挖掘是指借鉴 数据挖掘 的基本 思想 b 和理 论 方法 , 大量 非 结 构 化 、 构 的 We 档 的 从 异 b文
集 合 D中发 现 有 效 的 、 颖 的 、 在 可 用 的及 最 终 新 潜
可理解 的知识 K 包括概念、 ( 模式、 规则、 规律 、 约束
及可 视化 等形式 ) 的非 平 凡过 程 。如果 将 D看作 输 入 , K看 作输 出的话 , 么 We 将 那 b文本 挖 掘 的过程 就是从 输 入到输 出的一个 映射 e DK。 :—
维普资讯
第 4期
刘彦保 , 王文 发 , 王文东 : 于聚类 分析策略的 We 基 b文本挖掘方法
基于聚类算法的社交媒体用户行为分析
基于聚类算法的社交媒体用户行为分析社交媒体已经成为人们日常生活中不可或缺的一部分。
在社交媒体上,人们可以与朋友和家人交流、分享自己的生活,也可以关注新闻、娱乐和商业等事物。
对于企业来说,社交媒体也是一种重要的营销平台。
无论是想宣传品牌、推广产品还是与客户互动,都需要通过社交媒体来实现。
然而在如此海量的数据和信息中,如何发现和挖掘有效的用户信息,是企业和研究人员需要关注的一个重要问题。
本文将探讨基于聚类算法的社交媒体用户行为分析。
一、什么是聚类算法聚类算法是一种将数据集中相似的对象归为一类的方法。
在机器学习和数据挖掘领域,聚类算法是一种常用的数据分析方法。
通过聚类分析,可以将大量的数据分成若干个相似的簇,每个簇都包含一组具有相似特征的数据。
聚类算法可以用来发现数据集中的内在结构、分类和概要数据等。
二、社交媒体用户行为分析在聚类算法中,聚类对象是用户的行为数据。
社交媒体用户的行为数据包括用户发表的文本、评论、点赞、分享等信息。
通过聚类分析,可以将社交媒体用户分为若干个不同的簇,每个簇都具有一定的特征和行为习惯。
这些簇可以让我们更好地了解社交媒体用户的行为和兴趣,从而更有效地开展营销活动。
例如,针对社交媒体上的一个普通用户,可以通过聚类算法将他归到某个簇中,然后根据该簇的特征和行为习惯,推出相应的产品和营销策略。
这样一来,企业可以更好地满足用户的需求,提高销量和用户满意度。
对于研究人员来说,通过聚类算法,可以更好地了解社交媒体用户对事件、政治、品牌等领域的态度和看法,从而更好地进行市场分析和风险评估。
三、聚类算法在社交媒体中的应用1. K-means算法K-means算法是一种常用的聚类算法,主要是基于距离的空间分析。
在社交媒体用户行为分析中,可以采用K-means算法将用户分成若干个不同的群体。
例如,可以将用户分成观看时长、文章类型、内容类型等不同的簇。
这样一来,可以更好地挖掘用户的兴趣,从而更有效地制定营销策略。
一种基于Web用户访问模式的矩阵聚类算法研究
形成发 现用 户群 的访 问行 为 。对 用户会 话 进行 聚类
以获取感兴趣的信息 , 同时浏览速度也难 以保证 , 如 何有效地分析用户需求 , 帮助用户从 中发现感兴趣 的信息资源 , 已经成为一项迫切而重要 的课题 。为 此 , 根据用 户在浏 览站 点时 的行为进 行分 析 , 可 挖掘
B in,GUO L -h n,HUA AO Ja i u c NG i— o Jn b
( eat etfC m ue Si c & Tcn l y La n g Tcncl n e i ,F x 30 hn ) Dp r n o o p t c ne eh o g , ioi ehi i  ̄t ui 1 0 0C ia m r e o n aUv y n2
一
种 基 于 We 户 访 问模 式 的矩 阵聚 类 算 法研 究 b用
基于兴趣度的Web用户访问模式分析
户 在 不 同 的 时 间 可 能 有 不 同 的 浏 览 模 式 , 其 长 期 趋 势 应 该 但 是 稳 定 的 , 句 话 说 , 是 用 户 的兴 趣 体 现 在 长 期 的访 问 行 为 换 就 中 … 因 此 , 用 户 在 一 定 时 期 内 的 访 问信 息 应 用 数 据 挖 掘 算 。 对 法 , 可 以发 现 站 点 的相 似 客 户 群 体 等 信 息 , 些 信 息 表 明 便 这 了 用 户 群 访 问 We 为 呈现 出 的访 问 规 律 , 是 对 用 户 群 访 b行 它 问 行 为 的一 种 抽 象 , 以看 成 是 知 识 。 可
—
d g e . Cls i a z y C- a l se i g a g r h i a p id t ay eu e c e sp t r s T ee p r n su e a a as t e re a sc lf z me ns u trn l o t m p l a l z s ra c s a e . h x e me t s d t r l t e u c i s e on n i oe d s o we o n n l o t m d ig u e t r s d g e f c i ea d f a i l. h w b l g mi i ga g r h a d n s ri e e t e r ei e e t n e sb e i n s v Ke r s we g u e tr s e r e u e c e sp t r s f z y C- a s cu t r ga ay i ywo d : b l ; s ri e e t g e ; s a c s a e ; u z me n ; l se n n l ss o n d r n i
基于Web挖掘的层次凝聚类算法研究
稿 件 编 号 :0 2 3 7 21011
作 者简 介 : 杨金 花 ( 9 2 )女 , 南安 阳人 , 16 一 , 河 副教 授 。研 究 方 向 : 件 编 程 和 算 法 。 软
-
杨金 花
特 性 。 得 We 使 b上 的 信 息 查 找 比传 统 的 信 息 查 找 表 现 出更 大 的 挑 战 性 。 解 决 从 We b上 查 找 信 息 的 一 个 途 径 掘 技 术 和 We 合 起来 , 行 We 据 挖 掘 【 b结 进 b数 l 1 。
s(c南 ; icJ mi) ,
Ⅱ
厂i——一
其 c ∑脚,= ∑i : Ck 中句 c I\ c : c / j ∑j; l I , c k C  ̄
3 选 取 具 有 最 大 相 似 度 的 2个 聚 类 (l I xs c, ) ) c 。 ma i i 『’ ,) m( c 将 合 并 成 一 个 新 的 聚类 C- j 同 时合 并 C和 c 的 特征 矢 k.uC  ̄ - C , , 量 , 而 要 构 成 了 D 的 一 个 新 的 聚 类 集 合 C { -, , , 从 = C -c …
兴 趣 的 、 含 的 、 未 被 认 识 到 的 有 用 知 识 。 于 We 身 的 隐 尚 由 b本
结 构 化 的 数 据 。 半 结 构 化 是 形 成 了 We b文 本 挖 掘 的 特 色 。
We b上 的 大 量 数 据 是 非 结 构 化 的 、 次 化 的翻, 其 中 层 而
类 算 法 , 于传 统 的 算 法 存 在 的 问题 , 出 了改 进 的 算 法 , 究 了相 似 度 值 对 整 个 算 法过 程 的 影 响 , 计 了 一 个 动 态 对 提 研 设 改 变相 似 度 值 的 计 算 公 式 。 关 键 词 : 据 挖 掘 ; b文本 挖 掘 ;层 次 凝 聚 类 算 法 ; 似 度 值 ;改进 的层 次 凝 聚 类 算 法 数 We 相 中 图 分 类 号 :l 3 】 , l 、 P 文献标识码 : A 文 章 编 号 :17 — 2 6 2 1 )2 o 3 — 3 64 6 3 (0 2 l 一 0 0 0
基于人工鱼群算法的Web用户聚类分析
( 0 1 .4 3 ):2 1 .
Ab ta t T e c lb l o rdt n l  ̄se n ag rtm i o s o gIs a a i o rc sig s ltd ons s lo sr c : h saa i t f t io a i y a i c tr g lo i i h s t t n . c p ct f p o e sn ioae p it i as n r t y
wek t c lFs wa A g rh AF A)i a lo tm o lb lo t zt n bsd o nma b hvo I i ue n a . i i i S r loi m( S Arf a i h m t S n ag rh frgo a pi a o ae n a i l ea ir S sd i i mi i t
Th c u l r s l e i a e ag rt m s e e tv . e a t a e ut v rf t t t l o h i f ci e s y h h i
Ke r s rf i i wam loi m( F A)ue ls r g lg miig y wo d :A t c lFs S r A g rh A S ;src t n ; nn i a i h t ue i o
关键词 : 工鱼群; 人 用户聚类 ; 日志挖掘
D :03 7 ̄i n10 —3 1 0 1 00 4 文章编号 :0 28 3 ( 0 13 .0 20 文献标识码 : 中图分 类号 : P 8 OI1 . 8 .s . 283 . 1. .0 7 s 0 2 3 1 0 .3 12 1 )00 1.3 A T 13
由解决一维静态优化 问题发展到解决多 服务, I e e发展的一个重要趋势。用户聚类将具有相似 外学者的广泛关注, 是 nrt tn 浏览 行为的用 户进行 分组 , We 是 b日志挖掘 中重要工作 之一 , 维动态 组合优 化问题 。人工 鱼群算 法 的主要优 点有 : 鲁棒 性 其主要任务是通过分析 We b日志数据 , 将用户按照一定规则 分割 成不 同的簇 , 同一簇 内的用 户具有较 高的相似性 , 同簇 不
基于大数据分析的网站用户行为模式挖掘与优化
基于大数据分析的网站用户行为模式挖掘与优化在互联网时代,网站用户行为模式挖掘与优化已经成为企业建设和经营的重要组成部分。
借助大数据分析的技术手段,企业可以深入了解用户的行为习惯和需求,从而优化网站的设计、内容和运营,提升用户体验,增加用户黏性和转化率。
首先,大数据分析可以帮助企业挖掘用户的行为模式。
通过分析网站的访问日志、点击流数据等大量数据,可以了解用户在网站上的浏览、搜索和交互行为。
例如,可以分析用户的浏览路径和点击热点,了解用户在网站上的活动轨迹和关注点。
同时,还可以通过聚类分析等技术手段,将用户进行分类,挖掘出不同用户群体的行为模式和特点。
通过深入理解用户行为模式,企业可以有针对性地调整网站的布局、内容和功能,提供更符合用户需求的服务。
其次,大数据分析可以帮助企业优化网站的设计与内容。
通过分析用户的搜索关键词和点击偏好,可以了解用户对哪些内容感兴趣,哪些内容能够吸引他们的注意。
企业可以根据这些数据,调整网站的导航结构、页面设计和内容呈现方式,使得用户更容易找到自己感兴趣的内容。
此外,还可以根据用户的偏好推荐相关的产品或服务,提升用户的购买意愿和满意度。
通过不断优化网站的设计与内容,企业可以吸引更多用户的关注,提高网站的访问量和用户留存率。
第三,大数据分析还可以帮助企业优化网站的运营策略。
通过分析用户的行为数据,企业可以找出用户流失和转化的痛点,针对性地制定运营策略。
例如,可以通过分析用户的离开页面和跳出率,找出网站存在的问题和改进的空间。
同时,还可以结合用户的行为数据进行A/B测试,比较不同策略的效果并做出相应调整。
通过不断优化网站的运营策略,企业可以提升用户的满意度和忠诚度,增加网站的转化率和收益。
此外,大数据分析还可以帮助企业预测用户行为,提前做好准备。
通过对历史数据的分析,可以研究用户的消费习惯和行为模式,在特定时段或活动期间预测用户的需求和行为,从而有针对性地制定营销策略和推广方案。
[数据分析] 基于用户画像的聚类分析
聚类(Clustering),顾名思义就是“物以类聚,人以群分”,其主要思想是按照特定标准把数据集聚合成不同的簇,使同一簇内的数据对象的相似性尽可能大,同时,使不在同一簇内的数据对象的差异性尽可能大。
通俗地说,就是把相似的对象分到同一组。
聚类算法通常不使用训练数据,只要计算对象间的相似度即可应用算法。
这在机器学习领域中被称为无监督学习。
某大型保险企业拥有海量投保客户数据,由于大数据技术与相关人才的紧缺,企业尚未建立统一的数据仓库与运营平台,积累多年的数据无法发挥应有的价值。
企业期望搭建用户画像,对客户进行群体分析与个性化运营,以此激活老客户,挖掘百亿续费市场。
众安科技数据团队对该企业数据进行建模,输出用户画像并搭建智能营销平台。
再基于用户画像数据进行客户分群研究,制订个性化运营策略。
本文重点介绍聚类算法的实践。
对用户画像与个性化运营感兴趣的亲们,请参阅本公众号其他文章。
Step 1 数据预处理任何大数据项目中,前期数据准备都是一项繁琐无趣却又十分重要的工作。
首先,对数据进行标准化处理,处理异常值,补全缺失值,为了顺利应用聚类算法,还需要使用户画像中的所有标签以数值形式体现。
其次要对数值指标进行量纲缩放,使各指标具有相同的数量级,否则会使聚类结果产生偏差。
接下来要提取特征,即把最初的特征集降维,从中选择有效特征放进聚类算法里跑。
众安科技为该保险公司定制的用户画像中,存在超过200个标签,为不同的运营场景提供了丰富的多维度数据支持。
但这么多标签存在相关特征,假如存在两个高度相关的特征,相当于将同一个特征的权重放大两倍,会影响聚类结果。
我们可以通过关联规则分析(Association Rules)发现并排除高度相关的特征,也可以通过主成分分析(Principal Components Analysis,简称PCA)进行降维。
这里不详细展开,有兴趣的读者可以自行了解。
Step 2 确定聚类个数层次聚类是十分常用的聚类算法,是根据每两个对象之间的距离,将距离最近的对象两两合并,合并后产生的新对象再进行两两合并,以此类推,直到所有对象合为一类。
基于Web的数据挖掘技术研究及其应用
【 关键 ̄ ] we b ; 数据挖掘 ; q ' - g 息服务 ; 常用技 术
依此类推 通过分析和学习 电子商务识别该数据可能会延长树模型的 基础 上 .用户标 识才能浏览 .所以 。根据用户访问的 we b日志挖掘 We b日志挖掘用户兴趣 的关联规则 .多个用户访 问网页速度 加快 . 存 储相关 的知识 . 以此为基础预测用 户的行为 。 1 . 2 . 3 We b结构挖掘 We b空间的 网络结构包括一个 We b网页的结 构之间的互 相联系 的整体 . 可以用在 H T M L . X M L 或 图形 的树结构来表示 , 并 在 目录结构 1 . 定 义 与 分 类 中的文件如 U R L 等结构来表示 We b 结构 挖掘 的 目的是要找到网页 1 . 1 We b数据挖掘概述 在这个分类和聚类的基础上 . 找到权威 的页面 , 这 数据挖掘就是从大量的 、 不完 全而又随机的实际应用数据信息 中 之间的结构 和结构 b 数据挖掘的速度 发现潜在而又有规律性的 、 人们事先并不 知道但又是存在潜在价值知 种方法可 以提高搜索引擎 We 2 . We b数 据 挖 掘 技 术 的 常 用技 术 识 的探索过程 。 We b 数据挖掘最初 就是数据挖掘 。 一般情 况下指 的是 将数据挖掘技术应用到 We b上 。 具体定义为 : We b数据挖 掘通 常简称 用 于该领域数据挖掘技术主要有分类 聚类技术 . 关联规则序列模 为 We b 挖 掘 .它是一项 涉及 多个领域 的综合 技术 .其 内容包 括有 式技术 和 We b 技术的路径分析技术 。 We b 、 数据挖掘 、 信 息学、 计算机语言学等 。 We b 挖掘的理论性定义 : 指 2 . 1 数据分类聚类 的数据挖掘技术 数据分类技术可以通过挖掘数据 中的某些共 同特性从而对数据项 从大量 We b 文档结构和使用 的集合 s中发 现隐含的 、 未知 的、 有潜在 应用价值 的模式 如果将 s 看作输入 . P 看作输 出。 那么 We b 挖掘 的过 进行分类 在 We b 数据挖掘中. 分类技术可 以捕获 W e b 访问用户 的个 程就是从输入到输 出的一个映射 : S —P 。 人信 息或通过公共访 问方式来访 问服务器上的文件从而了解用户 的特 We b 挖掘 的实质就是从 We b文档 以及 We b 活动 中寻找 出 出用 点。常用 的数据分类方法有 : 决策类 , 贝叶斯分类 , 贝叶斯网络 , 神经网 基于案例 的推理。 遗传算法, 粗糙集 , 模糊集方法。群集是一组物理的 户有用 的、 有潜在价值模型的隐藏信息。We b 挖掘在很多地方都可 以 络. 发挥作用 . 比如对搜索引擎的结构进行挖 掘 、 对权威页面进行鉴定 、 对 或抽象的 对象组成的多个对象的类似的的过程 聚类分析技术可用于在 We b 文档 归纳 分类 、 挖掘 We b日志 、 智 能查 询 、 建 立 We b 元数 据仓 网络上的文件进行分类 . 归纳总结 已发现的信息。 作为一个独立的工具 来获得数据分布 的情况. 可以使用聚类分析 , 观察每个群集 的特陛。 重点 库、 分析远程教育过程 的信息等方面。 1 . 2 We b挖掘数据分类 在一些簇 E 作进一步的分析 。常用 的聚类算法可以大致分为几类 : 划分 层次方法 , 基于密度的方法 , 基于网格的方法和基于模型的方法。 We b 上的信息资源主要可 以分 为三大类 :一是 We b网页上 的内 方法。 容. 包括各种文本信 息以及各类媒体信息及各种图片 : 二是 We b 服务器 2 - 2 关联规则挖掘技术 上的用户群体登陆访 问网站的 日 志数据以 及记录: 三是 We b 网页中存在 关联规则挖掘技 术主要用于从用 户访 问序列数据库 的序 列项 中 的超链接方式之间相互引用的数据 据此可以将这三类不 同的信息 We b 挖掘出的相关规则 。 在 We b 挖掘 , 关联规则挖掘是挖掘 出用户 的访问 数据挖掘分 为 We b内容挖掘、 We b日 志数据挖掘与 W e b 结构挖掘 。 会话期间从服务 器访 问这些页 面之 间的链接的页面或文 件之间可能 不存在直接引用关 系。最常用 的算法是 A p r i o r 算法 , 挖掘 出最大频繁 1 . 2 . 1 We b内容挖掘 从 We b 上的文件 内容及其描述 的信 息资源 中获取潜在 的、有价 项 目集参观这个 集挖掘关联规则 的事务数据库用户访 问模式 。 值 的知识 及模式的过程 . 即是 We b内容挖掘 . 在这一过程 中也 可以对 2 - 3时间序列模式挖掘技术 We b组织结构和链 接关 系进行挖 掘. 通过人为 的链接结构并分析 整理 时间序列模式数 据挖掘是挖掘 出交易集之间 的时 间序列模 型 。 从而获取有价值 的知识 。We b内容挖掘 的主要组成部分有两种 . 即页 We b服务器 中的 日志 中. 用户的访 问作为一个单元在一段时间 内。得 这些序列反映用户 面 的分类和 聚类 根据不 同页面 的不同特征 . 将其划分为事先建 立起 到交易确认的净 化和事件数据后 中断 的时间序列 . 来 的不同的类称为 We b 页 面的分类 。文本 、 图像 、 音频 、 视频 、 元 数据 行为有助于帮助企业证 明其产 品在生命周期阶段 等形式 的数据是 We b 上 的基 本信 息内容 .根据形式 的不 同可 以把这 2 . 4路 径 分 析技 术 些信息 内容简单地分为 We b 文本信息 和 We b 多媒体信 息 根 据需要 路径分析技术对 We b 数据进行挖掘时。 最常用 的是图。因为 We b 可 处理 的 We b 信 息对象 . We b 内容挖掘 又可分为两 个部分 .即是 We b 以用来表示—个有向图 G = ( v 。 E ) , V是网页的集合 , E是集的页面之 间的 文本挖掘和 We b多媒 体挖掘 超链接。页面抽象为图中的顶点 , 而页面之间的超链接抽象为图中的有 1 . 2 . 2 We b 日志 数 据 挖 掘 向边 顶点 v的人边表示对 v的引用 . 出边表示 v引用了其它的页面。 从用户存取模 式 中获取有价值 的信息 .对 We b上 日志数据 及相 3 . We b数 据挖 掘 技 术 主 要 应 用 关数据 的挖掘来发现用户访问 We b页面的模式 即是 We b日志的数据 3 . 1在电子商务 中的应用 挖掘 . 又称为 We b使用挖 掘。We b挖掘其他两个挖掘的对象是网上的 电子商务与 We b数据挖掘技术在电子商务 中的 We b 数据挖掘可 原始数据 . we b日志 挖 掘是 用 户 和 网 络之 间 的互 动 过 程 .是 从 二 手 数 以开发产品的营销策略 . 企业 可以通过优化可用 的商 品促销活动 和销 据 的摘录 , 代 理 日志 , 浏览器访 问 We b服务器 的访问 日志 , 记 录用户 售进行挖掘 . 获得客户访 问规则 来确定生命周期 的消费支出 , 根据市 的个人档案 . 登记信息 . 用户的需求登信息 中寻找有用 的信 息资源 . 并 场变化 , 对 于不 同的产品制定相应 的营销 策略。可以 ( 下转第 3 4页)
基于数据挖掘和聚类分析的协同过滤推荐算法
基于数据挖掘和聚类分析的协同过滤推荐算法
何岫钰
【期刊名称】《电子设计工程》
【年(卷),期】2024(32)9
【摘要】为了提高推荐系统的可扩展性和用户满意度,设计基于数据挖掘和聚类分析的协同过滤推荐算法。
基于双向关联规则原理,构建标签资源矩阵,利用K-means 聚类算法对标签进行聚类。
结合用户偏好标签,算法能计算标签与资源的紧密程度,实现基本推荐。
通过标签计算用户与资源的兴趣度,实现个性化推荐。
将基本推荐和个性化推荐线性组合,得出最终结果。
实验表明,该算法不仅能保持数据集的平衡状态,准确性也高。
通过聚类捕捉更复杂的用户兴趣模式,显著提高了推荐结果的命中率和NDCG值,为用户提供更符合个性化需求的资源。
【总页数】4页(P47-50)
【作者】何岫钰
【作者单位】北京语言大学商学院
【正文语种】中文
【中图分类】TN39
【相关文献】
1.基于web数据挖掘的协同过滤推荐算法
2.应用聚类分析的协同过滤推荐算法
3.数据稀疏背景下基于协同过滤的推荐算法综述
4.基于隐式数据的改进LFM-SGD 协同过滤推荐算法
5.基于LDA主题模型的协同过滤推荐算法
因版权原因,仅展示原文概要,查看原文内容请购买。
聚类分析在Web数据挖掘中的应用研究
随着计算机技术 、 数据库技术 、 网络技术 的飞速发展 , 各种信息知 识可 以在 网络上获得 网络在给人们带来便 利的同时也带来 了不 少弊 端. 造成 了知识 的“ 污染 ” . 面临信息的海洋 , 呼唤一种从数据海洋 中去 粗 取精 、 去伪存真 的技术来准确 、 快速地 获取有用 的 、 隐含的信息 , 在 这种形势下 . We b 数据挖掘技术应运而生 。 近年来 .时空数据挖 掘已受 到国际学术界和工业界 的广泛关 注 , 时空信息的认知和数据模型的研究进 展是时空数据挖掘研究 的基 础 , 时空数据挖掘 的理论研 究主要受到 空间数据挖掘 和时态数据挖 掘研 3 应用聚类算 法在 We b数据挖掘中 究的影响 . 并以经典的数据挖掘理论 为基础 . 挖 掘时空知识或规则 。 we b 挖掘起源于数 据挖 掘. 数 据挖掘是从大量的繁杂的数据中提 取 出用户感兴趣 的知识, 而这些知识 的隐含的 、 实现未知的 、 潜 在的有 1 聚 类 分 析 技 术 相关 概 述 用信息 如某个 网站可 以从用户浏览的大多数网页中统计 出用户喜爱 1 . 1 基 本 概 念 的 网页 信息 : 教师从某 一门课程 的课堂 到课率和课程成 绩 中, 分 析学 聚类分析又称“ 群分析” . 它 是研 究 分类 问题 的一 种 统 计 分 析 方 法 , 生对这 门课程的喜爱程度 . 以便及 时更新 授课 手法 、 更 新课程 内容或 它起源于分类学 它伴 随着 人类社会的产生和发展而不 断深化 , 人类 更换教材等等 聚类与分类不 同, 在分类模型 中’ 存在样本数据, 这些数 要认 识世界就必须区分不同的事物并认识事 物间的相似性 数据挖掘 据的类标号是 已知 的。 分类 的 目的是从训 练样本集中提取出分类的规 的重要任 务之一就是 发现大量数据 中的积 聚现 象.并加 以定量化 描 则用 于对其它类标 号未知 的对象进行类标识 在聚类中, 预先不知道 述。 目标数据 的有关类 的信息。 需要 以某 种度 量为标 准将所有的数据对象 1 . 2 聚类分析算法的发展 划分到各个簇 中。 聚类分析的应用相当广泛 。 在商务上, 聚类能帮助市 在古老的分类学 中. 人们主要依 靠经验 和专业 知识来实 现分类彳 艮 场分析人员从消 费者信 息库 中发现不同的消费群体。 并且用购买模式 少利用数学工具进行定量 的分 类 随着人类科学技术 的发展 , 对分类 来刻画不 同的消费群体 的特征 在 生物学 上。 聚类可以被用来辅助研 的要求越来越高. 以致有时仅凭经验和专业 知识难 以确切地进行 分类, 究动植物 的分类. 可以用来分 析具有相似功能的基因, 还可以用来发现 于是人们逐渐地把数学工具引用到了分类 学中. 形成 了数值 分类 学, 之 人群中的一些潜在的结 构 :还可以用来分类 wWw 不同类型的文档, 后又将多元分析的技术引人到数值分类学形 成了聚类分析 。 聚类分析 或分析 We b日志以发现特殊 的访问模式等 内容非 常丰富。 有 系统聚类法 、 有序样品聚类法 、 动态 聚类 法 、 模 糊聚 各种聚类 算法相继提出. 每种新算法各种聚类算法相继提 出. 每种 类法 、 图论聚类法 、 聚类预报法等。 聚类就是按照某个特定标准把一个 新算法都声称至少 比前一种算 法优 越 这使得各种算法之间的 比较越 数据集分割成不 同的类 或簇 . 使得同一个簇 内的数据对象 的相 似性尽 来越 困难 。目 前, 有众 多的聚类算法, 而对于具体应用, 聚类算法 的选择 可能大, 同时不在 同一 个簇 中的数据对象的差异性也尽 可能地 大 即 取决于数据的类型 、 聚类 的 目的。如果聚类分析被用作 描述或探查的 聚类后同一类 的数据尽 可能聚集到一起。 不 同数据尽量分离 。聚类是 工具, 可 以对 同样 的数据尝试多种算法 。 以发现数据可能揭示 的结 果 项重要 的数据分析技 术,它已经广泛应用于数据挖 掘的各个领域。 没有任何一种聚类技术 f 聚类算法) 可以普遍适用 于揭示各种多维数据 作为统计学的一个分支。 聚类 分析已经被广泛地研究 了若干 年 现在数 集所呈现 出来的多种 多样的结 构 按照数据在聚类 中的积聚规则以及 据聚类分析已经成为一个非常活跃的研究课题 应用这些规则的方法.聚类分析 的算法大致可 以分为五大类:划分法 ( P a r t i t i o n i n g Me t h o d s ) 、 层次 法( Hi e r a r c h i c a l Me t h o d s ) 、 基于密 度的方 法 2 We b数 据 挖 掘
一种支持个性化Web推荐的聚类分析
户群 体普 遍 的访 问行 为模 式 和 用 户 个 体 的 访 问 模
1 引 言
个 性 化 推荐 技术 通过 研究 不 同用 户 的兴 趣 , 对
用 户基 本 特征 的分 析 和历 史 记录 的挖 掘 , 主动为 用 户 推荐 最需 要 的资 源 , 从而 更好 地解 决互 联 网信息
第2 9卷第 1期
2010年 3月
计 算
技
术
与 自 动
化
Vo . 9。 . I 2 No 1
M a. 20 1 0 r
Co u ig Te h o o y a d Au o t n mp t c n l g n t ma i n o
文 章 编 号 :0 3 6 9 (0 0 0 -0 3 -0 10 - 1 9 2 1 )1 1 0 4
式, 从而 根 据 这 种 模 式 为用 户 定 制 合 适 的推 荐 页
面 [ 。如 KI S [ 等 提 出以 We 2 ] TT B3 3 b服务 器 日志 中 每个 网页的请 求 为 处 理 单元 , 整 体 的 角度 出发 , 从 分 析评价 网 站资源 的 方法 。这 种方 法强 调共 性 , 但
( . c o l fC mp t ra d Co 1 S h o o o u e n mmu ia in,Hu a i e st nc t o n n Un v r i y,Ch n s a 4 0 8 ,Ch n ; ag h 1 0 2 ia 2 De a t n fC mp t r . p rme t o o u e ,Xin n n Unv r iy a g a i e st ,Ch n h u 4 3 0 e z o 2 0 0,Ch n ) ia
基于访问兴趣的Web用户聚类方法
smia n ee t nd f cl ae r c m m e d to n e s n ls r ie A e cu trn t o a e n i lri tr ssa a ii t e o t n ain a d p r o a e vc . n w l se i g me d b s d o h W e u e s i tr ss e r s ie y n l z s s r ’ b h v o s p riin t e ntr si g m arx w i b s r ’ n e e t r g e sv l a ay e u e s e a i r, att s h i e e tn ti t a o h
够为用户推荐可 能感 兴趣 的页面以提供个性化服务 ;
能够发现潜在 的访客群体 ,为不同访客群体做 出准确 的市场定位。因此 ,一种将传统数据挖掘应用于 We b领域 的技术—We 源自挖掘应运而生。由于 We b的信息
普遍 具有无结构化 、缺 乏完整性 约束和分 布松散等特 点, 直接对 We b信息进行挖掘具有相当的难度。 b We 日志具 有完美 的结构 ,其包含 的可 以揭示 用户浏览行
本文考 虑了以上 We b用户浏览行为的特点 , 引入 了多元线性 回归模 型来描述 用户兴趣与页 面浏览行为
的关系从而量化用户对 网页 的兴趣 ,在此基础上直接
对相似矩阵进行 截 聚类 ,最后通过计算项 与类的连 接强度来求精从而得到最终 的聚 类结果 。最后通过实 验对算法的准确性和性能进行 了验证。
sr n t te g h
We b的方方面面正在 飞速地发展着。 早期的 We b
主要应 用于信息共享 , 当今 We 而 b的应用已经向电子
Web日志挖掘中的用户聚类与URL聚类
【 要】 摘 :We b挖掘是 目前 国内外数据挖 掘研究方 向的热 点, 据其挖掘 出潜在而有 用的信 息将对 网站 管理 者和商家 根 起 到 很 大 的 指 导 作 用 。 应 用 d lh 它 epi 7开发 程 序 We l dg 实现 了 w b 日志 挖 掘 中的 用 户 聚 类 和 ul 类 , 设 计 和 构 建 智 bo i g P, e r聚 为
网络 上 的销 售 是 一 场 没 有 硝 烟 的 战 争 。 争非 常激 烈 。 于 竞 对
规 律 We b使 用 记 录数 据 除 了服 务 器 的 1志 记 录 外 还 包 括 代 理 商 家 和 网 站 管 理 者 来 说 。 何 留住 旧 的 访 问 用 户 , 引 新 用 户 。 3 如 吸 服 务 器 1志 、 览 器 端 1志 、 册 信 息 、 户 会 话 信 息 、 易 信 则 是 一 个 关 键 . 接 决 定着 网上 商 战 的成 败 。 么 如何 做 到这 一 3 浏 3 注 用 交 直 那 息 、 oke中 的信 息 、 户 查 询 、 C oi 用 鼠标 点 击 流 等 一 切 用 户 与 站 点 点 呢 ? 常 用 的方 法 是 : 开发 具 有 个 性 化 的 用 户 界 面 。 之 间 可 能 的交 互 记 录 。可见 We b使 用 记 录的 数 据 量 是 非 常 巨大 3 算 法设 计 与 实 现 . 的 , 且 数 据类 型也 相 当 丰 富 。根 据对 数据 源 的 不 同 处 理 方 法 。 而 这 里 提 出 的解 决思 路是 : 用 WE 利 B服 务 器 g 录 。 纪 对访 We b用 法 挖 掘 可 以分 为 两 类 . 类 是 将 We 一 b使 用 记 录 的数 据 转 问用 户 和 U L进 行 聚 类 。 成 模 式 库 。 用 户 进 行 访 问 时 。 R 生 在 首先 换并 传 递 进传 统 的 关 系 表 里 .再 使 用 数 据 挖 掘 算 法 对 关 系 表 中 对 用 户 进 行 辨 别 , 果 在 模 式 库 中找 不 倒 用 户 记 录 。 如 则认 为 是 初 的数 据进 行 常 规 挖 掘 : 一 类 是 将 Ⅳe 另 b使 用 记 录 的 数 据 直 接 预 次 访 问 。 即调 用 默 认 页 面 ; 能 找 到 。 根 据 相 同类 中 用 户 的访 若 则
网络用户兴趣的智能挖掘方法研究
( 西安邮电大学, 陕西 西安 7 1 0 0 6 1 )
摘 要: 目前 网络 上 的重 要应 用都是 围绕 对用户 兴趣 的研究 和 发 现而 展 开和 完 善 的 , 主要 的方 式 是借 助 于 对用 户 的 We b
访问数 据进 行相关 挖掘 。该研究 主要 是通 过建 立一个 从底 层数据 获取 到上层 数据 处 理 的原 型系 统 , 对 真 实捕 获 的 网络数 据利用 小世 界 网络模 型提取 中文文 档关 键字后 处理 为用户 兴趣 , 再将用 户 的访 问兴趣 通过 隐 马尔 可夫 模 型抽 象成 一 种 时 间序 列 , 依 次反 映用户兴 趣 的序列性 , 从 而利用 G S P算法 得到 用户 的兴趣并 供后 续处 理。实 验证 明 , 该 原 型系 统从 数 据获
取到 最终处 理 , 可 以得 到 比较 满意 的结果 。 关键 词 : 兴趣 挖掘 ; 文本 聚类 ; 智 能算 法 中 图分类号 : T P 3 0 1 文献标 识码 : A 文 章编号 : 1 6 7 3 — 6 2 9 X ( 2 0 1 4 ) 0 2 - 0 0 7 6 — 0 3
q u i s i t i o n O t he t u p p e r d a t a p r o c e s s i n g, f o r a n a c t u a l n e t wo r k d a a t c a p t u ed r a p p l y he t s ma l l wo r l d n e t wo r k mo d e l O t e x t r a c t k e y wo r d a s u s e r i n t e es r t s , wh i c h re a e x ra t c t e d a k i n d o f i t me s e i r e s b y h i d d e n Ma r k o v mo d e l , wh i c h wa s u s e d O t r e f l e c t he t s e q u e n t i a l f e a t u es r o f t h e u s e r
Web用户聚类研究
由用户 在每 个页 面 的 访 问 时 间构 成 的一 个 集合 . 在 用户 的每 次访 问 中, 由用 户 访 问 操作 得 到 的 一 个 页 面序列 称为一 个 事务. 定 义 2 用 户兴趣 度 :
∑T j
I 一 ‘ o 三
I= l r l —
.
() 1
() 2 相关联 的页 面 会 被 具 有相 似 兴 趣 度 的用
户浏 览.
() 3 在一个 特定 时 间 内, 户 的访 问模式 不会 用
有太 大改 变.
基于 以上假 设 , 我们 可 以从 w e b日志 中分 析 用户 在特定 时间的访 问信 息来 对用 户进 行 聚类 . 定义 1 设 一个 三 元 组 ( P, , 中 C一 C, T) 其 ( C … . C ) m是 用 户 的个 数 )表 示 由 we C ,2 ,m( b 用 户 构成 的一个集 合 . P一 { P … . P ) 是 P ,2 , ( 网页 的个数 ) 示 由用户 访 问 页 面构 成 的一 个 集 表
合. T一 ( l 丁 … . ) 是 网 页 的个 数 ) 示 T,2 , ( 表
相 似性 , 不 同 簇 中 的 用 户 差 别 较 大 . 过 对 而 通 We b用户 的聚类 , 以得 到群 体用 户 访 问 的行 为 可 和 方式 , 以改进 We b服务 , 供 个 性 化 电子 商 务 提 服 务.we b日志挖 掘 的突 出特点是 处理 海量 增 长 的数据集 . 这就 要 求 聚类 算 法 能 高 效 的从 海 量 数 据集 中挖 掘相似 用 户 群 . 文 提 出 了一 种 新 的 聚 本 类 方法 , 聚类前对 海 量数据 进行 约简 处理 , 而减 从 小 数据规 模 , 高运 行 的效 率. 基本 思 想是在 聚 提 其 类前 将 We b日志 中用户 的访 问路径 进行 预 处 理 , 利 用用户 兴趣度 作 为权值 来对用 户 的访 问路径 进 行 约简 , 合 Z d h教 授提 出的模糊 集 理论 [ , 结 ae 1 建 ] 立 用户相 似度矩 阵 , 并利 用编 网法进 行直 接聚 类. 在 该算法 中, 聚类前 的约 简减小 了数 据量 , 提高 了
基于大数据分析的用户兴趣模型构建与推荐系统设计
基于大数据分析的用户兴趣模型构建与推荐系统设计随着互联网和移动设备的普及,产生大量的用户行为数据,如搜索记录、购物行为、社交媒体互动等。
这些海量数据为企业和平台提供了宝贵的机会,通过分析数据来构建用户兴趣模型,并设计相应的推荐系统,以提供更加个性化和精准的用户体验。
一、用户兴趣模型构建1. 数据采集与清洗为了构建用户兴趣模型,首先需要采集用户的行为数据。
可以通过各种方式,如用户登录记录、浏览记录、点击记录等获取用户的行为数据。
同时,收集用户的个人信息也非常重要,如性别、年龄、地理位置等,这些信息有助于进一步的个性化推荐。
在采集数据之后,需要对数据进行清洗,包括去除重复数据、处理缺失值等,确保数据的质量和准确性。
2. 数据分析与挖掘通过大数据分析技术,可以对用户行为数据进行深入挖掘,发现用户的兴趣和偏好。
常用的技术包括聚类分析、关联规则挖掘、文本挖掘等。
聚类分析可以将用户根据行为特征进行划分,发现相似群体的兴趣特点;关联规则挖掘可以发现用户行为之间的关联关系,如购买商品的关联规则等;文本挖掘可以通过分析用户的评论、社交媒体互动等文字信息,了解用户的情感和倾向。
3. 兴趣模型建立基于用户行为数据的分析结果,可以构建用户兴趣模型。
用户兴趣模型是描述用户兴趣的数学模型,可以用来表示用户在某个领域的兴趣程度。
常用的模型包括基于标签的兴趣模型、基于内容的兴趣模型和基于协同过滤的兴趣模型等。
基于标签的兴趣模型将用户兴趣表示为一组标签,通过用户对不同标签的关注程度来描述兴趣;基于内容的兴趣模型通过分析用户行为数据中的内容信息,挖掘用户的兴趣关键词;基于协同过滤的兴趣模型根据用户-物品关联矩阵,通过用户之间的相似度来推断用户的兴趣。
二、推荐系统设计1. 用户画像构建用户画像是对用户全面了解的总结和展示,通过用户兴趣模型的分析结果以及用户的个人信息,可以建立用户画像。
用户画像包括用户的基本信息、兴趣偏好、行为习惯等,可以用来描述用户的特征和需求。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于Web用户兴趣的聚类模型挖掘与分析1陈健荣1,吕雪蕊21 中山大学信息科学与技术学院,广东广州(510275)2 广东省潮州市龙湖医院,广东潮州(521000)E-mail:jrcken@摘要:用户兴趣的评估因素有多方面,无论单独从哪个方面都无法得到完整的模型。
本文综合考虑了三个核心因素,首先对用户浏览过的页面进行内容分析,并根据主题信息对页面进行聚类;在聚类的过程中除了考虑页面内容的相近程度外还辅以页面路径进行归类判断。
在最后得到页面的兴趣簇时将用户的浏览行为对其兴趣的作用列入其中,从而得到综合的评估模型。
实践表明此种方式能更准确的反映用户的真实兴趣。
关键词:聚类模型,用户兴趣,Web数据挖掘,知识发现中图分类号:TP311 文献标识码:A1引言随着因特网越发深入人们的生活,准确的挖掘用户兴趣将变得非常有意义,它可以使得人们在浩瀚的网络中迅速的找到志同道合者进行交流,从而促进知识的传递。
对用户兴趣特征的刻画有加权矢量、类型层次结构、加权语义网、书签和目录结构等模型[1],而根据用户是否参加可分为显示与隐式两种。
由于显示挖掘需要用户主动参与,这很大程度上降低了可用性,并同时带来系统噪音,为了保证挖掘结果的准确性以及提高用户接受度,一般采用隐式数据挖掘。
目前对用户兴趣的挖掘方式有多种,其中有基于浏览内容和行为相结合的方式,如文献[2],也有单纯从用户行为的历史信息寻找隐藏规律的。
用户会话作为用户行为信息的基本单位,对其聚类是从行为历史中发现用户兴趣的基础工作,因而它自然而然成为重要的分析对象。
而对用户会话分析主要采用的是相似性测量方法,基于相同浏览权值的相似性测量方法主要包括文献[3-6]所提出的4种,即Usage-based,Frequency-based,Viewing-Time-based以及Visiting-Order-based。
其中VTB用的最广泛,同时这些方法均假设页面是不相关的而只比较不同会话在相同页面的浏览权值,不考虑页面之间的相似性。
事实上,文献[7]中提到,即使不考虑页面的内容,单纯考虑页面的路径也可以发现不同的页面之间存在相似性。
本文并不单纯从一个方面来分析用户的兴趣,而是综合多种方式、从多角度来建立用户的兴趣模型。
首先将用户所访问的页面进行内容挖掘从而得到用矢量方法表示的页面兴趣,在此基础上结合页面URL相似性对页面距离的贡献对页面进行聚类;接着,根据聚类结果考虑用户作用在页面上的行为提取出突出特征从而形成用户兴趣。
2用户兴趣挖掘方式2.1兴趣界定在分析用户兴趣之前,我们首先对用户兴趣进行界定,即用户由什么组成、影响因素有哪些。
一般地,用户对Web文档的访问是有目的的行为,这种行为的动机可以分为稳定兴趣和偶然兴趣。
稳定兴趣是指一个人具有持久的兴趣倾向,偶然兴趣是指一个人由于临时需要或其他原因对某事物产生的偶然兴趣,每个人的偶然兴趣可以认为是随机变化的。
但在日志陈健荣(1983-),男,硕士研究生,主要研究方向为数据库与知识库,工作流平台。
中用户的兴趣具有集中性,这说明用户由稳定兴趣驱动访问Web 的频率远远高于偶然兴趣的驱动,因此一定时间段的Web 访问日志中一定蕴含了用户的稳定兴趣。
可以这么认为,用户的兴趣由其浏览过的大量页面的兴趣综合而成。
其中“页面兴趣”定义如下:设有页面共有N 个主题,所有主题都用数字权值来表示其突出程度,越突出的主题其权值越大,其中第i 个主题的权值用i C 来表示。
设所有主题的权值之和为m ,权值Ci 按从大到小排列,即12i C C C ≥≥L ,若0()/80%k i i C m =≥∑,那么主题1~k 为突出主题,我们称这前k 个主题为该页面的兴趣。
我们可根据同样的原理来表示用户的兴趣,文献[8]便是采用此种方式。
2.2 兴趣挖掘流程Web 挖掘过程一般包括相关网页采集、文本预处理、文本模型表示、信息或文本特征性抽取、文本分类(聚类)或结果集的数据挖掘等步骤以得到结果从而极大程度的方便用户有效地浏览和获取信息[9]。
本文提出的用户兴趣挖掘中最核心的步骤是对页面兴趣的挖掘,其大致过程如下:首先捕获用户访问的URL 并对URL 进行预处理,主要是去除视频、音频以及无效链接,然后根据“干净”的URL 提取对应的页面文本,接着对文本中的关键主题进行分析得到页面的兴趣。
其流程图如图1所示:图1 页面兴趣挖掘流程用户的兴趣在页面兴趣挖掘的基础上综合其他信息进行分析,其中主要考虑了页面路径的相似性、用户在页面上的浏览时间以及点击次数,我们用图2的流程来表示:图2 用户兴趣挖掘流程3 用户兴趣模型分析3.1 Web 内容挖掘(一) 页面主题表示研究页面的主题表示方式目的在于能用形式化的方式来表示页面兴趣,进而计算页面间的距离并最终为挖掘用户兴趣服务。
但是Web 页面不像关系数据库那样具有严格的数据结构,同时具有数值的表示和计算能力。
Web 页面多半是半结构化甚至是无结构的文本,要对它进行计算首先必须将它的特征进行结构化并赋予数字表示的中间形式,目前比较流行的是矢量空间法。
在矢量空间法中,Web 页面被表示成由词组成的矢量,即形如L <技术,财经,,人文>的格式,但在做这个转化之前必须将Web 文本进行分词。
分词并非本文讨论的重点,我们暂且不做分析。
为了从文本矢量中体现出页面的主题并可进行计算,我们必须根据关键字的重要程度赋予数字的表示形式,因而最终的矢量形式实际是<技术(10),财经(8),…,人文(1)>,在矢量表示时我们按其权值从大到小进行排列。
在得到了特征向量的特征项之后,一般要运用词频统计方法来计算特征项的权重。
在计算权重上被广泛应用的公式是IF-IDF 公式[10]:()()log(/)i i i W d tf d N n =× (1) 其中:()i tf d i tf 为词条i t ,在文档d 中的出现频率;N 为所有文档的数目,i n 为含有词条i t 的文档数目。
在计算得每个页面的矢量之后,我们往往并不保留所有的关键字,因为这样一个页面的矢量可能是冗长的,并且很多关键字出现的次数是很小的,他们对页面兴趣的影响可以忽略,因此在实际操作中我们一般保留权值和为80%的前N 个关键字来表示页面的兴趣,也即在“2.1兴趣界定”所提到的方法。
在获得某用户浏览过的大量页面矢量表示后,我们便可在此基础上通过再进一步的分析来得到此用户的兴趣,这个方法可大致表示如下(其中W i 表示对页面赋予的另一权值,它主要与用户对此页面的浏览行为相关):12n W W W >×>×⇒×⎧⎫⎪⎪⎪⎪⎨⎬⎪⎪⎪⎪⎩⎭L L L M L <体育(10),文学(7),,财经(3)<技术(15),历史(12),,人文(5)<技术(18),财经(12),,人文(10)><政治(13),生活(10),,校园(6)> (2) (二) 页面相似度评价在分析了页面的矢量表示方式之后我们开始研究页面之间的相似度,也称为页面距离。
计算页面之间距离的目的在于对页面继续聚类,因为聚类分析是基于相似性的。
下面我们介绍常用的两种相似性度量函数,它们分别是夹角余弦法和欧几里德距离:1) 夹角余弦法()(,)cos(,)nxk yk W W Sim X Y X Y ×==∑ (3) 其中X 、Y 表示两个页面的矢量,Sim (X ,Y )表示X 向量和Y 向量之间的夹角余弦,Wxk表示X 页面的第K 各分量的权值,Wyk 表示Y 页面的第K 各分量的权值。
2) 欧几里德距离(,)(,)Sim X Y d X Y == (4) 其中d (X ,Y )表示X 、Y 向量之间的欧几里德距离,W xk 以及W yk 的意义同公式(3)一致。
以上两个公式的计算都是针对长度相同并且关键字一一对应的向量,但在实际情况中页面的主题数往往是不一样的,项与项之间也不对应,例如页面X 的兴趣是<体育(5)>,而Y 页面的兴趣是<音乐(6),计算机(4)>,我们不能简单的认为Wx1为5,Wy1为6,Wy2为4,因为“体育”与“音乐”之间不具可比性,而“计算机”又找不到对应项。
这种情况我们必须对矢量进行扩展,其规则是:移项对齐、补全空缺项。
例子中X 页面的矢量扩展后变成<体育(5),补全(0),补全(0)>,Y 页面矢量扩展后变成<补全(0),音乐(6),计算机(4)>,扩展便可以利用公式(3)、(4)进行距离计算了。
(三) 兴趣聚类聚类就是将一组对象集合按照相似性归成若干类别,其目的是使属于同一类别的对象之间相似度最大,而不同类别的对象间的相似度最小,是一种典型的无监督的机器学习问题。
聚类分析的算法主要有[11]平面划分方法(Partitioning method)、层次聚类方法(hierarchical method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)和基于模型的方法(model-based method)。
层次聚类方法就是对给定的数据对象集合进行层次分解,他可分为凝聚的和分裂的。
凝聚的方法就是一开始将每个对象作为单独的一个组,然后相继合并相近的对象和组,直到所有的组合并为一个,或者达到一个终止条件为止。
而与之相反,分裂的方法一开始将所有对象置于一个簇中,在迭代的每一步中,一个簇分裂为更小的簇,直到最终每个对象在单独的一个簇中,或者达到了某个终止条件。
下面给出一个面向Web 文本的凝聚的层次聚类法的具体描述[12],在描述算法之前我们首先对“聚类中心”进行定义,因为它在层次聚类法中是一个核心的概念和步骤。
定义一组Web 页面的矢量为Sp ,则聚类中心Z 表示如下:1||p P p S Z P S ∈=∑ (5)则对于给定的文档集合D={D1,D2,…,Dn),凝聚的具体过程如下:1) 将D 中的每个文档看作是一个具有单个成员的簇:C i ={D i },这些簇构成了D 的一个聚类C ={D 1,D 2,…,D n )。
2) 计算C 中每对簇(C i ,C j )之间的相似度Sim(C i ,C j )。
3) 选取具有最大相似度的簇max Sim(C i ,C j ),并将C i 、C j 合并为一个新的簇k i j C C C =U ,从而构成了D 的一个新的聚类C={C 1,C 2,…,C n-1}。
4) 计算C k 的聚类中心,并重复上述过程,直到C 中剩下一个簇,或满足了特定条件为止。
在进行页面聚类的过程可同时考虑用户聚类,因为两者存在着必然的关系。