基于模糊多重集的Web页面与用户聚类算法研究
网页模糊归类算法的应用与实现(一)

网页模糊归类算法的应用与实现(一)摘要:本文运用以模糊综合评判为核心的理论实现对网页的模糊自动归类,详细阐述了网页模糊归类算法(FWCA),并且通过一个实例阐明了实现过程。
作者利用此算法亲自设计实现了一个“网页模糊归类测试系统”,通过分析大量实验数据证明了利用此算法得归类效果非常稳定和准确。
关键词:FWCA模糊综合评判网页归类分类浏览搜索引擎自有文字和书籍以来,人类就开始注意文章的分门别类和编撰目录。
那些目录事实上就将文章按照内容的类别进行了分类。
九十年代以来,Internet以惊人的速度发展起来,Web的容量增长迅速,平均每天增加100万个页面。
计算技术发展到今天,靠人来阅读互联网上信息和对网上信息做分门别类和总结已经不可能。
搜索引擎的分类浏览模式由此应运而生。
它的目录分类的质量较高,检索效果好;但是需要人工维护,因此存在成本高、信息更新慢、维护的工作量大的缺点。
而基于模糊技术的网页自动归类能依据网页中所包含的文本的语义将大量的网页自动分门别类,从而更好地帮助人们把握网络信息。
网页模糊归类步骤与算法简单地说,网页自动归类所要完成的任务就是在给定的分类体系下,根据网页的内容自动地确定网页关联的类别。
如果从纯数学角度来看,网页分类的过程实际上就是一个多对多的映射过程。
依据“贝叶斯假设”的内容,可以假定组成网页的元素在确定网页类别的作用上相互独立。
这样,可以使用网页中出现的字或词的集合来代替网页,即用一个向量来表示文本:D(W1,W2,W3……Wn),其中Wi为第i个元素(以下均称为“特征项”)的数值。
当然,这将丢失大量关于网页内容的信息,但是这种假设可以使网页的表示和处理形式化,从而让计算机可以处理网页。
构成网页中的文本的词汇,数量是相当大的,因此,表示网页的向量空间的维数也相当大,可以达到几万维,所有几万个词汇对网页分类的意义是不同的。
首先,需要考虑词语的性质。
一些通用的、各个类别都普遍存在的词汇对分类的贡献是很小的,因此特征提取过程需要去掉对表达网页类别不太重要的词汇。
基于冗余Web使用数据关联和聚类的Web搜索定制方法(IJIEEB-V8-N4-5)

content-based collaborative filtering techniques, location preferences, and collaborative filtering with technical web content filtering based on support proposed options which are valued based on the recommendations on the website as shown in Fig.1. However, most users surf websites proxy name these methods suffer from a major disadvantage [5], and it is difficult to get their identities [3]. Based on user feedback, or to register their interest are some of the positive development in the customization system. These systems are users require time and will therefore not use this method. Web server logs, and the latest technology derived from data stored to find interesting patterns Web application is based on the usage logs [6],[8]. A novel web search customization approach (WSCA) to search the user's query related web information has been proposed using association and clustering mining techniques to overcome this problem. Following paper is organized as, section-2 discusses the related works, section-3 discusses the proposed customization approach, section-4 discusses the experiment evaluation and results and finally section-5 discuss the conclusion. II. RELATED WORKS The customized user information needs to be having information of interest to each user search [2]. As a rapidly growing competition in the search market, some search engines were introduced customized search, such as Google Customized Search where can define the cluster of websites they are interested in different category. Some systems respond to user information processing needs of Web search use or to provide a better service for the accuracy, users that have already registered to their communities as demographic data [26],[29]. This method requires users to search beyond the hand to take additional steps to set by their preferences. So, the approaches should be developed which are definitely able to identify information needs of users. Because of the increasing need for customized search, researchers should be made to provide the relevant information by user's conditions. The clustering technique [15], [19], [20], [30] groups together similar items based on a set of similar characteristics. Clustering is one of the most common techniques used for web usage mining and analysis [4]. It tries to group similar browsing patterns in this mining and analysis direction. Such as the standard k-means clustering algorithm is used to partition the space domain users based on the number of clusters, or the similarity distance among users [24],[25]. Jespersen et al. [8] proposed an analytical hybrid approach using click-stream sequences for visitor analysis. Sequences that can be used for mining activities of mining on the Web are hypertext, which is used in probabilistic language mix in the fact table. Mobasher et al. [9] discuss a unique process of knowledge discovery on the Web data and automatic online web page and uses web personalization system of mining-related activities. Chi et al. [10] present "LumberJack" for building user Copyright © 2016 MECS
Web访问模式的模糊聚类算法

L。 ( 则) 否 以 H N为 A 代表的 于 据 方体的 法3 基 数 立 方 1 1 HN 代 基于Wb 务的 法; 和以C E 为 表的 e事 方 1 i
相比 较,该算法具有如下 优点: 1 容无关性. (内 ) 算法不涉及关于查询请求及U L R 的检索内 容, 而仅仅利用其在用户日 志中出现的信息: 2 (算法结束时, ) 可以同时得到相关查询请求
一 再将具有公共元索的相似类归并, 类. 得到与传递闭 包的入 截矩阵 ( = 对应的 — ) A) L 等价类. 这些等价类即聚类的结果.
4. 1
设Q 待 类 检 请 的 合, = r . Q }U 示 户 于 有 索 为 分 的 索 求 集 Q ( Q, , . 表 用 对 所 检 Q =. m . 结 所查 页 集 U ( Ur, , 果中 看的 面 合, =U , U } , 二 , . 则 于 个 索 求Q, 以 示 对 每 检 请 ,可 表 为 () 3 Q =( ; , )I U u ( , U U Q j U‘ } . ) ; (
留 工 . 。r } 已 1 0卜 - 2尸 ̄
、 丁. : a 万一 '
。匕 ____ : ___ _ 二 __ _ ‘ _
1 0 4 0 7 0 1 0 1 0 0 3 10 6
检索请求数 ( 页面保持5 个不变) 0
图3 P C U时间随检索请求数的变化悄况
和相关 U L聚类. R
代 N ) ) (( XIy N (
I 一
,A}I I> ) I I ! VN X 1 1 n
、I 凡声 . . 行 甘, -} . " 7 n
_
但该算法没有考虑用户以 某个特定的查询关键字访问某一特定U L的次数. 1 R 图 所示 的例子可以说明该项信息对于聚类结果的准确性和合理性的影响. 图中边上数字代表访问
模糊集在web用户聚类中的应用

和 , 为此 页 面 的访 问频 度 l 称 3 1 定义 2用户兴趣度是该用户对某个 页面的访 问次数研 有用 .
户对该 页面访问次数的比值[】 4 定义 3用户一 . 页面访 问矩阵
从 服 务 器 的 日志 文 件 中获 取 用 户 的访 问模式, 并根据 这种模 式对用户或页面进行聚类, 挖掘出具有相似访问兴趣的用户。以 便 更 好地 为 用 户推 荐 可 能 感 兴趣 的新 页 面 ,动 态 地 提 供 个
表征 x 于 A的程度高低。一个数据集的隶属度 的总和等于 1 属 。
∑u l =2- iY l - i j… n =
在 We b日志挖掘 的过程 中,由于对用户 、 b页面等 We We b 对象进行聚类时具有明显的模糊性, 因此这里将模糊 数学中的模 糊 聚类与 We 数据挖 掘相结合 , 出了对 We b 提 b日志进行模糊 聚 类的方法 。我们先 以 We b页面为对象进行模糊 聚类 。将相似 的页面聚合后 , 以 w b 户为对象进行 聚类 , 再 e用 从而得到一个用 户 的集合。
( ) 据页 面集合 Yy , , , ) I 户集合 Xx , , , , 1根 (l 2y y  ̄ 用 y 34 I (l 2x x x 34 x) 5构造用户一 页面访问矩阵 M。
标准化得到 We 模糊相似矩阵(i 接着用编 网法进行处理 , b h一 得 到 w b页面的模糊分类 。 e 在此我们可以将相似 的 w b页面聚合 , e 从而降低 了用户一 网页矩阵 的维数。 然后再根据页面聚合后得到 的新矩阵来构造模糊相似矩 阵, 利用编网法对矩阵进行 处理 , 从 而得到了用户 的聚类集合 。
・
计算技术 与自动化 ・
模糊集在 w b用户聚类中的应用 e
基于粗糙模糊集的Web用户事务聚类算法

运 用基 于模 糊 矩 阵 的粗 糙 上 近 似提 取 初 始 类 , 用 约 束 相 似 性 的 上 近 似 概 念形 成 后 续 类 , 中 的一 个 相 对 的相 似 性 使 其
条 件被 用 作 合 并 准则 。该 算 法 可 以 帮助 We b挖 掘 者 描 述潜 在 的新 的 We b用 户组 特 性 。
用户 访 问行 为 描述
对 We b服务 器 日志进 行 预处 理 f , L <p ud ult > 4 以 = i,i ,r,me 形式 表 示 We 1 后 i b服 务器 日志 。其 中 ,i、 、 ud i p
ul i 分别 表示 用户 I 用 户 I 、 户请 求 的 U L和相 应 的浏览 时间 。对其 进一 步处 理后 , 到 以反 映用 r、me t D、 P用 R 得
第2 7卷 第 1 期
2 0年 3月 0l
苏 州 科 技 学 院 学 报 ( 然 科 学 版) 自
J u n l f u h u U ies y o ce c n e h ooy( a rl ce c ) o ra z o nv ri f in e a dT c n lg N t a S i e oS t S u n
户在 某一 段时 间 内的浏览行 为。一 个用 户在一 段 时间 范 围的访 问 U L序 列称 为用 户事务 。 体 的方法 有最 R 具 大 向前路径 法 、 最长时 间度法 和最大 时间 间隔法 等f 。文 中采 用最 大时 间间 隔法来得 到用 户事 务集 合 , 体 5 一 具
定义 如下 :
中 的过 程 。
一
般而 言 , 发 现的知 识和 规则 是不 准确 和 不完 全 的 。许 多研 究者 开始 使用模 糊 集 理论 进 行模 式 的聚 所
一种基于能力的模糊Web服务聚类及预检索算法

知识或服务 间相似度的比较 , 该算 法可将服务能 力及功能相似 的服务聚类在一起 。在此基础之上 , 提 出了一种服务 预
检 索算 法。理论分析及仿真结 果表 明, 聚类算法可有效地反映领域 内服务基 于功 能的聚类特征 , 顸检 索算法可有效地
滤 除无 关服 务 , 提 高 服 务 检 索效 率 。 关键词 we b 服 务, 本体 , 聚类 , 检 索, 能 力
摘
要
实现对 We b 服 务的 自动聚类 , 是提 高 We b 服 务发现 速度 的有效 方式之一 。针 对常 用聚类算 法在 实现服 务
聚类 时需要 获取 网内所有服务或通过服务训 练集来发掘领域 内服务 特征 , 不适 用于动 态服务环境的 问题 , 提 出了服 务 能力的概念 , 并给 出了服 务能力描 述及计算的方法 。借助本体技术 , 提 出 了一种基 于服务 能力的聚类算法。无需先验
第4 0 卷 第 5 期 2 0 1 3年 5月
一
计
算
机
科
学
Vo 1 . 4 0 No . 5
Ma v 20 1 3
Co mp ut e r Sc i e nc e
种 基 于 能 力 的模 糊 W e b服 务 聚 类及 预 检 索算 法
赵 文栋 张 进 彭来 献 田 畅 ( 解 放军理 工 大学通 信 工程 学院 南京 2 1 O O O 7 )
n e e d e d t o g e t t o t a l s e r v i c e s o r a s e r v i c e t r a i n i n g s e t t o mi n e t h e s e r v i c e a t t r i b u t e . Th i s d o e s n o t s u i t f o r t h e d y n a mi c d i s —
基于模糊聚类分析的客户分类算法研究!

字段名称 NQ7=C7@5O; NQ7=C7@53785<@O; NQ7=C7@5O7A5 NQ7=C7@5X7=C5 NQ7=C7@507@?; 字段含义 评估指标编号 评估指标父节点编号 评估指标名称 评估指标值 评估指标在父节点中的权重 字段类型 是否主码
表 ,1 某制造企业的客户综合评估指标 ( 按季度划分)
1 指标 客户1 + ( 元) !%% %%% 8! #7% %%% ,%% %%% #)% %%% !# %%% 8# 7% %%% $% 7)$ % !$% %%% #,% %%% ,9% %%% $%% %%% !% %%% 8& #7% %%% &$ %%% $% %%% ,$$ $$$ 8$ &% %%% #$7 )9# &$, &$# !$7 )!! 8’ !% %%% ! %,$ 9 %%% 7) %$’ 87 $% %,& !#& $’# 7% %%% #% $’7 8) #! $’& #, %%% #$ )9# $% %%% 89 $! #9! $, #,’ $7 9)7 /! /# /, 0! 0# 4 5 ( 元) ( 次)( 天)( 天)( 次)( 次) #%% %%% ,$% %%% &%% %%% $’% %%% #% %)% !#% %%% )% %%% % #,% %%% ,%% %%% $’% %%% 7’% %%% !9 999 &$% %%% 7% %%% !%% %%% $!% %%% 7$ %%% &%% %%% 7%% %%% ’%% %%% !%% %%% !$% %%% !’% %%% 9% %%% ’$ %%% !&% %%% 7$ %%% )% %%% )% %%% )% %%% )% %%% !%% %%% !%% %%% !%% %%% !%% %%% , & ’ , , # $ % # $ ! # , & ’ , & $ , # ! # , & $ , # # , & ’ , & # # # 9% 9% 9% 9% 9% 9% 9% % 9% 9% 9% 9% 9% 9% 9% 9% 9% 9% 9% 9% 9% 9% 9% 9% 9% 9% 9% 9% 9% 9% 9% 9% 9% 9% 9% 9% % % % % % % # % & !, # , % % % % % % ! % ! % , % $ % % % !$ % % # % % % % % % % % % % ! % ! # ! # % % % % % % ! % ! % , % ! % % % , % % ! % % % % #) !$ #, #’ & ) ’ # !! , $ , , ’ # ! $ !, !7 #! #, !$ ## !9 #’ !7 #$ !9 # $ 7 !# & $ 7 # 97 97 9) 99 99 99 99 99 9, )) )9 9! )% )$ )$ )’ 77 77 7) 7) 77 77 77 77 9! 9& 9’ 9# 9$ 9$ 9’ 9’ 7, 7’ 7$ 7$ 6 $! ’# 7! ), )% )% )% % 9) 9) 7! 9# $9 7$ 7# )’ $$ $’ ’7 )! !$ !# !$ !# 99 99 99 99 &, && &7 &9 9! 9# 9, 9$
模糊聚类分析在Web页面分类中的应用研究

10 . 0
计算机 与数字工程
第 3 卷 5
模 糊 聚类 分析 在 We b页面 分类 中 的应 用 研 究
陆桂 明 ’ 杨 战胜 裴 阳洁 ’ ’
( 华北水利水 电学 院现代教育技术中心” 郑卅l 40 1 ) 华北水利水 电学 院信息工程系 郑卅 4 0 1 ) 50 1 ( ’ l 5 0 1 摘 要 通过对 We b页面 中关键词汇的记录和对 We b页面特征抽 取建立 We b页面的信息情况 , 运用模糊数学方法建 用 相似 系数
编网法 , 就是取定 A水平 , 对模糊相似矩 阵 R
收到本文时间 :0 6年 5月 2 20 9日 作者简介 : 陆桂明 , , 男 教授 , 硕士生导师 , 河海 大学博士研究生 。杨 战胜 , , 男 硕士研究生 。裴 阳洁 , , 女 硕士研究生 。
论 , 模糊 问题 划分 提供 了有力 的分 析工具 。从此 对 人们 开始 运用模 糊 方法来处 理 聚类 问题 , 糊 聚 即模
l— d x 一 ) c(i
d (
) =
— jI x k
2 3 聚 类的两 大类 方法 ( . 求动 态聚类 图 ) 1基 于模 糊 等 价 矩 阵 聚 类 方 法 , 传 递 闭 包 . 如
的时间 和空 间复杂度 变 的非 常大 , 是模糊 等 价矩 这
常用的聚类方法有: 传递闭包法 、 ol矩 阵法 、 Bo e 直 接聚类法 、 最大树法 、 网法。本文是运用编 网法 编
对 We b页面进 行 的聚类 。
阵聚类法的主要缺陷。
2 直 接聚类 法 , . 如编 网法 和最大 树法 。 利用 模糊 等价矩 阵 聚类 的方法 , 得到模 糊 等价 关 系矩 阵后 , 取适 当的水平 A截 取 tR , 到普 选 ( )得
一种基于特征属性的Web用户模糊聚类改进算法

YI NG Yu— o - ng l
(nomao nier gSh o, hj n ete&F sinC l g 。 ig o3 5 1 。 h a Ifr t nE gnei c ol Z e agT x l i n i i aho ol e N nb 12 1C i ) e n
h r o e td t e p p s d me o . o h Ke r s:e t r sp p ry; e s r ;uz y c u t rn F y wo d f au r e t W b u e f z l s i g; CM e o s e
O 引 言
…
定义 2 We b页面兴趣 度 : 设 是 网站 中所 有
商 品页面的 集 合 , ∈ ( ≤n 0 ,n为商 品页 面 个 数) U是访 问 We , b站点 的所有 用户集 合 , ∈U 0 i ( < ≤m, m为用户 总数 ) 。用户 “对 商品 页面 的兴 趣
数) 表示访 问 We b页面 的用 户集 合 ; P={ 。P , P , 2 …, P } n 网页的个数 ) ( 是 表示 用户访 问的页 面集合 ;' 7: /
{ , , , } n是网 页的个数 ) … ( 表示 用户访 问每个 页面 的时间集合 。 ‘
2 改进 的 We b用户模糊聚类算法
p p ry p e b e c r x。mp o e h o v n i n z y c—me ns cu e i g a g rt m . h r p s d me o rtc a s e l s r o r e t r fr n e ma i rv d te c n e t a f z ol u a l s rn o i l h T e p o e t d f s ls i s cu t o h i i f e
Web用户聚类研究

第24卷第1期2010年1月甘肃联合大学学报(自然科学版)Journal of G ansu Lianhe University (Natural Sciences )Vol.24No.1J an.2010收稿日期:2009211220.基金项目:西北师范大学200622010年度重点学科“网格计算”.作者简介:王华(19832),女,甘肃天水人,西北师范大学在读硕士研究生,主要从事数据挖掘的研究. 文章编号:16722691X (2010)0120079204Web 用户聚类研究王 华1,王治和1,王 平2(1.西北师范大学数学与信息科学学院,甘肃兰州730070;2.兰州理工大学电气工程与信息工程学院,甘肃兰州730050)摘 要:Web 日志数据的海量增长,要求聚类算法能高效的从海量数据中得到满意的用户聚类.本文提出了一种新的聚类算法,在聚类前,利用用户兴趣度对海量数据集进行约简、减小数据计算规模,然后再对Web 用户进行聚类.实验证明这种方法能减小数据规模、提高聚类效率,并得到满意的用户聚类.关键词:Web 日志;访问路径;路径相似度;用户聚类中图分类号:TP311.13 文献标识码:A0 引言Web 用户聚类是试图找到具有共同兴趣的用户组,是Web 日志挖掘中的常用技术之一.聚类Web Web 日志数据,将用户分割成不同的簇,同一簇内的用户具有较高的相似性,而不同簇中的用户差别较大.通过对Web 用户的聚类,可以得到群体用户访问的行为和方式,以改进Web 服务,提供个性化电子商务服务.Web 日志挖掘的突出特点是处理海量增长的数据集.这就要求聚类算法能高效的从海量数据集中挖掘相似用户群.本文提出了一种新的聚类方法,聚类前对海量数据进行约简处理,从而减小数据规模,提高运行的效率.其基本思想是在聚类前将Web 日志中用户的访问路径进行预处理,利用用户兴趣度作为权值来对用户的访问路径进行约简,结合Zadeh 教授提出的模糊集理论[1],建立用户相似度矩阵,并利用编网法进行直接聚类.在该算法中,聚类前的约简减小了数据量,提高了算法的执行效率,另外可以根据阈值的不同,得到不同粒度的用户聚类,以此满足实际应用的需求.实验证明这种方法能减小数据量、提高聚类效率,并得到满意的用户聚类.1 基本概念文献[2]中提出:(1)兴趣度相似的用户具有相似的浏览模式.(2)相关联的页面会被具有相似兴趣度的用户浏览.(3)在一个特定时间内,用户的访问模式不会有太大改变.基于以上假设,我们可以从Web 日志中分析用户在特定时间的访问信息来对用户进行聚类.定义1 设一个三元组(C ,P ,T ),其中C ={C 1,C 2,...,C m }(m 是用户的个数)表示由Web用户构成的一个集合.P ={P 1,P 2,...,P n }(n 是网页的个数)表示由用户访问页面构成的一个集合.T ={T 1,T 2,...,T n }(n 是网页的个数)表示由用户在每个页面的访问时间构成的一个集合.在用户的每次访问中,由用户访问操作得到的一个页面序列称为一个事务.定义2 用户兴趣度:I ij =∑w t =1Tj∑nk =1∑wt =1Tk.(1) 其中w 表示用户对该页的浏览次数,n 表示用户浏览的网页个数.I ij 表示用户i 在页面j 上的浏览兴趣度,T j 表示用户在页面j 的浏览时间(单位:秒).用户在某页的停留时间越长,说明用户对该页面的内容越感兴趣,因此可以通过用户在页面的浏览时间来表示用户的兴趣度.用户在一个时间段,会多次访问页面,对页面的点击次数越多,说明用户对该页面越感兴趣,因此,在用户兴趣度中考虑到了页面点击次数W.在该公式中,∑wt=1T j就表示了用户在一段时间内,对单个页面总的访问时间,即每次点击页面后,在该页停留时间的总和.定义3 用户访问矩阵M mn=h11 (1)…ω…h m1…h mn.其中h ij表示第i个用户对第j个页面的访问时间.每一行向量h[i,.]表示用户i对页面的访问情况,每一列向量h[.,j]表示用户对页面j的访问情况.定义4 编网法:是一种直接聚类法,是先取适当的水平λ截取矩阵,然后在其上进行经纬线编网,不同的λ决定了不同的分类.利用直接聚类法,[3~4]不必去求相似矩阵的等价矩阵,而是直接从模糊相似矩阵出发,求得模糊聚类.定义5 路径相似度sim c i c j=|C i.p ∩C j.p||C i.p∪C j.p|,(1≤i,j≤m).(2)其中:C i.p,C j.p表示用户i和j的访问路径.一个聚类中用户访问路径匹配度比与其他聚类的高[5].2 基于访问路径的Web用户聚类算法2.1 算法思想算法采用单元数组作为存储结构(即存储矩阵),仅存储算法必需的日志项,去掉冗余的日志信息,存储矩阵的建立使得整个算法只需访问一次数据库,采用该结构能提高算法效率.Web日志中用户的访问页面可以分为导航页和内容页.在页面的总停留时间越长,用户兴趣度越高;而停留时间越短,说明用户的兴趣度越低.只需要发现用户感兴趣的页面,就可以分析该用户的访问行为.因此本文算法的思想是:在用户聚类前,首先利用用户兴趣度对用户访问路径序列进行约简,得到用户感兴趣的访问页面,然后根据路径相似度得到用户相似度矩阵,并在此矩阵中使用编网法进行直接聚类得到最终的用户集合.2.2 算法描述Step1 根据定义3,通过用户浏览时间构造用户页面访问矩阵.Step2 根据式(1)得到用户访问兴趣度矩阵h′mn.Step3 设定阈值α,将用户访问兴趣度矩阵h′mn中用户兴趣度>α的页面对应的h′ij置1,其余页面h′ij置0.Step4 将矩阵中每行h′[.,j]=1的页面取出,重新构造每个用户的页面访问序列.Step5 根据式(2)计算每个用户页面访问的路径相似度,构造相似度矩阵.Step6 取水平λ,根据编网法[7]聚类,得到用户聚类集.2.3 算法应用举例(1)取页面集合Y(y1,y2,y3,y4……y14)和用户集合X(x1,x2,x3,x4,x5),根据用户浏览时间构造用户-页面访问矩阵(M mn)T5314=38754125152********0324001054301851041220041401107621233598343000481408000420039109806520568000003061304059000387003400682360412919419 (2)由式(1)运算得到用户兴趣度矩阵h′mn.(h′mn)T5314=0.17510.00280.00210.00210.0017 0.00680.16810.01230.22030.0000 0.00000.18460.00000.00000.0035 0.24570.00000.00970.00880.0000 0.18640.00110.00000.00000.1444 0.00000.06270.40860.21370.2086 0.15520.00000.00000.00000.1678 0.18460.00000.00000.00000.1465 0.00000.22280.00000.16980.0227 0.00900.32360.00000.00000.0000 0.00000.00000.16410.22600.0000 0.02670.00000.00000.00000.1350 0.00000.00000.18230.00000.0237 0.01040.03420.22090.15930.1461 (3)取阈值α=0.135,得到用户的访问序列.x1:{y|y1,y4,y5,y7,y8};x2:{y|y2,y3,y9,y10};x3:{y|y6,y11,y13,y14};x4:{y|y2,y6,y9,y11,y14};x5:{y|y5,y6,y7,y8,y12,y14}.(4)根据式(2)计算路径相似度,建立相似度08 甘肃联合大学学报(自然科学版) 第24卷矩阵.h ′mn =10100100.290.510.3750.220.21.(5)取λ=0.3,编网法聚类后得到Web 用户集合{{x 1,x 5},{x 2,x 3,x 4}}.图1 编网法聚类Fig 1 Netting Clustering3 实验分析本实验的数据集取自http ://www.cs. 提供的服务器日志数据.对该日志数据进行预处理后取出其中的3525条记录作为实验数据.其中,用户数为54,页面数为138,记录数3525条.对该数据进行用户兴趣度计算后得到设定阈值α=0.3,对该数据进行约简.此时得到用户兴趣度>0.3的用户记录数为129条,为原数据中用户记录数的27%,明显数据量减小.在相似度的计算过程中,减少了路径的比较次数,提高了算法的执行效率.随着阈值α的改变,得到的用户群粒度会发生变化,阈值α越高,得到的用户群越分散.4 结论本文聚类前利用用户兴趣度将W eb 日志的海量数据进行预处理,将用户访问路径中不感兴趣的页面进行约简,得到用户兴趣度高的页面组成的集合.实验证明,本文中提出的算法能有效的约简数据,减小数据规模,能满足海量W eb 日志数据挖的要求.另外,权值选取的不同,能得到不同粒度的用户聚类,可以满足不同的实际聚类需求.图2 用户兴趣度数据集Fig 2 Degree of user interest data sets参考文献:[1]TIMO T H Y J R.Fuzzy logic with engineering applica 2tions[M ].British :British Library Cataloguing in Pub 2lication Data ,2004:57.[2]SON G Qinbao ,MAR TIN S.Mining web browsingpatterns for E 2commerce [J ].Computer in Industry 2006,57(7):6222630.[3]胡军军,李成刚,周济.改进编网法聚类及其实现[J ].计算机应用研究,1999,16(5):10212.[4]贺仲雄.模糊数学及其应用[M ].天津:天津科学技术出版社,1983:1652169.[5]TADEUSZ ,MORZY ,MAREK ,W ,MACIE J Z.WebUsers Clustering [EB/OL ].[2009209215].http ://www.zakrzewicz.pl/research.php.[6]陆桂明,杨战胜,裴阳洁.模糊聚类分析在Web 页面分类中的应用研究[J ].计算机与数字工程,2007,34(4):35.18第1期王华等:Web 用户聚类研究The study of Web2user clusteringW A N G H ua1,W A N G Zhi2he1,W A N G Pi ng2(1.School of Mathematics&Information Sciences,normal university,730070china;2.School of Electrical Engineering&Information Engineering,Lanzhou University of Science&Technology,730050china) Abstract:Massive growt h of web log data demand clustering algorit hm to efficiently get t he satifctory user clustering from massive amount s of data.This paper p roposes a new clustering algorit hm,a weight s degree of user interest value to reduce t he massive amount s of data was used,t he size of com2 p uting scales before clustering were reduced,t hen web users were clustered.Experiment s show t hat t his met hod can reduce t he data size,improve clustering efficiency and get t he satisfactory user cluste2 ring.K ey w ords:web log;access pat h;pat h similarity;user clustering(上接第69页)[11]冀永强,冯文林,徐振峰,等.N H2+HNCO反应机理的从头计算[J].中国科学(B辑),2004,32(2): 1722178.[12]李来才,钱一鸣,朱元强,等.CH3+HNCO反应机理的理论研究[J].物理化学学报,2004,20(3):2282 232.[13]耿志远,韩彦霞,王永成,等.Si H3自由基与HNCO反应机理的理论研究[J].化学学报,2007,65(24): 283922846.[14]戴国梁,王永成,耿志远.Si H3与NO2反应机理的理论研究[J].化学物理学报,2005,18(4):5222526. [15]杨颙,张为俊,高晓明.Si H3+O(3P)反应机理的理论研究[J].化学物理学报,2005,18(5):7402744. [16]唐作华,陈建设.Si H3NO2—Si H3ONO异构化的量子化学研究[J].高等学校化学学报,1995,16(5): 7612764.[17]ROB ER T W,QUAND T,J O HN F,et al.Kinetics ofthe Si H3+O2and Si H3+NO2reactions[J].Chemi2 cal Physics Letters(B),1993,206:3552360.[18]SEN GU PTA D,N GU YEN M.Ab initio calculationsand quantum statistical analysis of the Si H3+NO reactions[J].Chemical Physics Letters(B),1997, 265:35240.[19]SU G AW ARA K,NA KANA G A T,T A KEO H,et al.Rate constant measurements for reactions of Si H3with O2,NO and NO2using time2resolved infrared diode la2 ser spectroscopy[J].Chemical Physics Letters(B), 1989,157:3092314.Theoretical Study of the R eaction Mechanism for Si H3R adical with HNCOZ H A N G X i n g2hui,Z H A N G Fu2long(College of Chemical Engineering,Gansu Lianhe University,Lanzhou730000,China)Abstract:Ab initio UM P2met hod was used to st udy t he reaction mechanism of Si H3radical wit h HN2 CO.The geo metric configurations of reactant s,p roduct s,intermediates and t ransition states were opti2 mized at UM P2/6-311G leve1.The intermediates and t ransition states were confirmed by t he re2 sult s of vibrational analysis and t he Int rinsic Reaction Coordinates(IRC)calculation.The result s indi2 cate t hat t he reaction of Si H3radical wit h HNCO has t hree channels,among which t he reaction Si H3 +HNCO→IM2(IM3)→TS2→P2(Si H3N H+CO)was t he main pat hway wit h t he lowest activation energy.K ey w ords:HNCO;Si H3radical;reaction mechanism28 甘肃联合大学学报(自然科学版) 第24卷。
基于模糊集的Web文本最大支撑树聚类算法

h me p c te t 一 8 a e c mp e i n t lsei , r d c d t etx rc si i n in ,s d u e cu tr , a d i p o e e i o lxt i x cu tr y e t g n e u e e t o esn dme so s p p t ls i h p g e h en g n rvdt m h
2 1 年 1 月 01 1 第 3 卷第 l 期 1 1
・
现 代 情 报
J u l f d m nomain o ma e Ifr t o Mo o
No . 2 1 v ,0 1 V0 . 1 N . 1 13 o 1
理 论 探 索 ・
基 于模糊集的 We 文本最大支撑树 聚类算法 b
l  ̄
l u p r e u trn g rt lS p o tTr e Clse i g Al o i m fW e x s d o lz es l n h o b Te tBa e n l z y S t  ̄
M o a i Z uK i Ma n Z o u2 a ia T tn o a o ig huJn J ( .P bi A mi sa o col i g nU i rt,Xag n4 10 ,C ia 1 ul; c iri na v i na
基于模糊推理的web客户需求协同过滤推荐算法

情
报
杂
志
Vo _ O N0 l3 .1
J OURNAL NT L GEN OFI EL I CE
J n 2 1 a. 01
基于模糊推理的wb e 客户需求协同 过滤推荐算法水
赵宏 霞 王 新 海 杨 皎平
( . 宁 工 程 技 术 大学 营 销 管理 学 院 1辽 葫 芦 岛 150 ; 2 15
2 辽宁工程技术大学工商管理学 院 . 摘 要
葫芦岛 150 ) 2 15
文章提 出了基 于模糊推理的协 同过滤推荐 算法, 在该算 法中, 用模糊集合之 间特征 系数来代替传统算 法的
相似 系数 , 用模糊推理来代替加权平均预测 。最后 文章通过 实验证明该算 法具有较好的精 确度 , 为以后研 究推荐算
b h uz y d du t n.F n ly,e p rme t h w a h g rtm a et ra c r c y tef z e c o i ial x i e n s s o t tt e a o h h s a b t c u a y-wh c r v d sa n w y f rf t r e o h l i e i h p o i e e wa o u e r c m— u
De nd Ba e n Fuz y De c i n ma s d o z du to
ZHAO n x a Ho g i
W ANG n a Xi h i
YANG i o ng Ja pi
( c o l f r e n n g m n - i nn eh i l nvri , uu a 2 1 5 1 h o k t gMa a e e tLa ig T c n a U iesy H ld o1 5 0 ; S o Ma i o c t
一种基于模糊相似粗糙集的WEB搜索优化方法

一种基于模糊相似粗糙集的WEB搜索优化方法摘要如何对Web信息搜索进行优化,是信息检索的重要研究课题。
本文基于模糊相似粗糙集,在语义结构和Web的超链接结构间建立起映射,从而提高Web搜索的速度和准确率。
关键词 Web信息搜索;模糊分类;超链分析;模糊粗糙集;相似关系1 引言Web作为信息制造、发布、加工与处理的主要平台,正以令人难以置信的速度在飞速发展着。
如何在Web所提供的海量信息中发现有用的信息并加以有效利用,一直是人们努力研究的方向。
搜索引擎(Search engine)是目前Web信息检索的主要工具。
传统的搜索引擎大多是基于关键字匹配、目录分类等技术,但在查询速度与查准率、查全率等方面还具有较大的局限性。
近几年的研究发现,分析Web网页间的超链接结构并充分利用,可以提高检索的质量。
基于这种超链分析的思想,在1998年,Serger Brin 和Lawrence Page提出了PageRank [1]算法。
同年,J.Kleinberg提出了HITS [2]算法,还有其他一些研究者相继提出了一些改进算法,如SALSA、PHITS等,在实际应用中取得了良好的效果。
为了进一步提高Web搜索的效率,我们提出了一种根据特定的需求,利用粗糙比较对Web信息的搜索路径进行优化的方法。
首先对用户提交的反映用户需求的网页或关键字进行模糊分类,得到对信息空间的相似分类,再对识别出来的网页集团的超链接结构进行分析,用网页间作用力与文本信息的混和相似度,得到网页集团在用户需求信息上的相似类划分。
通过对各自所得到的基于相似关系的模糊粗糙集之间相似程度的度量,找到与用户需求最接近的网页集团的排序表,从而达到对Web信息搜索的优化。
本文首先回顾一些研究者在这一领域所做的一些相关工作;然后在核心部分详细论述了基于相似关系模糊粗糙集的Web搜索优化策略;最后是我们的结论。
2 相关工作J.kleinberg等在文[3]中提出Web结构所呈现出来的自组织性,从而反映出Web上的一些信息分布知识。
一种基于模糊集理论的双聚类算法

一种基于模糊集理论的双聚类算法邱杰;喻昕;罗海琼;玉延华;詹锋;陈庆锋【摘要】双聚类(Biclustering)算法是一种横向纵向同时进行的数据挖掘的聚类算法,主要用于生物信息学上对高维复杂的数据进行聚类,以平均平方残基作为筛选标准,贪婪迭代的方法来选取数据.传统双聚类算法聚出来的簇通常不是预想的结果,迭代次数越多偏差就越大,对于庞大的数据精确度会更小,而模糊集理论可以改进这种迭代产生偏差与得不到预想结果的不足.为了获得更加好的实验结果,用模糊数学中的隶属矩阵和综合评判等方法改进双聚类的算法,使得聚类结果更精确更具有一致性,便于发现数据的关联性.【期刊名称】《平顶山学院学报》【年(卷),期】2013(028)005【总页数】4页(P8-11)【关键词】双聚类;模糊数学;贪婪迭代;平均平方残基【作者】邱杰;喻昕;罗海琼;玉延华;詹锋;陈庆锋【作者单位】广西大学计算机与电子信息学院,广西南宁530004;广西大学计算机与电子信息学院,广西南宁530004;广西医科大学公共卫生学院,广西南宁530021;广西大学生命科学与技术学院,广西南宁530004;广西大学计算机与电子信息学院,广西南宁530004;广西大学计算机与电子信息学院,广西南宁530004【正文语种】中文【中图分类】O159双聚类(Biclustering)算法是数据挖掘研究领域中的一种新型的聚类算法,通常被用在生物基因表达数据的挖掘上或一些高维度复杂的数据中.双聚类思想首次于1972年提出时是为了描述数据矩阵的行和列同时进行聚类而被定义的[1],算法的目的在于从数据矩阵中寻找到一些子矩阵,而这些被寻找到的子矩阵的元素之间是具有一定的一致性关系的.Madeira和Oliveira[2]在对双聚类算法研究的同时发现了这算法从数据矩阵中最后找到的子矩阵可以归类为4种类型,它们分别是:整个矩阵常数一致类型;行或者列常数一致类型;数值连贯一致类型;数值连贯变化类型.前3种类型旨在分析数据矩阵中的数值然后寻找行和列的子集中趋于一致性的,第4种类型旨在找到数据变化一致性的而不管确切的数据值的数据子矩阵.由于第1种与第2种类型其实只是第3种类型的简化模式,第4种类型考虑了变化一致性的第3种类型,所以双聚类算法的最基本的核心就是为了发现数值连贯一致类型的数据子矩阵.目前,双聚类算法的研究进度与速度都很快. Cheng和Church[3]提出用平均平方残基值来度量数据矩阵趋势一致性,用平均平方残基值作为评价指标,然后通过贪婪迭代的策略来求子矩阵.Yang和Wang[4-5]在Cheng和Church的基础上提出了一种允许丢失数据节点的行或者列的添加删除算法(FLOC算法),提高了精确度且适用于数据缺失. Lazzeroni和Owen[6]提出了一种格子模型,这种模型将整个数据集建模为基于全局背景值的簇的叠加.基于目前双聚类算法有些时候存在聚类结果偏差比较大的问题,如对于一些比较庞大的数据矩阵,有时难以得到可观察结果,导致聚类出来的数据不可用,还有迭代多次后会导致准确性明显下降.笔者引入模糊数学中综合评判的度量来对双聚类的误差进行改良,通过多次的评判把一些不相关的行或者列给剔除,最后再对前次聚类子矩阵中各元素的平方残基扩大的方法对迭代中不希望多次出现的行或者列进行屏蔽,使得下次的聚类不受太大影响,在一定程度上提高准确性.1.1 平均平方残基平均平方残基是用于度量双聚类数据一致性的方法[3].给定I行J列的数据矩阵A=(aij)I×J,定义下列变量:矩阵的行平均值:矩阵的列平均值:矩阵的平均值:矩阵元素的平方残基(由(1)—(3)式得出):矩阵的平均平方残基:矩阵的单行的平均平方残基:矩阵的单列的平均平方残基:其中|I|是矩阵的行数,|J|是矩阵的列数,平均平方残基是在兼顾整体波动的前提下来评价行或者列的波动趋势的.H(I,J)是用来衡量整个数据矩阵数据变化一致性程度的,可以把它看成是一种距离函数,H(I,J)越小那么距离就越接近,也就是它们之间的趋势更一致,那么它就是一种加入有趋势度量的距离概念.1.2 综合评判与海明贴近度综合评判是模糊数学中的一种综合决策的数学工具,通过综合评判可以知道某样东西是否达标[7-8].设与被评判的东西相关的因素有n个,可记为:U={u1,u2,u3,…,un}作为相关的因素集.设有m个对这事物的评判标准,可记为:F={f1,f2,f3,…,fm}作为评判集.对U中每一个元素进行评判就得到隶属度向量为:ri=(ri1,ri2,ri3,…,rim),那么就可以得到隶属度矩阵为:然后对相关因素集确定权重向量:O={o1,o2,o3,…,on},把评判集数值化或者归一化处理.那么假定D就是所要评判的目标函数:D=O°R,然后根据隶属度最大的原则进行评判,选出D中最大隶属度的元素作为评判结果,或者用贴近度来选择.贴近度是指对两个集合接近程度的一种度量[8].给定P={p1,p2,p3,…,pn}~[0,1],有集合A,D∈(P),那么有海明贴近度为:2.1 定义与建模对于数据矩阵A=(aij)I×J,将式(4)作为矩阵A的评判条件代入,得到对于矩阵A的平方残基矩阵B作为评判矩阵如下所示:将矩阵A转化为列向量集作为权数:计算各列的评判函数式:或者是转化行向量集作为权数:计算各行的评判函数式:为了使贴近度适用于数据矩阵上的表示,需要做一些数据数值化和归一化的整理,由式(8)整理得:数据矩阵中各行与列的最大最小平方残基由(6)、(7)可得:对于迭代下次聚类,为了使得前一次聚类出的子矩阵不影响下次的迭代,我们可以通过取大法把子矩阵中出现过的元素在数据矩阵中的平方残基扩大[8-9],进而对上次聚类结果达到一定的屏蔽效果.随机地给定V=(v1,v2,v3,…vI)∈R+,可以推导得:式(14)中选取最大的平方残基值作为在原数据矩阵中的计算平均平方残基所使用到的值.2.2 算法的描述根据上面的定义,下面是数据矩阵删除增加行或列的算法(FMB_AD):输入:数据矩阵A,阈值δ为终止条件.输出:一个平均平方残基满足δ的子矩阵AIJ.步骤1:利用式(5)—(7)计算数据矩阵与各行和列的平均平方残基,删除平均平方残基最大的行或者列,更新AIJ直到数据矩阵的平均平方残基小于阈值;步骤2:利用式(5)—(7)计算数据矩阵与各行和列的平均平方残基,添加平均平方残基小于H(I,J)且不在I或J内的行或列,更新AIJ使得最终的平均平方残基小于或等于步骤1中得到的.利用综合评判的方法对所得子矩阵进一步聚类(FMB_SJ):输入:数据矩阵AIJ,阈值δ为终止条件,g为评判次数.输出:子矩阵G.步骤1:通过用式(4)对数据矩阵AIJ求其平方残基矩阵B;步骤2:通过式(9)、(10)算出各行列的评判向量D={Dr1,Dr2,…DrI,Dc1,Dc2,…DcJ};步骤3:通过式(12)求出最小平均平方残基Mk所对应的行或列Ak,再用式(11)分别对所有的评判向量D与Ak求贴近度N={N1,N2,…NI+J};步骤4:如果,则删除该行或者列;步骤:5:更新AIJ,g=g-1,若无删减则把Ak对应的平方残基从式(12)剔除,然后再回到步骤1,直到g=0为止,最后得到子矩阵G.最后得到基于模糊数学的双聚类算法:输入:数据矩阵A,阈值δ为终止条件,g为评判次数.输出:子矩阵G.步骤1:AIJ=FMB_AD(A,δ);步骤2:G=FMB_SJ(AIJ,δ,g);步骤3:对输出的子矩阵G中的元素通过式(14)来使得他们的平方残基变大从而减少对下次迭代的影响,然后进行下次迭代.为了验证该算法的性能,笔者选择了与CC双聚类算法进行比对并用2组水稻病害的基因转录组在不同时期不同条件下抗病害的各基因表达数据.数据来源于广西大学生命科学与技术学院对水稻病害的基因转录组的记录数据,第1组数据比较大,它是由57 382个基因在328个条件状态下的表达数据组成,第2组数据是由4232个基因在44个条件状态下的表达数据组成.数据格式如表1.分别对这2组数据进行3次迭代实验,然后观察结果.现在对参数设定:δ=1 200,g=3.实验如图1,图中4个迭代实验按照上方是第一第二次为顺序的实验结果.从图1中可以看出CC算法对于数据量庞大的数据所得到的聚类结果非常复杂,很难分析出结果中具有一致性变化的数据,难于观察发现.改良后的算法(图2)对庞大数据量数据聚类出来的结果是具有一定的一致性,而且冗余量也减少了,直观性要强于图1,结果对比CC算法得到一定的优化.第2组数据的测试就没体现出复杂度的变化来.图3与图4相比,图4的波动一致性更好一些,得到的聚类结果要更加精确.比如图3的子矩阵的平均平方残基与图4的相比较见表2.可见图4中的波动一致性要更好一些.分别对比图1与图2,图3与图4可以看出改良的算法在迭代后相比前一次聚类线条变少了,此现象是由于迭代前屏蔽子矩阵的方法在其中起到了一定的作用,偏差会有所降低.笔者通过对模糊集理论的研究,提出了一个适用于双聚类算法优化聚类结果的方案,即用模糊数学中综合评判的方法对双聚类算法给定一个评判指标,用以优化聚类结果,然后通过扩大隶属矩阵中的平方残基来屏蔽上次结果以便下次迭代降低所受到的影响.再通过对该算法进行验证,发现其对庞大的数据能有更有效地聚类结果,并且趋于一致性较高,多次迭代后不会出现结果受影响过大.【相关文献】[1]Hartigan JA.Direct clustering ofadata matrix[J].JASA,1972(67):123-129. [2]Sara CMadeira,Arlindo LOliveira.Biclustering Algorithms for Biological Data Analysis:A Survey[J].Computational Biology and Bioinformatics,2004,1(1):24-45.[3]Cheng Y,Church GM.Biclugering of expression data[C]. Menlo Park:Proceedings of the 8th International Conference on Intelligent Systems for Molecular Biology,2000:93-103.[4]Yang J,Wang W,Wang H X,et al.G-clusters:Capturing subspace correlation in a large dataset[C].San Jose:Proceedings of The18th IEEE International Conference on Data Engineering,2002:517—528.[5]Yang J,Wang W,Wang H X,et al.Enhanced biclustering on gene expression data [C].Bethesda:Proceedings of the 3rd IEEE Conference on Bioinformatics and Bioengineering,2003:321-327.[6]Laura Lazzeroni,Art Owen.Plaid models for gene expression data[R].Stanford:Stanford University,2000.[7]杨纶标,高英仪.模糊数学原理及应用[M].广州:华南理工大学出版社,2005.[8][比]Etienne E kerre,黄崇福,[比]阮达.模糊集理论与近似推理[M].武汉:武汉大学出版社,2004.[9]Wassim Ayadi,Ons Maatouk,Hend Bouziri.Evolutionary Biclustering Algorithm of Gene Expression Data[C].Vienna:Proceedings of the 23rd IEEE International Workshop on Database and Expert Sytems Applications,2012:206-210.。
用于Web用户聚类的基于差分进化的模糊聚类算法

用于Web用户聚类的基于差分进化的模糊聚类算法
王艳茹
【期刊名称】《电脑知识与技术》
【年(卷),期】2011(007)030
【摘要】Web用户聚类是实现自适应网站和为用户提供个性化信息服务的关键技术之一.将FCM算法与差分进化算法相结合,提出一种用于解决web用户聚类问题的混合算法,改进了适应度函数,并采用局部搜索策略进一步增强算法的寻优能力,加入FCM优化操作加速算法的收敛.实验表明,该算法全局搜索能力强,实现了较好的用户聚类效果.
【总页数】4页(P7452-7454,7456)
【作者】王艳茹
【作者单位】山东科技大学,山东青岛266510
【正文语种】中文
【中图分类】TP301
【相关文献】
1.基于访问路径的Web用户聚类算法 [J], 翁伟;朱顺痣;钟瑛
2.基于PLSA模型的Web用户聚类算法研究 [J], 俞辉
3.基于模糊多重集的Web页面与用户聚类算法研究 [J], 宋麟;王锁柱
4.基于社会标注系统的Web用户聚类算法 [J], 卢露;赵靖;魏登月
5.一种基于粒度原理的多指标综合Web用户聚类算法 [J], 赵洁;董振宁;张沙清;肖南峰
因版权原因,仅展示原文概要,查看原文内容请购买。
综合多重评价因素的Web用户聚类算法

综合多重评价因素的Web用户聚类算法
吴跃进
【期刊名称】《计算机工程与应用》
【年(卷),期】2006(042)028
【摘要】文章提出了综合多重评价因素的Web用户聚类算法;首先从评价因素的数学特征出发,提出了Web资源偏爱度与Web资源关联度的概念,然后运用Kruskal算法的基本原理在由Web资源和Web访问行为所构成的无向图内寻找寻频繁路径,再根据频繁路径和Web资源偏爱度与关联度阈值对Web用户进行聚类处理.该算法在一定程度上提高了Web用户聚类算法的准确性与执行效率.【总页数】4页(P147-149,210)
【作者】吴跃进
【作者单位】北京航空航天大学计算机学院,北京,100083
【正文语种】中文
【中图分类】TP311
【相关文献】
1.基于多重评价因素的Web用户聚类方法 [J], 吴金桥;曹奇英;柯夏燕;庄怡雯
2.基于模糊多重集的Web页面与用户聚类算法研究 [J], 宋麟;王锁柱
3.一种基于粒度原理的多指标综合Web用户聚类算法 [J], 赵洁;董振宁;张沙清;肖南峰
4.一种基于Web日志的Web用户群体和URL聚类算法 [J], 宁建飞
5.一种快速的Web用户和URL聚类算法 [J], 张线媚
因版权原因,仅展示原文概要,查看原文内容请购买。
基于多重评价因素的Web用户聚类方法

基于多重评价因素的Web用户聚类方法吴金桥;曹奇英;柯夏燕;庄怡雯【期刊名称】《计算机工程》【年(卷),期】2011(037)010【摘要】介绍Web日志挖掘的预处理过程,其中包括数据清理、站点拓扑识别、用户识别、会话识别、页面过滤和路径补充.针对无引用域记录日志的路径补充间题,提出并实现一种基于网站拓扑图的路径补充算法.讨论一种综合多重评价因素的用户相似度计算方法,并将其应用于Web用户聚类操作.使用Davies-Bouldin指标衡量聚类的效果并给出实验结果.%The paper introduces the pre-processing procedure, which includes data cleaning, Website topology identification, user identification,session identification, page filtering and path completion. With respect to logs without reference record, a path completion algorithm based on Website topology is put forward and implemented. A multi-factor user similarity computing method is introduced and applies on Web user clustering.Davies-Bouldin index is used to evaluate to effectiveness of the experiment results.【总页数】4页(P44-46,49)【作者】吴金桥;曹奇英;柯夏燕;庄怡雯【作者单位】东华大学计算机科学与技术学院,上海,201600;东华大学计算机科学与技术学院,上海,201600;上海交通大学电子信息与电气工程学院,上海,200240;东华大学计算机科学与技术学院,上海,201600【正文语种】中文【中图分类】N945【相关文献】1.综合多重评价因素的Web用户聚类算法 [J], 吴跃进2.基于多重特征的双层Web用户聚类方法 [J], 王钊;樊钊3.一种基于用户浏览路径的Web用户聚类方法 [J], 马晓艳;唐雁4.基于多重关系主题模型的Web服务聚类方法 [J], 石敏;刘建勋;周栋;曹步清;文一凭5.基于模糊聚类的Web用户聚类方法与实现 [J], 司建波;姚燕;郭蔚莹;杨芳因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中图法分 类号 : P l T3l
文献标 识码 : A
文 章编号 :0072 (0 8 0 —230 10 —0 4 2 0 ) 1 1-3 0
Re e r h o b p g sa du e scu trn r h t a e nf z ymu t es sac f we a e n s r l se i g a i mei b s d o z l s t t c u i
t r g I i ag rtm ec n e t n o mu t e t u z l se n s o ei . nt s l o h t o c p i f n h i h o lst i wi f z y c u tr g i mb n d wh c a l sr t dt eit r s f ii r t h i c ie , i hc n i u t e e e t v st swi l a h n o o h
宋 麟 , 王 锁 柱 ( 都 师 范 大学 信 息 工程 学 院 ,北京 10 3 ) 首 0 0 7
摘 要 : We 面和 用 户 的聚类 算法提 出 了一种 C M 聚 类算 法 。在 该 算法 中 , 模 糊 多重 集的概 念 引入到模 糊 聚类 算 对 b页 AF 把 法 中, 将反 映用户 浏览行 为 的页面点 击 次数 、 留时 间、 停 用户偏 好等 因素 用模糊 多重 集来 综合刻 画用 户访 问站点 的兴趣度 , 再 以此来 建立模 糊 多重相 似矩 阵直接 进行 聚类 。通过 实例说 明 了算法 的具 体计 算过程 和可行 性 。
Ab t a t A t o f l s r ga i m ei a e n f z ymu ts t r p s d wi p lc t nt b p g s l se n n s r l s sr c : me h do cu t i r h tc s do z l e s s o o e t a p ia i we a e u t r ga du e s u — e n t b u i ip h o o c i c
S ONG n W ANG u — h Li , S oz u
(ol e fnomai n ier g ai l r aUn esy e ig10 3 ,C ia C l g fr t nE gnei ,C pt m l i ri,B in 0 0 7 hn) e oI o n a No v t j
0 引 言
We b日志 挖 掘 就 是 从 We b访 问 日志 中 抽 取 知 识 的 过 程 ,
因此 , 文把 模 糊 多 重 集 的概 念 引 入 到 模 糊 聚 类 算 法 中 , 本 用 模 糊 多 重 集 来 综 合 刻 画 用 户 的 浏 览 行 为 ,将 传 统 的 模 糊 相
模 糊 集 是 Z dh在 16 提 出 的 , ae 9 5年 用 表 示 论 域 , =(
…
类事物集合 , 得到确 定 的事物 分类 的过程 。通 过聚类得 到 的
维普资讯
第2 卷 9
VO . 9 12
第1 期
N O. 1
计算 机 工程 与设 计
Co u e n ie rn n sg mp trE g n eiga d De in
20 年 1 08 月
Jn 0 8 a .2 0
基于模糊多重集的 We b页面与用户聚类算法研究
t e p g — l k n mb r we r wsn i , u e ' i tr s, t e l u z i l marx t l se o s u t d i al , a h a e ci u e, c bb o ig t me s rs n e e t h n a mu t f z smi i y  ̄ t o cu tr i c n t ce .F n l i s r y n e a l i e h w o t ea g r h wo k x mp e i g v n t s o h w lo t m r . s o h i Ke r s we o n n ; f z y s t ; f z l se i g f z l s t; f z y mu t smi ma r ywo d : b l g mi i g u z e s u z c u trn ; u z mu t e s u z l i l y y i i  ̄ ti x
似 矩 阵 扩 展 为 模 糊 多重 相 似 矩 阵 , 出 了 一 种 C M 聚 类 算 提 AF 法 (ls r ga tme cbsdo zym lst , 给 出 具 体 的 c t n rh t ae nf z utes 并 ue i i i u i )
对 We 用 户 网络 访 问 行 为 进 行 分 析 挖 掘 , 从 中获 得 有 价 值 b 并 的 有 关 网 站 访 问使 用 情 况 的模 式 知 识 。 关 We 有 b日志 挖 掘 的
方 法 有 许 多 , 中 聚 类 分 析 技 术 是 其 核 心 之 一 。所 谓 聚 类 是 其 指 根 据 一 定 规 则 , 照 事 物 某 些 属 性 , 理 地 划 分 给 定 的 未 分 按 合
实例 来说 集 及模 糊 相 似 矩 阵 .