Web信息挖掘现状及应用前景
基于web数据挖掘技术——-web内容挖掘设计与实现

摘要WWW"是个丌放的全球性资源,它是世界上最丰富和最密集的信息来源。
随着WWW上信息的爆炸性增长,在如此海量的数据中发现有用的信息变得越来越困难。
数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。
充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术撮重要的应用。
因此,采用数据挖掘技术从WWW上提取隐含的、未知的、非平凡的及有潜存心用价值的信启、,具有十分重要的现实意义和广泛的应用前景。
本文首先简要论述了WWW发展的基本现状以及当前存在的一些问题。
随后,简要介绍了数据挖掘技术的基本概念、原理,接着,概要的介绍了本文对于Web数据挖掘所用到的技术一Java和XML技术,在此基础上研究了数据挖掘技术在WWWL的应用,针对Web数据内容挖掘进行了详细地论述。
文中通过一个具体的案例详细论述了实现Web数据内容挖掘的一种方法以及对该方法的分析。
最后,对全文进行了总结。
关键词:WWW,Web数据挖掘,XMLAbstractTheWorldWideWebisadistributedglobalinformationresourcecontainingalargeamountofdatarelevanttoessentiallyalldomainsofhumanactivity.GiventhehjghrateofthevolumeofdataavailableontheWWⅥifindingusefulinformationinsuchalargeamountofdatabecomesamoredifficultprocesseveryday.DataMiningisthetermgiventOtheautomateddiscoveryofnon—obvious,potentiallyusefulandpreviouslyunknowninformationfromlargedatasources.SoobtainingvaluableinformationbyDataMiningtechniquesintelligentlyandautomatically,improvingefficiencyoftheWWWhastremendousapplicationvalues.Inthispaper,wefirstgenerallyintroducetheimprovementofWWWandsomeproblemsunsolved.Andthenwedescribethebasicconceptsandtheoriesofdatamining.ThefollowingisdissertatedtheapplicationofdataminingtechniquestotheWoi’ldWideWeb,anddiscussindetailthecontent、characteristic、problemsunsolvedotlwebconteNminingandwebusagemining.Andthen,wegenerallyintroducethetechniquesofuseforDataMininginthepaper勺aVaandxml.Throughaconcretesample,wedescribeindetailoneofthemethodthatrealizeWebDataMining.Finallywemakeaconclusionofthepaper.Keywords:∥烀?彤WebDataMining,XML独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。
计算机Web数据挖掘技术在现代商业中的应用

可 以按 各 种 客 户指 标 ( 自然 属 性 、收 入 贡献 交 易额 、价 值 度 等 ) 如 对 客 户 分类 ,然 后 确 定 不 同类 型 客 户 的行 为模 式 以便 采取 相应 的营 销 措施 ,促 使企 业利 润 的最 大化 。 比如通过数据挖掘可以发现购买某种商品的消费者是男性还是 女 性 ,学 历 、收 入 如 何 ,有 什 么爱 好 是 什 么职 业 等等 。甚 至可 以发 现 不 同 的人 在 购 买 该种 商 品 的相 关 商 品后 多长 时 间 有可 能 购 买 该种 商 品 以及什 么 样 的人 会 购 买什 么型号 的该 种 商 品等等 。也
的是有 时信 息资源 不仅 限于在 线 We 文 档 ,还包括 电子 邮件 ,电子 断 深入 人心 ,分 析 客 户 、 了解 客 户 并 引导 客户 的需 求 已 成 为企 业 b 文档 ,新 闻组 ,或 者 网站的 日志数 据甚 至是通 过 We 形 成的 交易数 经 营 的重要 课 题 。 通过 对 电 子商 务 系统 收 集 的交 易数 据 进行 分 析 , b
1 We 挖掘 的流程 b We b数据 挖掘就 是利 用数 据挖 掘技 术从 网络 文掘 的有 以下几 个过 程 b
.
以下 几 个 方面 的应 用 :
() 1 资源发 现 。任务 是从 目标 We 文档 中得 到数 据 ,值得 注意 b
() 1 分析查 找 获得 潜在 客 户 。随 着 以客户 为 中心 的经 营理念 不
用 户 特 征 的 理解 和 分 析 ,如 对 用 户访 问行 为 、频 度 , 内容 等 的分 至 能否 根 据 发现 的 用 户 。 自动 为用 户 定制 网页 ,从 而提 供 个 性化 析 ,提 取 出 用户 的特 征 从 而 为用 户 定 制 个 性化 的界 面 ,有 助 于 的信 息 检 索和 查 询服 务 。 开 展 有 针 对 性 的 电子 商 务 活动 。 3 We 挖掘 在 电子商 务 中的应 用 b 目前 对于 ,We b挖掘 的对象 和使 用 的方法层 出不 穷 ,但 随着 电 二 、We 挖 掘流 程 以及特 点 b 子 商务 网 站的兴起 ,电子 商务将 是未来 We b挖掘 的主要 发展方 向之 因此 它在 各 种 商业 领 域 都 存 在 广泛 的使 用 价 值 。 在 当 电 子商 和 提取信 息 。与传 统数 据和 数据 仓库 相 比 ,W e b上 的信 息 是非结 构 务 在企 业 中得 到 应 用 时 ,企 业 信 息 系 统将 产 生 大 量 数 据 ,这 些海 化或 半 结 构 化 的 、动 态 的 ,并 且 是 容 易造 成 混 淆 的 ,所 以很 难 直 量 数 据使 数 据 挖 掘 有 了丰 富 的数 据 基 础 ,同 时高 性 能 计 算机 和高 接 以We b网页 上 的数据 进 行 数据 挖掘 ,而 必须 经 过必 要 的数 据处 传 输速 率 网络 的使 用 也给 数 据 挖 掘 技 术提 供 了坚 实 的保 障 。介 绍
网络(WEB)挖掘方法及其最新进展

Ke ywod : aam nn wol r sd t i ig, rdwiewe we m iig, bc ne t ii , b K g d b, b nn we o tn m nn we L o emii g  ̄ nn g
引言
互联网 目 已成为人们获取和发布信息的主要 前
发现和分析: 一方面 , 这个定义描述了对互联网或网
刘 路 刘朝明2
(. 1 桑德兰大学计算技术学院, 桑德兰 , 国 ; 英
2 西南交通大学经济管理学院 , . 成都 6 03 ) 10 1
摘 要: 数据挖掘和 国际互联 网是信 息社会 两大重要 而有 意义的领域 。这 两个领域 的结合 就是 网络挖 掘。 网络挖
掘一般可以分为两种不同的方法: 一是网络内容挖掘。 即从互联 网的各种资源中检 索和提取信息的过程; 二是 网络
文档和服务中发现和提取信息 的过程。结合 已有 的
上服务的信息和资源 的 自动搜索 和检索 , 这个过程 称之为网络内容挖掘 , 目标是在 网页或其他网络 其 资源中 自动发现模型和模式 ; 另一方面, 上述定义描 述了从网络服务器或在线服务 中发现、 分析网络使
用者的访问模式 , 这个过程称之为网络使用挖掘, 其 目的是获取用 户对于数据 资源应用的 网络行为方
维普资讯
第 1期 第2 8卷 20 0 6年 2月 6 —7 6 1页
世 界科技研 究与 发展
W ORL S . ECH D CIT R& D
V0. 8 12
No. 1
F b2 0 P 6 e .0 6 P.6— 7 1
网络 ( E 挖 掘 方 法及 其 最 新 进 展 W B)
使 用挖掘 。 指挖掘 网站访 问方式或其他 网络用 户信 息的过程 。本 文主要讨论 了 WE B网络挖掘 , 包括有 关 网络挖掘 的多种研究 问题 、 究技 术、 究工具以及网络 内客挖掘和 网络使 用挖掘方 面的最新进展 。 研 研
Web数据挖掘技术及应用

息, 是数 据挖 掘技 术 在 We 境 下 的应 用 。它 是 一 b环
项综合技术 , 涉及网络技术 、 算机语言学 、 计 信息统
计 学 、 据挖 掘 等学科 。 为 电子 商务 的 主要 应用 技 数 作 供 强有 力 的支持 和可 靠 的保 证 。
2 We b数 据挖 掘 的分 类
0 引 言
we 据挖 掘 , 从 大量潜 在 的 We b数 是 b文档 和相
电子 商务 的快 速 推进 , 各 企 业 产生 了 巨量 的 使
关数 据 中发 现 、 取人 们感兴 趣 的 、 提 有用 的规律 或 信
业务数据。 在这些数据 中隐藏着许多重要信息 , 如何
能将这 些信 息从 数据 库 中抽 取 出来 ,供 企业 决策 者 分析参 考 ,以便科 学合 理 地制 订 和调 整营销 策 略, 为
& T c oo su J n x n h n 3 0 5 eh lg Mue m, i g i c a g 0 2 ) n y a Na 3
摘
要 : b数据 挖 掘技 术 在 电子 商务 中的应 用越 来越 广 泛 , 已成 为 现代 电子 商 务企 业获 取 市 场信 息 We
极为 重要 的工具 。本文 简 要介 绍 了 We b数据 挖掘 的定 义等 相关 内容 , 并对 We b数据 挖掘 技 术在 电子 商务领
可分为 We 文本挖掘和 We 多媒体挖掘 ,分别对 b b
3 查询数据 . 5
应 We 站点上的文本信息和多媒体信息。 b 2 b .We 结构挖掘 2
是挖掘 We 潜在的链接结构模式 , b 可以总结网 站 和 网 页 的结 构 , 现 网 页之 间 的联 系 , 对 We 发 是 b
基于Web的数据挖掘技术研究综述

说 We b挖掘 的对象可分 为 内容挖 掘 、访 问信息挖掘 和结 构挖
掘。
页 ,权威 网页往往对于某一主题包含 比较多 的用户所需要 的信
息 , 常 有 许 多 指 向 它 的链 接 。 导 网页 虽 然 不 一 定 包 含 很 多某 常 引
Ke y w o dso e ve ; a e i n tc oo ; eb r :v r iw d t m nig e hn lg W y
数据 库 中 的知识 发现 K D f K o l g Dsoe i D nwe e i vr n d c y D tbss 是指从数据库中发现潜在 的有意义的未知的关 系模 a ae 1 a 式和趋势, 以易被理解的方式表示 出来 。 并 但传统 K D 技术所 D 涉及的主要是结 构化 的数据 库 ,而网上 资源却 没有统一 的管理 和结构 , 数据往往是经常变动和不规则的 , 因此人们需要 比信息 检 索层次更高 的新 技术,我们 称之为 We b中的知识发现 K W D
W ANG Jn ig
(nen t n lColg ;C nrlS uh Unv ri fF rsr n e h ooy,Hu a h n s a 410 4) Itrai a l e e t o t ies y o oet a d T c n lg o e a t y n n C a gh 0 0
要 的一 种 。
接 。H T ( y e ik n ue T pc Sac ) IS H prn Id cd oi erh 算法就是这样一 l 个通过分析权威页面和引导页面进行 We b结构挖掘的算法 。使
Web使用挖掘研究分析

上 的信息不仅对个人重要 , 而且对商业组织也很重 要, 尤其是 当需要做 出重大决策的时候。It e 网 nr t e n
的迅猛发展和广泛普及 , 使得 We b的信息量 以惊人 的速度增加 , 大量信息在给人们带来方便 的同时也 带来 了许多问题 : 一是信息过量 , 以消化 ; 难 二是信 息真假难 以辨识 ; 三是信 息安全难 以保 证 ; 四是 信
息 形式 不 一 致 , 以统 一 处 理 。 因 此 , 们 迫 切 需 难 人
图 1 We b挖掘 分 类 图
要能 自动地从 We 发现、 取和过虑信 息的工 b上 抽
具, 由此 便产 生 了 We 掘 。 b挖 We 掘是 从 We b挖 b文档 和 We 动 中发 现 和 b活
Wa gY j o n ui a
( eat n f o p tr Ifr a o nier g H b i o m n a o s ehia C l g , h n4 07 ) D p r t m ue & nom t nE g e n , u e C m u i t n cncl o ee Wu a 30 9 me o C i n i ci T l
的分类情况, 包括研 究成果和商业应用等 , 并提供 了目 前所开展工作的最新总结。 关键词 : b挖掘 ; b使 用挖掘 ; We We 万维 网
Re e r h a d a l ss b s d n W e s g i i g s a c n na y i a e o b u a em nn
Absr t: e s g n n sa meho fa p yn aa m ni gt c i u o d s o e s g at r sfo W e — tac W b u a e mi i g i t d o p li g d t i n e hn q e t ic v ru a e p te n r m b da a t ,S e n e so e b s p lc to sc n b n e so d a d s r e e t O t e d fW b— a e a p i ai n a e u d rto n v d b s.W e s g n n o ssso r p — h e b u a e m i g c n it fp e r i o c s i g,patr ic v r d patr n l ss e sn te d s o e y a te a ay i .Du o is g o p lc t n p t n i ,W e s g n n s b e n n n e t t o d a p i ai oe ta o l b u a e m i g ha e n i a r p d i c e s n e e tboh i e r t y a d i r ci ec mmunte .Th t i d tx n my o ewo k i i a i n r a e i tr s t n t o sud n p a tc o h y n i s i ede l a o o ft r n t s a e h h a e si to u e r a i n r d c d,ic u i g r s ac fo t ,c mme ca fei g t n d t e u t — t u nn r ft e e itn n l d n e e r h e rs o r i o rn se c,a p—o dae s n 'ay o xs g l h h i
Web挖掘的现状和展望

4 ) 有一个明显 提高 网络 质量 的方 法 : 增加 带宽 。但 也 会
仓库 n o s 、M i c r o s . 数据传输
P i 1 0 I 、
情况。
t r a t e g y
、
研究重点 。有些数据挖掘的方法 已经用于挖掘 We b中的隐藏 信息 , 然 而, We b 挖掘不 只是用数据挖 掘的技术在 We b中存 储 数据 , 还 必须修 改算 法来更 好满 足 网络 的特殊 需求 l I J 。新 方
0 引 言
这些技术在 当前数据仓库环境 中变 得叮行
表 1 We b 挖 掘 的演 化 过 程 演化过程 商业问题 可行技术 产品提供 商 特征
数据收集 过去五年 公司 计 算 机、 磁 ( 1 9 6 0 年代 ) 的总收入? 带、 磁盘 I B M 、 C D C
以及未来趋势 。介绍 了 we b内容挖掘 、 We b日志挖 掘 , 还有被视为 We b挖掘未来的云计算挖掘。 关键词 : we b 挖掘 ; We b内容挖掘 ; We b结构挖掘 ; We b日志挖掘 ; 云计算挖掘
d o i : 1 0 . 3 9 6 9 / j . i s s n . 1 0 0 6 —8 5 5 4 . 2 0 1 3 . 0 3 . 0 3 6
技 术 研 发
Vo 1 . 2 0。 N o. 3 。 0 l 2 3
We b挖 掘 的 现 状 和 展 望
郑 弦
( 四川 大学 计 算机 学 院 , 四川 成都
摘
6 1 0 0 6 5 )
要: 概述 了如何在 网络 中获取有 用信 息, we b 挖掘 的基 础知识及其 相关 比较 。阐述 了 b挖掘 的发展过 程、 现状 ,
浅谈Web数据挖掘技术的应用

数据挖掘技术是从 大量 的、不完全 s t r u c t u r e mi n i n g )以 及 We b 用 法 挖 掘 的 、有 噪声 的 、模糊 的、随机的数 据 中 ( We b u s a g e mi n i n g ) 。 提 取 出未 知但又存在 的有价值 的信息 。 那么又如何 在这样 的数据 中寻找规律 并 且快捷 的得 到这些有 价值 的信息就成 为 了 焦 点 话 题 。We b作 为 一 个 巨 大 的、
l e v e r 和 G o o g l e搜 索 引 擎 数据 形式。因此具有多样复杂性 的特点。 权 重 。 比如 C
的应 用 ,主要 表现 在对 网络服 务
性能上的提 高,以及给 电子商务
企 业等 带来 的影 响和其 他领 域 的
应用 。
2 W e b 数据挖掘的分类
【 关键 词 】数据挖掘 W e b 技术 应用 W e b 挖掘
由此 可 见 We b数 据 量很 大 , 并且
务的数据资源 以外 ,还存在很多 We b数 类型复杂 。对 数据源 处理 方法 不同可 以 b使 用记 录 挖 掘 分 成两 类 :第 一 据 是 隐藏性 的 ,例如 由用户提 问动态产 将 We 生的结果 ,或者数据 库管理 系统 中的数 类是将记录 中的数据 统计到传统 关系表
2 . 1 内容 挖 掘
2 . 3使 用 记 录挖 掘
We b使用记录挖掘在 电子商务领 域 是很重要 的,可 以通过挖掘 We b日志记 录 ,对用户访 问 We b页面的记录 中分析
We b内容 挖 掘 就 是 从 We b数 据 或 规律 ,这样 就可 以获取到用 户的喜好 、
据 以及私 人数据 ,就 无法进行 索引 。综 中 ,使用数据 挖掘算法对 其进行分 析挖
数据挖掘在Web中的应用研究

数据挖掘在Web中的应用研究摘要:web中的数据挖掘技术是一种新型的技术,web自身的特点,决定了web数据挖掘技术具有更多的特点,而且应用也非常广泛,不仅能够提取页面的信息,进行站点设计分析,而且在电子商务方面也具有非常广阔的应用前景。
本文对数据挖掘技术在web中的应用进行分析。
关键词:数据挖掘技术;web应用;网络技术中图分类号:tp352 文献标识码:a 文章编号:1007-9599 (2012)18-0000-02随着网络技术的快速发展,网络上数据资源的越来越丰富,人们迫切需要将这些数据转换成有用的信息和知识,进而促生了数据挖掘(data mining,dm)和知识发现(knowledge discovery,kd)领域。
信息技术的发展,对web应用提出更高了要求,为了能够满足人们对信息获取的要求,研究基于web的数据挖掘技术,以便人们能够更加智能、更加自动地抽取数据以及信息中的知识。
1 数据挖掘技术相关概述1.1 基本概念数据挖掘技术主要是指寻找隐藏在大量数据中有价值的信息,从中寻找其规律,揭示出隐含的、具有潜在价值的知识,从而为决策支持提供有力依据的过程。
数据挖掘的目标主要包括特征、趋势以及相关性等多个方面的信息。
随着网络应用的普及,网络中信息量迅速增加,传统的知识发现(kdd:knowledge discovery indatabases)技术和方法已经不能满足人们从web中获取信息的需要,基于网络技术提供对各类数据的深层次实时分析,提供决策支持服务,就使得基于web的数据挖掘技术应运而生,这种技术将传统的数据挖掘和web应用技术相互结合起来,实现高度自动化的分析和归纳性的推理。
图1为web数据挖掘原理流程:2.3 在购物网站的应用web数据技术采用web-dms系统可以构建一个基于web 的挖掘的购物网站和交易环境,还能够充分利用站点上积累的信息,从而更好地服务于企业和客户。
在购物网站中采用web 数据挖掘技术不仅能够通过了解购物者的行为习惯,选择提供最佳的服务方式、消费习惯,还能够分析购物者的个人爱好[3],从而提供更加贴切的商品推介。
基于Web的网络信息挖掘技术研究

基于 We b的 网络 信 息 挖 掘 技 术研 究
高 敏,俊, 艳 立 李 肖 芹
(qJ, 、 t t 大 :汁 解 l . .'l :Jl  ̄ - 1 , , L保 定 0 1 0 ) f f I 7 0 2
Hale Waihona Puke GAO i ni, I u , AO n i L — l L . XI n J Ya —qn
。
( mp trCe tro b i iesy Ba dn 7 0 2 Chn ) Co u e ne f He e Unv ri , o ig0 1 0 , ia t
Abs r c :I hi p p r hese fW e t a t n t s a e ,t tpso b—bae nf m ai i ng tc ol y a e d s r d i e alw ih as ac n tnc hih i — s d I or ton M ni e hn og r e ci be n d ti t e r h i sa ew c sde sg d b ut rfrt ine y a ho sl i y,a d o hi b ss he k y tc olgisu e n t nf m ain i ig r ic se n n t s a i,t e e hn o e s d i he i or to m m n a e ds u sd.Fi l nal y,t e pr s e to p i h o p c fa pl- c ton oft e i onnai i i e hnoog spu or a d ai h nf ton m nng t c l y i tf w r
WEB数据挖掘及其在电子商务中的应用

20 0 8年 第 1 期
福
建 电脑 17 来自 WE . B数据挖 掘及 其在 电子 商务 中的应 用
r . 阳 理 工 学 院 河 南 南 阳 4 3 0 . 南 1 704 2 州 交通 大 学 甘 肃 兰 州 7 0 7 .兰 3 0 0)
赵 焕 平 仝 选 悦 0
【 摘
用。
要】 随着互联 网信息的增长 , B挖掘 已经成 为数据挖掘研 究的热点之 一, : WE 尤其适 用于电子 商务领域 。 中介绍 文
了 w b数 据 挖 掘 的 概 念 和 分 类 . 阐述 了 W b挖 掘 在 电子 商 务 中的 挖 掘 方 法 和 过程 , 析 了数 据挖 掘 在 电子 商 务 中的 具 体 应 e e 分
面. 开展 有 针对 性 的 电子 商 务 以更好 的 满 足访 问者 的 需求 。
2WE . B数 据 挖 掘 概 述 2 1 B 数据 挖掘 的定 义 . WE
2知 识 发 现 : 于 人 工 智 能 和 机 器 学 习 , 用 数 据 搜 寻 过 . 源 利 程 . 到 一 个 有 意义 的 数 据 模 式 . 中 可 以发 现 规 律 , 体 的 方 得 从 具 法 有 人 工 神 经 网络 、 策树 方 法 、 传算 法 、 则 推 理 等 。 决 遗 规
售策略。 22 据 挖 掘 的分 类 .数 We b数 据 有 三 种 类 型 : nl 记 的 We Ht 标 l b文 档 数 据 , b文 33电 子 商 务 中 WE We . B数 据 挖 掘 的过 程 档 内连 接 的结 构 数 据 和 用 户 访 问 数 据 。按 照 对 应 的数 据 类 型 . 电 子 商 务 中 的数 据 挖 掘 的过 程 一 般 由 以下 几 个 主 要 的阶 段 We b挖 掘 可 以分 为 三 类 : 组成 : 据准备、 掘操作、 果表达和解释。 数 挖 结 1 b内容 挖 掘 : 是 从 We . We 就 b文 档 或其 描 述 中筛 选 知 识 的 1数 据 准 备 : b数 据 挖 掘 的 数 据 来 自两 个 方 面 : 方 面 是 . We 一
Web数据挖掘在电子商务的应用

Web数据挖掘在电子商务的应用1电子商务中的数据挖掘简介电子商务中的数据挖掘即Web挖掘,是利用数据挖掘技术从www的资源(即 Web 文档)和行为(即Web服务)中自动发现并提取感兴趣的、有用的模式和隐含的信息,它是一项综合技术,涉及到Internet技术学、人工智能等多个领域。
当电子商务在企业中得到应用时,企业信息系统将产生大量数据,并且迫切需要将这些数据转换成有用的信息,为企业创造更多潜在的利润,数据挖掘概念就是从这样的商业角度开发出来的。
2Web数据挖掘的流程Web数据挖掘是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取商业决策的关键性数据,可以使企业把数据转化为有用的信息帮助决策,从而在市场竞争中获得优势地位。
在电子商务环境下,Web数据挖掘主要分为以下儿步:(1)数据收集。
首先数据收集主要针对web数据中的服务器数据、用户数据。
其中服务器数据是Web挖掘中的主要对象。
服务器中承载着用户访问时产生的对应的服务数据,其中包括了:日志文件、cookie文件、数据流。
将这些数据进行初步收集,再针对这些数据进行深度分析挖掘。
(2)数据选择和预处理。
通过数据收集将数据进行分类,根据所需的信息主题对收集的数据进行选择,通过选择相关的数据项缩小数据处理的范用,挑选其中的有效数据进行数据预处理。
数据预处理能够提高挖掘效率,为之后的数据分析提供有效的数据。
Web数据中大多数都是半结构或非结构化的,所以对web数据进行直接处理是不可行的。
数据预处理能够把半结构或非结构化的数据处理成标准的数据集方便后期处理。
(3)模式发现。
模式发现是运用各种方法,发现数据中隐藏的模式和规则。
通过模式发现技术对预处理之后的数据进行处理得到相应的事务数据库,利用模式发现对数据进行初步挖掘,将预处理下的事务数据转换成可被挖掘的存储方式,通过数据挖掘模式算法对其中有效的、新奇的、有用的及最终可以理解的信息和知识进行挖掘与总结。
基于软计算的Web挖掘研究进展与前景

We b结构 挖掘 ( M) We WS 和 b使用挖 掘 ( WUM) 。We b挖掘 一 般认 为 由4部 分组成 , 图 1 l如 所示 。
健壮 的和低 代价的解 决方案 , 类似人 的决策过程 软计算技
术 包 括 模 糊 逻 辑 (uz o i, L 、 糙 集 ( g tR ) 人 F zyL gc F ) 粗 mu s , S 、 i f e
Байду номын сангаас域 来 进 行 探 讨 。 b 掘 可 分 为 3类 : b内容 挖 掘 ( M) We 挖 We WC 、
软计算是 一组协 同的方法 , 它提供 一种处理现 实 中模糊
状 态信息灵活处理 能力 。它们 的 目标是通 过探索不精 确、不
确 定、 似推理和 局部正确 的最大可 能限度 , 到易理解 的、 近 达
基于软计算的 We 挖掘研究进展与前景 b
易高翔 , 胡和 平
( 中科技 大学 计算机 科 学与技 术 学院 ,湖 北 武 汉 407) 华 304
摘 要: 概迷 了We 挖掘 的组 成部 分 、 类和现 状 , 出了现有 一 些 We b 分 指 b挖掘 方法 的局 限。介 绍 了 目前 比较 新 的技 术 一 软
计 算技术 , 总结 了软计 算技 术在 We 挖 掘 中的应 用。We 数据 的 固有无标 记 、 b b 不精确 、 构性 和动 态性 , 异 处理人 与机 器 的交 互, 上下文敏 感性和 近似 查询 , 个性化 学 习, 计算都 是很合 适 的解决 方法 软 关键 词: 软计 算;We b挖掘 ;粗糙 集;模糊 集 中图法分类号 :P 8 T I 文献标 识码 : A 文章编号 :0 07 2 20 ) 010 -3 10.04(0 6 1-8 50
Web数据挖掘技术及应用研究

(, 武汉理工大学: 2 . 南阳师范学院计算机与信息技术学院) 要: W e b 数据挖掘是目前信息技术中的研究热点,它是现代科学技术相互渗透与融合的结果。本文介绍了W e b 数据挖
文章编号: 16, 379 1(2007)05(b )一 5一 1 2一 冈, 0
李争 . , 艳,
1 引言 随着I t rne 的飞速发展, ne t Web 上的数 据资源空前丰富,在这些大量、异质的 W e b 信息资源中,除了丰富的各种文本、 图形图像、声音等煤体信息外,还包含了 大量的常被人们所忽视的链接结构信息以 及存在于服务器上的用户使用记录信息,
这些庞大的数据包含了非常丰富的有用信 息,构成了数据挖掘的巨大数据来源,蕴 藏着具有惊人潜在价值的知识. 数据挖掘就是从大量的数据中发现隐 含的规律性的内容,解决数据的应用质量 问题。充分利用有用的数据 ,废弃虚伪无 用的数据,是数据挖掘技术的最重要的应 用。相对于We b 的数据而言,传统的数据 库中的数据结构性很强,即其中的数据为 完全结构化的数据,而 W e b 上的数据最大 特点就是半结构化。显然,面向We b 的数 据挖掘比面向单个数据仓库的数据挖掘要 复杂得多。
在网站设计方面的应用,主要是通过对 网站内容的挖掘,特别是对文本内容的挖 掘,可以有效地组织网站信息,如采用自 动归类技术实现网站信息的层次性组织。 通过对用户访问日 志记录信息的挖掘,把 握用户感兴趣的信息,从而有助于开展网 站信息推送服务以及个人信息的定制服务, 吸引更多的用户。
3 2 在搜索引攀中的应用
1 丁技 术
20O7 NO . 1 4 义 〕 NC E & T〔 卜 汇 !E C 小 汇() 〕 INF 以刁 A T1 N Y M 0
面向Web的数据挖掘技术

面向Web的数据挖掘技术[摘要] 随着internet的发展,web数据挖掘有着越来越广泛的应用,web数据挖掘是数据挖掘技术在web信息集合上的应用。
本文阐述了web数据挖掘的定义、特点和分类,并对web数据挖掘中使用的技术及应用前景进行了探讨。
[关键词] 数据挖掘web挖掘路径分析电子商务一、引言近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。
数据挖掘是面向发现的数据分析技术,通过对大型的数据集进行探查。
可以发现有用的知识,从而为决策支持提供有力的依据。
web目前已成为信息发布、交互和获取的主要工具,它是一个巨大的、分布广泛的、全球性的信息服务中心。
它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和其他许多信息服务。
面向web的数据挖掘就是利用数据挖掘技术从web文档及web服务中自动发现并提取人们感兴趣的、潜在的有用模型或隐藏的信息。
二、概述1.数据挖掘的基本概念数据挖掘是从存放在数据库、数据仓库、电子表格或其他信息库中的大量数据中挖掘有趣知识的过程。
数据挖掘基于的数据库类型主要有: 关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、internet 信息库以及新兴的数据仓库等。
2.web数据挖掘web上有少量的数据信息,相对传统的数据库的数据结构性很强,即其中的数据为完全结构化的数据。
web上的数据最大特点就是半结构化。
所谓半结构化是相对于完全结构化的传统数据库的数据而言。
由于web的开放性、动态性与异构性等固有特点,要从这些分散的、异构的、没有统一管理的海量数据中快速、准确地获取信息也成为web挖掘所要解决的一个难点,也使得用于web的挖掘技术不能照搬用于数据库的挖掘技术。
因此,开发新的web挖掘技术以及对web文档进行预处理以得到关于文档的特征表示,便成为web挖掘的重点。
Web数据挖掘研究综述

要 从这 些数据通 信中进 行数据 提取 。其任务是从 目 标 We b文档 中得到数据 。值得注意的是 , 时信 息 有 资源不仅限于在线 We 文档 , b 还包括 电子邮件 、电
子文档、新 闻组 ,或者 网站的 日志数据甚至是通过
We b形成的交易数据库 中的数据 。 22 .信息选择和预处理 :从 目标数据集中除去明
维普资讯
山东 纺 织 经济
20 年 第 1 ( 08 期 总第 1 3期) 4
W eb 数 据 挖 掘 研 究 综 述
李 森 1 胡学钢 ’ 李正吉 .
安徽合肥 200 ; 30 9 2 14 ) 60 1
( 1合 肥 工 业 大 学计 算 机 与信 息 学院
显错误的数据和 冗余的数据 ,进一步精简所选数据
的有效部 分 ,并将数据转换成有效形式 ,以使数据
开采算法 ( 包括选取合适 的模 型和参数 )寻求感兴
趣 的模型 。 其任务是从取得的 We 资源 中剔除无用 b 信息和将信息进 行必要的整理 。 例如从 We 文档 中 b 自动去除广告链接 、去 除多余格式标记 、 自动识 别 段落或者 字段并将数据组织成规整 的逻辑形式甚至
24 . 模式分析 : 发现的模式进行解释和评估 , 对 必要时需 返 回前面处 理 中的某些 步骤以反 复提 取 ,
We 数据挖掘过程是一个完整的KD b D过程 , 但 与传统数据和数据仓库相比 , b we 上的信息是非结 构化或半结构化的 、动 态的、并且是容易造成混淆
的 , 以很难直接 以We 网页上的数据进行数据挖 所 b
2 山 东信 息职 业技 术 学 院信 息工程 系 山 东潍坊 摘
要 :随 着 ee/ e技 术 的快速 普 及和迅 猛 发展 ,各 种 信 息可 以以非 常低 的成 本在 网络上 获 rt wb n
Web数据挖掘技术及其应用

福
建 电
脑
20 0 8年第 1 期 1
We 据挖 掘 技 术 及 其应 用 b数
陈林 凯
(江 苏技 术 师 范 学 院 江 苏 常 州 2 3 0 10 1)
【 摘 要】 目前 We : b上存 有大量的数据信 息,如何 对这些数据进行有效 的应 用 已经成 了当前数据 库技 术研 究的重点 。
中的 知识 。 2 WEB数 据挖数 据 消 除 、 据 模 式 抽 取 、 间 形 式 表 示 、 重 数 中 异 构 集 成 、 本 分 类 和 聚 类 、 档 总 结 和 结 构 提 取 、 据 仓 库 及 文 文 数 OA L P等 几 个 方 面 , 其 是 基 于 X 尤 ML的上 述 专 题 研 究 。 32We . b结 构 挖 掘 We b结 构 挖 掘 是 从 w w上 的 组 织 结 构 和 链 接 关 系 中推 导 w 知识 。 由 于 超 文 本 文 档 问 的关 联 关 系 , 得 w w不 仅 可 以揭 示 使 w
文档 中所 包 含 的信 息 . 同时 也 可 以揭 示 文 档 间 的关 联 关 系所 代 表 的信 息 。 用 这 些 信 息 可 以对 页 面进 行 排 序 。 发 现 重 要 的 页 利 来 21 b数据 挖 掘 概 述 .We 面 。挖 掘 We b结 构 的 目的 是 发 现 页 面 的 结构 和 We b结 构 。 次 在 数 据 挖 掘( a nn) D t Miig就是 从 大 量 的 、 完 全 的 、 噪 声 的 、 基 础 上 对 页 面进 行 分 类 和 聚 类 从 而 找 到 权 威 页 面 P g— ak a 不 有 ae R n 模 糊 的 、 机 的 实 际 应 用 数 据 中 , 取 潜 在 的 、 为 人 知 的 有 用 方 法 就是 利用 文档 间链 接 信 息 来 查 找 相关 的 We 随 提 不 b页 。 信 息 、 式 和 趋 势 。We 模 b数 据 挖 掘 从 数 据 挖掘 发展 而 来 . 利 用 是 We 结 构挖 掘 的 基本 思想 是将 We b b看 作个 有 向 图 . 的顶 他 数据挖掘技术从 we b文 档 及 We b服 务 中 自动发 现并 提 取 人 们 点 是 We b页 面 ,页 面 间 的 超 链 就 是 图 的 边 。 然 后 利 用 图 论 对 感 兴 趣 的 信 息 . 数 据 挖 掘 技 术 应 用 于 We 息 的一 个 崭 新 领 We 是 b信 b的 拓 扑 结 构 进 行 分 析 。常 见 的 算 法 有 H T y et t n IS f p r x I- H e 域 。 由于 We 信 息 的 特 殊 性 . 与 传统 的数 据挖 掘 相 比 又 增 添 d cdT pcSac)Pg R n 、 现 虚 拟 社 区 的 算 法 、 现 相 似 b 它 ue oi erh、ae a k 发 发 了新 的特 质 。首 先 We b挖 掘 的 对 象 是 大 量 异 质 分 布 的 We b文 页 面 的算 法 、 现 地 理 位 置 的算 法 和页 面分 类 算 法 。 b结 构 挖 发 We 档, 每个 数 据 源都 是 异 构 的: 次 We 其 b文 档 本 身 是 半 结 构 或 无 结 掘 的算 法 一 般 可分 为查 询 相 关 算 法 和 查 询 独立 算 法 两类 。查 询 构 的 而且 缺乏 机 器 可 理 解 的 语 义 相 关 算 法 需 要 为 每一 个 查 询 进 行 一 次 超 链 分析 从 而 进行 一 次值 2 We 数 据 的特 点 . b 2 的指 派 , 查 询 独 立 算 法 则 为 每个 文档 仅 进 行 一 次 值 的指 派 。 而 对 221 据量 巨大 _ 数 . 所 有 的查 询 都 使 用 此 值 。H T IS和 P gR n ae ak分 别 是 查 询 相关 算 It t 分 布 在 世 界 不 同位 置 的 电脑 f 务 器1连 接 了 起 法 和查 询 独立 算 法 的代 表 n me 把 e 服 来 , 个 电 脑 上都 存 有 丰 富 的数 据 . 此 数 据 涉 及 各 种 不 同 的 行 33We 用 的挖 掘 每 这 . b使 业 和 领 域 ,又 由 于 连 接 于 It nt 电脑 数 量 非 常 巨大 。所 以 ne e 的 r We 使 用挖 掘 又 叫使 用 记 录 挖 掘 . 指 通 过 挖 掘 We b 是 b日志 We b挖 掘 所 处 理 的 数 据 非 常 大 。 来 发 现 用 户 访 问 We b页 面 的模 式 在 We b的 用 户 使 用 信 息 的 挖 2 . 构 数据 库 环 境 . 2异 2 掘 中 , 述 用 户 访 问 信 息 的 数 据包 括 : 描 I 址 、 考页面、 问 日 P地 参 访 每 个 We b站 点 都 可 以看 作 是 个 数 据 源 。 由于 各 站 点 是 相 互 期 和 时 间 、 户 的 站 点 以及 配 置信 息 。 户使 用 的挖 掘 通 常 采 取 用 用 独 立 的 . 问 除 了 可 以 互 相 访 问 之 外 并 没 有任 何关 系 . 以每 个 下 面 三 个 步 骤 : 1数 据 预 处 理 。 这是 用 户 访 问 信 息 最 关 键 的 阶 之 所 ( 1 站 点 之 间 的信 息 及 信 息 组 织 方 式 都 是 不 相 同的 .这 就 构 成 了一 段 , 据 预 处 理 包 括 : 据净 化 、 户识 别 、 务 识 别 等过 程 。 ( 数 数 用 事 2 ) 个 巨 大 的 异构 数 据 库 环 境 模 式 识 别 阶段 。该 阶段 采 用 的方 法 包 括 : 计 法 、 器 学 习 和 模 统 机 22 .3半 结 构 化 的数 据结 构 . 式 识 别 等 .其 实 现 的 主 要算 法包 括路 径 分 析 技 术 和 数 据 挖 掘 的 We 的 数据 与传 统数 据库 中 的数 据 不 同 之处 还 在 于 传 统 传 统 算 法 。 b上 如关 联 规 则 挖 掘 算 法 、 列 模 式 挖 掘 算 法 等 。 径 分 序 路 数 据 库 都 有一 定 的模 型 .可 以根 据 数 据 模 型来 对 具 体 的数 据 进 析 可 以用 来 发现 We b站 点 最 常被 访 问 的 路 径 . 而 可 以 调 整 站 从 行 描 述 。 We 而 b站 点 中 的 数 据 不 存 在 统 一 的模 型 , 站 点 都 是 点 的 结 构 。3模 式 分 析 阶段 。 阶 段 的 任 务 是 从上 一 阶段 搜 集 数 各 (1 该 独 自设 计 。 且 站 点 中 的 数 据 是 处 于 不停 变 化 之 中 的 。 并 据 集 中 过 滤 掉 不 感 兴趣 和 无 关联 的 模 式 .将 发 现 的有 价 值 的用 3 We 、 b数 据挖 掘 分 类 和 技 术 户 浏 览 模 式 以表 格 、 图 、 饼 曲线 图 、 方 图 或 者 其 它 特 殊 形 式 显 直 31We . b内容 挖 掘 示 出来 。具 体 的 实 现 方 法 依 具 体 的 We 掘 技 术 而 定 , 常 有 b挖 通 We b内容 挖 掘 是 指 从 We b上 的 文 件 内 容 及 其 描 述 信 息 中 两 种 方 法 : 种 采 用 S 一 QL查 询 语 句 进 行 分 析 . 一 种 将 数 据 导 另 获 取 潜 在 的 、 价 值 的 知 识 或 模 式 的 过 程 。 分 为 We 有 它 b文 本 挖 人 多 维 数 据 立 方 体 中 .而 后 利 用 O U 工 具 进 行 分 析 并 提 供 可 掘 和 We b多媒 体 挖 掘 。We 本 挖 掘 可 以对 We 大 量 的 文 视 化 的结 果 输 出 b文 b上 档集 合 的 内容 进 行 总 结 、 类 、 类 、 联 分 析 以及 利 用 We 分 聚 关 b文 4 We 、 b挖 掘 的 应 用 档进 行 趋 势 分 析 等 。 b多 媒 体 挖 掘 主要 是 指 通 过 对 We 的 41We 掘 在 搜 索 引 擎 方 而 的应 用 We b上 . b挖 音频 、视 频 数 据 和 图像 进 行 预 处 理 .应用 挖掘 技 术 对 其 中 潜 在 通 过 对 网 页 内容 的挖 掘 。 以 实 现 对 网 页 的 聚 类 和分 类 , 可 实 的 、 意 义 的信 息 和 模 式 进 行 挖 掘 的 过 程 。 有 现 网络 信 息 的分 类 浏 览 与 检 索 。 用 We 运 b挖 掘技 术 改 进 关 键 词 We b内容 挖 掘 按 实 现方 法 分 为两 大 类 :信 息 检 索方 法 和 数 加 权 算 法 , 高 网络 信 息 ��
Web数据挖掘技术及其在电子商务中的应用

机 、 目标 主 机 、 服 务协 议 端 口等 信息 过
维普资讯
电 孑 商 务
1 第三方支付 的战略定位问题 。 . 特别是在政府金融监管与电 子支付市场 的立法方面需要加快完善 .这决定着第三方支付 的发 展问题 。《 电子支付指引 ( 第一号 ) 》对非金融机构的第三方 电子 支付及 电子商务 支付没有任何约 束 .这些组织 未能得到有效 管 理。 目前大家都关注 着电子支付指引的第二号、第三号 的出台 在法律上第三方支付能够 找准法律上的身份和地位 这样在市场 竞争中才能够按照规范化流程进行运作和管理 .并取得更好更健 康的可 持续 性的发展 。
圈 1 W 曲 数 据 挖 掘 的 处 理 流 程
( 单 数据 表 ) 订 .用 来 存放 购 买 者 在 网 上所 下 的订 单情 况 。三 个 数
据 表 的 结 构 如 图 3所 下
掌 致 说 龋 字 玫
I D a t o uh ̄
1 查 找资 源 : 务是 从 目标 We 文档 中得 到数 据 .值 得 注意 的 任 b 是 有 时信 息 资源 不 仅限 于在 线 W e b文档 .还 包 括 电子 邮 件 、 电子 文 档 、新 闻组 .或 者 网站 的 日志 数 据甚 至 是 通过 We b形 成 的交 易 数 据 库 中的 数 据 。 2 信息 选择 和预 处理 任 务是 从取 得 的 We 资 源 中剔 除无 用信 b 息和 将信 息 进 行必 要 的 整理 。 例 如从 We b文档 中 自动去 除广 告连 接 、去 除 多 余 格 式标 记 、 自动识 别段 落或 者 字 段 并 将 数 据组 织 成
Web挖掘在当今社会中的发展和前景

whc e d te rtc lds u so fmo edo si nd frin s h lr o ih n e h o eia ic s in o r me tc a o eg c oason h w W e nn e eo b mi ig d v lpme tpa sa p o tn o eo h e eo me to n ly r mo ig rl n te d v lp n f
terl e ,a l a h h l n e tfc s h i i s swe l st ec al g si a e . v e
关键 词 : b We 挖掘 ; 类 ; 式 分析 ; 分 模 可视化 ; 网络通 信
Ke r s:W e nn ,ca sfc to ;p t r n lss iu lzto ;n t r o y wo d b mi ig ls i ain at n a ay i;vs aiain ewo k c mmunc to i e iain
刘 平 骢 LuPn ; 云③C oY n i ig 曹 a u
( ①湘南学院, 郴州 4 30 ; 2 00②湖南大学计算机与通信学院, 长沙 40 8 ; 10 2③郴州工业交通学校 , 郴州 430 ) 20 0 ( Xaga oeeC ezo 20 0C ia@ Sho o Cm u r n o m nct n H nnU i ri ,hnsa 10 2C ia  ̄ i nnCl g ,hnhu 30 ,h ; colf o p t dC m u i i , ua n e t C agh 0 8 ,hn ) n l 4 n ea ao v sy 4  ̄C ezo dsi rfc o eeC ezo 2 00 C i ) hnhuI utaTa lg ,hnhu4 30 ,h a n rl i C l n
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
[ ] 姜瑞其 . 3 国外 机构库发展 概况 [] 图书情报工 作 ,0 5 1 )1 2 J. 20 ( 1 :4 —
1 5; 49 4 1 .
( 责任编辑 : 刘翠玲 ) 第一作者简介 : 春燕 , ,9 9 5 李 女 17 年 月生 ,0 2 2 0 年毕业于武汉大学 图书馆 学系,助理馆员 ,中山大学图书馆 , 广东 省广州市新港西路 15 3
之 为半结 构化数据 。半结构化是 We 上数据 的最大特点 。 b 23 解 决半结构化的数据源 问题 .
1 We 信 息挖 掘概 述 b
We b挖掘( bMiig是数据挖掘在 We We nn ) b上的应用 , 是一项 综合 技
术, 涉及 W b 数据挖掘 、 机语言学 、 e、 计算 信息学等多个领域 , 同研究 者 不 从 自身的领域 出发 ,对网络挖掘的含义有着不 同的理解 。但 总体 而言 ,
从数据库研究的角度出发 , b网站上 的信息也可以看作是一个数 We
据库 , 一个更大 、 复杂的数据库 。We 更 b上 的每一 个站点就是一 个数据
源, 每个数据源都是异构 的, 因而每一站点 之间的信 息和组织都不一样 , 这就构成 了一个巨大的异 构数据库环境 。 如果想要利用这些数据进行数 据挖 掘 , 首先必须要研究站 点之间异构数 据的集成 问题 , 只有将 这些站 点的数据都集成起来 , 提供 给用户一个统 一的视图 , 才有 可能从 巨大的 数据资源 中获取所需 的东西 。其 次 , 还要解决 We b上的数据查询 问题 , 因为如果所需的数 据不能很有效地得到 , 对这些数据进行 分析、 集成 、 处
理就无从谈起 。 22 半结构化的数据结构 .
We b内容挖掘是指对 We 页面内容及后 台交易数据库进行挖掘 , b 从 We b文档内容 中获取有用知识 的过程 ,还可以对 We b组织结构 和连接关
系进行挖掘 , 从人为的链接结构中获取有用 的知识。目前 We b内容挖掘多
数是基于文本信息的挖掘 , 它和通常的平面文本挖掘的功能和方法 比较类 似 , 由于互联网上的数据基本上都是 H M 但 T L格式 的文件数据格式流 , 因 此可 以利用文档中的 H M 标记来提高 We 文本挖掘的性能。 T L b 32 . We b结构挖掘 We 结构挖掘揭示 We 文档结构信息中的有用模式 ,挖掘 We 链 b b b 接结构 , 从而识别出权威 We 面。所谓权威 We b页 b页面 , 就是指在针对
第 1 7卷
第2 O期
收稿 日期 :O 7 O — 9 20一32
We b信息挖掘现状及应用前景
龚 月瑛 , , z
(. 1 太原理工大学 , 山西太原 ,30 4 2大同大学 , 0 0 2 ;. 山西大 同 ,3 0 9 0 70 ) 摘 要: 介绍 了 We 息挖掘 的环境与分类 , b信 论述 了 We b挖掘技 术 , 望 了信息挖掘 展 的 应 用前 景 。
We b挖掘是指针对包括 We b页面 内容 、页面之 间的结构 、用户访 问信
We 挖掘技术首 要解决半结构 化数据源模型 和半结构 化数据模 型 b 的查询与集成 问题 。解决 We 上 的异构数据 的集成与查询问题 , 须 b 就必 要有一个模型来清晰地描述 We 上 的数据 。针对 W b 的数据半结构 b e上 化 的特点 , 寻找一个半结构化 的数 据模 型是 解决问题的关键所在 。除 了
号 。12 5 507 .
[ ] C a gSH.ntui a soi r :h bay s e l[] L 1 hn , Istt n lepsoi T eirr’ wr e J . C i o r t e s l n o OC
关 键 词 : b挖 掘 ; 据 库 ; b 日志 挖 掘 ; We 数 We 关联 规 则
中图分类号 :P 9 T 33
文献标识码 : A
数据本身具有 自 述性 和动 态可变性。因而 , b 的数 据具有 一定的结 We 上 构性 , 因 自 但 述层次 的存在 , 从而是一种非完全结构化 的数据 , 被称 这也
We 上 的数据与传统的数据库 中的数据不 同, b 传统 的数 据库 都有一 定的数据模 型 , 可以根据模型来具体描述特定的数据。而 We 上的数据 b 非常复杂 , 没有特定 的模 型描述 , 每一站点的数据都各 自 独立设计 , 并且 构。 而机构库的创建和运行 , 图书馆员都起着重要 的作用。 中机构库 的某 其 些工作环节中, 图书馆员有着无可 比 的优势。机构库的出现给图书馆 以 拟 及图书馆员带来了巨大的机遇 。它可以看成是图书馆的延伸 , 使图书馆的 功能得到了扩大。因此图书馆和图书馆员应积极投人到机构库建设 中去 。
要定义一个半结构化数据模型外 ,还需要 一种半结构化模型抽取技术 ,
息、 电子商务信息等在 内的各种 We 数据 , b 应用数据挖 掘方法 以发现有 用的知识来帮助人 们从 WⅣw 中提取 知识 , 改进站点设 计 , 更好地开展
电子商务。
即自 动地从 现有 数据中抽取半结构化模型 的技术 。面 向 We 的数据挖 b
掘必须 以半结构化模型和半结 构化数据模型抽取技术为前提 。
2 We b挖 掘的环 境
21 异构数据库环境 .
3 We 挖 掘 的分 类 b
目前 We 挖 掘技术 根据挖掘的方向一般分 为 3 : b内容挖掘 、 b 类 We
We 结构挖掘和 we 使用记 录的挖掘 。 b b 31 . we b内容挖掘 ’
维普资讯
S IT C O MA I N D V L P C- E H I R TO E E O MEN NF T&E O O C N MY 文章编号:0 56 3 (0 7 2 - 11 0 10 - 0 32 0 )0 0 9 - 2
20 0 7年