基于web的数据挖掘技术研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计 算机 光盘 软件 与应用
21 0 0年 第 l O期
C m u e DS f w r n p l c t o s o p t rC o ta ea dA p ia in
工 程 技 术
基于 w b的数据挖掘技术研究 e
王 婉 晨
( 天津工业大学,天津
3 06 ) 0 10
摘 要 :we b数据挖 掘 简称 w e b挖掘 ,是从 数 据挖掘 技 术发展 而 来 ,是数 据挖 掘技 术应 用 于 We 信 息 的一 个崭新 领 b 域 。它是 帮助人们 从 海量信 息 中进 行 智 能的、 自动 的抽取 有价值 的知识 ,从 中揭 示 出蕴含在 这 些数据 背后 的客观 世界 的 内 在 联 系和规律 ,解决社 会发展 中的 实际 问题 并 用于宏 观辅 助决 策的 。 关键 词 :We b数据挖 掘 ;电子 商务 ;X ML应 用 中 图分 类号 :T 3 1 3 P 1. 文 献标识 码 :A 1 文章编 号 :10— 59 ( 00 1— 03 0 07 99 21 ) 0 08— 1
应 用 .0 31 20 .
『 康 晓 东. 于数据 仓 库的数 据挖 掘技 术. 工 业 出版 社, 0 , 4 1 基 机械 2 4 0 1
[ J d e r a aa Ro e o l , k n s ad . e s e 5 a epS vs v , b mC o y Mu u d h n eW bU a ]i i t e De p g
Mi n nig: D ic vey n Ap iai n ofU sg Patr fo e so r a d pl to s a e c tens r m W b
D a a S g d pl r ton , 0 , : 25 38 t . i k d Ex o a i s 20 0 2 3 —3
W e b-b s d Da a M i n c a e t ni g Te hno o y lg
W ang W an hen c
(innP l eh iU i rt,i j 3 0 0C i ) Ta j oy c n n esyTa i 0 1 ,hn i t c v i nn 6 a
wo l n elw fi ena eainsfo t s a at ov a tc lp o e si s ca e lp e nd frm a r u po t g rda d t a o r l lto r m he ed t,os leprc a r blm n o ild veo m nta o c o s p ri h nt r i n d cso - a n e iin m kig.
数 据通 常具 有杂 乱性 、冗 余性 、不 完整 性等特 点 ,为 此数据 采掘 必 须经 过数据 准 备阶 段 以提高 数据挖 掘质 量 。挖 掘操 作包括 选择 合 适 的算法 ,进 行挖 掘知 识 的操 作 ,最后 证 实发现 的 知识 :表达 和 解释 阶段 是对 结果 进行 分析 ,提取 出最 有 价值 的信 息 。如 果获 得 的信 息不 能使 决策 者满意 ,则 需要 重复 以上数 据挖 掘 阶段 。 ( )分 析 与评估 四 分 析与评 估 模块 是对 数据挖 掘所 得 到的 知识模 式进 行可 信度 和 有效 性分析 ,并对 其做 出评估 结论 。为用户 的经 营 决策提 供信 息 支持 。 ( )知 识表 述 五 知 识表 述 模块 是 指将 利用 数 据挖 掘 工 具从 Wb 据 中挖 掘 出 e数 来 的知 识模式 .用适 当的形 式表 现 出来 , 以利 于用 户接 受和 相互 交流。 三 、数据 挖掘 工具 的评 价标 准 评价 一个 数据 挖掘 工 具 ,需 要从 以下 几个 方面 来考 虑 :产生 的模 式种 类 的多 少 ;解 决 复杂 问题 的能力 : 易操作 性 ;数据存 取 能力; 与其 他产 品的接 口。 于W b 基 e 的数据 挖 掘技术 在处 理极 大量 的数 据 时 ,如 何提 高算 法效 率 的 问题 ;对 于挖 掘迅 速更 新 的数据 的挖 掘算 法 的进 一步研 究 ;在挖 掘 的过程 中 ,提 供 一种 与用 户进 行交 互 的方法 ,将 用户 的领 域知 识结 合在 其 中:对 于数 值型 字段 在关 联规 则 中的 处理 问题 ;生成 结果 的可 视化方 面 等等 有待 于进 步 的研 究 。
n o i . l p o l it l e t n uo t a y gt a a l n w e ef m t s if ifr t n t e e pe ne i nl a da tma c l e v l bek o l g o emas no a o , v a t bet e ma o I h p lg y i l u d r h r t n e el h oj c v m i r e i

参考 文献 : 『 陈京 民. 据仓 库 与数据 挖掘技 术 . : 1 1 数 北京 电子工业 出版社 , 0 2 2 0
f 谢 丹夏 . e上 的数 据 挖 掘 技 术和 工具 设 计 . 算 机 工 程 与 应 2 】 W b 计
用 ,0 16 20 ,
f 孙 颖, 波 . 于数据挖 掘技 术 的虚 拟社 区成 员行 为研 究 .Байду номын сангаас3 1 毛 基 计算机
[] e . ak , . fce t tM i gfr ahT a esl 6Ch nM S P r JsYuPS Ef in a mn t rv ra i Da oP
Pa t r s n te i Dit bu e S se s Pr c. o h 1 t EEE I t m e n sr t d y t m . i o f t e 6 hl ne t Co f on D i r t d Co p i y t ms 1 9 2 : 8 n. s i e m ut t bu ng S se , 9 6, 7 3 5—3 2 9
K e w o dsW e aam ii ; c m m ec ; y r : b d t nngE—o r eXM L p iains a pl to c
基于 wb e 的数 据挖 掘需 要解 决 的几个 问题 ( )异构 数据库 环境 一 Wb 的 每一 个站 点 就 是一 个数 据 源 。每 个数 据源 都 是 异构 e上 的 ,因而每 一站 点之 间 的信 息和 组织 都 不一样 ,这 就构 成 了一个 巨大 的异构 数据 库环 境 。如果 想要利 用 这些 数据进 行数 据挖 掘 , 首先 ,必须 要研 究站 点之 间异构 数据 的集 成 问题 。其次 ,还 要解 决W b 的数 据查 询 问题 。 e上 ( )半结 构化 的数据 结构 二 Wb 的数据 非常 复杂 , 有特定 的模 型描 述 , e上 没 每一 站点 的数 据 都各 自独 立设 计 ,并且数 据本 身具 有 自述性 和动 态可 变性 。因 而 。 e 上 的数据 具有一 定 的结构 性 , 因 自述层 次的存 在 。从而 Wb 但 是一种 非完 全结 构化 的数据 ,这 也被 称之 为 半结构 化数 据 。半结 构化是W b 数据 的最 大特 点 。 e上 二 、W b e 数据 挖掘 的主要 过程 Wb e 数据 的特 点决 定 了对 其进 行 有 效数 据挖 掘 具有 极 大 的挑 战性 。 根据 W b e 数据 的特 点 。 结合数 据挖 掘 的一般 过程 , 以将W b 可 e 数 据挖 掘流程 描述 如 图所示 的数据 采集 、数据预 处理 、 据挖 掘 、 数 分 析与评 估 和知 识表述 5 个功 能模 块 。 ( )数据采 集 一
Absr c : e aam i ng r fre o a e mi i ,e eo m e tfo t edaam i n e h olg ,lo an w ra o e t a tW b d t ni ee r dt sW b nngd v lp n m h t nig tc n o yas e a e fW b r


据 挖掘 过程 一般 由数据 准 备、 掘 操作 、 果表达 和解 释3 挖 结 阶段组 成 。数 据挖 掘算 法对 数据 有一 定 的要求 ,如 数据 冗余 性小 、数据 属 性之 间 的相 关 性小 、数 据 出错 率 小等 。而 现实 世界所 采集 到 的
按照 主题 相关 的原 则 , 数据 采集 模块 完成 从外 部的W b 境中 e环 有选 择地 获取 数据 ,为后面 的数据 挖掘 提供 素材 和 资源 。 e环 境 Wb 所提 供 的数据 源包 括Wb e 页面 数据 、 链接 数据 和记 录用 户访 问情 超 况 的数据 等 。 根据 数 据源形 式 的不 同可 以将 Wb e 数据 挖掘 分为基 于 内容 的挖 掘 、 基于 结构 的挖 掘和基 于用 户使 用 的挖 掘 等3 。 一 种 每 种数 据挖 掘类 型在 数据 采集 过程 中会使 用不 同的方法 和技 术 ,但 它们 都有 共 同的基本 过 程。通 常 ,数据 采集 由数 据搜 索 、数据 选 择和 数据 收集等 3 相对独 立 的过程 组成 。 个 ( )数据 预处 理 二 数据 预处 理模块 主 要对 数据采 集所 获得 的源 数据 进行 加工 处 理和 组织 重构 .构建 相 关主题 的数 据仓 库 .为下 一步 的数据 挖 掘 过程 创建 基础平 台。数据 预 处理是 为数 据挖 掘所 做 的前期准 备 , 它主 要包 括数据 清理 、数据 集成 、 数据变 换 、数据 约简 等 。 ( )数据 挖掘 三 数据挖 掘模 块是 数据 挖掘 系统 的核 心部 分 ,它 的主 要 功能 是 运用 各种数 据挖 掘技 术 。从海量 的经过 预处 理的 数据 中提取 出潜 在 的、有 效且 能被人 理解 的知 识模 式 。概括 地讲 。数据 挖掘 的最 终 目标只有 描述 和预 测两 个 ,所 谓 描述 就是用 可 理解 的模式 表达 数据所 包含 的属 性和 特征 信息 :而 预测 则是指 根据 属性 的现 有数 据值 找出其 规律 性 ,进而 推测 出其 在未 来可 能出现 的属 性值 。数
相关文档
最新文档