基于Web搜索的数据挖掘系统的研究与实现

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
搜索算 法基本 都 是 使用 模 糊 匹 配 , 难 搜 索 到所 很 有符合要 求 的信息 。 另外 , 如何 从 非格 式 化数 据 信 息 中有 效地 挖
( . co l f o ue 1 Sh o mptr&Ifr t nE g er gChn z o stt fT cn lg C a ghu23 0 ; oC noma o ni en , a ghuI tueo eh ooy,h n zo 10 2 i n i ni
2 Y nigSho , hn zo ntueo ehoo , hn zo 10 2 . a l colC agh uIstt f c lg C agh u2 30 ) n i T n y
收 稿 日期 :0 00 —7 2 1 -72 基 金 项 目 : 州 工 学 院基 金 项 目( 0 1 ) 常 YN 7 1 作 者 简 介 : 志 琴 (9 8 查 16 一 )女 , 士, , 硕 副教 授 。

的结果 : ①搜索结果很多, 往往有许多页, 信息太 过庞大 ; ②搜索到的数据信息大部分是无用信息 , 属于垃圾信息 , 且搜到信息的准确率不能保证 ; ③
第2 4卷第 1期 21 0 1年 2月
常 州 工 学 院 学 报.
J u a fCh n h u I tt t fTe h ol y o r l o a gz o nsiu e o c n og n
V o . 4 No. 12 1
R . 01 2 1
基 于 We 索 的数 据挖 掘 系统 的研 究 与实 现 b搜
W e ie W e g s ec De l g wih te e da sa c mpl ae r c s . e C l a q ie u e u a n b sts, b pa e , t . ai t s t i o n h a i td p o e s W al c u r s f ld t a d c a i f r to y me n f d t n n Thi a rma e a r s ac n s a c i g a n n ft e W e a n o mai n b a so a mi i g. a sp pe d e e h o e h n nd m i g o h b d t r r i a n v lpe e fs se ih p ro a d de eo d a s to y t mswh c e f r e e c n a o t e I tm e nd d t nng a d c e td m d s a h g d t f m h n e ta aa mi r i ar i r ae n
任何一种搜索工具搜索信息都会得到大量的冗余 信息, 从而造成用户查找到需要的信息越来越 困 难 。如何优质 高效地搜索 到用户期望 得到 的信 息, 是当前迫切需要解决的问题。 在 Itme 上信 息检索方 式 主要有 : ne t I使 用 网 站 中提 供 的 搜 索 工 具 直 接 搜 索 本 ) 网站 的 内容 ( 或使 用搜 索 引擎 公 司 提供 的搜 索工
a us f ld t e c n y tm . eu a s a h g s se a r i K e o ds W e e r hng; a n ng; e c n n i e yw r : b sac i dt m i a i s a h g e gn r i
0 引言
面对 We 的 海量 信 息 , It t 使 用 b上 在 ne 上 me
具 搜索 It t 的所有 网站 ) ne 上 me 。 2 向搜索服 务 器发 出指令 , ) 由服务 器 通过 基
于关键字 匹配 技 术搜 索 出相关 的 内容 , 通过 一 并 定 的排序 后呈 现在用 户面前 。这类 搜索 方式 得到
对 We b数据搜 索与挖掘 进行 了研 究 , 开发 了一 套从 It nt ne e 上搜 索数 据 , 对这 些数 据进 行初 步挖 r 并
掘, 生成 有效数 据 的搜 索系统 。 关键 词 : b搜 索; 据挖掘 ; 索 引擎 We 数 搜 中图分类 号 :P 9. T 3 13 文献标 志码 : A 文章 编号 :6 1— 4 6 2 1 )1 0 3 0 17 03 (0 1O — 06— 6
A b t a t: e r h n e h l y c n b s d t e r a e lo aa c sr c S a c i g t c noog a e u e o g ta g e td a fd t omi g fo h ne n ts c s n r m te I tr e u h a
I pl m e t to nd Re e r h f r t y t m f Da a M i i m e n a i n a s a c o he S s e o t n ng Ba e n W e a c ng sd o b Se r hi
Z HA iqi Zh . n’ GA O Bo
查 志琴 高 波
(.常州工学院计算机信息工程学院, 1 江苏 常州 2 30 2 102;.常州工学院延陵学 院, 江苏 常州 2 30 ) 10 2
摘 要 : 用搜 索技 术从 Itme 上搜 索到 大量的数据 , we 利 ne t 如 b网站 、 网页等信 息 , 对这 些数 据 的 处理是 一 个非常复 杂的过程 , 常可 以使 用数 据挖掘 的方 法 , 通 提取 其 中有用的数 据和知 识 。本课题
相关文档
最新文档