概念相似度在文本模糊聚类中的应用
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
O 引 言
文 本 挖 掘 是指 在 大 量 文 本 集 合 或 语 料 库 上 发 现 隐 含 的 、 有 趣 的 、 用 的模 式 和 知 识 。 文 本 聚 类 是文 本挖 掘 的重 要 手 有 段, 文本 聚 类 是 一 种 无 指 导 的文 档 分 类 , 把 一 个 文 本 集 分 成 它 若 干 称 为 集 簇 (ls r的 子 集 , 个 集 簇 的 成 员 之 间具 有 较 大 Cut ) e 每 的相 似 性 , 集 簇 之 间 的文 本 具 有 较 小 的 相 似 性 。 而 文 本 聚 类 的方 法 大 致 可 分 为 层 次 凝 聚 法 和 平 面 划 分 法 两 种类型“。 统的文本聚类算法主 要采用基于关键词 集的 向 创 传 量 空 间 模 型 ( S , 模 型 是 一种 统 计 的文 本 表 示 模 型 , 没 V M)此 它
it c o n dtef z i l i ti eie o n n dsa c o uigi im e o . T ec rep n igcu tr grs l noa c u t z smi rt marxi d rv df m o —itn ec mp t t s t d h ors o dn lsei ut n a h uy ay s r n nh h n e s
维普资讯
第 2 卷 第 3 9 期
VO. 9 12
No. 3
计 算机 工程 与设 计
Co mp trEn i e rn n sg u e g n e i g a d De i n
20 年 2 08 月
Fe .20 8 b 0
概念相似度在文本模糊聚类中的应用
唐 明珠 , 张远 平 , 杨 佳
( 兰州理 工 大学 计 算机 与通 信 学 院,甘 肃 兰州 7 0 5 ) 3 0 0
摘 要 :文本 聚类是文 本挖 掘 的一种 重要 方法 。基于 形式概念 分析和概念 相似 度 , 出一种新 的 多背景文本模糊 聚类方法 给
Ap lc to fc n e tsm i rt ntx u z l se n p iain o o c p i li yi tf z y cu tr g a e i
T ANG i g z u M n — h , ZHAN G u n p n , YANG i Y a — ig Ja
( o ee f o ue adC m nct n a zo nvri f eh oo y az o 3 0 0 h a C lg mp t o mu i i ,L nh u i syo cn lg,L n hu7 0 5 ,C i ) l oC rn ao U e t T n
Ab t a t T x l se n n i o tn t o x i ig A o e l — o tx x z y cu trn t o n s sr c : e t u tr g i a c i s mp r t a meh d i t t n n . n v l ne m mu t c n e te tu z lse i gme h d a di d l a e i t f t mo e s d b o o ma o c p ay i d c n e t i lrt r p s d T e s ma t e ai n h p ewe n mu t c n e t e r sae tk n nfr l n e t c n a l ssa o c p mi i i p o o e . h e n i r lt s i sb t e l - o tx y wo d r e n s a y s ct i rn q i aeo tie co dn edfee t e urme t a dti a p o c a etrf xbl .F n l , tee a l s ie l srt oh r e nsn s p ra hh sb t e iit h el i y ial h x mpei v nt i u t e y g o l a
理 论 中 的 核 心 数 据 结 构 。因 为 概 念 格 能 清 晰 地 表 示 出概 念 之 间 的 层 次 结 构 关 系 , 以 它 可 以 将 数 据 库 的 知 识 结 构 进 行 可 所 视 化 。 因 此 ,概 念 格 被 认 为 是 数 据 分 析 的 有 力 工 具 。概 念 格
和模型 。该方 法不仅考 虑 了多背景 关键词 之 间的语 义关 系, 而且通 过非距 离计算得 到模 糊相似 矩 阵。可根 据 不同要求得 到
相 应 的 聚 类 结 果 , 有 较 好 的 灵 活 性 。 最 后 通 过 示 例 说 明 了所 给 算 法 的 可 行 性 。 具
关键词 : 形式概念分 析;概 念相似 度;模 糊聚 类方法 ; 多背景;语 义 关系 中图法分 类号 : P 8 T 12 文献标 识码 : A 文章编 号: 007 2 20 ) 30 4-3 10.04(0 8 0—750
tefa iit f eag rtm. h sbl o t lo i e i y h h ,
Ke r s fr a o c p ay i; o c p i lr ; u z lse n to ; mut c ne t sma t eain hp ywo d : o m l n e t lss c n a c n e t mi i fz cu tr gme d s at y y i h l —o tx; e n i r lt si i c o