基于量化同义词关系的改进特征词提取方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
ne me ho mpr v s t e a c a y o e t e e t a to w t d i o e h c ur c ff a ur x r c i n. Ke r s:e t e e r c in; y wo d f a ur xta to TF— DF;s on I yn ymo us;ho e ;C — c r e c wn t O oc u r n e
Ab t a t A e h d o m p o e e t r x r c i n b s d o y o y u s p o o e . Th t o s r c : m t o f i r v d f a u e e t a to a e n s n n mo s wa r p s d e me h d
的 同义词及 其相 关词进 行 了有效 处理 , 高 了文 本特征 词提 取 的准确性 . 提
关 键词 : 特征提 取 ; F I F; T —D 同义 词 ; 网 ; 知 同现概 率
中图分 类号 : 9 TP 3 1 文 献标 志码 : A 文章 编号 :0 0 5 5 2 1 ) 1 0 7 5 1 0 —1 6 (0 0 0 —0 9 —0
( . o lg fM ah maisa d Co u e ce c ,He e Un v r iy 1 C l eo t e t n mp t rS in e e c bi ie st ,B o ig 0 1 0 a d n 7 0 2,Chn ; ia 2 Ce tro e i p r e t l a hn . n e fM daEx e i n a m Te c i g,H e e nv riy,Ba dn 7 0 2 bi U ie st o i g0 0 ,Ch n ) 1 i a
摘 要 : 出一种基 于量 化 同义词 关 系的改进 的 T —D 提 F I F文本特 征 词提 取 方 法. 方 法将在 同一 文本 中 该
出现 的某个 词的 同义词做 为 一 个集合 , 在传 统 T - F 方法 计算 的 词语 权 重 的基 础 上 对 同义词 集 合 中的词 FI D 语及其 相 关词进行 权 重调整 , 通过 相似 度 对 同义 词集合 中的词语 进行 了合 并加权 . 实验证 明该 方 法对文本 中
特征 词提 取是 文本 检索 、 文本 自动分 类 等信息 领域 的基础 问题 . 征词 提取 主要 是提取 出那 些能 够代 表 特
文 本特征 的词 语 , 不影 响文 本分类 情况 下排 除 与文本 主题无 关 或关联 性不 大 的词语 , 高文本 检索 和文 本 在 提 分 类 的效 率。 特征词 提取 有很 多优 秀 的方法 l , — F( r rq e c — v re o u n rq e c ) 】 TFl Tem F e u n yI es c me t e u n y 方 j D n D F
第3 0卷 第 1期 21 0 0年 1月
河北大 学 学 报 ( 自然科 学版 )
J u n l fHe e Unv r i ( t rlS in eEdto ) o r a b i i e st Na u a ce c iin o y
Vo _ O NO l 3 .1
I p o e a u e S l c i n M e h d Ba e n m r v d Fe t r e e to t o sd o
S m ia iy o y o y o s i l rt fS n n m u
X i - n ,I n —a g , UTn —i D I u U J nmi LUQi j n F i t g , A a gi g n X
J n 2 1 a .00
基 于量 化 同义 词 关 系 的改进 特征 词 提 取 方 法
徐建 民 , 清 江 付婷 婷 戴 旭 刘 , ,
(. 1 河北 大 学 数 学 与 计算 机 学 院 , 北 保 定 河 0 1 0 ;. 北 大 学 传 媒 实 验 教 学 中心 , 北 保 定 7022河 河 0 10 ) 7 0 2
需 要改进 的地 方. 语 中文字 表达灵 活 , 汉 一个 词语 往往 还有 很 多 同义 的词 可 以表 达 . 同义 词虽 然 丰 富 了文 本
的表达但 对 于某些 基于 统计词 频 的特征 词提 取方 法来说 无 疑是 降低 了在文 本 中使 用ቤተ መጻሕፍቲ ባይዱ了过 多 同义词 的特征 词 的权重 , 因此在 文本 分类 中使 用 同义 词 有 助 于提 高 查 全 率但 不 会 降 低 查 准率 。 . 本 对 同 义词 进 行 了合 。文 ]
b s d o — DF, n o b n d s n n mst r u h t e sm i rt . e e p rme t l e u t ip a h tt e a e n TF I a d c m i e y o y h o g h i l i Th x e i n a s ls d s l y t a h a y r
c l ce y o y n t e tx sas t d sme tt eweg t fs n n msi h e n eae r s ol t ds n n msi h e ta e ,a j t n h ih so y o y n t e s ta d r lt d wo d e u
法 是其 中应用最 多 的一种 方法 . 这种 方法 是 建立在 特征 独 立 的假设 基 础上 , 然 能 有效 降 低 计算 时 间 , 是 虽 但 词 语 间的 内在 联系 使得 这种 假设很 难成 立 , 可避 免地 带来 提取 准确度 的降低 , 以{ F I F方法 仍 有许 多 不 所。 T —D
Ab t a t A e h d o m p o e e t r x r c i n b s d o y o y u s p o o e . Th t o s r c : m t o f i r v d f a u e e t a to a e n s n n mo s wa r p s d e me h d
的 同义词及 其相 关词进 行 了有效 处理 , 高 了文 本特征 词提 取 的准确性 . 提
关 键词 : 特征提 取 ; F I F; T —D 同义 词 ; 网 ; 知 同现概 率
中图分 类号 : 9 TP 3 1 文 献标 志码 : A 文章 编号 :0 0 5 5 2 1 ) 1 0 7 5 1 0 —1 6 (0 0 0 —0 9 —0
( . o lg fM ah maisa d Co u e ce c ,He e Un v r iy 1 C l eo t e t n mp t rS in e e c bi ie st ,B o ig 0 1 0 a d n 7 0 2,Chn ; ia 2 Ce tro e i p r e t l a hn . n e fM daEx e i n a m Te c i g,H e e nv riy,Ba dn 7 0 2 bi U ie st o i g0 0 ,Ch n ) 1 i a
摘 要 : 出一种基 于量 化 同义词 关 系的改进 的 T —D 提 F I F文本特 征 词提 取 方 法. 方 法将在 同一 文本 中 该
出现 的某个 词的 同义词做 为 一 个集合 , 在传 统 T - F 方法 计算 的 词语 权 重 的基 础 上 对 同义词 集 合 中的词 FI D 语及其 相 关词进行 权 重调整 , 通过 相似 度 对 同义 词集合 中的词语 进行 了合 并加权 . 实验证 明该 方 法对文本 中
特征 词提 取是 文本 检索 、 文本 自动分 类 等信息 领域 的基础 问题 . 征词 提取 主要 是提取 出那 些能 够代 表 特
文 本特征 的词 语 , 不影 响文 本分类 情况 下排 除 与文本 主题无 关 或关联 性不 大 的词语 , 高文本 检索 和文 本 在 提 分 类 的效 率。 特征词 提取 有很 多优 秀 的方法 l , — F( r rq e c — v re o u n rq e c ) 】 TFl Tem F e u n yI es c me t e u n y 方 j D n D F
第3 0卷 第 1期 21 0 0年 1月
河北大 学 学 报 ( 自然科 学版 )
J u n l fHe e Unv r i ( t rlS in eEdto ) o r a b i i e st Na u a ce c iin o y
Vo _ O NO l 3 .1
I p o e a u e S l c i n M e h d Ba e n m r v d Fe t r e e to t o sd o
S m ia iy o y o y o s i l rt fS n n m u
X i - n ,I n —a g , UTn —i D I u U J nmi LUQi j n F i t g , A a gi g n X
J n 2 1 a .00
基 于量 化 同义 词 关 系 的改进 特征 词 提 取 方 法
徐建 民 , 清 江 付婷 婷 戴 旭 刘 , ,
(. 1 河北 大 学 数 学 与 计算 机 学 院 , 北 保 定 河 0 1 0 ;. 北 大 学 传 媒 实 验 教 学 中心 , 北 保 定 7022河 河 0 10 ) 7 0 2
需 要改进 的地 方. 语 中文字 表达灵 活 , 汉 一个 词语 往往 还有 很 多 同义 的词 可 以表 达 . 同义 词虽 然 丰 富 了文 本
的表达但 对 于某些 基于 统计词 频 的特征 词提 取方 法来说 无 疑是 降低 了在文 本 中使 用ቤተ መጻሕፍቲ ባይዱ了过 多 同义词 的特征 词 的权重 , 因此在 文本 分类 中使 用 同义 词 有 助 于提 高 查 全 率但 不 会 降 低 查 准率 。 . 本 对 同 义词 进 行 了合 。文 ]
b s d o — DF, n o b n d s n n mst r u h t e sm i rt . e e p rme t l e u t ip a h tt e a e n TF I a d c m i e y o y h o g h i l i Th x e i n a s ls d s l y t a h a y r
c l ce y o y n t e tx sas t d sme tt eweg t fs n n msi h e n eae r s ol t ds n n msi h e ta e ,a j t n h ih so y o y n t e s ta d r lt d wo d e u
法 是其 中应用最 多 的一种 方法 . 这种 方法 是 建立在 特征 独 立 的假设 基 础上 , 然 能 有效 降 低 计算 时 间 , 是 虽 但 词 语 间的 内在 联系 使得 这种 假设很 难成 立 , 可避 免地 带来 提取 准确度 的降低 , 以{ F I F方法 仍 有许 多 不 所。 T —D