基于CBC聚类方法对特定领域术语的自动获取

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
利 用 已经 构造 好 的 术语 抽 取器 对 特定 领 域 的语 料 逐类 进
2 基 于CB 聚 类 的领 域 术 语 获 取 C
21 术 语 的 预 处 理 .
通过 在第 3 分 提 出的词语 之 间相 似度 的计 算方 法 ,计算 部 得 到每个 词语 的最 相 似的 个词 语 。在 实验 中 , 取K= 0 选 2。 计算 词语 W的最相 似 的 词语 , 首先 利 用他 们 的互 信 息挑 选 的特 征 .这里 计 算 出加与具 有 最高 互信 息 的词 语 的成 对相 似 度 . 到一 个相 似 度数 据 库. 用 来存 放 待选 词 语W与它 最相 似 得 s ,
1 词 语 相似 性 的 计 算
用特征 向量 来表 示每个 词 语 。对 每个 词语 . 依靠 它 在特 定 领 域 的文本 出现 的频 率 以及 与 共现 词语 的频 次来 计 算 它与 其 它词 语 的互 信息 。用C 表示 特定 领域 的文 本 , W为特 定领 域 出现
第2 步是 选 取 最 有 领 域特 征 的词 语 作 为 种 子 术 语 。利 用
( )
m c
∑ () ∑E ) t c , q

_ ‘—————~ ¥ —J ————一


产生, 传统 的手工 对于 领域 术语 词典 的扩 充 已经不 能满 足术语 标 准化工 作 的实际需 求 。 用计 算机 等先 进 的信息 技术 手段 已 利
经 成 为 术 语 标 准 化 工 作 的 一 个 必 然 趋 势 . 是 现 在 研 究 的 热 点 也
似空间 里的 紧凑类 ,P o mie 。  ̄ em t e 在每 次递 归 的步骤 里 , t 算法 寻
找 一系列 的 紧凑类 , 且识 别那 些不被 任何 cmmie包 括 的剩 并 o te t
余 元素 。
22 寻 找 c mmi e s . o t e t
C C 类 方法 的最 大 的特 点 就 是 .能 够 自动确 定 类 的 个 B 聚 数 ,P o ie 的个 数 , 是它 优于 其他 聚类 算法 的显 著特 点 。  ̄ cmm t e t 这 第 l 建立 一个 数据 库S 用来存 放从 领 域语 料 中抽 取 出来 步 , 的词语 ,并 统计 计算 它在 领域 语料 中最 为相 似 的2 个 词语 。 O 作 为 相似 度数 据V可S 为 以后 进行 词语 的评 分做 准备 。 ,
aea e l k 类 方 法 对 术 语 进 行 评 分 : vrg —i 聚 n
①计算词语e 与最相似的2 个词语( 12 …2 ) 0 i ,, 0 的平均相 =
基 金 项 目 : 家教 育 部 重 点 研 究 基 地 重 大 项 目( 7J 4 0 ; 北 省 科 技 攻 关 项 目( 0 7 国 0 JD7 0 6) 湖 2 0 AA1 1 4 ) 0 C 9
作者 简介 : 芳( 9 1 ) 女 , 士 , 谢 18 一 , 硕 湖北 工业 大 学计 算机 学 院助教 , 究方 向为 数据 库和 数据 挖 掘 ; 研 胡泉 ( 9 0 ) 男 , 北 武汉人 , 士 , 中师 范 18 - , 湖 硕 华
第7 第 9 卷 期 2 0 年 9月 o8
软 件 导 刊
Sot r i e fwa eGu d
VO . . 17NO9
Se 20 8 p. 0
基于CB 聚类方法对特定领域 术语 的 自动获取 C
谢 芳 胡 泉 .
(. 北工业 大 学 计算 机 学院 , 北 武 汉 4 0 6 ;. 中师 范大 学 物理 科 学与技 术 学 院 , 北 武汉 4 0 7 ) 1湖 湖 3 0 8 2华 湖 309
之一 。
这里,_ ∑ (表 ^∑ r 『 示词语出 ) 现的总 频次, 所 词 即 有的

语 在左右 的文本 中 出现 的总次 数 。
在 本文 中 . 我们 首先利 用 现有 的术 语抽取 器对 分 类 的特定 领域 无标 注 语料 库 ( 料 可 以是 最新 的各 领域 的文 章 ) 别进 语 分 行抽 取 , 每 个特 定 领域 得 到一 个词 和短语 的文 本集 , 后利 对 然 用C C 类方法 对 这些 文本 集 中 的词语 进行 聚类 , 到筛 选特 B聚 达 定领域 术语 的效 果 。
模块 。
关键 词 : 术语 ; 域 术语 ; B 聚 类 ; 领 CC 中文信 息处理 中图分类 号 :P 1 .2 T 31 5 文 献标 识码 : A 文章编 号 :6 2 7 0 (0 8 0 — 0 3 0 17 — 8 0 2 0 )9 0 2 — 2
的一 个术 语 ,c w) 词语W C 出现 的频次 。那 么词 语W F( 为 在 中 与C
的2个 词语 之 间的信 息 。 0
行抽取 ,采 用聚类 算法 是利 用领 域术 语构 件性 和强 相似 性 , 进 行分 区域 的划分 . 寻求 领域 术语 的质 心 . 除 非本 领域 术语 。 来 剔 本 文提 到 的C C B 聚类 方 法 , 它使 用 递归 的方 法 在分 布 在相
0 引 言
获 得特 定领 域 的术 语 词典 在 自然 语 言 处理 的 很 多 问题 中 都 会 涉及 到 , 比如 , 特定 领 域 本 体 模 型 的 构建 , 名 实 体 的发 命 现, 未登 录词 的 自动 识别 等 , 特定 领 域 的新 术语 又 在不 公式 如 下 :

要 : 出并 建 立 了一种基 fC C 类方 法 的领 域术 语 自动 获取 模 型 , 提 -B 聚 该模 型 避免 了单纯 以领 域相 减 或统 计 方法
获取 领域 术语 的局 限性 。并 引入修 正 的余 弦公式 来进 行术 语 间相似 度 的计算 . 实现领域 术语 自动获取 系统的核 心 来
相关文档
最新文档