基于隐马尔科夫模型的文本分类

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

1 HMM 及 相关 研 究 工 作
1 . 1 HMM 模 型
基于 H MM 信 息 处理模 型 不需 大规 模 的词典 集 和规则 集 , 并结 合 词汇 的概 率分 布 , 易 于理 解 和建立 。 前 面 已经 说 明 , HMM包 含 两部 分 : 一 部分 是不 可 观察 的用 来 描 述状 态 转 移 的马 尔科 夫 链 和 可观 察 的

个 一般 随机 过程 组成 。文 本分 类 中 的 HMM 是离 散 的 H MM 即观 察值 是离 散 的而非 连续 的。

个 因马尔 科夫模 型可 以定 义为一 个 五元组 : A={ X, O, 丌, A, B} , 可 简写 为 A = { 仃, A, } 。 其 中,
收 稿 日期 : 2 0 1 2— 1 0— 1 0
作者简介 : 刘 晓飞
男 1 9 8 7年 出生
硕士研究生
1 0 2
石家庄 铁道 大 学学报 (自然 科学版 )
第2 6卷
是 状态集 , X={ s , s , …, . s } , 状 态数 为 N。 0为观察 值符 号 的集 合 , 0={ , , …, } , 是从 每一个 状 态可 能输 出 的不 同观 察值 数 目。 7 r 是 初始 化状 态分 布 。 仃 ={ 仃 } , 7 r =P{ q =S } , 1≤J . ≤ N。 A是状 态 转 移概率 矩 阵 。 A ={ 0 “ } , 这里 0 =P{ q … :S t I q =S } , 1≤ i √≤N。 B是观察 值概率 矩 阵 , B ={ b , ( k ) } 表 示状 态 输 出| s } , 1≤ ≤ N, 1≤ k≤ M。
O 引言
近 些年来 随着 网络 的不 断发 展 , 各 种信 息 的增长 速 度越 来 越 快 , 其 中文 本 信息 占有重 要 地位 , 面对 这 些越 来 越多 的信 息 , 如何 快速 而有 效 的进行 组织 、 管 理 以及 使 用 是 当今信 息 处 理 的一 个 重要 课 题 , 而这 也
促进 了文本 分类 技术 的发 展 。
文本 分类 就 是将 未分 类 的文本 根 据一 定 的分 类 算法 分配 到正 确 的类 别 中。文 本 分 类 的应 用 十分 广 泛, 在搜 索 引擎 、 信息 过滤 、 文本 识 别 、 数 字 图书 馆等 方 面均 已成 为关键 技术 之一 。
示按 照一 指定 顺序 对 类别特 征词 集 进行 遍 历 , 状 态输 出符 号 为特 征 词 的词 频 , 隐马 尔科 夫模 型
的状 态转 移过程 隐含 的表 示 了属 于该 类 的文本 的 形成 过程 。具 有 最 大概 率 的 H MM 分 类 器就是 所属 的类 别 。该算 法 不仅 将 特征 词 考虑 进 去 , 而 且还 将 词频 信 息融 入 隐马 尔科 夫模 型 中, 实验
文本 分类 发 展至 今 , 已经 产生 了很 多种 模 型 和算 法 。 在 文本 分 类 中 比较 常 用 的 分类 算 法 有 S V M 算
法 ] 、 K N N算 法 ] 、 朴 素贝 叶斯算 法 以及 神经 网络算 法 等算 法 。还 有 很 多算 法 是基 于上 述 算 法 的改 进模 型 和算法 。 统计 学理 论 在分类 中具有 非 常重要 的地位 , 目前 大 多数 的分 类算 法 都 是 以统计 学 理 论 为基 础 的。基 于统 计学 的算 法具 有 明显 的缺 陷就 是 没 有考 虑语 法 与 语 义 方 面 的信 息 , 因为 到 目前 为止 , 自然 语 言理 解 在语 法 和语义 方 面还 没有 很好 的解 决办 法 。 隐 马尔科 夫模 型是 一 种用 参 数 表 示 的用 于描 述 随 机 过程 统 计 特 性 的 概 率 模 型 , 是 一 个 双 重 随机 过 程, 它 由两部 分组 成 : 马尔科 夫链 和一般 随 机过程 J 。 本文 建立 基 于隐 马尔科 夫模 型 ( HM M) 的文 本 分类 模 型 , 提 出 了模 型结 构 , 并 详 细说 明 了模 型 中参 数 的学 习方 法 和具体 的分 类 步骤 。但 是并 没有 显式 的考 虑语 法及 语 义 方 面 的 问题 。不 过可 以这 么认 为 , 在 这种 文本 特征 关 系演化 的过程 中 , 实际上 隐 式包 含 了这种 语言 和语 义方 面联系 的 内容 J 。 ・
基 于 隐 马 尔 科 夫 模 型 的 文 本 分 类
刘 晓 飞 。 邸 书灵
( 石家庄铁道 大学 信息科学与技术学 院 , 河北 石家庄 0 5 0 0 4 3 )
摘要 : 文本 分 类经过 多年 的发展 , 已经 产 生 了很 多成 熟 高效 的算 法。将 隐马 尔科 夫模 型 用
于文 本分 类 , 对每 个文本 类 构建. 一 个隐 马 尔科 夫模 型 , x 2检 验 获得 类别特 征 词 集 , 其 状 态转 移表
结果表 明该方 法分 类效 率较 高
关键词: 文本分 类 ; 隐马 尔科 是模 型 ; 信 息增 益 ; 检验 ; 泊松 分布
中图分 类号 : T P 1 8 2 文献 标 识码 : A 文章 编 号 : 2 0 9 5— 0 3 7 3 ( 2 0 1 3 ) 0 1 _ 0 1 0 1 — 0 6
第2 6 卷 第1 期
石 家庄铁 道 大 学 学报 ( 自然科 学版 )
V o 1 . 2 6 N 。 . 1
2 0 1 3 年3 月 J O U R N A L O F S H U I A Z H U A N G T I E D A 0 U N I V E R S I T Y( N A T U R A L S C I E N C E ) M a r . 2 0 1 3
相关文档
最新文档