智能搜索中中文分词模块的设计
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
21 0 2年 第 2期
福 建 电
脑
11 5
智 能 搜 索 中 中文 分 词 模 块 的设 计
李 展 .李 顺
(黄 河科技 学院 现 代 教 育技 术 中心 河 南 郑 州 4 0 0 50 6)
【 摘 要 】 智 能搜 索涉及 多种技 术 , 中 , : 其 中文语 言 处理技 术是 其 中重要 的 一种 , 它可 以帮助提 高查询 中文的 准确 度 , 并丰 富搜 索 引擎 的特 色功 能。 【 键词 】智 能搜 索 , 关 : 中文分词 , 词算 法 , 分 分词 模块
文分 词模 块 的构 建和 相关 的应 用算 法思 想
确率 . 更全 面 的查 询功 能 中文 的词 汇 . 中大部 分是 两个 汉 字组 成 , 以使 用二 其 所 在 智能 搜 索 引擎方 面 .通 过更 多 C A E R WL R协 作 元分 割 的话 结果最 容易 形成 词 汇 的智 能搜 索引 擎 抓取 网页 . 以 自动 识别 网站 的 内容 . 可 二 元 分词 技术 的特 点是 原 理 简单 . 于实 现 , 易 也不 以满 足条 件为 目标 . 自动 进 行 网页 内容 降噪 和 删除 无 需要 维 护词 表 , 比一 元分 割 的精度 要高 很 多 。 相 目前二
效 网页 . 然后通 过 制定 先进 的 网络权 重算 法 . 进行 全 文 元 分词技 术 的应用 还 是 比较广 泛 的 .这个 技 术也 可 以 索 引。 由于 自然语 言 理解 技术 的引进 , 能够 支持 中 国 自 使用 在 日语 . 韩语 . 以它 的性 价 比还是 很高 的 。 所 然语 言语 句 的查 询请 求 。 目前 .国内 的研 究 点 是基 于 223基 于字符 串匹配 的分词 技术 .. We b本 体 的搜 索 .比如 元搜 索 技 术 就 是 改 善 的 多 A — 基 于 字 符 串匹 配 的分词 可 分 为 机械 分 词法 和 特 征 g n 协作 的智 能搜 索 。通 过后 台用户 的 自然 分 割抓 取 词 汇 法 。 et 网页 . 后在 互动 中 , 然 进入 中文语 句 的 自然切 词 来实 现
块 . 询模 块 和用 户界 面模 块 。 文从 搜索 引擎 技术个 查 本
询起 来 比较 复杂 , 效率 一般 。 准确 率 。 低 222二元 分词 技术 .. 目前 . 三代 搜 索 引擎 的发展 趋 势是 更 加 智 能化 。 第 个 性 化 . 在此 基 础上 . 争 有一个 更 高 的查 全率 和 准 并 力 二 元 分 词 , 指 相 邻 的 两 个 汉 字 为 单 位 。 统计 . 是 据
智 能 查 询
机 械 分 词方 法 的原 则 是找 到 一个 与原 字符 串的 一
致 性足 够大 项 的预处 理字 符 串用 一定 的方法 跟机 器 词
2 中文分 词 模块 的设 计 、 21中文分 词 简介 .
典 匹配 , 匹配 成 功 。 械 分词方 法 按照扫 描 方 向的不 同 机 可 以分 为 : 极 的匹 配和 逆 向匹配 : 照不 同长度 优 先 积 按
1 智 能搜 索简 介 、
一
个 个 的汉字 , 它是 不 可分 割 的最小 单位 。 元分 词就 一
随 着互 联 网信息 量 的 的 日益 增 长 .如何 在 庞 大 的 是 将 单个 汉 字作 为索 引和检 索 的 基本 单位 它有 一个 网络 信息 的海洋 中快 速有 效 地找 到特 定 主题 .成 为信 固定 的长度 . 内部地 址代 码 和形 式可 以直接 引用 . 其 而 息服 务提 供商 陷 入 困境 的主要 问题 。基 于 We b的搜 索 不需 要考 虑字 与字 之 间 的排序 建立 一个 数 据库 索 引 引擎 技 术 . 1 9 自 9 4年 以来 已经 开 发 了 三代 . 能 搜 索 的 中文汉 字 数是适 中的 . 字 的数 量几 乎 是恒 定 的 , 智 汉 常 引擎 一般 分为 四个 模块 :文 件解 析模 块 ,中文 分词模 用 的 中文字 符 的数 量 大致相 等数 量 的索 引条 目 因此 一 元 分 割 的 检索 系统 . 有 灵 活 , 应性 强 。 具 适 性化 发展 及其 应 用特 点 .探 讨智 能搜 索 引擎 系 统 中 中 便 于系统 维 护 的优 点 。 点是 索引 如果 h g e o) M x m M ci t d m nM h 这 种 方法 被称 为 MM 算 法 . 其基 本 原 理是 : 切 割 待
的字符 串为 S S . x是在 字典 的最 大 长度 次 以最 ,1 ma 每 常 用 的分 词 算 法 主要 有 : 元分 词 技术 、 一 二元 分词 大 的字 符 串与字典 中的单 词 匹配 . 果 匹配 成功 . 字 如 该
词 是最 小 的 、 有意 义 的语 言 成分 . 搜索 引 擎通 常都 匹 配 的划 分 。 分 为最 大 ( 长 ) 可 最 匹配 和 最小 ( 最短 ) 匹 是 以词 为单位 来 建立 索 引的 。 分词 中 。 语 和汉语 之 配 : 照 是 否与 词性 标 注过 程 相 结合 。 在 英 按 可分 为 简单 的 分 间是 有 差 异 的 : 文 以词 为单 位 . 英 而汉 语 以字 为单 位 . 词 方法 和分 词与标 签 结合 的综 合方 法 。 其最 常用 的 : 正 将 一句 话 中所 有 的字放 在 一起 . 以便 表达 一个 意 思 。 这 向最 大 匹配 法 , 向最 大 匹配方 法 . 逆 最少 切分 法 。 就要求 在 对 中文 进行 分析 之 前 .需要 将 它们 分 割成 为 较小 的词 汇单 位 . 这就 是 中文 分词 22分词 算 法 .
福 建 电
脑
11 5
智 能 搜 索 中 中文 分 词 模 块 的设 计
李 展 .李 顺
(黄 河科技 学院 现 代 教 育技 术 中心 河 南 郑 州 4 0 0 50 6)
【 摘 要 】 智 能搜 索涉及 多种技 术 , 中 , : 其 中文语 言 处理技 术是 其 中重要 的 一种 , 它可 以帮助提 高查询 中文的 准确 度 , 并丰 富搜 索 引擎 的特 色功 能。 【 键词 】智 能搜 索 , 关 : 中文分词 , 词算 法 , 分 分词 模块
文分 词模 块 的构 建和 相关 的应 用算 法思 想
确率 . 更全 面 的查 询功 能 中文 的词 汇 . 中大部 分是 两个 汉 字组 成 , 以使 用二 其 所 在 智能 搜 索 引擎方 面 .通 过更 多 C A E R WL R协 作 元分 割 的话 结果最 容易 形成 词 汇 的智 能搜 索引 擎 抓取 网页 . 以 自动 识别 网站 的 内容 . 可 二 元 分词 技术 的特 点是 原 理 简单 . 于实 现 , 易 也不 以满 足条 件为 目标 . 自动 进 行 网页 内容 降噪 和 删除 无 需要 维 护词 表 , 比一 元分 割 的精度 要高 很 多 。 相 目前二
效 网页 . 然后通 过 制定 先进 的 网络权 重算 法 . 进行 全 文 元 分词技 术 的应用 还 是 比较广 泛 的 .这个 技 术也 可 以 索 引。 由于 自然语 言 理解 技术 的引进 , 能够 支持 中 国 自 使用 在 日语 . 韩语 . 以它 的性 价 比还是 很高 的 。 所 然语 言语 句 的查 询请 求 。 目前 .国内 的研 究 点 是基 于 223基 于字符 串匹配 的分词 技术 .. We b本 体 的搜 索 .比如 元搜 索 技 术 就 是 改 善 的 多 A — 基 于 字 符 串匹 配 的分词 可 分 为 机械 分 词法 和 特 征 g n 协作 的智 能搜 索 。通 过后 台用户 的 自然 分 割抓 取 词 汇 法 。 et 网页 . 后在 互动 中 , 然 进入 中文语 句 的 自然切 词 来实 现
块 . 询模 块 和用 户界 面模 块 。 文从 搜索 引擎 技术个 查 本
询起 来 比较 复杂 , 效率 一般 。 准确 率 。 低 222二元 分词 技术 .. 目前 . 三代 搜 索 引擎 的发展 趋 势是 更 加 智 能化 。 第 个 性 化 . 在此 基 础上 . 争 有一个 更 高 的查 全率 和 准 并 力 二 元 分 词 , 指 相 邻 的 两 个 汉 字 为 单 位 。 统计 . 是 据
智 能 查 询
机 械 分 词方 法 的原 则 是找 到 一个 与原 字符 串的 一
致 性足 够大 项 的预处 理字 符 串用 一定 的方法 跟机 器 词
2 中文分 词 模块 的设 计 、 21中文分 词 简介 .
典 匹配 , 匹配 成 功 。 械 分词方 法 按照扫 描 方 向的不 同 机 可 以分 为 : 极 的匹 配和 逆 向匹配 : 照不 同长度 优 先 积 按
1 智 能搜 索简 介 、
一
个 个 的汉字 , 它是 不 可分 割 的最小 单位 。 元分 词就 一
随 着互 联 网信息 量 的 的 日益 增 长 .如何 在 庞 大 的 是 将 单个 汉 字作 为索 引和检 索 的 基本 单位 它有 一个 网络 信息 的海洋 中快 速有 效 地找 到特 定 主题 .成 为信 固定 的长度 . 内部地 址代 码 和形 式可 以直接 引用 . 其 而 息服 务提 供商 陷 入 困境 的主要 问题 。基 于 We b的搜 索 不需 要考 虑字 与字 之 间 的排序 建立 一个 数 据库 索 引 引擎 技 术 . 1 9 自 9 4年 以来 已经 开 发 了 三代 . 能 搜 索 的 中文汉 字 数是适 中的 . 字 的数 量几 乎 是恒 定 的 , 智 汉 常 引擎 一般 分为 四个 模块 :文 件解 析模 块 ,中文 分词模 用 的 中文字 符 的数 量 大致相 等数 量 的索 引条 目 因此 一 元 分 割 的 检索 系统 . 有 灵 活 , 应性 强 。 具 适 性化 发展 及其 应 用特 点 .探 讨智 能搜 索 引擎 系 统 中 中 便 于系统 维 护 的优 点 。 点是 索引 如果 h g e o) M x m M ci t d m nM h 这 种 方法 被称 为 MM 算 法 . 其基 本 原 理是 : 切 割 待
的字符 串为 S S . x是在 字典 的最 大 长度 次 以最 ,1 ma 每 常 用 的分 词 算 法 主要 有 : 元分 词 技术 、 一 二元 分词 大 的字 符 串与字典 中的单 词 匹配 . 果 匹配 成功 . 字 如 该
词 是最 小 的 、 有意 义 的语 言 成分 . 搜索 引 擎通 常都 匹 配 的划 分 。 分 为最 大 ( 长 ) 可 最 匹配 和 最小 ( 最短 ) 匹 是 以词 为单位 来 建立 索 引的 。 分词 中 。 语 和汉语 之 配 : 照 是 否与 词性 标 注过 程 相 结合 。 在 英 按 可分 为 简单 的 分 间是 有 差 异 的 : 文 以词 为单 位 . 英 而汉 语 以字 为单 位 . 词 方法 和分 词与标 签 结合 的综 合方 法 。 其最 常用 的 : 正 将 一句 话 中所 有 的字放 在 一起 . 以便 表达 一个 意 思 。 这 向最 大 匹配 法 , 向最 大 匹配方 法 . 逆 最少 切分 法 。 就要求 在 对 中文 进行 分析 之 前 .需要 将 它们 分 割成 为 较小 的词 汇单 位 . 这就 是 中文 分词 22分词 算 法 .