中文分词技术在智能评分系统中的应用研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘 要 :在 计算机 考试 系统 开发过程 中,对于主观题 的智能评 分一直是重点 ,也是难 点 ,而在 主观题评 分 中首 要 解决的 问题就是 中文分词技 术,本文就现有 的 中文分词技 术做 分析 比较 ,并根据智 能评分 系统应 用研 究 中具体做
法做 出分析 。 关键 词 :中文分词 ;依 据词典 ;智能评分 系统
中图分类号 :T P 3 9 1
文献标识码 : A
文章编号 :1 6 7 4 - 7 7 1 2( 2 0 1 4 ) 0 2 - 0 2 4 3 — 0 1
Leabharlann Baidu
随着信息技术 的普 及和发展,计算机智 能阅卷 已经得到 多 ,就越有可 能构成一个词 。从统计 学上讲就是求概 率的 问 了广 泛的应用 ,如 :大 学英语等级考试 、计算机 等级考试等 题 ,可 以通过对 训练 文本 中相邻 出现 的各个字 的组合 的频率 国家 级考 试 中的客观题 都参用 了计算机智 能阅卷 。同时一些 进行统计学 习,计算它们 的互现信 息得 出规律 。在 中文处理 远程考试 系统在主观题 智能评分方面也取得 了许 多成果 ,中 时 ,如果文本 串中的字与字互现信 息大于某个值 时,就可 以 文分 词是 自然语言处理 系统中的重要步骤 ,而主观题 智能评 判断此字组可 能构成 了一个词 。该 方法又称为无字 典分词 。 分首 要解 决的 问题就是 中文分词,本文试从现有 的中文分词 互现 信 息 的计 算 ,设有 词 A和 B ,A B之 间 的互现 信 息 为: 技术进行 了探讨 ,并就智能评分系统 中的应用做出研 究分析。 M ( A , B ) = 供中P( A , B ) 为A 、 B 相邻出 现的频率, 中文分词技术概述 P( A )为 A出现 的频率 ,P( B ) 为 B出现 的频率 。 中文分词是指按照 一定的算法 ,将一个 中文序 列切分成 ( 三 )依据 理解 的分词算法 。该方 法又称依据人 工智能 个 一个 单独 的词 。分词就 是计 算机 自动识别文 中词的边界 的分词方法 ,这种方 法模拟 了人对句 子的理解过程 ,其 基本 的过程 。我们知道 ,在英文 中,单词之间是 以空格 作为 自然 思想就是对文本 串进 行句法 、语义 理解 ,并利用句法信 息和 分界 符的,而 中文只是字 、句和 段能通过 明显 的分 界符来简 语义信 息来进行分词 并处理歧 义现象 。此算法一般包括三个 单划 界,唯独词没有一个 形式上的分界符 ,人工 在阅读时 , 部分 :分词子系统、句法语义子系统和总控部分。分词子系统 都需要通 过对句子分词才 能正确理解意思 ,可见 中文 分词技 是在 总控部分的协调下,来得到有关 的词、句子等的句法 ,通 术对主观题智能评分有着重要的意义 。 过语义信息对分词中的歧义进行判 断的。此分词方法通常使用 二、现有的中文分词技术 较大量的语言知识及信息。 由于汉语 中语言知识较为笼统、 复杂, 在近 3 0年 的研 究 中,各 位开发 人员研 究 了中文分 词技 很难将各种语 言信息完全组织成机器可直接读取 的形式,因此 术在 词典和概率方面统 计的一些算法 。 目前 中文 分词主要算 目前依据理解的分词系统还不成熟。 法有 三大类 :依据词典 的分词方法 ,依据统计 的分词方法 , 三 、中文分词算法在智能评 分系统 中的应用 依据理解 的分词方法 。 就 以往客观 题人工阅卷过程来 看,教师通常首先 查看正 下面 简要介绍一下这些算法 。 确答案 中的关键 点,然后再与学生答案 对 比,通过学 生答 对 ( 一 )依据 字典 的分词算法。又名机械分词 算法,此方 关键点所 占的比重来 确定学生得分情况 。基 于这样 的阅卷 过 法是根据 词库确立词典 ,然 后以一定策略将准备分 析的中文 程,尝试通过 中文分词模拟人工 阅卷过程 。 字符 串和这个词典 中的各词进行 比对 ,如果在词典中能找到, 首先 ,题库 中试题 要配有相应 的答 案及 关键 点,记 为一 则 比对 成功,那么就需要 一个相当大容量 的中文 词典,词典 个集合 ,如:关键字 = { K 1 ,K 2 ,K 3 …. K n ) 。在对学生 的答 案 的词语越 广泛 ,分词的越准 确。依据 比对方 向的不一 样可分 使用 中文 分词技术 中 删 法和 R M M法结合 ,得出学生答案中所 为正 向比对和逆 向比如 ;依据 长度 比对 的情况 ,分 为最大 比 占关键词 的比例 ,给相应的得分 。 对和最 小 比对;其 中最常用 的方 法是正 向最大 比对法 和逆 向 四、结束语 最大 比对法 。正向最大比对法 ( M a x i m u m at M c h i n g M e t h o d ), 本文就现有 的中文分词技术做 出了分析,系统地 阐述 了 其主要思想为:从待匹配的文本 串最左端开始,依次取出 i , 三种算法,他们都有各 自的优缺点 :首先依 据词典 的分词 算 2 ,3 ,…n 个字符来与 已有的词典 比较,看看在词典 中是否有 法简单 , 易于实现, 不足在于比对速度慢, 歧义 问题较难解决 这个词,若有,则匹配成功,将它放入词队列或数组中暂存, 依据 统计的分词算法 可以发现所有 的歧 义切分,但统计语 言 接着对 中文语句 /字 串中剩余的部分进匹配,直到全部分词完 的精 度和决策算法又在很 大程度上决定 了解 决歧义 的方法 , 毕。正向最大匹配算法按照从左到右 的顺序进行匹配,在分词 并且速度较慢 。后面又分析 了中文分词算法在 智能评分系 统 要遵循所谓的最大化原则,即确保 已扫描出的词不是某个 已存 中的应用,具体采用 了依 据词典 的分词 算法。 由于 中文 的复 在词 的前 缀。逆 向最 大 比对 法 ( R e v e r s e M a x i m u m M a t c h i n g 杂性 , 决定 了中文分词技术还不够成熟, 很多技术还在探索 中。 M e t h o d )。R M M法的主要 原理 与 删 法相 同,区别在于 分词的 参考文献: 扫描方 向。 如A 代表词典 , M A X 表示 A中的最长文本 串长度 , Ⅲ 1袁春凤 . 主观题 的计算机 自动批发技 术研 究 盯 ] . 计算 s t r i n g为准备切分 开的字符 串。删 法 是从 s t r i n g中取 出长 机 应 用研 究 , 2 0 0 4 ( 0 2 ) : 1 8 1 — 1 8 5 . 度为M A X的子 串 ( 即最长 文本 串)和 A中的词条进 行 比对 。 『 2 ] 高斯 丹 . 基 于 自然语 言理解的主观试题 自动批 发技 术 如 果成功 ,那么该 子串为词,然后指针 向后移 M AX 个 汉字后 的 研 究 与 初 步 实现 [ D1 . 继 续 比对 ,否则该子 串每次减少一个进行 比对。 由于汉语 多 『 3 1 谭 冬晨 . 主观题 评 分 算 法模 型研 究 f 【 ) ] . 电子 科技 大 数情 况下 中心词位 置相对靠后 ,所 以逆 向最 大匹配法 的精度 学 , 2 0 1 1 . 『 4 ] 贾电如 . 基 于 自然语语 句结构及语 义相似 度计算主观 要高于正 向最 大匹配法,在实际应用 中通 常将 正 向最大匹配 2 0 0 9 ( 0 5 ) : 5 — 7 . 算法 与逆 向最 大匹配算法两者结合起来 使用,这样可提高分 题评分算法的研究 卟 信 息化 纵横 , 词结果的正确率 。 [ 作者简介 ]张微微 ( 1 9 8 2 . 0 4 一 ),女 ,黑龙江讷河人 , ( 二 )依据 统计的分词算法 。该方 法的主要 思想 :词 是 稳定 的组合 ,因此 在上下文 中,相邻 的字同时 出现 的次数 越 教师 ,讲师 ,理学学士,研究方 向:计算机软件应 用。

酾软 件 应 用 与 设 计
S o f t wa r e Ap p l i c a t i o n a n d De s i g n
中文分词技术在智能评分系统中的应用研究
张微 微
( 1 . 青 岛科技大学 ,山 东青岛 2 6 6 0 6 1 ; 2 . 山东省轻工工程学校 ,山东青岛 2 6 6 1 1 2 )
相关文档
最新文档