[计算机]基于Lucene的中文字典分词模块
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Company name
2008 年6 月 21 日 2008 年 6月 21 日
中文文本分词的一般过程
词典初始化
输入分词文本,对文本预处理 对文本进行初步的划分 消歧和未登陆词识别 保存结果
Company name
中文词典 更新词典
2008 年6 月 21 日 2008 年 6月 21 日
基于Lucene的中文字典分词模块的设计与实现 1词典建立 词典是汉语自动分词的基础,分词词典机制的 优劣直接影响到中文分词的速度和效率。
基于Lucene的中文字典分词模块 的设计与实现
信安041 温珊珊
LOGO
2008 年6 月 21 日 2008 年 6月 21 日
基于Lucene的中文字典分词模块的设计与实现
1.中文分词的研究背景及现状
2.中文分词的研究内容和意义 3.分词模块的设计与实现
4.对本文工作的总结
Company name
Company name
2008 年6 月 21 日 2008 年 6月 21 日
中文分词的研究现状
从70年代我国情报检索界从事到中文信息检索 领域的研究开始,一直有大量学者致力于中文自动 分词研究,至今已获得许多可喜的成果,出现了一 些实用的自动分词系统。这些系统在分词的精确度 和分词速度方面都具有相当的水平,但是仍然需要 进一步的研究。
2008 年6 月 21 日 2008 年 6月 21 日
中文分词的研究背景及现状 网络资源爆炸性增长,搜索引擎技术发展迅速 全文搜索引擎包Lucene在许多搜索引擎技术项 目中得到了广泛且深入的应用和研究 中文分词技术成为计算机信息检索、自然语言 理解、人工智能、机器翻译和自动文摘等领域 突破的关键多种技术发展的瓶颈
3)在识别新词的问题上,对分词产生的碎片进行概率上的 统计,以此来判断是否将其认为是未登录词。通过测试验 证,系统可识别大部分的中文人名,提高了系统的实用性。 4)针对中文文本中可能会出现英文词语的特点,系统对英 文文本也进行了相应的处理,保证了分词的全面性,提高 了系统的处理能力。
Company name
lucene.analysis(分析器)
Company name
2008年6月21日
系统设计界面和功能展示
Company name
2008年6月21日
系统设计界面和功能展示
Company name
2008年6月21日
系统设计界面和功能展示
Company name
2008 年6 月 21 日 2008 年 6月 21 日
Company name
2008 年6 月 21 日 2008 年 6月 21 日
中文分词面临的问题
计算机难以正确理 解并分析中文文本
Company name
2008 年6 月 21 日 2008 年 6月 21 日
中文分词的研究内容
语言是一个开放集,它的词条始终是处于不断的增长中, 所以很难有一个完善的词典来描述它,可能这个词在今天 不是词,在将来就被认定为一个词了。这就告诉我们,词 典的完备性始终是我们研究中文分词必须考虑的一个问题。 汉语自然语言处理的应用系统处理对象越来越多的是大规 模语料,因此分词的速度和分词算法的易实现性变得相当 关键。 词典规模、词典查找速度、切分预处理方式、切分排 歧方式、未登录词处理、词性标注等方面在前人的基 础上做进一步的改善
Company name
2008 年6 月 21 日 2008 年 6月 21 日
双字哈希词典机制
Company name
2008 年6 月 21 日 2008 年 6月 21 日
基于Lucene的中文字典分词模块的设计与实现
2.对文本进行预处理
预处理,利用特殊的标记(0xa1)将输入的中文文本 分割成较短的汉字串,汉字串以中文空格分开,简化分 词算法要处理的特殊情况,这些标记包括所有的标点符 号,例如:“,”、“。”等等。由于本研究同时考虑 到了对英文文本和数字的处理,所以,也将英文单词, 数字等作为标记来分割中文文本。
对本文工作的总结 本文在全文搜索引擎JAVA版的开源软件包LUCENE的基 础上,对中文分词技术进行了深入的研究,设计并完成了 中文文本字典分词系统,并将系统封装成LUCENE分析器添 加到LUCENE中使用,扩展了LUCENE的中文处理的功能。 1)对几种常用词典机制进行了分析和比较,针对中文文本 中双字词所占比例较高的特点,实现双层哈希词典机制策 略,在保证分词具有较高的效率的同时,简化了对词典的 维护和更新等操作,使系统维护简单易行。
2008年6月21日
总结 不过,此中文分词模块还存在一些固有的缺陷,如词 典结构的建立并未充分考虑到空间浪费的问题,对于碎片 的整理之后还应该添加权值计算和确定的功能,系统还未 实现向词典添加新词的功能,这些问题都有待进一步深入 研究后,再提出可行的方案进行完善。
Company name
2008年6月21日
1 基于整词二分 的分词词典机 制 2 基于TRIE索引 树的分词词典 机制 3 基于逐字二分 的分词词典机 制
Company name
2008 年6 月 21 日 2008 年 6月 21 日
双字哈希词典机制
为了使分词系统在具有较高的分词效率的同 时,维护和更新词典也相对简单,本研究采用了 一种新的词典机制来建立词典——双字哈希词典 机制。。
Company name
2008 年6 月 21 日 2008 年 6月 21 日
基于Lucene的中文字典分词模块的设计与实现 本设计完成的功能:
设计词典结构,读入词库文件,初始化词典结构 对文本预处理,使用最大正向匹配算法初步分词 设计实现双向匹配算法,对结果进行基于规则的选择,实 现系统纠错功能 对分词后的结果产生的碎片进行概率统计,识别文本中的未 登陆词 将分词系统封装成Lucene分析器,并使用索引器建立索引, 实现系统检索功能
新词识别
王军虎
计算碎片“虎”相对于“军” (“王军”)的条件概率 计算碎片“军”相对于 “王“的条件概率
碎片“虎”
碎片“军”
计算“王”在文本 中出现的概率 碎片“王”
Company name
2008 年6 月 21 日 2008 年 6月 21 日
基于Lucene的中文字典分词模块的设计与实现
5.将系统封装成Lucene分析器,建立索引
致谢
在我的毕业设计即将完成之际,我 想感谢所有在毕设过程中帮助指导我的 老师和同学们。感谢程老师,在整个设 计过程中都给予了高度的关注和悉心的 指导。感谢各位答辩组的老师,感谢郭 师兄,还有我的同学孙琳,谢谢你们给 了我最无私的帮助,谢谢。
Company name
LOGO
百度文库 2008年6月21日
Company name
Company name
2008 年6 月 21 日 2008 年 6月 21 日
总结 2)对分词歧义进行了研究。实现了最大正向匹配算法,对 中文文本分词。为了提高分词的准确率,在最大正向匹配算 法的基础做了改进,对文本分别实现了正向和逆向的最大匹 配,然后对两种结果进行基于规则的选择,实验证明,这种 分词算法可显著提高分词准确率。
存 在
Company name
2008 年6 月 21 日 2008 年 6月 21 日
基于Lucene的中文字典分词模块的设计与实现
5.新词识别
获得位 置连续的 碎片 组
计算每 两个 相邻碎 片的 条件 概率
与设定 的阈 值比较 大小 判断是 否为 词
Company name
2008 年6 月 21 日 2008 年 6月 21 日
2008 年6 月 21 日 2008 年 6月 21 日
基于Lucene的中文字典分词模块的设计与实现
4 歧义识别——对结果的进一步处理
最大正向匹配算法 最大逆向匹配算法
Company name
2008年 6月 21 日 2008 年 6月 21日
对结果的纠错功能实现过程
中文字典 不 存 在 查找
Company name
2008年6月21日
本课题的研究意义
由于Lucene支持的中文文本分词仅限于单字区分 和双字区分两种方式,不能满足大多数中文文本 信息检索技术的需求,所以在一定程度上限制了 它在中国的应用和开发。因此Lucene加入中文分 词的功能,对于Lucene在中国的广泛应用和发展 将会起到很大的推动作用
Company name
2008年 6月年 21 2008 6日 月21日
基于Lucene的中文字典分词模块的设计与实现
3.对文本进行初步的分词 本分词系统选用机械分词算法中的最大匹配算 法作为中文分词算法,具体实现就是对于字符串s, 从前到后扫描,对扫描的每个字,从词表中寻找 最长匹配 。
Company name
2008 年6 月 21 日 2008 年 6月 21 日
中文文本分词的一般过程
词典初始化
输入分词文本,对文本预处理 对文本进行初步的划分 消歧和未登陆词识别 保存结果
Company name
中文词典 更新词典
2008 年6 月 21 日 2008 年 6月 21 日
基于Lucene的中文字典分词模块的设计与实现 1词典建立 词典是汉语自动分词的基础,分词词典机制的 优劣直接影响到中文分词的速度和效率。
基于Lucene的中文字典分词模块 的设计与实现
信安041 温珊珊
LOGO
2008 年6 月 21 日 2008 年 6月 21 日
基于Lucene的中文字典分词模块的设计与实现
1.中文分词的研究背景及现状
2.中文分词的研究内容和意义 3.分词模块的设计与实现
4.对本文工作的总结
Company name
Company name
2008 年6 月 21 日 2008 年 6月 21 日
中文分词的研究现状
从70年代我国情报检索界从事到中文信息检索 领域的研究开始,一直有大量学者致力于中文自动 分词研究,至今已获得许多可喜的成果,出现了一 些实用的自动分词系统。这些系统在分词的精确度 和分词速度方面都具有相当的水平,但是仍然需要 进一步的研究。
2008 年6 月 21 日 2008 年 6月 21 日
中文分词的研究背景及现状 网络资源爆炸性增长,搜索引擎技术发展迅速 全文搜索引擎包Lucene在许多搜索引擎技术项 目中得到了广泛且深入的应用和研究 中文分词技术成为计算机信息检索、自然语言 理解、人工智能、机器翻译和自动文摘等领域 突破的关键多种技术发展的瓶颈
3)在识别新词的问题上,对分词产生的碎片进行概率上的 统计,以此来判断是否将其认为是未登录词。通过测试验 证,系统可识别大部分的中文人名,提高了系统的实用性。 4)针对中文文本中可能会出现英文词语的特点,系统对英 文文本也进行了相应的处理,保证了分词的全面性,提高 了系统的处理能力。
Company name
lucene.analysis(分析器)
Company name
2008年6月21日
系统设计界面和功能展示
Company name
2008年6月21日
系统设计界面和功能展示
Company name
2008年6月21日
系统设计界面和功能展示
Company name
2008 年6 月 21 日 2008 年 6月 21 日
Company name
2008 年6 月 21 日 2008 年 6月 21 日
中文分词面临的问题
计算机难以正确理 解并分析中文文本
Company name
2008 年6 月 21 日 2008 年 6月 21 日
中文分词的研究内容
语言是一个开放集,它的词条始终是处于不断的增长中, 所以很难有一个完善的词典来描述它,可能这个词在今天 不是词,在将来就被认定为一个词了。这就告诉我们,词 典的完备性始终是我们研究中文分词必须考虑的一个问题。 汉语自然语言处理的应用系统处理对象越来越多的是大规 模语料,因此分词的速度和分词算法的易实现性变得相当 关键。 词典规模、词典查找速度、切分预处理方式、切分排 歧方式、未登录词处理、词性标注等方面在前人的基 础上做进一步的改善
Company name
2008 年6 月 21 日 2008 年 6月 21 日
双字哈希词典机制
Company name
2008 年6 月 21 日 2008 年 6月 21 日
基于Lucene的中文字典分词模块的设计与实现
2.对文本进行预处理
预处理,利用特殊的标记(0xa1)将输入的中文文本 分割成较短的汉字串,汉字串以中文空格分开,简化分 词算法要处理的特殊情况,这些标记包括所有的标点符 号,例如:“,”、“。”等等。由于本研究同时考虑 到了对英文文本和数字的处理,所以,也将英文单词, 数字等作为标记来分割中文文本。
对本文工作的总结 本文在全文搜索引擎JAVA版的开源软件包LUCENE的基 础上,对中文分词技术进行了深入的研究,设计并完成了 中文文本字典分词系统,并将系统封装成LUCENE分析器添 加到LUCENE中使用,扩展了LUCENE的中文处理的功能。 1)对几种常用词典机制进行了分析和比较,针对中文文本 中双字词所占比例较高的特点,实现双层哈希词典机制策 略,在保证分词具有较高的效率的同时,简化了对词典的 维护和更新等操作,使系统维护简单易行。
2008年6月21日
总结 不过,此中文分词模块还存在一些固有的缺陷,如词 典结构的建立并未充分考虑到空间浪费的问题,对于碎片 的整理之后还应该添加权值计算和确定的功能,系统还未 实现向词典添加新词的功能,这些问题都有待进一步深入 研究后,再提出可行的方案进行完善。
Company name
2008年6月21日
1 基于整词二分 的分词词典机 制 2 基于TRIE索引 树的分词词典 机制 3 基于逐字二分 的分词词典机 制
Company name
2008 年6 月 21 日 2008 年 6月 21 日
双字哈希词典机制
为了使分词系统在具有较高的分词效率的同 时,维护和更新词典也相对简单,本研究采用了 一种新的词典机制来建立词典——双字哈希词典 机制。。
Company name
2008 年6 月 21 日 2008 年 6月 21 日
基于Lucene的中文字典分词模块的设计与实现 本设计完成的功能:
设计词典结构,读入词库文件,初始化词典结构 对文本预处理,使用最大正向匹配算法初步分词 设计实现双向匹配算法,对结果进行基于规则的选择,实 现系统纠错功能 对分词后的结果产生的碎片进行概率统计,识别文本中的未 登陆词 将分词系统封装成Lucene分析器,并使用索引器建立索引, 实现系统检索功能
新词识别
王军虎
计算碎片“虎”相对于“军” (“王军”)的条件概率 计算碎片“军”相对于 “王“的条件概率
碎片“虎”
碎片“军”
计算“王”在文本 中出现的概率 碎片“王”
Company name
2008 年6 月 21 日 2008 年 6月 21 日
基于Lucene的中文字典分词模块的设计与实现
5.将系统封装成Lucene分析器,建立索引
致谢
在我的毕业设计即将完成之际,我 想感谢所有在毕设过程中帮助指导我的 老师和同学们。感谢程老师,在整个设 计过程中都给予了高度的关注和悉心的 指导。感谢各位答辩组的老师,感谢郭 师兄,还有我的同学孙琳,谢谢你们给 了我最无私的帮助,谢谢。
Company name
LOGO
百度文库 2008年6月21日
Company name
Company name
2008 年6 月 21 日 2008 年 6月 21 日
总结 2)对分词歧义进行了研究。实现了最大正向匹配算法,对 中文文本分词。为了提高分词的准确率,在最大正向匹配算 法的基础做了改进,对文本分别实现了正向和逆向的最大匹 配,然后对两种结果进行基于规则的选择,实验证明,这种 分词算法可显著提高分词准确率。
存 在
Company name
2008 年6 月 21 日 2008 年 6月 21 日
基于Lucene的中文字典分词模块的设计与实现
5.新词识别
获得位 置连续的 碎片 组
计算每 两个 相邻碎 片的 条件 概率
与设定 的阈 值比较 大小 判断是 否为 词
Company name
2008 年6 月 21 日 2008 年 6月 21 日
2008 年6 月 21 日 2008 年 6月 21 日
基于Lucene的中文字典分词模块的设计与实现
4 歧义识别——对结果的进一步处理
最大正向匹配算法 最大逆向匹配算法
Company name
2008年 6月 21 日 2008 年 6月 21日
对结果的纠错功能实现过程
中文字典 不 存 在 查找
Company name
2008年6月21日
本课题的研究意义
由于Lucene支持的中文文本分词仅限于单字区分 和双字区分两种方式,不能满足大多数中文文本 信息检索技术的需求,所以在一定程度上限制了 它在中国的应用和开发。因此Lucene加入中文分 词的功能,对于Lucene在中国的广泛应用和发展 将会起到很大的推动作用
Company name
2008年 6月年 21 2008 6日 月21日
基于Lucene的中文字典分词模块的设计与实现
3.对文本进行初步的分词 本分词系统选用机械分词算法中的最大匹配算 法作为中文分词算法,具体实现就是对于字符串s, 从前到后扫描,对扫描的每个字,从词表中寻找 最长匹配 。
Company name