计算机学院毕业设计任务书
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
毕业设计[论文] 任务书
姓名班号院(系)
指导教师指导教师职称
一、课题名称及来源(来自教师实际课题的任务请注明实际课题名称)
课题名称:中文数据检索中的分词检索机制研究与实现
课题来源:自选
二、课题内容
1. 研究当前主流的中文分词算法及其技术难点,并进行比较研究。
2. 基于原子切分和最短路径等思想设计并实现一种可行的中文分词系统,能够快速准确地对中文文本进行切分。
三、课题任务及要求
设计并实现一种可行的中文分词系统,使其具备较快的切分速度与较高的切分精度。同时,也能够在一定程度上消除歧义字段。
四、同组设计者
无
五、主要参考文献
[1]黄昌宁, 赵海. 中文分词十年回顾. 中文信息学报, 2007, 21(3): 8-19
[2]奉国和, 郑伟. 国内中文自动分词技术研究. 图书情报工作, 2011, 55(2): 41-45
[3]孙铁利, 刘延吉. 中文分词技术的研究现状与困难. 信息技术, 2009, 7: 188
[4]梁南元. 书面汉语自动分词系统—CDWS. 中文信息学报, 1987, 1(2): 44-52
[5]揭春雨, 刘源, 梁南元. 论汉语自动分词方法. 中文信息学报, 1989, 3(1): 1-9
[6]揭春雨. “信息化处理用现代汉语分词规范”的若干问题探讨. 中文信息学报, 1989, 3(4):
33-41
[7]揭春雨, 刘源, 梁南元. 汉语自动分词实用系统CASS的设计与实现. 中文信息学报, 1991,
5(4): 27-34
[8]吴胜远. 一种汉语分词方法. 计算机研究与发展, 1996, 33(4): 306-311
[9]黄德根, 朱和合, 王昆仑. 基于最长次长匹配的汉语自动分词. 大连理工大学学报, 1999,
39(6): 831-835
[10]孙晓, 黄德根. 基于最长次长匹配分词的一体化中文词法分析. 大连理工大学学报, 2010,
50(6): 1028-1034
[11]陈桂林, 王永成, 韩客松. 一种改进的快速分词算法. 计算机研究与发展, 2000, 37(4):
418-424
[12]Sproat R, Emerson T. The first international Chinese word segmentation bakeoff. Proceedings of
the second SIGHAN workshop on Chinese language processing, 2003: 133-143
[13]刘群, 张华平. 基于层叠隐马模型的汉语词法分析. 计算机发展与研究, 2004, 41(8):
1422-1423
[14]张华平, 刘群. 基于N-最短路径方法的中文粗分模型. 中文信息学报, 2002, 16(5): 1-7
[15]孙茂松, 黄昌宁. 利用汉字二元语法关系解决自动分词中交集型歧义. 计算机研究与发展,
1997, 34(5): 101-103
[16]李家福, 张亚非. 一种基于概率模型的分词系统. 系统仿真学报, 2002, 14(5): 544-550
[17]Dijkstra E.W. A note on two problems in connection with graphs. Numerical Mathematic, 1959, 1:
269-271
指导教师签字
年月日
(此任务书装订时放在毕业设计(论文)报告第一页)