ICTCLAS分词流程
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1. 对语料对象进行预处理:根据标点符号,空格,回车符等进行初切分成短的句子;
2. 对短句子进行按规则进行原子切分:数字,连字符和汉字都是原子切分的规则;
3. 用N-最短路径进行粗切分:对于每个原子进行词性标注(POS...),标注完以后,对每个原子按照词典进行向后匹配到最大
可能的成词,将这些词在句子中的初始位置和结束位置进行记录,完成初始分词,并将记录的结果形成2叉列表形式;
4. 从二叉列表中分词结果中,我们计算可能成为前后词的两两间的平滑度(即两次可能独立成词的可能性);
5. 利用N-最短路径分词算法(类似于Dijkstra最短路径算法思想,只是需要计算到前N个结点的最短距离)计算得出N个可能的
2叉分词路径;
6. 对这分词结果,按照未登录词识别规则(人名、地名、机构名识别规则)进行未登录词的识别,并利用HMM进行词性标注;
7. 对整个的分词结果利用HMM进行词性标注;
8. 对其他如叠词、词性重复的等进行进一步的合并处理;
9. 得到最终的分词结果。