中文分词工具对比

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(其两种分词模式)是基于HMM; • 理论上讲,分词效果:CRF ≈≈ SP > HMM; • 从分词速率的测试结果上来看,THULAC是兼顾效果与速率。
Aggressive(PA),JAVA; • THULAC:清华大学2016年开源,采用结构化感知器(SP); • Standford CoreNLP, HanLP……
对比:LTP、NLPIR、THULAC和jieba(C++)
• 1、数据集:SIGHAN Bakeoff 2005 MSR, 560KB
补充
• 测试数据集为搜狗新闻语料,65MB(少量噪声); • THULAC两种模式:SegOnly模式,只分词没有词性标注;SegPos模
式,分词兼有词性标注; • SegOnly分词速度快,但是准确率较SegPos模式低;而SegPos具有
更高的准确率,但内存占用更多、分词速度较慢; • THULAC基于结构化感知器SP,CoreNLP基于CRF,Ansj与HanLP
对比的4个工具均支持用户自定义词库; • 哈工大的ltp支持分词模型的在线训练,即在系统自带模型的基础
上可以不断地增加训练数据。
对比: Ansj、CoreNLP、HanLP和THULAC(Java)
分词器 thulac4j
THULAC-Java
Ansj
CoreNLP HanLP
SegOnlቤተ መጻሕፍቲ ባይዱ SegPos SegOnly SegPos ToAnalysis NlpAnalysis CRFClassifier StandardTokenizer NLPTokenizer
耗时(ms) 30,342 200,545 48,775 289,970 16,873 79,700 918,488 21,738 59,356
• Thulac4j在官方THULAC-Java基础上做了工程性优化
速率(Kb/s) 2102.1 318.1 1307.8 219.9 3780.2 800.3 69.4 2934.2 1074.6
几种中文分词工具简介
• NLPIR(ICTCLAS):中科院张华平博士,基于Bigram + HMM; • Ansj:孙健,ICTLAS的Java版本,做了一些工程上的优化; • Jieba:由fxsjy开源,基于Unigram + HMM; • LTP:哈工大2011年开源,采用结构化感知器(SP); • FNLP:复旦大学2014年开源,采用在线学习算法Passive-
对比:LTP、NLPIR、THULAC和jieba(C++)
• 2、数据集:SIGHAN Bakeoff 2005 PKU, 510KB
对比:LTP、NLPIR、THULAC和jieba(C++)
• 3、数据集:人民日报 2014, 65MB(只测试分词速度)
结论
• thulac和ltp都在各个数据集都有很不错的表现; • 分词速度上thulac和jieba表现的不错; • 真正想用分词工具来解决应用层面上的问题,需要借助于词库,
相关文档
最新文档