一种基于词频信息的改进CHI文本特征选择
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一种基于词频信息的改进CHI文本特征选择
刘海峰;苏展;刘守生
【期刊名称】《计算机工程与应用》
【年(卷),期】2013(000)022
【摘要】CHI是一种常用的文本特征选择方法。
针对该模型的不足之处,以特征项的频数为依据,分别从特征项的类内分布、类间分布以及类内不同文本之间分布等角度,对CHI模型进行逐步优化,使得特征项频数信息得到了有效利用。
提出了一种基于词频信息的改进CHI模型。
随后的文本分类试验证明了提出优化CHI 模型的有效性。
%CHI is a commonly used text feature selection method. Aiming at the shortcomings of the model, according to the fre-quency characteristic, the CHI model is gradually optimized from the feature distribution within class, distribution between class and the distribution between different text in the same category. This approach makes the characteristic frequency information has been used effectively. An improved CHI model based on word frequency information is proposed. The text categorization ex-periment subsequently proves the validity of the new optimized CHI model.
【总页数】5页(P110-114)
【作者】刘海峰;苏展;刘守生
【作者单位】解放军理工大学理学院,南京 210007;解放军理工大学理学院,南京 210007;解放军理工大学理学院,南京 210007
【正文语种】中文
【中图分类】TP391
【相关文献】
1.一种基于改进互信息和信息熵的文本特征选择方法 [J], 成卫青;唐旋
2.基于词频信息改进的IG特征选择算法在文本分类中的应用研究 [J], 牛玉霞;
3.基于词频信息的改进信息增益文本特征选择算法 [J], 石慧;贾代平;苗培
4.基于词频信息改进的IG特征选择算法在文本分类中的应用研究 [J], 牛玉霞
5.基于位置及词频信息的优化CHI文本特征选择方法 [J], 宋阿羚;刘海峰;刘守生;;;因版权原因,仅展示原文概要,查看原文内容请购买。