文本分类中的特征降维方法研究

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

ｔｒｉｎｉｎｍｅｏｕｅｄｍｅｓｏｔｄ．ｒｓｌｎｉａｅｂｔｒｅｆｃｎＣｉｅｅｔｘａｅｏｚｔｎｈｅｕｔｉｄｃｔｅｔｆｔｉｈｎｓｅｔｃｔｇｒａｉ．ｓｅｅｉｏＫｅｒｓ：ｔｘａｅｏｚｔｎｅｔｒｉｎｉｎｒｄｃｉｎ；ｃｎｅｔａｉｎ；ｄｓｅｓｏｙｗｏｄｅｔｃｔｇｒａｉ；ｆａｕｅｄｍｅｓｅｕｔｉｏｏｏｏｃｎｒｔｏｉｐｒｉｎ；ａｓｓｍｅｔｕｃｉｎｓｅｓｎｎｔｆｏ
ｃｎｅｔａｏｍｏｇｃａｓｓｉｐｒｉｎｗ￣ｉｅｔｘｌｓｓａｄｗｒｅｕｎｙｃｎｅｔｔｎａｎｌｓｓｏｃｎｒｔｎａｎｌｓｅ．ｄｓｅｓｏｉｎｔｅｔｃａｅｎｏｄｆｑｅｃｏｃｎｒｉｍｏｇｃａｅ．Ｗｈ】ｅｔｇｉｈｓｒａｏｓｉｇｔｎｅｉ
பைடு நூலகம்
关键词：文本分类；特征降维；中度；集分散度；评估函数
中图分类号：Ｔ３１６Ｐ０．文献标志码：Ａ文章编号：１０－６５２１）７２４－３０１３９（０２０－５１０
ｄｉ１．９９ｊｉｎ１０－６５２１．７０７ｏ：０３６／．ｓ．０１３９．０２０．３ｓ
Ｒｅｅｒｈｏｅｔｒｉｎｉｎｒｄｃｉｎｉｅｔｃａｓｆｃｔ０ｓａｃｎｆａｕｅｄｍｅｓｏｅｕｔｏｎｔｘｌｓｉａｉｎｉ
ＺＨＡＮＧＹｕｆｎ・ｇ，ＷＡＢｎｈｕ，ＸＩＮＧｈｎ — ａｇａＮｉ — ｏＯＺｏｇｙｎ
ｗｈｃａｈｉｅｅｃｆｈｘｍｕａｄｔｅｓｃｎａｇｓｖｕ．Ｔｅｔｓｃｍｐｒｄｔｉｍｅｈｄｗｉｅｔａｉｏａｅ．ｉｈｗｓｔｅｄｆｒｎｅｏｅｍａｉｍｎｅｏｄｌｒｅｔａ￣ｈｅｔｏａｅｈｓｔｏｔｔｄｔｎｌａｆｔｈｌｈｈｒｉｆ
ｃｒｃｆｅｔｒｉｎｉｎｒｄｃｉｎｓｌｃｈｒｓｔａａｉｔｇｉａｅｏｅｆｅｔｅｙ，ｎｌｍａｅｙｉｒｖｈｕａｙｏａｕｅｄｍｅｓｏｅｕｔ，ｅｅｔｔｅｗｏｄｈｔｃｎｄｓｉｕｓｃｔｇｒｓｅｃｉｌａｄｕｔｔｌｍｐｏｅｔｅｆｏｎｈｉｖｉ
ｅｆｃｆｅｔｌｓｉｃｔｎｔｉａｅｒｐｓｄａｎｗｐｒａｈｆｒｆａｕｅｓｌｃｉｎｂｏｒｈｎｉｅｙｔｋｎｃｏｎｆｔｘｆｔｏｘａｓａｉ，ｈｓｐｐｒｐｏｏｅｅａｐｏｃｏｔｒｅｅｔｙｃｍｐｅｅｓｖｌａｉｇａｃｕｔｏｔｅｔｃｉｆｏｅｏｅ
（ｏｌｅｏｏｐｔｃｎｅｈｎｑｎｎｖｒｔ，Ｃｏｇｉ００４，ｈｎ）ＣｌｇｅｆＣｍｕｅＳｉｃ，ＣｏｇｉＵｉｓｙｈｎｑｎ４０４Ｃｉａｒｅｇｅｉｇ
ＡｂｔａｔＦａｕｅｄｍｅｓｎｒｄｃｉｎｉａｏｔｎａｔｏｅｐｏｅｕｅｏｘａｅｏｚｔｎ，ｉｒｅｒｖｈｃｓｒｃ：ｅｔｒｉｎｉｅｕｔｎｉｏｏＳｍｐｒｔｐｒｆｔｒｃｄｒｆｅｔｔｇｒａｉａｈｔｃｉｏｎｏｄｒｔｉｏｅｔｅａ — ｏｍｐ
第２９卷第７期
２１０２年７月
计算机应用研究
ＡｐｌａｉｎＲｅｅｒｈｏｏｕｅｓｐｉｔｓａｃｆＣｍｐｔｒｃｏ
Ｖ０．９Ｎｏ７１２．
Ｊ１２１ｕ．０２
文本分类中的特征降维方法研究
张玉芳，万斌候，熊忠阳
（重庆大学计算机学院，重庆４０４）００４摘要：特征降维是文本分类过程中的一个重要环节，了提高特征降维的准确率，出能有效区分文本类另为选１
的特征词，高文本分类的效果，出了结合文本类间集中度、提提文本类内分散度和词频类间集中度的特征降维方
法。当获取特征词在文本集上的整体评价时，出了一种新的全局评估函数，最大值与次大值之差作为最终提用的评价函数值。实验比较了该方法与传统的特征降维方法，结果表明该方法在中文文本分类中具有较好的降维
效果。
ｏｅａｌｓｓｍｅｔｆｔｅｗｏｄｉｅｔｅ．ｔｒｐｓｄｎｗｕｃｉｎｏｖｒｌａｓｓｍｅｔｙｕｉｇｔｅｆａｓｅｓｎａｕｖｒｌａｅｓｎｒｎｔｘｔｉｐｏｏｅｅｆｎｔｆｏｅａｌｓｅｓｎｓｎｈｉｌａｓｓｍｅｔｖｅ．ｓｏｈｓｏｂｎｌ