中文文本分类语料

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

中文文本分类语料
文本自动分类就是用电脑对文本按照一定的分类体系或标准进行自动分类标记。

文本分类问题与其它分类问题没有本质上的区别,其方法可以归结为根据待分类数据的某些特征来进行匹配,当然完全的匹配是不太可能的,因此必须(根据某种评价标准)选择最优的匹配结果,从而完成分类。

现如今,统计学习方法已经成为了文本分类领域绝对的主流。

统计学习方法需要一批由人工进行了准确分类的文档作为学习的材料(称为训练集,注意由人分类一批文档比从这些文档中总结出准确的规则成本要低得多),计算机从这些文档中挖掘出一些能够有效分类的规则,这个过程被形象的称为训练,而总结出的规则集合常常被称为分类器。

训练完成之后,需要对计算机从来没有见过的文档进行分类时,便使用这些分类器来进行。

下面提供一些网上能下载到的中文的好语料,供研究人员学习使用。

1.中科院自动化所的中英文新闻语料库/data/13484
中文新闻分类语料库从凤凰、新浪、网易、腾讯等版面搜集。

英语新闻分类语料库为Reuters-21578的ModApte版本。

2.搜狗的中文新闻语料库/labs/dl/c.html
包括搜狐的大量新闻语料与对应的分类信息。

有不同大小的版本可以下载。

3.李荣陆老师的中文语料库 /data/11968
压缩后有240M大小
4.谭松波老师的中文文本分类语料/data/11970
不仅包含大的分类,例如经济、运动等等,每个大类下面还包含具体的小类,例如运动包含篮球、足球等等。

能够作为层次分类的语料库,非常实用。

5.网易分类文本数据/data/11965
包含运动、汽车等六大类的4000条文本数据。

6.中文文本分类语料/data/11963
包含Arts、Literature等类别的语料文本。

7.更全的搜狗文本分类语料 /labs/dl/c.html
搜狗实验室发布的文本分类语料,有不同大小的数据版本供免费下载
8.2002年中文网页分类训练集/data/15021
2002年秋天北京大学网络与分布式实验室天网小组通过动员不同专业的几十个学生,人工选取形成了一个全新的基于层次模型的大规模中文网页样本集。

它包括11678个训练网页实例和3630个测试网页实例,分布在11个大类别中。

相关文档
最新文档