实验一 文本分类模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《自然语言处理》课程实验报告
E282mw9z X_j_ZzQ
fetch_20ne wsgroup 14MB 9MB 5MB 一个新闻
对应一个
标签
20
五、资源以及参考文献列表(对你有帮助的人的名字,也可以列出来)
1、(114条消息) sklearn.datasets.fetch_20newsgroups的下载速度极慢采用离线下载导入_寸草心2130的博客-CSDN博客
2、(115条消息) 【Python】向量空间模型:TF-IDF实例实现(set.union())_tf*idf 框架构造向量空间模型_Vivid-victory的博客-CSDN博客
3、(115条消息) 文本分类(朴素贝叶斯分类)介绍_朴素贝叶斯文本分类_卖山楂啦prss 的博客-CSDN博客
4、(115条消息) 文本分类的14种算法_datayx的博客-CSDN博客
5、(115条消息) 14种分类算法进行文本分类实战_文本分类算法_txhy2018的博客-CSDN 博客
请教过的人:陈浩然、王越
六、实验步骤
1.加载并处理数据集
共有20个新闻类别
截取4个新闻类别训练与20个类别训练比较训练结果
其中4类别训练集数据有2303条,测试集有1533条
20类别训练集数据有11314条,测试集有7532条
2.提取特征TFIDF及词频统计
3.模型训练及评估
模型的评估一般使用PRF(精确率,召回率,F1值)和Acc值(准确值)来评估,使用metrics.classification_report方法可以轻松获取这些信息,同时可以使用这个方法可以比较两个target的差异
七、实验结果与分析
1.测试数据及结果(运行结果截图)
2.对结果的分析(模型的性能,对比,与预期效果的比较)
由结果发现随着数据集的增大,准确率都有所下降,有可能在数据量较少、且样本分布不均衡的情况下,数据集扩大使得样本标签更加均衡后,分类难度增加,可能会导致模型性能下降
2.实验中遇到的问题及解决办法
因为数据集的网站拒绝了访问,所以数据集我只能先下再进行更改读取;
对多项式朴素贝叶斯模型、补充朴素贝叶斯模型、伯努利朴素贝叶斯模型等等并不熟悉,只能通过查阅资料了解。