【原创】WEKA数据挖掘课程论文

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据挖掘课程论文

学院：工学院

专业：计算机科学与技术

班级：

学生姓名：

学号：

授课教师：

年月日

论文题目

[摘要]

数据分类过程与数据挖掘专家讨论相结合，找出了UCA数据集中的WEKA程序分析和数据挖掘方法之间的相关性，主要内容是数据挖掘和开发前景，总结和研究结果是否值得深入作为探索的结果学习。

[关键词]数据挖掘、分类、weka

1.引言

数据挖掘，通过大量的数据，新的关系，这是有意义的，趋势的仔细分析，是过程揭示的格局。它是数据库研究有价值的研究的新领域。人工智能，数据库技术，模式识别，机器学习，统计学，集成了数据可视化的理论和技术。 [1]。

有很多有关信息安全信息挖掘的，但是这是你需要什么，我们这方面的专家。

我们毫无意义的搜索，访问，即使在名义，在互联网上的所有行为这种行为的时代，用户被记录为生成内容UGC）数据挖掘数据。用户在精准营销，已经享受个性化的建议，担心在同一时间的深个人隐私和安全问题，它带来的同时方便。网络信息的挖掘为对方特定目的的操作的个人行为被称为人肉搜索，互联网公司，为了学习一些诸如信息，客户你需要自然担心。威胁到个人隐私，数据用户的朋友，爱好，聚集在个人喜好等个人特征，谁可以访问数据挖掘侧或数据集的圈子，识别特定个人谁，那么就违反了盈利的可能性。

1.1问题描述

本实验的基本内容是，WEKA在学习数据挖掘方面的培训，我使用奇偶校验和评估，根据每个模型对公共数据模型（决策树C4.5，KNN和朴素贝叶斯）进行分类算法实现校准数据。最后，我们使用分类器使用测试数据验证这些参数和数据结构，以预测最佳分类器，训练。

1.2设计思路与方案概述

第一阶段 - 准备阶段，准备任务必要的准备阶段的任务，主要工作是根据情况的特点，每个属性的特点妥善分开，是决定手册部分，分类项目形成分类学习样本集。在这个阶段，所有的数据输入都应该被分类，输出是学习样本的一个特征。整个阶段需要手动完成，其质量完全取决于由训练样本特征属性质量决定的质量，对质量分类器有重要影响，是贝叶斯分类器。

第二阶段 - 分类器训练阶段是任务阶段，通过生成分类器，主要任务除以学习样本的每个特征属性划分的出现频率的类别和每个类别的条件概率估计计算和结果报告。输入是属性和学习样本，并输出分类器。在这个阶段，程序根据上述公式自动完成计算，这是一个机械阶段。

第三阶段 - 申请阶段。在任务的这个阶段，当使用分类器分类器对分类器进行分类并对输入项进行分类时，输出是分类为项目和类别的映射关系。在这个阶段，它由程序完成，它是一个机械阶段。

2.数据准备

2.1 数据介绍

根据有关规定乳腺癌数据挖掘，打开UCI数据集WEKA的乳腺癌文件。

Attributes(属性):

Age:病人年龄

Menopause:更年期

Tumor-size:肿瘤大小

Inv-nodes:受侵淋巴结数

Node-caps:有无结节冒

Deg-malig:恶性肿瘤程度

Breast:肿块位置

Breast-quad:肿块所在象限

Irradiat:是否放疗

Class:是否复发

2.2 数据的统计量分析

（1）（1）预处理和离散数据

这个属性提供年龄，所以你可以消除其更年期的性质。

如图所示：保存，然后单击“删除”。