WEKA实验教程
数据挖掘实验报告-实验1-Weka基础操作
数据挖掘实验报告-实验1-W e k a基础操作学生实验报告学院:信息管理学院课程名称:数据挖掘教学班级: B01姓名:学号:实验报告课程名称数据挖掘教学班级B01 指导老师学号姓名行政班级实验项目实验一: Weka的基本操作组员名单独立完成实验类型■操作性实验□验证性实验□综合性实验实验地点H535 实验日期2016.09.281. 实验目的和要求:(1)Explorer界面的各项功能;注意不能与课件上的截图相同,可采用打开不同的数据文件以示区别。
(2)Weka的两种数据表格编辑文件方式下的功能介绍;①Explorer-Preprocess-edit,弹出Viewer对话框;②Weka GUI选择器窗口-Tools | ArffViewer,打开ARFF-Viewer窗口。
(3)ARFF文件组成。
2.实验过程(记录实验步骤、分析实验结果)2.1 Explorer界面的各项功能2.1.1 初始界面示意其中:explorer选项是数据挖掘梳理数据最常用界面,也是使用weka最简单的方法。
Experimenter:实验者选项,提供不同数值的比较,发现其中规律。
KnowledgeFlow:知识流,其中包含处理大型数据的方法,初学者应用较少。
Simple CLI :命令行窗口,有点像cmd 格式,非图形界面。
2.1.2 进入Explorer 界面功能介绍(1)任务面板Preprocess(数据预处理):选择和修改要处理的数据。
Classify(分类):训练和测试分类或回归模型。
Cluster(聚类):从数据中聚类。
聚类分析时用的较多。
Associate(关联分析):从数据中学习关联规则。
Select Attributes(选择属性):选择数据中最相关的属性。
Visualize(可视化):查看数据的二维散布图。
(2)常用按钮Openfile:打开文件Open URL:打开URL格式文件Open DB:打开数据库文件Generate:数据生成Undo:撤销操作Edit:编辑数据Save:保存数据文件,可实现文件格式的转换,比如csv 格式文件向ARFF格式文件转换等等。
weka使用-徐延昆
Weka使用小报告实验目的:熟悉weka界面;熟悉weka explore 相关模块功能及操作;测试自带数据进行本次实验实验内容:通过weka自带测试数据熟悉weka基本操作实验过程:1、打卡weka界面Weka启动界面2、打开explorer3、打开自带数据打开一个名为contact-lenses的arff数据文件,可以从基本界面发现这个数据里的一些特征:(1)数据关系名称:contact-lenses(2)数据实例个数:24(3)数据每个实例属性个数:5(4)总权重:243、观察基本数据信息红色标注的部分就是数据属性,可以看到这组数据共有五个属性:(1)Age(2)Spectacle-prescrip(3)Astigmatism(4)Tear-prod-rate(5)Contact-lenses这个标注的是所选属性的一些信息:属性名称:age属性取值个数:3丢失率:0单值个数:0属性类型:分类型表中是属性具体取值,比如说age:(1)年轻(2)接近老年(3)老年右下角的直方图就是具体属性中包含其他属性的图,比如说上图所选就是age属性,每个age里包括contact比例就是蓝、红、浅蓝的比例。
这些可以更换,只要class属性中选择其他的类。
上面这个直方图就可以完全显示各种类之间比例的关系。
4、使用过滤器5、使用分类器选择分类器为one-B 6选择完分类器选项之后可以选择测试方式,我使用了3种测试方法,对5个属性都进行了测试6、聚类操作7、关联分析8、可视化分析9、收获和问题:(1)熟悉了基本操作(2)对一些术语还不是很理解,分类聚类等(3)在进行一次聚类操作的时候出现了不能停止的情况(4)测试的数据个数太少,没有尝试使用一个大数据,导致最后可视化看不出什么关系。
数据挖掘-WEKA实验报告一
数据挖掘-WEKA 实验报告一一、实验内容1、Weka 工具初步认识(掌握weka程序运行环境)2、实验数据预处理。
(掌握weka中数据预处理的使用)对weka自带测试用例数据集weather.nominal.arrf文件,进行一下操作。
1)、加载数据,熟悉各按钮的功能。
2)、熟悉各过滤器的功能,使用过滤器Remove、Add对数据集进行操作。
3)、使用weka.unsupervised.instance.RemoveWithValue 过滤器去除humidity属性值为high的全部实例。
4)、使用离散化技术对数据集glass.arrf中的属性RI和Ba 进行离散化(分别用等宽,等频进行离散化)。
(1)打开已经安装好的weka,界面如下,点击openfile即可打开weka自带测试用例数据集weather.nominal.arrf文件(2)打开文件之后界面如下:(3)可对数据进行选择,可以全选,不选,反选等,还可以链接数据库,对数据进行编辑,保存等。
还可以对所有的属性进行可视化。
如下图:(4)使用过滤器Remove、Add对数据集进行操作。
(5)点击此处可以增加属性。
如上图,增加了一个未命名的属性unnamed.再点击下方的remove按钮即可删除该属性.(5)使用weka.unsupervised.instance.RemoveWithValue过滤器去除humidity属性值为high的全部实例。
没有去掉之前:(6)去掉其中一个属性之后:(7)选择choose里的removewithvalue:(8)选择huminity属性:(9)使用离散化技术对数据集glass.arrf中的属性RI和Ba进行离散化(分别用等宽,等频进行离散化)。
RI等宽:(10)Ba等频:二、思考与分析.1.使用数据集编辑器打开weather.nominal.arrf文件,实例编号为2的分类属性值是多少?如图所示:实例编号为2的分类值属性为no加载weather.nomina.arrf文件后,temperature属性可以有哪些合法值?Temperature可以取值为:hot、mild、coolWord 资料。
weka 数据挖掘实验报告
weka 数据挖掘实验报告Weka 数据挖掘实验报告引言数据挖掘是一种从大量数据中发现隐藏模式、关系和规律的技术。
Weka 是一款流行的开源数据挖掘软件,它提供了丰富的算法和工具,可以帮助用户进行数据挖掘分析。
本实验旨在使用Weka软件对一个真实数据集进行挖掘分析,并得出相关结论。
实验设计本次实验选择了一个关于房价预测的数据集,其中包含了房屋的各种属性(如面积、地理位置、建筑年代等)以及其对应的销售价格。
我们将使用Weka软件中的不同算法来对这个数据集进行挖掘分析,比较它们的效果和性能。
实验步骤1. 数据预处理:首先,我们对数据集进行了清洗和预处理,包括处理缺失值、标准化数据等操作,以确保数据的质量和一致性。
2. 特征选择:接着,我们使用Weka中的特征选择算法来确定哪些属性对于房价预测是最重要的,从而减少模型的复杂度和提高预测准确性。
3. 模型建立:然后,我们尝试了不同的机器学习算法(如决策树、支持向量机、神经网络等)来建立房价预测模型,并使用交叉验证等方法来评估模型的性能。
4. 结果分析:最后,我们对比了不同算法的预测效果和性能指标,得出了相关结论并提出了改进建议。
实验结果经过实验分析,我们发现决策树算法在这个数据集上表现较好,其预测准确性和泛化能力都较高。
而支持向量机和神经网络算法虽然在训练集上表现良好,但在测试集上的表现并不理想。
此外,特征选择对于模型的性能和复杂度也有着重要的影响。
结论与展望本实验通过Weka软件对房价预测数据集进行了挖掘分析,得出了不同算法的性能比较和结论。
未来,我们将进一步探索更多的数据挖掘技术和算法,以提高模型的预测准确性和实用性。
总结Weka 数据挖掘实验报告通过对房价预测数据集的挖掘分析,展示了Weka软件在数据挖掘领域的应用和优势。
通过本次实验,我们不仅对数据挖掘的流程和方法有了更深入的理解,也为未来的数据挖掘工作提供了一定的参考和借鉴。
数据挖掘实验报告Weka的数据聚类分析
甘肃政法学院本科生实验报告(2)姓名:学院:计算机科学学院专业:信息管理与信息系统班级:实验课程名称:数据挖掘实验日期:指导教师及职称:实验成绩:开课时间:2013—2014 学年一学期甘肃政法学院实验管理中心印制二.实验环境Win 7环境下的Eclipse三、实验内容在WEKA中实现K均值的算法,观察实验结果并进行分析。
四、实验过程与分析一、实验过程1、添加数据文件打开Weka的Explore,使用Open file点击打开本次实验所要使用的raff格式数据文件“auto93.raff”2、选择算法类型点击Cluster中的Choose,选择本次实验所要使用的算法类型“SimpleKMeans”3、得出实验结果选中“Cluster Mode”的“Use training set”,点击“Start”按钮,观察右边“Clusterer output”给出的聚类结果如下:=== Run information ===Scheme: weka.clusterers.SimpleKMeans -N 2 -S 10Relation: sInstances: 93Attributes: 23ManufacturerTypeCity_MPGHighway_MPGAir_Bags_standardDrive_train_typeNumber_of_cylindersEngine_sizeHorsepowerRPMEngine_revolutions_per_mile5528.8462 2622.3077 1 15.1346 4.7115 174.8654 100.2692 67.0385 36.8462 26.891 12.6069 2722.3077 0 16.4019Std Devs: N/A N/A 6.0746 5.7467 N/A N/A 0.7301 0.5047 40.8149 484.7019 377.1753 N/A 3.0204 0.848 11.2599 5.5735 2.4968 2.338 2.7753 2.3975 492.4971 N/A 7.9863Clustered Instances0 41 ( 44%)52 ( 56%)4、修改Seed值5、得出修改Seed值后的实验结果=== Run information ===Scheme: weka.clusterers.SimpleKMeans -N 2 -S 8Relation: sInstances: 93Attributes: 23ManufacturerTypeCity_MPGHighway_MPG二、实验分析本次实验采用的数据文件是“1993NewCarData ”。
数据挖掘WEKA实验报告
数据挖掘-WAKA实验报告一、WEKA软件简介在我所从事的证券行业中,存在着海量的信息和数据,但是这些数据日常知识发挥了一小部分的作用,其包含了大量的隐性的信息并不为所用,但是却可以为一些公司的决策和对客户的服务提供不小的价值。
因此,我们可以通过一些数据采集、数据挖掘来获得潜在的有价值的信息。
数据挖掘就是通过分析存在于数据库里的数据来解决问题。
在数据挖掘中计算机以电子化的形式存储数据,并且能自动的查询数据,通过关联规则、分类于回归、聚类分析等算法对数据进行一系列的处理,寻找和描述数据里的结构模式,进而挖掘出潜在的有用的信息。
数据挖掘就是通过分析存在于数据库里的数据来解决问题。
WEKA的出现让我们把数据挖掘无需编程即可轻松搞定。
WEKA是由新西兰怀卡托大学开发的开源项目,全名是怀卡托智能分析环境(WaikatoEnvironmentforKnowledgeAnalysis)。
WEKA是由JAVA编写的,WEKA得到,并且限制在GBU通用公众证书的条件下发布,可以运行在所有的操作系统中。
是一款免费的,非商业化的机器学习以及数据挖掘软件WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。
如果想自己实现数据挖掘算法的话,可以看一看WEKA的接口文档。
在WEKA中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。
安装WEKA也十分简单,首相要下载安装JDK环境,JDK在这个页面可以找到它的下载。
点击JDK6之后的Download按钮,转到下载页面。
选择Accepct,过一会儿页面会刷新。
我们需要的是这个WindowsOfflineInstallation,Multi-languagejdk-6-windows-i586.exe5 3.16MB,点击它下载。
也可以右键点击它上面的链接,在Flashget等工具中下载。
WEKA数据分析实验
WEKA 数据分析实验1.实验简介借助工具Weka 3.6 ,对数据样本进行测试,分类测试方法包括:朴素贝叶斯、决策树、随机数三类,聚类测试方法包括:DBScan,K均值两种;2.数据样本以熟悉数据分类的各类常用算法,以及了解Weka的使用方法为目的,本次试验中,采用的数据样本是Weka软件自带的“Vote”样本,如图:3.关联规则分析1)操作步骤:a)点击“Explorer”按钮,弹出“Weka Explorer”控制界面b)选择“Associate”选项卡;c)点击“Choose”按钮,选择“Apriori”规则d)点击参数文本框框,在参数选项卡设置参数如:e)点击左侧“Start”按钮2)执行结果:=== Run information ===Scheme: weka.associations.Apriori -I -N 10 -T 0 -C 0.9 -D 0.05 -U 1.0 -M 0.5 -S -1.0 -c -1 Relation: voteInstances: 435Attributes: 17handicapped-infantswater-project-cost-sharingadoption-of-the-budget-resolutionphysician-fee-freezeel-salvador-aidreligious-groups-in-schoolsanti-satellite-test-banaid-to-nicaraguan-contrasmx-missileimmigrationsynfuels-corporation-cutbackeducation-spendingsuperfund-right-to-suecrimeduty-free-exportsexport-administration-act-south-africaClass=== Associator model (full training set) ===Apriori=======Minimum support: 0.5 (218 instances)Minimum metric <confidence>: 0.9Number of cycles performed: 10Generated sets of large itemsets:Size of set of large itemsets L(1): 12Large Itemsets L(1):handicapped-infants=n 236adoption-of-the-budget-resolution=y 253physician-fee-freeze=n 247religious-groups-in-schools=y 272anti-satellite-test-ban=y 239aid-to-nicaraguan-contras=y 242synfuels-corporation-cutback=n 264education-spending=n 233crime=y 248duty-free-exports=n 233export-administration-act-south-africa=y 269Class=democrat 267Size of set of large itemsets L(2): 4Large Itemsets L(2):adoption-of-the-budget-resolution=y physician-fee-freeze=n 219adoption-of-the-budget-resolution=y Class=democrat 231physician-fee-freeze=n Class=democrat 245aid-to-nicaraguan-contras=y Class=democrat 218Size of set of large itemsets L(3): 1Large Itemsets L(3):adoption-of-the-budget-resolution=y physician-fee-freeze=n Class=democrat 219Best rules found:1. adoption-of-the-budget-resolution=y physician-fee-freeze=n 219 ==> Class=democrat 219 conf:(1)2. physician-fee-freeze=n 247 ==> Class=democrat 245 conf:(0.99)3. adoption-of-the-budget-resolution=y Class=democrat 231 ==> physician-fee-freeze=n 219 conf:(0.95)4. Class=democrat 267 ==> physician-fee-freeze=n 245 conf:(0.92)5. adoption-of-the-budget-resolution=y 253 ==> Class=democrat 231 conf:(0.91)6. aid-to-nicaraguan-contras=y 242 ==> Class=democrat 218 conf:(0.9)3)结果分析:a)该样本数据,数据记录数435个,17个属性,进行了10轮测试b)最小支持度为0.5,即至少需要218个实例;c)最小置信度为0.9;d)进行了10轮搜索,频繁1项集12个,频繁2项集4个,频繁3项集1个;4.分类算法-随机树分析1)操作步骤:a)点击“Explorer”按钮,弹出“Weka Explorer”控制界面b)选择“Classify ”选项卡;c)点击“Choose”按钮,选择“trees” “RandomTree”规则d)设置Cross-validation 为10次e)点击左侧“Start”按钮2)执行结果:=== Run information ===Scheme:weka.classifiers.trees.RandomTree -K 0 -M 1.0 -S 1Relation: voteInstances:435Attributes:17handicapped-infantswater-project-cost-sharingadoption-of-the-budget-resolutionphysician-fee-freezeel-salvador-aidreligious-groups-in-schoolsanti-satellite-test-banaid-to-nicaraguan-contrasmx-missileimmigrationsynfuels-corporation-cutbackeducation-spendingsuperfund-right-to-suecrimeduty-free-exportsexport-administration-act-south-africaClassTest mode:10-fold cross-validation=== Classifier model (full training set) ===RandomTree==========el-salvador-aid = n| physician-fee-freeze = n| | duty-free-exports = n| | | anti-satellite-test-ban = n| | | | synfuels-corporation-cutback = n| | | | | crime = n : republican (0.96/0)| | | | | crime = y| | | | | | handicapped-infants = n : democrat (2.02/0.01) | | | | | | handicapped-infants = y : democrat (0.05/0)| | | | synfuels-corporation-cutback = y| | | | | handicapped-infants = n : democrat (0.79/0.01)| | | | | handicapped-infants = y : democrat (2.12/0)| | | anti-satellite-test-ban = y| | | | adoption-of-the-budget-resolution = n| | | | | handicapped-infants = n : democrat (1.26/0.01)| | | | | handicapped-infants = y : republican (1.25/0.25)| | | | adoption-of-the-budget-resolution = y| | | | | handicapped-infants = n| | | | | | crime = n : democrat (5.94/0.01)| | | | | | crime = y : democrat (5.15/0.12)| | | | | handicapped-infants = y : democrat (36.99/0.09)| | duty-free-exports = y| | | crime = n : democrat (124.23/0.29)| | | crime = y| | | | handicapped-infants = n : democrat (16.9/0.38)| | | | handicapped-infants = y : democrat (8.99/0.02)| physician-fee-freeze = y| | immigration = n| | | education-spending = n| | | | crime = n : democrat (1.09/0)| | | | crime = y : democrat (1.01/0.01)| | | education-spending = y : republican (1.06/0.02)| | immigration = y| | | synfuels-corporation-cutback = n| | | | religious-groups-in-schools = n : republican (3.02/0.01)| | | | religious-groups-in-schools = y : republican (1.54/0.04)| | | synfuels-corporation-cutback = y : republican (1.06/0.05)el-salvador-aid = y| synfuels-corporation-cutback = n| | physician-fee-freeze = n| | | handicapped-infants = n| | | | superfund-right-to-sue = n| | | | | crime = n : democrat (1.36/0)| | | | | crime = y| | | | | | mx-missile = n : republican (1.01/0)| | | | | | mx-missile = y : democrat (1.01/0.01)| | | | superfund-right-to-sue = y : democrat (4.83/0.03)| | | handicapped-infants = y : democrat (8.42/0.02)| | physician-fee-freeze = y| | | adoption-of-the-budget-resolution = n| | | | export-administration-act-south-africa = n| | | | | mx-missile = n : republican (49.03/0)| | | | | mx-missile = y : democrat (0.11/0)| | | | export-administration-act-south-africa = y| | | | | duty-free-exports = n| | | | | | mx-missile = n : republican (60.67/0)| | | | | | mx-missile = y : republican (6.21/0.15)| | | | | duty-free-exports = y| | | | | | aid-to-nicaraguan-contras = n| | | | | | | water-project-cost-sharing = n| | | | | | | | mx-missile = n : republican (3.12/0)| | | | | | | | mx-missile = y : democrat (0.01/0)| | | | | | | water-project-cost-sharing = y : democrat (1.15/0.14) | | | | | | aid-to-nicaraguan-contras = y : republican (0.16/0)| | | adoption-of-the-budget-resolution = y| | | | anti-satellite-test-ban = n| | | | | immigration = n : democrat (2.01/0.01)| | | | | immigration = y| | | | | | water-project-cost-sharing = n| | | | | | | mx-missile = n : republican (1.63/0)| | | | | | | mx-missile = y : republican (1.01/0.01)| | | | | | water-project-cost-sharing = y| | | | | | | superfund-right-to-sue = n : republican (0.45/0)| | | | | | | superfund-right-to-sue = y : republican (1.71/0.64) | | | | anti-satellite-test-ban = y| | | | | mx-missile = n : republican (7.74/0)| | | | | mx-missile = y : republican (4.05/0.03)| synfuels-corporation-cutback = y| | adoption-of-the-budget-resolution = n| | | superfund-right-to-sue = n| | | | anti-satellite-test-ban = n| | | | | physician-fee-freeze = n : democrat (1.39/0.01)| | | | | physician-fee-freeze = y| | | | | | water-project-cost-sharing = n : republican (1.01/0)| | | | | | water-project-cost-sharing = y : democrat (1.05/0.05)| | | | anti-satellite-test-ban = y : democrat (1.13/0.01)| | | superfund-right-to-sue = y| | | | education-spending = n| | | | | physician-fee-freeze = n| | | | | | crime = n : democrat (0.09/0)| | | | | | crime = y| | | | | | | handicapped-infants = n : democrat (1.01/0.01)| | | | | | | handicapped-infants = y : democrat (1/0)| | | | | physician-fee-freeze = y| | | | | | immigration = n| | | | | | | export-administration-act-south-africa = n : democrat(0.34/0.11)| | | | | | | export-administration-act-south-africa = y| | | | | | | | crime = n : democrat (0.16/0)| | | | | | | | crime = y| | | | | | | | | mx-missile = n| | | | | | | | | | handicapped-infants = n : republican (0.29/0) | | | | | | | | | | handicapped-infants = y : republican (1.88/0.87) | | | | | | | | | mx-missile = y : democrat (0.01/0)| | | | | | immigration = y : republican (1.01/0)| | | | education-spending = y| | | | | physician-fee-freeze = n| | | | | | handicapped-infants = n : democrat (1.51/0.01)| | | | | | handicapped-infants = y : democrat (2.01/0)| | | | | physician-fee-freeze = y| | | | | | crime = n : republican (1.02/0)| | | | | | crime = y| | | | | | | export-administration-act-south-africa = n| | | | | | | | handicapped-infants = n| | | | | | | | | immigration = n| | | | | | | | | | mx-missile = n| | | | | | | | | | | water-project-cost-sharing = n : democrat (1.01/0.01)| | | | | | | | | | | water-project-cost-sharing = y : republican (1.81/0)| | | | | | | | | | mx-missile = y : democrat (0.01/0)| | | | | | | | | immigration = y| | | | | | | | | | mx-missile = n : republican (2.78/0)| | | | | | | | | | mx-missile = y : democrat (0.01/0)| | | | | | | | handicapped-infants = y| | | | | | | | | mx-missile = n : republican (2/0)| | | | | | | | | mx-missile = y : democrat (0.4/0)| | | | | | | export-administration-act-south-africa = y| | | | | | | | mx-missile = n : republican (8.77/0)| | | | | | | | mx-missile = y : democrat (0.02/0)| | adoption-of-the-budget-resolution = y| | | anti-satellite-test-ban = n| | | | handicapped-infants = n| | | | | crime = n : democrat (2.52/0.01)| | | | | crime = y : democrat (7.65/0.07)| | | | handicapped-infants = y : democrat (10.83/0.02)| | | anti-satellite-test-ban = y| | | | physician-fee-freeze = n| | | | | handicapped-infants = n| | | | | | crime = n : democrat (2.42/0.01)| | | | | | crime = y : democrat (2.28/0.03)| | | | | handicapped-infants = y : democrat (4.17/0.01)| | | | physician-fee-freeze = y| | | | | mx-missile = n : republican (2.3/0)| | | | | mx-missile = y : democrat (0.01/0)Size of the tree : 143Time taken to build model: 0.01seconds=== Stratified cross-validation ====== Summary ===Correctly Classified Instances 407 93.5632 %Incorrectly Classified Instances 28 6.4368 %Kappa statistic 0.8636Mean absolute error 0.0699Root mean squared error 0.2379Relative absolute error 14.7341 %Root relative squared error 48.8605 %Total Number of Instances 435=== Detailed Accuracy By Class ===TP Rate FP Rate Precision Recall F-Measure ROC Area Class0.955 0.095 0.941 0.955 0.948 0.966 democrat0.905 0.045 0.927 0.905 0.916 0.967 republicanWeighted Avg. 0.936 0.076 0.936 0.936 0.935 0.966 === Confusion Matrix ===a b <-- classified as255 12 | a = democrat16 152 | b = republican3)结果分析:a)该样本数据,数据记录数435个,17个属性,进行了10轮交叉验证b)随机树长143c)正确分类共407个,正确率达93.5632 %d)错误分类28个,错误率6.4368 %e)测试数据的正确率较好5.分类算法-随机树分析1)操作步骤:a)点击“Explorer”按钮,弹出“Weka Explorer”控制界面b)选择“Classify ”选项卡;c)点击“Choose”按钮,选择“trees” “J48”规则d)设置Cross-validation 为10次e)点击左侧“Start”按钮2)执行结果:=== Run information ===Scheme:weka.classifiers.trees.J48 -C 0.25 -M 2Relation: voteInstances:435Attributes:17handicapped-infantswater-project-cost-sharingadoption-of-the-budget-resolutionphysician-fee-freezeel-salvador-aidreligious-groups-in-schoolsanti-satellite-test-banaid-to-nicaraguan-contrasmx-missileimmigrationsynfuels-corporation-cutbackeducation-spendingsuperfund-right-to-suecrimeduty-free-exportsexport-administration-act-south-africaClassTest mode:10-fold cross-validation=== Classifier model (full training set) ===J48 pruned tree------------------physician-fee-freeze = n: democrat (253.41/3.75)physician-fee-freeze = y| synfuels-corporation-cutback = n: republican (145.71/4.0)| synfuels-corporation-cutback = y| | mx-missile = n| | | adoption-of-the-budget-resolution = n: republican (22.61/3.32) | | | adoption-of-the-budget-resolution = y| | | | anti-satellite-test-ban = n: democrat (5.04/0.02)| | | | anti-satellite-test-ban = y: republican (2.21)| | mx-missile = y: democrat (6.03/1.03)Number of Leaves : 6Size of the tree : 11Time taken to build model: 0.06seconds=== Stratified cross-validation ====== Summary ===Correctly Classified Instances 419 96.3218 % Incorrectly Classified Instances 16 3.6782 % Kappa statistic 0.9224Mean absolute error 0.0611Root mean squared error 0.1748Relative absolute error 12.887 %Root relative squared error 35.9085 %Total Number of Instances 435=== Detailed Accuracy By Class ===TP Rate FP Rate Precision Recall F-Measure ROC Area Class0.97 0.048 0.97 0.97 0.97 0.971 democrat0.952 0.03 0.952 0.952 0.952 0.971 republicanWeighted Avg. 0.963 0.041 0.963 0.963 0.963 0.971=== Confusion Matrix ===a b <-- classified as259 8 | a = democrat8 160 | b = republican3)结果分析:a)该样本数据,数据记录数435个,17个属性,进行了10轮交叉验证b)决策树分6级,长度11c)正确分类共419个,正确率达96.3218 %d)错误分类16个,错误率3.6782 %e)测试结果接近随机数,正确率较高6.分类算法-朴素贝叶斯分析1)操作步骤:a)点击“Explorer”按钮,弹出“Weka Explorer”控制界面b)选择“Classify ”选项卡;c)点击“Choose”按钮,选择“bayes” “Naive Bayes”规则d)设置Cross-validation 为10次e)点击左侧“Start”按钮2)执行结果:=== Stratified cross-validation ====== Summary ===Correctly Classified Instances 392 90.1149 %Incorrectly Classified Instances 43 9.8851 %Kappa statistic 0.7949Mean absolute error 0.0995Root mean squared error 0.2977Relative absolute error 20.9815 %Root relative squared error 61.1406 %Total Number of Instances 435=== Detailed Accuracy By Class ===TP Rate FP Rate Precision Recall F-Measure ROC Area Class0.891 0.083 0.944 0.891 0.917 0.973democrat0.917 0.109 0.842 0.917 0.877 0.973republicanWeighted Avg. 0.901 0.093 0.905 0.901 0.902 0.973 === Confusion Matrix ===a b <-- classified as238 29 | a = democrat14 154 | b = republican3)结果分析a)该样本数据,数据记录数435个,17个属性,进行了10轮交叉验证b)正确分类共392个,正确率达90.1149 %c)错误分类43个,错误率9.8851 %d)测试正确率较高7.分类算法-RandomTree、决策树、朴素贝叶斯结果比较:RandomTree 决策树朴素贝叶斯正确率93.5632% 96.3218 % 90.1149 %混淆矩阵 a b <-- classified as255 12 | a = democrat16 152 | b = republican a b <-- classified as259 8 | a = democrat8 160 | b = republicana b <-- classified as238 29 | a = democrat14 154 | b =republican标准误差48.8605 % 35.9085 % 61.1406 % 根据以上对照结果,三类分类算法对样板数据Vote测试准确率类似;8.。
数据挖掘weka实验报告
数据挖掘weka实验报告数据挖掘Weka实验报告引言:数据挖掘是一门利用统计学、人工智能和机器学习等技术从大量数据中提取有用信息的学科。
Weka是一款强大的数据挖掘工具,它提供了丰富的算法和功能,使得数据挖掘变得更加容易和高效。
本文将对Weka进行实验,探索其在数据挖掘中的应用。
一、数据集选择和预处理在本次实验中,我们选择了一个关于房价的数据集作为实验对象。
该数据集包含了房屋的各种属性,如面积、位置、卧室数量等,以及对应的房价。
首先,我们需要对数据集进行预处理,以便更好地进行数据挖掘。
1. 缺失值处理在数据集中,我们发现了一些缺失值。
为了保证数据的完整性和准确性,我们采用了Weka提供的缺失值处理方法,如删除缺失值、插补缺失值等。
通过比较不同方法的效果,我们选择了最适合数据集的缺失值处理方式。
2. 特征选择数据集中可能存在一些冗余或无关的特征,这些特征对于数据挖掘的结果可能没有太大的贡献。
因此,我们使用Weka中的特征选择算法,如信息增益、卡方检验等,来选择最具有代表性和相关性的特征。
二、数据挖掘算法应用在预处理完成后,我们开始应用各种数据挖掘算法,探索数据集中隐藏的规律和模式。
1. 分类算法我们首先尝试了几种分类算法,如决策树、朴素贝叶斯等。
通过比较不同算法的准确率、召回率和F1值等指标,我们找到了最适合该数据集的分类算法,并对其进行了优化。
2. 聚类算法除了分类算法,我们还尝试了一些聚类算法,如K均值聚类、层次聚类等。
通过可视化聚类结果,我们发现了数据集中的一些簇,从而更好地理解了数据集的结构和分布。
3. 关联规则挖掘关联规则挖掘是一种发现数据集中项集之间关系的方法。
我们使用了Apriori算法来挖掘数据集中的关联规则,并通过支持度和置信度等指标进行评估。
通过发现关联规则,我们可以了解到不同属性之间的相关性和依赖性。
三、实验结果分析通过实验,我们得到了一系列数据挖掘的结果。
根据实验结果,我们可以得出以下结论:1. 分类算法的准确率较高,可以用于预测房价等问题。
weka数据挖掘实验3报告
数据挖掘实验报告姓名:邢金雁学号:091070106专业:电子商务实验三一、实验名称:基于聚类分析的信息获取二、实验目的:通过一个已有的训练数据集,观察训练集中的实例,进行聚类信息获取,更好地理解和掌握聚类分析算法基本原理,建立相应的预测模型,然后对新的未知实例进行预测,预测的准确程度来衡量所建立模型的好坏。
三、实验要求1、熟悉Weka平台2、掌握聚类分析算法3、对数据进行预处理,利用Weka和不同参数设置进行聚类分析,对比结果,得出结论,对问题进行总结。
四、实验平台新西兰怀卡托大学研制的Weka系统实验方法和步骤过程1.首先对于原始数据做预处理,步骤同实验二2.用Weka打开bank-data.arff文件,进行相应设置后开始分析图1——K=6,seed=10的结果3.实验分析(1)K=6,seed=50:Within cluster sum of squared errors: 1576.5199261033185 (2)K=6,seed=95:Within cluster sum of squared errors: 1546.8697861466735 (3)K=6,seed=100:Within cluster sum of squarederrors:1555.6241507629218(4)K=6,seed=105:Within cluster sum of squarederrors:1529.4152722569527(5)K=6,seed=110:Within cluster sum of squarederrors:1584.8762574241377因此选择数值最小的seed=105图2——seed=105的“Cluster centroids”和“Clustered Instances”部分图3——可视化的聚类结果图4——保存的聚类结果文件实验问题解答1.在Weka中实现K均值聚类的数据预处理中:(1)为什么要将children属性变成分类型?答:因为K均值算法只能处理数值型的属性,遇到分类型的属性时要把它变为若干个取值0和1的属性。
数据挖掘WEKA实验报告3
数据挖掘-WEKA
实验报告三
姓名及学号:杨珍20131198
班级:卓越计科1301
指导老师:吴珏老师
一、实验内容
1、聚类算法(掌握weka中k-means算法的使用)
1)加载weather.arrf文件,选择SimplerKmeans算法,使用默认参数,进行聚类。
对聚类结果进行分析。
2)使用EM算法进行聚类。
3)分别使用DBSCAN和OPTICS算法进行聚类,对结果进行分析。
二、实验步骤
(1)加载iris.arrf文件,选择SimplerKmeans算法
(2)使用EM算法进行聚类。
(3)使用DBSCAN进行聚类
(4)使用OPTICS进行聚类
二、思考与分析
1请分析为什么两种聚类方法的集成有时会改进聚类的质量和效率。
每种聚类方法各有自己的优缺点,采用两种聚类方法在某种程度上会使两种方法的优点缺点互补,从而提高质量和效率。
WEKA实验教程
WEKA 3-5-3 Experimenter 指南原文版本3.5.3原文链接翻译王娜校对 C6H5NO2Pentaho 中文讨论组QQ 群:12635055论坛:/bipub/index.aspDavid ScusePeter ReutemannJune 8, 20061 简介 (1)2 标准试验 (2)2.1 简单模式 (2)2.1.1 新试验 (2)2.1.2 结果的目的文件 (2)2.1.3 试验类型 (4)2.1.4 数据集 (5)2.1.5 迭代控制 (6)2.1.6 算法 (6)2.1.7 保存设置 (8)2.1.8 运行试验 (8)2.2 高级模式 (9)2.2.1 定义试验 (9)2.2.2 运行试验 (12)2.2.3 改变试验参数 (13)2.2.4 其他结果的产生 (19)3 远程试验 (23)3.1 准备 (23)3.2 数据库服务器设置 (23)3.3 远程引擎安装 (23)3.4 配置 Experimenter (24)3.5 疑难问题解答 (24)4 分析结果 (25)4.1 设置 (25)4.2 保存结果 (28)4.3 改变基准算法 (28)4.4 统计显著性 (29)4.5 描述性检验 (29)4.6 排序检验 (29)5 参考文献 (30)1简介Weka 试验(Experiment)环境可以让用户创建,运行,修改和分析算法试验,这也许比单独的分析各个算法更加方便。
例如,用户可创建一次试验,在一系列数据集上运行多个算法(schemes),然后分析结果以判断是否某个算法比其他算法(在统计意义下)更好。
可以通过 Simple CLI 在命令行的方式下运行试验环境。
例如,在 CLI 上键入以下命令,将通过一个基本的训练和测试步骤在 Iris 数据集上运行 OneR 算法。
(注意该命令应放在同一行中输入CLI。
)java weka.experiment.Experiment -r -T data/iris.arff−D weka.experiment.InstancesResultListener−P weka.experiment .RandomSplitResultProducer --−W weka. experiment .ClassifierSplitEvaluator --−W weka. classifiers. rules. OneR然而直接把命令直接输入 CLI 这种方式并不是很方便,且试验不容易修改。
WEKA教程完整版新
2、数据格式(续)
❖ WEKA支持的<datatype>有四种
numeric
数值型
<nominal-specification>
标称(nominal)型
string
字符串型
date [<date-format>]
日期和时间型
其中<nominal-specification> 和<date-format> 将在下 面说明。还可以使用两个类型“integer”和“real”,但是 WEKA把它们都当作“numeric”看待。注意“integer”, “real”,“numeric”,“date”,“string”这些关键字是区分 大小写的,而“relation”、“attribute ”和“data”则不区分。
❖ 区域4展示了数据集的一些基本情况。 1. 区域5中列出了数据集的所有属性。勾选一些属性并
“Remove”就可以删除它们,删除后还可以利用区域2的 “Undo”按钮找回。区域5上方的一排按钮是用来实现快速 勾选的。在区域5中选中某个属性,则区域6中有关于这个 属性的摘要。注意对于数值属性和标称属性,摘要的方式 是不一样的。图中显示的是对数值属性“income”的摘要。
2、数据格式(续)
字符串属性和标称属性的值是区分大小写的。若值中含 有空格,必须被引号括起来。例如:
@relation LCCvsLCSH @attribute LCC string @attribute LCSH string @data
AG5, 'Encyclopedias and dictionaries.;Twentieth century.' AS262, 'Science -- Soviet Union -- History.'
weka数据挖掘实验报告
weka数据挖掘实验报告Weka数据挖掘实验报告。
一、实验目的。
本次实验旨在利用Weka软件进行数据挖掘实验,通过对给定数据集的分析和挖掘,探索数据之间的关系和规律,进而为实际应用提供决策支持和信息挖掘。
二、实验环境。
本次实验使用Weka软件进行数据挖掘实验,Weka是一款开源的数据挖掘软件,提供了丰富的数据挖掘和机器学习算法,并且具有直观的用户界面,方便用户进行数据挖掘实验。
三、实验步骤。
1. 数据导入,首先,我们将给定的数据集导入到Weka软件中,以便进行后续的数据挖掘分析。
2. 数据预处理,在导入数据后,我们需要对数据进行预处理,包括缺失值处理、异常值处理、数据平滑和数据变换等,以确保数据的质量和完整性。
3. 数据探索,接下来,我们对数据进行探索性分析,包括对数据的描述性统计分析、数据可视化和相关性分析,以了解数据的分布和特征之间的关系。
4. 数据建模,在完成数据探索后,我们将选择合适的数据挖掘算法,建立数据挖掘模型,并对模型进行训练和评估。
5. 模型评估,最后,我们将对建立的数据挖掘模型进行评估,包括模型的准确率、召回率、精确率和F1值等指标的评估,以确定模型的预测能力和泛化能力。
四、实验结果分析。
经过以上步骤的实验操作和分析,我们得到了如下的实验结果:1. 数据预处理,在数据预处理过程中,我们对数据进行了缺失值处理和异常值处理,确保了数据的完整性和准确性。
2. 数据探索,通过对数据的描述性统计分析和可视化分析,我们发现了数据之间的一些潜在关系和规律,为后续的数据建模提供了参考。
3. 数据建模,在选择了合适的数据挖掘算法后,我们建立了数据挖掘模型,并对模型进行了训练和评估,得到了较好的模型效果。
4. 模型评估,最后,我们对建立的数据挖掘模型进行了评估,得到了较高的准确率和召回率,表明模型具有较好的预测能力和泛化能力。
五、实验总结。
通过本次实验,我们深入学习了Weka软件的使用方法和数据挖掘的基本流程,掌握了数据挖掘的关键技术和方法。
weka使用教程
大数据导论实验报告
实验一
姓名abc
学号asadsdsa
报告日期
实验一
一.实验目的
1实验开源工具Weka的安装和熟悉;
2.数据理解,数据预处理的实验;
二.实验内容
1.weka介绍
2.数据理解
3.数据预处理
4.保存处理后的数据
三.实验过程
1.导入数据并修改选项
2.用weka.filters.unsupervised.attribute.ReplaceMissingValues处理缺失值
3.用weka.filters.unsupervised.attribute.Discretize离散化第一列数据
4.用weka.filters.unsupervised.instance.RemoveDuplicates删除重复数据
5.用weka.filters.unsupervised.attribute.Discretize离散化第六列数据
6.用weka.filters.unsupervised.attribute.Normalize归一化数据
7.保存数据
四.实验结果与分析
1.数据清理后的对比图,上面的是处理前的图,下图是处理后的图
分析:通过两图对比可发现图一中缺失的数据在图二中已经添加上。
2.离散化第一行后的对比图,图片为离散化之后的效果图
分析:此次处理目标为第一列,可发现处理后‘age’这一列的数据离散化了。
3.删除重复数据之后的效果图
5.离散化第六列后的效果图
分析:此次处理目标为第六列,可清楚看到发生的变化6.归一化后的效果图
此次处理的目标是10,12,13,14列,即将未离散化的数值列进行归一化处理。
WEKA数据挖掘实验报告
WEKA实验报告一、数据集实验采用Wisconsin医学院的William H.Wolberg博士提供的乳腺癌的数据样本。
所有数据来自真实临床案例,每个案例有10个属性。
其中前九个属性是检测指标,每个属性值用1到10的整数表示,1表示检测指标最正常,10表示最不正常。
第十个属性是分类属性,指示该肿瘤是否为恶性。
数据集中的肿瘤性质是通过活检得出的结果。
肿块厚度 Clump_Thickness integer [1,10]细胞大小的均匀性 Cell_Size_Uniformity integer [1,10]细胞形状的均匀性 Cell_Shape_Uniformity integer [1,10]边缘粘性 Marginal_Adhesion integer [1,10]单上皮细胞的大小 Single_Epi_Cell_Size integer [1,10]裸核 Bare_Nuclei integer [1,10]乏味染色体 Bland_Chromatin integer [1,10]正常核 Normal_Nucleoli integer [1,10]有丝分裂 Mitoses integer [1,10]肿瘤性质 Class { benign, malignant}该数据集共有669个实例。
本次实验对以上数据集进行了分类、聚类、关联规则三部分操作,以熟悉weka软件的操作使用,并尝试挖掘数据中的实际价值。
分类中,尝试用前九个属性值来预测肿瘤的性质(良性、恶性);聚类中,寻找各个簇病人(尤其是恶性肿瘤病人)的显著特征,可用来辅助制定针对性治疗计划;关联规则的探索,寻找不同属性值之间的相关性。
二、分类1.数据预处理将wisconsin-breast-cancer数据集分割为两个,分别作为train set(469个)和test set(200个)。
2.实验过程用j48分类树对train set进行分类运算,结果如下:结果表明,模型分类的准确率达到了96%。
关于Weka的数据关联规则分析实验
关于Weka的数据关联规则分析实验关于Weka的数据关联规则分析实验班级市场091姓名杨超学号2009160121061.实验基本原理及⽬的关联规则的定义假设I是项的集合。
给定⼀个交易数据库,其中每个事务(Transaction)t是I的⾮空⼦集,即,每⼀个交易都与⼀个唯⼀的标识符TID(Transaction ID)对应。
关联规则在D中的⽀持度(support)是D中事务同时包含X、Y的百分⽐,即概率;置信度(confidence)是包含X的事务中同时⼜包含Y的百分⽐,即条件概率。
关联规则是有趣的,如果满⾜最⼩⽀持度阈值和最⼩置信度阈值。
这些阈值是根据挖掘需要⼈为设定。
在本实验中,我们对前⾯的““bank-data-fi nal.arff””作关联规则分析,使⽤Apriori算法。
下⾯我们简单描述⼀下Apriori算法的步骤。
这个算法先把数据库从逻辑上分成⼏个互不相交的块,每次单独考虑⼀个分块并对它⽣成所有的频集,然后把产⽣的频集合并,⽤来⽣成所有可能的频集,最后计算这些项集的⽀持度。
这⾥分块的⼤⼩选择要使得每个分块可以被放⼊主存,每个阶段只需被扫描⼀次。
⽽算法的正确性是由每⼀个可能的频集⾄少在某⼀个分块中是频集保证的。
该算法是可以⾼度并⾏的,可以把每⼀分块分别分配给某⼀个处理器⽣成频集。
产⽣频集的每⼀个循环结束后,处理器之间进⾏通信来产⽣全局的候选k-项集。
本次实验的⽬的,是通过利⽤Weka中提供的Apriori算法对““bank-data-final.arff””进⾏关联规则分析,更深刻的理解FP-树频集算法,并通过对实验结果进⾏观察分析,找出实验中所存在的问题。
2. 数据的准备及预处理原始数据““bank-data-final.arff””已经是Weka⽀持的ARFF⽂件格式的数据,因此不需要转换。
3.实验过程及结果截图我们打算对前⾯的“bank-data”数据作关联规则的分析。
⽤“Explorer”打开“bank-data-final.arff”后,切换到“Associate”选项卡。
实验5:在weka中进行关联规则挖掘
实验5:在weka中进行关联规则挖掘实验五实验项目名称:在weka中进行关联规则挖掘实验要求:(1)熟悉weka软件;(2)掌握关联规则挖掘基本概念;(3)掌握在weka中进行关联规则挖掘的相关方法。
(4)本实验要求列出每个主要步骤,附上截图,对挖掘出的关联规则的结果进行详细的说明。
要求附上sql代码。
实验步骤:(1)首先对big_university数据集中的数据进行预处理。
注意:weka采用的算法只能对分类属性进行操作,因此需要对big_university数据集中的tj属性进行处理。
建议:●先将原始数据通过sql写入数据库表big_university,然后编写一个存储过程,对数据库表记录进行处理,删除tj属性,但数据库表所表达的含义不能改变。
●将表中的记录导出到EXCEL表中,转换成CSV文件●在weka中将big_university.csv存储为big_university.arff文件。
(2)对big_university.arff进行关联规则分析。
该分析没有使用到概念分层,属于低层的关联规则挖掘。
(3)编写一个存储过程,针对big_university数据库表中的字段值进行概念分层替换,然后对新产生的big_university.arff进行关联规则分析。
该分析使用到概念分层,属于高层的关联规则挖掘。
设最小支持度阈值为2%,最小置信度阈值为50%假定描述Big-University 大学学生的数据关系已被泛化为下表的泛化关系R。
设概念分层如下:status: {freshman, sophomore, junior, senior} ∈ undergraduate{M.Sc, M.A, Ph.D} ∈ graduatemajor: {physics, chemistry, math} ∈ science{CS, engineering} ∈ appl_scienceage: {16...20, 21-25} ∈ young{26...30, over_30} ∈ oldnationality: {Asia, Europe, Latin_America}∈ foreign{Canada, U.S.A.} ∈North_America泛化关系如下表所示:major status age nationality gpa tj French M.A over_30 Canada 2.8...3.2 3 CS junior 16...20 Europe 3.2...36 29 Physics M.S 26...30 Latin_America 3.2...3.6 18 Engineering Ph.D 26...30 Asia 3.6...4.0 78 Philosophy Ph.D 26...30 Europe 3.2...3.6 5 French senior 16...20 Canada 3.2...3.6 40 chemistry junior 21...25 U.S.A.3.6...4.0 25 CS senior 16...20 Canada 3.2...3.6 70 Philosophy M.S over_30 Canada 3.6...4.0 15 French junior 16...20 U.S.A. 2.8...3.2 8 Philosophy junior 26...30 Canada 2.8...3.2 9 Philosophy M.S 26...30 Asia 3.2...3.6 9 French junior 16...20 Canada 3.2...3.6 52 math senior 16...20 U.S.A. 3.6...4.0 32 CS junior 16...20 Canada 3.2...3.6 76 Philosophy Ph.D 26...30 Canada 3.6...4.0 14 Philosophy senior 26...30 Canada 2.8...3.2 19 French Ph.D over_30 Canada 2.8...3.2 1 Engineering junior 21...25 Europe 3.2...3.6 71 Math Ph.D 26...30 Latin_America 3.2...3.6 7 chemistry junior 16...20 U.S.A.3.6...4.0 46 engineering junior 21...25 Canada 3.2...3.6 96 French M.S over_30 Latin_America 3.2...3.6 4 Philosophy junior 21 (25)U.S.A. 2.8...3.2 8 Math junior 16...20 Canada 3.6...4.0 59。
数据挖掘weka数据分类实验报告
一、实验目的使用数据挖掘中的分类算法,对数据集进行分类训练并测试。
应用不同的分类算法,比较他们之间的不同。
与此同时了解Weka平台的基本功能与使用方法。
二、实验环境实验采用Weka 平台,数据使用Weka安装目录下data文件夹下的默认数据集iris.arff。
Weka是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发。
Weka使用Java 写成的,并且限制在GNU通用公共证书的条件下发布。
它可以运行于几乎所有操作平台,是一款免费的,非商业化的机器学习以及数据挖掘软件。
Weka提供了一个统一界面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集,并评估由不同的学习方案所得出的结果。
三、数据预处理Weka平台支持ARFF格式和CSV格式的数据。
由于本次使用平台自带的ARFF格式数据,所以不存在格式转换的过程。
实验所用的ARFF格式数据集如图1所示图1 ARFF格式数据集(iris.arff)对于iris数据集,它包含了150个实例(每个分类包含50个实例),共有sepal length、sepal width、petal length、petal width和class五种属性。
期中前四种属性为数值类型,class属性为分类属性,表示实例所对应的的类别。
该数据集中的全部实例共可分为三类:Iris Setosa、Iris Versicolour和Iris Virginica。
实验数据集中所有的数据都是实验所需的,因此不存在属性筛选的问题。
若所采用的数据集中存在大量的与实验无关的属性,则需要使用weka平台的Filter(过滤器)实现属性的筛选。
实验所需的训练集和测试集均为iris.arff。
四、实验过程及结果应用iris数据集,分别采用LibSVM、C4.5决策树分类器和朴素贝叶斯分类器进行测试和评价,分别在训练数据上训练出分类模型,找出各个模型最优的参数值,并对三个模型进行全面评价比较,得到一个最好的分类模型以及该模型所有设置的最优参数。
waka实验二
数据挖掘-WAKA 实验报告
一、实验内容
1、分类算法:(掌握weka中分类算法的使用)
1)掌握决策树分类算法(C4.5,CART算法);
2)打开数据集weahter.nominal.arrf,使用C4.5分类器(C4.5算法在Weka中是作为一个分类器来实现的,名
称为J48)构建决策树;
3)对结果进行分析;
4)使用贝叶斯网络编辑器编辑贝叶斯网络。
二、实验过程及结果分析
加载weather.nominal.arff
进入Classify界面,选择J48分类器
分析结果
天气为sunny的实例中
湿度为high的有3个实例,不适合出游湿度为normal的有2个实例,适合出游
天气为overcast的有4个实例,适合出游
天气为rainy的实例中
有风的实例有2个,不适合出游
没风的实例有3个,不适合出游
树叶有5个,树的节点有8个
正确分析的实例14个
错误实例0个
正确率100%
分析精度数据
识别率为1,误判率0,精准度1,查全率1
混淆矩阵,反对角线均为0,无错误实例
三、思考与分析
数据离散化后可以使数据的特点更加明显,构造决策树的
叶节点能正确显示数据特征。
实验一:分类分析实验指导书
实验一分类分析实验类型:验证实验学时:4*2实验时间:一、实验目的和要求使用数据挖掘工具Weka进行分类分析实验,掌握使用Weka进行决策树分类、基于规则分类、最近邻分类、贝叶斯分类和支持向量机的方法,并能够解决实际问题。
二、实验环境硬件:PC机一台,计算机局域网络软件:Windows操作系统,Java虚拟机,Weka软件环境三、实验原理及内容(一)鸢尾花数据1、对鸢尾花数据(iris.aff)进行数据可视化分析第一步:打开Weka,出现如下界面第二步:点击Explorer按钮,出现如下界面第三步:点击Open File按钮,选择iris.arff文件第四步:点击Visualize按钮,进行可视化分析,写出分析结果2、对鸢尾花数据使用决策树(J48)进行分类分析第一步:点击Classifiy选项卡,选择J48,进行决策树分类分析第二步:选择不同的参数,对分类结果进行分析,观察分类结果,找出决策树、分类错误、分错的记录。
3、对鸢尾花数据使用朴素贝叶斯(Naïve Bayes)方法进行分类分析,观察分类结果、分类错误、分错的记录。
4、对鸢尾花数据使用最近邻分类(IBk)方法进行分类分析,对结果进行分析,找出分错的记录。
5、对鸢尾花数据使用支持向量机(SVM)进行分类分析。
第一步:将libsvm.jar文件拷贝到C盘根目录中,配置以下环境变量:CLASSPATHC:/libsvm.jar;.第二步:点击Choose按钮,选择LibSVM进行分类,对结果进行分析。
6、用自己的话写出以上几种分类方法的异同之处和使用感受。
(二)对银行信贷数据credit-g.arff进行同样的分析,写出分析结果。
(三)【选作】将以下数据做成arff文件并使用weka进行分类分析。
checking_status duration credit_history purpose credit_amount class(0 6 critical/otherexistingcreditradio/tv 1169 good0(=X(200 48 existing paid radio/tv 5951 badno checking 12 critical/otherexistingcrediteducation 2096 good(0 42 existing paid furniture/equipment7882 good(0 24 delayedpreviouslynew car 4870 badno checking 36 existing paid education 9055 goodno checking 24 existing paid furniture/equipment2835 good0(=X(200 36 existing paid used car 6948 good no checking 12 existing paid radio/tv 3059 good0(=X(200 30 critical/otherexistingcreditnew car 5234 bad0(=X(200 12 existing paid new car 1295 bad (0 48 existing paid business 4308 bad 0(=X(200 12 existing paid radio/tv 1567 good(0 24 critical/otherexistingcreditnew car 1199 bad(0 15 existing paid new car 1403 good四、实验小结。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
WEKA 3-5-3 Experimenter 指南原文版本3.5.3原文链接翻译王娜校对 C6H5NO2Pentaho 中文讨论组QQ 群:12635055论坛:/bipub/index.aspDavid ScusePeter ReutemannJune 8, 20061 简介 (1)2 标准试验 (2)2.1 简单模式 (2)2.1.1 新试验 (2)2.1.2 结果的目的文件 (2)2.1.3 试验类型 (4)2.1.4 数据集 (5)2.1.5 迭代控制 (6)2.1.6 算法 (6)2.1.7 保存设置 (8)2.1.8 运行试验 (8)2.2 高级模式 (9)2.2.1 定义试验 (9)2.2.2 运行试验 (12)2.2.3 改变试验参数 (13)2.2.4 其他结果的产生 (19)3 远程试验 (23)3.1 准备 (23)3.2 数据库服务器设置 (23)3.3 远程引擎安装 (23)3.4 配置 Experimenter (24)3.5 疑难问题解答 (24)4 分析结果 (25)4.1 设置 (25)4.2 保存结果 (28)4.3 改变基准算法 (28)4.4 统计显著性 (29)4.5 描述性检验 (29)4.6 排序检验 (29)5 参考文献 (30)1简介Weka 试验(Experiment)环境可以让用户创建,运行,修改和分析算法试验,这也许比单独的分析各个算法更加方便。
例如,用户可创建一次试验,在一系列数据集上运行多个算法(schemes),然后分析结果以判断是否某个算法比其他算法(在统计意义下)更好。
可以通过 Simple CLI 在命令行的方式下运行试验环境。
例如,在 CLI 上键入以下命令,将通过一个基本的训练和测试步骤在 Iris 数据集上运行 OneR 算法。
(注意该命令应放在同一行中输入CLI。
)java weka.experiment.Experiment -r -T data/iris.arff−D weka.experiment.InstancesResultListener−P weka.experiment .RandomSplitResultProducer --−W weka. experiment .ClassifierSplitEvaluator --−W weka. classifiers. rules. OneR然而直接把命令直接输入 CLI 这种方式并不是很方便,且试验不容易修改。
Experimenter 有两种模式:一种具有较简单的界面,并提供了试验所需要的大部分功能,另一种则提供了一个可以使用 Experimenter 所有功能的界面。
你可使用Experiment Configuration Mode 单选按钮在这两者间进行选择。
¾Simple¾Advanced在两种模式下,你都进行在本地单一机器上的标准试验,或者分布在几台主机上的远程试验。
分布式的试验减少了完成试验本身所需的时间,但是另一方面,设置这样的试验需要更多的时间。
以下的章节节将介绍标准试验(包括simple 和 advanced模式),然后是远程试验,最后部分是结果的分析。
这个手册也可在WekaDoc Wiki [5] 上找到。
2标准试验2.1Simple(简单)模式2.1.1新试验在点击 New 后,就定义了一次试验的默认参数。
2.1.2Result Destination (结果的目的文件)一个 ARFF 文件将默认作为结果输出的目的文件。
但你也可选择:¾ARFF file (ARFF 文件)¾CSV file (CSV 文件)¾JDBC database (JDBC 数据库)以下章节将详细讨论 ARFF 文件和 JDBC 数据库。
CSV 类似于 ARFF,但它可以用其他的电子表格程序加载。
2.1.2.1ARFF file如果文件名为空,将在系统的 TEMP 目录下创建一个临时文件。
如果你想显式的指定一个结果文件,只需点击 Browse,并选一个文件名,例如 Experiment1.arff。
点击 Save,文件路径将出现在 ARFF file 旁的文本框中。
ARFF 或 CSV 文件的优点是它们的创建不需要 Weka 之外的类文件。
它们的缺点则是试验一被中断就无法继续进行,所谓中断包括出现错误,添加数据集或添加算法。
尤其对于那些相当耗时的试验,这一不足会增加很多麻烦。
2.1.2.2JDBC database有了 JDBC,就可以很容易的把结果存储在数据库中。
要使用某种特定数据库的 JDBC 功能,必须在CLASSPATH 中指定相应的 jar 文件。
把 ARFF file 改成 JDBC database 后,点击 User... 来指定访问数据库的 JDBC URL 和用户帐号。
在提供了必要的数据并点击 OK 后,主窗口中的 URL将会更新。
注意:这个时候还没有测试数据库连接;启动试验时才会进行连接测试。
JDBC 数据库的优点是可以继续运行那些被中止的或扩展了的试验。
它不用重新运行那些已试验过的算法/数据集组合,而仅计算还没有被试验的那些。
2.1.3Experiment type(试验类型)用户可选择以下三种不同的类型:¾Cross-validation (交叉验证)(默认):根据给定的折数执行分层交叉验证¾Train/Test Percentage Split (data randomized) (按比例分割训练/测试集,随机挑选数据):把数据打乱顺序并确定层次后,根据给定的百分比把这个数据集分割成一个训练文件和一个测试文件(在 Experimenter 中,不能显式的指定训练文件和测试文件)¾Train/Test Percentage Split (order preserved) (按比例分割训练/测试集,按顺序挑选数据):因为不能显式的指定训练/测试文件对,可以利用这个试验类型把合并过的训练和测试文件还原(只需找到正确的比例)而且,可在 Classification(分类,又称判别)和 Regression(回归)间进行选择,这依赖于所用的数据集和分类器1(classifiers)。
对于像J48 (即 Quinlan 的 C4.5 算法 [3] 在 Weka 中的实现) 这样的决策树算法和 iris 数据集,Classification 是必需的;另一方面,对于 M5P 这样的数值型分类器,则需要选用Regression。
默认选中的是 Classification。
注意:如果使用了按比例分割,必须确保修正过的成对 T 检验在给定的比值下仍能产生有意义的结果 [2]。
2.1.4Datasets (数据集)可以通过绝对路径或相对路径添加数据集文件。
后者使得在不同的机器上运行试验更加方便,因此你在点击 Add new....之前,应该勾选Use relative paths (使用相对路径)。
在这个例子中,打开 data 目录,选择 iris.arff 数据集。
1 WEKA 把用于分类和回归的算法都叫做分类器--译注。
在点击 Open 后,文件将显示在数据集列表中。
如果选中一个目录点击 Open,那么将递归的添加所有 ARFF 文件。
从列表删除文件时,可选中那些文件,然后点击 Delete selected。
2.1.5Iteration control (迭代控制)¾Number of repetitions (重复次数):为了获得统计上有意义的结果,默认的迭代数量是 10。
在10折交叉验证的情形下,这意味着对一个分类器要进行100次调用——从训练集计算它,并在测试集上测试。
¾Data sets first/Algorithms first (数据集优先/算法优先):当存在多个数据集和算法的时候,切换成优先迭代数据集的模式可能会有用。
举个例子,会有人把结果存储在数据库中,并且想尽早完成某个算法在所有数据集上的结果。
2.1.6Algorithms (算法)可以通过 Add new... 按钮添加新算法。
如果是第一次打开这个对话框,将出现 ZeroR;否则将出现上次选中的那个。
可以用 Choose 按钮打开 GenericObjectEditor 来选择别的分类器。
有的分类器仅针对某种特定类型的属性(attribute)和目标属性(class),使用Filter... 按钮能够加亮显示它们。
点击Remove filter,加亮显示又会被取消。
可使用 Add new... 按钮继续添加其他的算法,如 J48 决策树。
在设置好分类器的参数后,可点击 OK 将之添加进算法列表。
使用 Load options... 和 Save options... 按钮,你可从 XML 加载或保存选中分类器的设置。
这对配置相当复杂的分类器(如 nested meta-分类器)尤其有用,因为手动设置它们需要一些时间,却又经常要用到。
2.1.7保存设置为了将来能重复使用,可将试验的当前设置保存进一个文件,点击窗口顶部的 Save... 即可。
试验文件默认的的格式是 Java 序列化提供的二进制文件。
这个格式的缺点是不同版本的 Weka 间可能存在格式的不兼容性。
还有一种更加健壮的XML格式可供选择。
可通过 Open... 按钮重新装载之前保存的 experiments。
2.1.8运行试验要运行当前试验,需点击试验环境窗口中的 Run 标签页。
当前试验将使用 ZeroR 和 J48 算法在Iris 数据集上执行十次10折的分层交叉验证。
点击 Start 运行试验。
如果试验定义正确,在 Log 面板上将显示如上 3 条信息。
试验结果保存在 Experiment1. arff 数据集里。
2.2Advanced (高级)模式2.2.1定义试验切换到 Setup 标签页,在高级模式下开始试验。
点击 New 以初始化一次试验。
这样为试验给定了默认的参数。
要给定由算法所处理的数据集,先在 Setup 标签页的 Datasets 面板上选择 Use relative paths,然后点击 Add new... 打开一个对话框窗口。
可以双击 data 文件夹查看可用的数据集,也可以浏览到其它的位置。
选择 iris.arff,点击 Open 选择 Iris 数据集。
数据集名现在显示在 Setup 标签页的 Datasets 面板。
2.2.1.1保存试验结果要指定结果保存的数据集,点击 Destination面板上的 InstancesResultListener 条目。