智能信息获取技术实验指导书

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

智能信息获取技术

实验一

一、实验名称:

基于Naïve Bayes的信息获取

二、实验目的:

通过一个已有的训练数据集,观察训练集中的实例,,建立Bayes网络的预

测模型,更好地理解和掌握Bayes算法的基本原理,建立相应的预测模型,然后

对新的未知实例进行预测,预测的准确程度来衡量所建立模型的好坏。

三、实验要求

1、熟悉Weka平台

2、掌握Naïve Bayes算法

3、对数据进行预处理,利用Weka和不同参数设置进行关联分析,对比结果,

得出结论,对问题进行总结。

四、实验平台

新西兰怀卡托大学研制的Weka系统

五、试验数据

1、使用银行对资产进行评估的数据bank-data.arf,数据里有12个属性,

分别是id,age,sex,region,income,married,children, car, save_act, current_act, mortgage,pep.共600个实例。

2、将含有600个实例的“bank-data.csv”文件中取出300个实例用做训练

集,在另外300个实例中取50个作为待预测的实例。

3、本测试集中将pep属性作为分类的目标类别,因此将其设为缺失值.缺失

值用?表示。

六、试验方法和步骤

1、数据准备

(1)将原来的“bank-data.csv”文件转化为arff文件

“bank-data.csv.arff”。

(2)“ID”属性不需要的去掉。

(3)把“Children”属性转换成分类型的两个值“YES”和“NO”。

(4)将“bank-data.csv.arff”文件的600条数据中前300条数据作为训

练数据集,并保存为文件。

(5)从后300条数据里抽取50条数据作为测试数据集,它们的“pep”属

性都设为缺失值,并保存为文件。

2、训练过程

(1)用“Explorer”打开训练集,观察一下它是不是按照前面的要求处理好了。

(2)切换到“Classify”选项卡。

(3)点击“Choose”按钮后可以看到很多分类或者回归的算法分门别类的列在一个树型框里。树型框下方有一个“Filter...”按钮,点击可以根据数据集的特性过滤掉不合适的算法。我们数据集的输入属性中有“Binary”型(即只有两个类的分类型)和数值型的属性,而Class变量是“Binary”的;于是我们勾选“Binary attributes”“Numeric attributes”和“Binary class”。

(4)点“OK”后回到树形图,可以发现一些算法名称变红了,说明它们不能选用。

(5)点击“Choose”右边的文本框,弹出新窗口为该算法设置各种参数。点“More”查看参数说明,点“Capabilities”是查看算法适用范围。这里我们把参数保持默认。

(6)看左中的“Test Option”。我们没有专门设置检验数据集,为了保证生成的模型的准确性而不至于出现过拟合(overfitting)的现象,我们有必要采用10折交叉验证(10-fold cross validation)来选择和评估模型,选上“Cross-validation”并在“Folds”框填上“10”。

(7)点“Start”按钮开始让算法生成Bayes模型。这个模型的误差分析等等结果将出现在右边的“Classifier output”中。同时左下的“Results list”出现了一个项目显示刚才的时间和算法名称。

(8)右键点击“Results list”刚才出现的那一项,弹出菜单中选择“Visualize tree”,可以看到可视化结果。

3、测试过程

(1)注意待预测数据集和训练用数据集各个属性的设置必须是一致的。(2)在“Test Opion”中选择“Supplied test set”,并且“Set”成要应用模型的数据集,这里是“bank-new.arff”文件。

(3)右键点击“Result list”中刚产生的那一项,选择“Re-evaluate model on current test set”。右边显示结果的区域中会增加一些内容,

告诉你该模型应用在这个数据集上表现将如何。我们的Class属性都是些缺失值,那这些内容是无意义的,我们关注的是模型在新数据集上的预测值。

(4)点击右键菜单中的“Visualize classifier errors”,将弹出一个新窗口显示一些有关预测误差的散点,点击这个新窗口中的“Save”按钮,保存一个Arff文件。

(5)打开这个文件可以看到在倒数第二个位置多了一个属性(predictedpep),这个属性上的值就是模型对每个实例的预测值,点“Edit”按钮可以查看这个数据集的内容。

七、通过实验,要求同学在贝叶斯信息获取实验中解决以下问题,并递交完整的实验报告

1、在数据预处理中,通过转换与否的实验比较,判断是否一定要把

“Children”属性转换成分类型的两个值“YES”“NO”。

2、在算法选择时,点击“Choose”按钮后可以看到哪些分类的算法分门别类

的列在一个树型框里? 将些数据截图,在实验报告中进行详解。

3、点击“Choose”右边的文本框,弹出新窗口为该算法设置各种参数。点

“More”查看参数说明,点“Capabilities”查看算法适用范围。请在实验报告中详解的参数设置情况。

4、请介绍你建立好的模型以及对该模型的误差分析等结果,如:出现在

“Classifier output”中的模型准确度等,将这些数据截图, 在实验报告中进行详解。

5、如果你的模型准确度不高,你是怎样通过修改算法的参数来提高准确度?

6、通过点击“Results list”,并选择可视化,在图形模式中打开你的模型,

并将它截图,在实验报告中显示你的实验结果。

相关文档
最新文档