数据挖掘上机作业

合集下载

数据挖掘上机实验

数据挖掘上机实验

数据挖掘上机实验1实验内容:根据book1中数据(训练样本),用K-临近算法(k取5)建立分类模型,并验证分类效果,在此基础上,用所建立的模型对book2中的数据进行分类。

1、基本原理:测试数据点x分类为与它最接近的k个近邻中出现最多的那个类别。

K邻近算法从测试样本点x开始生长,不断的扩大区域,直到包含进k个训练样本点为止,并且把测试样本点x归为这最近的k个训练样本点中出现频率最大的类别。

2、算法步骤:a.依公式计算ltem与D1、D2……、Dj的相似度。

得到Sim(ltem,D1)、Sim(ltem,D2)……、Sim(ltem,Dj)。

b.将Sim(ltem,D1)、Sim(ltem,D2)……、Sim(ltem,Dj)排序,若是超过相似度门槛t则放入邻居案例集合NN。

c.自邻居案例集合NN中取出前k名,依多数决,得到ltem可能类别一.用K-临近算法(k取5)建立分类模型,验证分类效果先建立分类模型,对建立的分类模型再用book1的数据进行验证,book1中含101个样品,32个属性,下列是比较结果表格:(其中样表示样品号,真表从表格中可以得到,误判率=21/101=20.8%,此分类模型不是特别好二.对book2的数据进行分类用上文建立的分类模型,对book2中的数据进行分类,book2中共97个样品,32个属性,下列是比较结果表格:误判率=25/9725.8%附录:分类模型程序:Class[ones(78,1);ones(23,1)*2];N1=size(a,1);N2=size(b,1);k=5;for i=1:N2for j=1:N1d(i,j)=sqrt((b(i,:)-a(j,:))*(b(i,:)-a(j,:))'); endendfor i=1:N2class0=zeros(k,1);[x,y]=sort(d(i,:));c=y(1:k);for ii=1:kif class(c(ii))==1class0(1)=class0(1)+1;endif class(c(ii))==2class0(2)=class0(2)+1;endend[u,v]=max(class0);class_end(i)=v;end。

大工20秋《数据挖掘》大作业

大工20秋《数据挖掘》大作业

学习中心:专业:计算机科学与技术年级: 2020年秋季学号:学生:1.谈谈你对本课程学习过程中的心得体会与建议?本学期数据挖掘的课程学习对我来说也是收获颇丰的,当今社会数据的价值不言而喻,通过数据的分析挖掘和处理建模,小到可以预测用户的购物行为和使用习惯为企业提供产品设计思路,分析用户心理从而创造出更加方便智能的产品,还可以极大的方便普通人的生活,大到可以为政府领导决策提供可靠的数据依据。

随着互联网技术的不断发展数据的价值也慢慢体现了出来,但是面对海量复杂的数据如何有效的进行分析汇总如何让数据能够创造价值,这就关联到了数据挖掘这门课程了,数据挖掘是基于Python 这门语言来具体实现的,通过对这门编程语言的学习,从基本概念到具体的语法再到框架我们都经过了一个系统的学习,最终也通过具体的项目去融会贯通之前所学到的知识,数据挖掘课程是理论性和实践性都很强的一门学习,通过这门课程的学习让我对数据价值有了一个全新的认识。

相信以后肯定会更多的使用到的。

2. Knn算法原理以及python实现1. Knn算法介绍:KNN(K-Nearest Neighbor)算法,KNN算法是一种有监督的分类算法,输入同样为样本特征值向量以及对应的类标签,输出则为具有分类功能的模型,能够根据输入的特征值预测分类结果。

核心原理就是,与待分类点最近的K个邻居中,属于哪个类别的多,待分类点就属于那个类别。

2. Knn算法流程:KNN算法模型主要有三要素构成:距离度量,k值的选择和分类的决策规则。

KNN分类算法的思路很简洁,实现也很简洁,具体分三步:1)找K个最近邻。

KNN分类算法的核心就是找最近的K个点,选定度量距离的方法之后,以待分类样本点为中心,分别测量它到其他点的距离,找出其中的距离最近的“TOP K”,这就是K个最近邻。

2)统计最近邻的类别占比。

确定了最近邻之后,统计出每种类别在最近邻中的占比。

3)选取占比最多的类别作为待分类样本的类别。

数据挖掘的功能及应用作业

数据挖掘的功能及应用作业

数据挖掘的其他基本功能介绍一、关联规则挖掘关联规则挖掘是挖掘数据库中和指标(项)之间有趣的关联规则或相关关系。

关联规则挖掘具有很多应用领域,如一些研究者发现,超市交易记录中的关联规则挖掘对超市的经营决策是十分重要的。

1、 基本概念设},,,{21m i i i I =是项组合的记录,D 为项组合的一个集合。

如超市的每一张购物小票为一个项的组合(一个维数很大的记录),而超市一段时间内的购物记录就形成集合D 。

我们现在关心这样一个问题,组合中项的出现之间是否存在一定的规则,如A 游泳衣,B 太阳镜,B A ⇒,但是A B ⇒得不到足够支持。

在规则挖掘中涉及到两个重要的指标:① 支持度 支持度n B A n B A )()(⇒=⇒,显然,只有支持度较大的规则才是较有价值的规则。

② 置信度 置信度)()()(A n B A n B A ⇒=⇒,显然只有置信度比较高的规则才是比较可靠的规则。

因此,只有支持度与置信度均较大的规则才是比较有价值的规则。

③ 一般地,关联规则可以提供给我们许多有价值的信息,在关联规则挖掘时,往往需要事先指定最小支持度与最小置信度。

关联规则挖掘实际上真正体现了数据中的知识发现。

如果一个规则满足最小支持度,则称这个规则是一个频繁规则;如果一个规则同时满足最小支持度与最小置信度,则通常称这个规则是一个强规则。

关联规则挖掘的通常方法是:首先挖掘出所有的频繁规则,再从得到的频繁规则中挖掘强规则。

在少量数据中进行规则挖掘我们可以采用采用简单的编程方法,而在大量数据中挖掘关联规则需要使用专门的数据挖掘软件。

关联规则挖掘可以使我们得到一些原来我们所不知道的知识。

应用的例子:* 日本超市对交易数据库进行关联规则挖掘,发现规则:尿片→啤酒,重新安排啤酒柜台位置,销量上升75%。

* 英国超市的例子:大额消费者与某种乳酪。

那么,证券市场上、期货市场上、或者上市公司中存在存在哪些关联规则,这些关联规则究竟说明了什么?关联规则挖掘通常比较适用与记录中的指标取离散值的情况,如果原始数据库中的指标值是取连续的数据,则在关联规则挖掘之前应该进行适当的数据离散化(实际上就是将某个区间的值对应于某个值),数据的离散化是数据挖掘前的重要环节,离散化的过程是否合理将直接影响关联规则的挖掘结果。

浙江大学数据挖掘在线作业答案

浙江大学数据挖掘在线作业答案

您的本次作业分数为:100分1.【第001章】孤立点挖掘适用于下列哪种场合?A 目标市场分析B 购物篮分析C 模式识别D 信用卡欺诈检测正确答案:D2.【第01章】根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是()。

A 关联分析B 分类和预测C 演变分析D 概念描述正确答案:B3.【第01章】数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于()。

A 所涉及的算法的复杂性B 所涉及的数据量C 计算结果的表现形式D 是否使用了人工智能技术正确答案:B4.【第01章】下列几种数据挖掘功能中,()被广泛的应用于股票价格走势分析。

A 关联分析B 分类和预测C 聚类分析D 演变分析正确答案:D5.【第01章】下列几种数据挖掘功能中,()被广泛的用于购物篮分析。

A 关联分析B 分类和预测C 聚类分析D 演变分析正确答案:A6.【第01章】帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是()。

A 关联分析B 分类和预测C 聚类分析D 孤立点分析E 演变分析正确答案:C7.【第01章】下面的数据挖掘的任务中,()将决定所使用的数据挖掘功能。

A 选择任务相关的数据B 选择要挖掘的知识类型C 模式的兴趣度度量D 模式的可视化表示正确答案:B8.【第01章】假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是()。

A 关联分析B 分类和预测C 孤立点分析D 演变分析E 概念描述正确答案:E9.【第02章】下列哪种可视化方法可用于发现多维数据中属性之间的两两相关性?A 空间填充曲线B 散点图矩阵C 平行坐标D 圆弓分割正确答案:B10.【第02章】计算一个单位的平均工资,使用哪个中心趋势度量将得到最合理的结果?A 算术平均值B 截尾均值C 中位数D 众数正确答案:B11.【第02章】字段Size = {small, medium, large}属于那种属性类型?A 标称属性B 二元属性C 序数属性D 数值属性正确答案:C12.【第02章】字段Hair_color = {auburn, black, blond, brown, grey, red, white}属于那种属性类型?A 标称属性B 二元属性C 序数属性D 数值属性正确答案:A13.【第03章】哪种数据变换的方法将数据沿概念分层向上汇总?A 平滑B 聚集C 数据概化D 规范化正确答案:C14.【第03章】下面哪种数据预处理技术可以用来平滑数据,消除数据噪声?A 数据清理B 数据集成C 数据变换D 数据归约正确答案:A15.【第03章】()通过将属性域划分为区间,从而减少给定连续值的个数。

数据挖掘作业集答案

数据挖掘作业集答案

数据挖掘作业集答案《数据挖掘》作业集答案第一章引言一、填空题(1)数据清理,数据集成,数据选择,数据变换,数据挖掘,模式评估,知识表示(2)算法的效率、可扩展性和并行处理(3)统计学、数据库技术和机器学习(4)WEB挖掘(5)一些与数据的一般行为或模型不一致的孤立数据二、单选题(1)B;(2)D;(3)D;(4)B;(5)A;(6)B;(7)C;(8)E;三、简答题(1)什么是数据挖掘?答:数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。

(2)一个典型的数据挖掘系统应该包括哪些组成部分?答:一个典型的数据挖掘系统应该包括以下部分:数据库、数据仓库或其他信息库数据库或数据仓库服务器知识库数据挖掘引擎模式评估模块图形用户界面(3)请简述不同历史时代数据库技术的演化。

答:1960年代和以前:研究文件系统。

1970年代:出现层次数据库和网状数据库。

1980年代早期:关系数据模型, 关系数据库管理系统(RDBMS)的实现1980年代后期:出现各种高级数据库系统(如:扩展的关系数据库、面向对象数据库等等)以及面向应用的数据库系统(空间数据库,时序数据库,多媒体数据库等等。

1990年代:研究的重点转移到数据挖掘, 数据仓库, 多媒体数据库和网络数据库。

2000年代:人们专注于研究流数据管理和挖掘、基于各种应用的数据挖掘、XML 数据库和整合的信息系统。

(4)请列举数据挖掘应用常见的数据源。

(或者说,我们都在什么样的数据上进行数据挖掘)答:常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。

其中高级数据库系统和信息库包括:空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象-关系数据库、异种数据库和遗产(legacy)数据库、文本数据库和万维网(WWW)等。

(5)什么是模式兴趣度的客观度量和主观度量?答:客观度量指的是基于所发现模式的结构和关于它们的统计来衡量模式的兴趣度,比如:支持度、置信度等等;主观度量基于用户对数据的判断来衡量模式的兴趣度,比如:出乎意料的、新颖的、可行动的等等。

数据挖掘上机作业

数据挖掘上机作业

《数据挖掘》实验
实验要求:
一、所有选课的学生都必须提交上机实验报告;
二、实验报告应包括如下内容:
1)算法基本思想的描述
2)编程实现算法
3)输出运算结果
三、分类技术和凝聚技术的两个问题中,可以各选择一个题目,关联规
则挖掘的题目必选,即每个人至少选三个题目。

实习一分类技术及其应用
实习题1 基于决策树的分类算法,属性的选择采用ID3 或C4.5策略,采用如下的数据建立分类决策树。

实习题 2 基于线性回归模型拟合一个班学生的学习成绩,建立预测模型。

数据可由自己建立100个学生的学习成绩。

实习二聚类技术及其应用
实习题1 编程验证单连接凝聚聚类算法,实验数据可使用第五章表5.2 的数据进行。

要求输出层次聚类过程中每一步的聚类结果。

实习题2 利用K-均值聚类算法对如下数据进行聚类,其中输入K=3,数据集为{ 2,4,10,12,3,20,30,11,25,23,34,22} 。

要求输出每个类及其中的元素。

实习三关联规则挖掘及其应用
实习题:Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。

它将关联规则挖掘算法的设计分解为两个子问题:(1)找到所有支持度大于最小支持度的项集,这些项集称被为频繁项集(Frequent Itemset)。

(2)使用第一步产生的频繁集产生期望的规则。

在图书馆管理系统中积累了大量的读者借还书的历史记录,基于Apriori算法挖掘最大频繁项目集,由此产生关联规则。

数据格式可参阅文献
参考文献:彭仪普,熊拥军: 关联挖掘在文献借阅历史数据分析中的应用.情报杂志. 2005年第8期。

数据挖掘大作业例子

数据挖掘大作业例子

数据挖掘大作业例子1. 超市购物数据挖掘呀!想想看,如果把超市里每个顾客的购买记录都分析一遍,那岂不是能发现很多有趣的事情?比如说,为啥周五晚上大家都爱买啤酒和薯片呢,是不是都打算周末在家看剧呀!2. 社交媒体情感分析这个大作业超有意思哦!就像你能从大家发的文字里看出他们今天是开心还是难过,那简直就像有了读心术一样神奇!比如看到一堆人突然都在发伤感的话,难道是发生了什么大事情?3. 电商用户行为挖掘也很棒呀!通过分析用户在网上的浏览、购买行为,就能知道他们喜欢什么、不喜欢什么,这难道不是很厉害吗?就像你知道了朋友的喜好,能给他推荐最适合的礼物一样!4. 交通流量数据分析呢!想象一下,了解每个路口的车流量变化,是不是就能更好地规划交通啦?难道这不像是给城市的交通装上了一双明亮的眼睛?5. 医疗数据挖掘更是不得了!能从大量的病例中找到疾病的规律,这简直是在拯救生命啊!难道这不是一件超级伟大的事情吗?比如说能发现某种疾病在特定人群中更容易出现。

6. 金融交易数据挖掘也超重要的呀!可以知道哪些交易有风险,哪些投资更靠谱,那不就像有个聪明的理财顾问在身边吗!就好比能及时发现异常的资金流动。

7. 天气数据与出行的结合挖掘也很有趣呀!根据天气情况来预测大家的出行选择,真是太神奇了吧!难道不是像有了天气预报和出行指南合二为一?8. 音乐喜好数据挖掘呢!搞清楚大家都喜欢听什么类型的音乐,从而能更好地推荐歌曲,这不是能让人更开心地享受音乐吗!好比为每个人定制了专属的音乐播放列表。

9. 电影票房数据挖掘呀!通过分析票房数据就能知道观众最爱看的电影类型,这不是超厉害的嘛!就像知道了大家心里最期待的电影是什么样的。

我觉得数据挖掘真的太有魅力了,可以从各种看似普通的数据中发现那么多有价值的东西,真是让人惊叹不已啊!。

大工19秋《数据挖掘》大作业题目及要求答案

大工19秋《数据挖掘》大作业题目及要求答案

网络教育学院《数据挖掘》课程大作业题目:题目一:Knn算法原理以及python实现姓名:报名编号:学习中心:层次:专升本专业:计算机科学与技术第一大题:讲述自己在完成大作业过程中遇到的困难,解决问题的思路,以及相关感想,或者对这个项目的认识,或者对Python与数据挖掘的认识等等,300-500字。

数据挖掘是指从大量的数据中通过一些算法寻找隐藏于其中重要实用信息的过程。

这些算法包括神经网络法、决策树法、遗传算法、粗糙集法、模糊集法、关联规则法等。

在商务管理,股市分析,公司重要信息决策,以及科学研究方面都有十分重要的意义。

数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术,从大量数据中寻找其肉眼难以发现的规律,和大数据联系密切。

如今,数据挖掘已经应用在很多行业里,对人们的生产生活以及未来大数据时代起到了重要影响。

第二大题:完成下面一项大作业题目。

2019秋《数据挖掘》课程大作业注意:从以下5个题目中任选其一作答。

题目一:Knn算法原理以及python实现要求:文档用使用word撰写即可。

主要内容必须包括:(1)算法介绍。

(2)算法流程。

(3)python实现算法以及预测。

(4)整个word文件名为 [姓名奥鹏卡号学习中心](如戴卫东101410013979浙江台州奥鹏学习中心[1]VIP )答:KNN算法介绍KNN是一种监督学习算法,通过计算新数据与训练数据特征值之间的距离,然后选取K(K>=1)个距离最近的邻居进行分类判(投票法)或者回归。

若K=1,新数据被简单分配给其近邻的类。

KNN算法实现过程(1)选择一种距离计算方式, 通过数据所有的特征计算新数据与已知类别数据集中的数据点的距离;(2)按照距离递增次序进行排序,选取与当前距离最小的k个点;(3)对于离散分类,返回k个点出现频率最多的类别作预测分类;对于回归则返回k个点的加权值作为预测值;算法关键(1)数据的所有特征都要做可比较的量化若是数据特征中存在非数值的类型,必须采取手段将其量化为数值。

Python数据挖掘课程设计作业

Python数据挖掘课程设计作业

Python数据挖掘课程设计作业一、教学目标本课程旨在通过Python语言的数据挖掘技术,使学生掌握数据处理、分析与挖掘的基本方法,培养学生的数据敏感度、逻辑思维能力和解决实际问题的能力。

知识目标包括:理解数据挖掘的基本概念、方法和流程;掌握Python编程基础,能够使用Python进行简单的数据处理和分析;了解常见的数据挖掘算法,并能够运用这些算法解决实际问题。

技能目标包括:能够使用Python进行数据清洗、数据可视化、数据挖掘算法实现;能够独立完成数据挖掘项目,并对结果进行解释和分析。

情感态度价值观目标包括:培养学生对数据的热爱和好奇心,提高学生运用数据分析和解决实际问题的意识,培养学生的团队合作精神和创新思维。

二、教学内容本课程的教学内容主要包括Python编程基础、数据处理与分析、数据挖掘算法及应用等方面。

教学大纲安排如下:1.Python编程基础:介绍Python的基本语法、数据类型、控制结构、函数、模块等,使学生能够熟练使用Python进行编程。

2.数据处理与分析:讲解如何使用Python进行数据读取、清洗、转换、聚合等操作,以及如何利用Python进行数据可视化,使学生能够对数据进行有效的处理和分析。

3.数据挖掘算法:介绍常见的数据挖掘算法,如分类、回归、聚类、关联规则等,并讲解如何使用Python实现这些算法,使学生能够理解和运用数据挖掘算法。

4.数据挖掘应用:结合实际案例,讲解如何使用Python进行数据挖掘项目的实现,使学生能够独立完成数据挖掘项目,并对结果进行解释和分析。

三、教学方法为了提高学生的学习兴趣和主动性,本课程将采用多种教学方法,如讲授法、讨论法、案例分析法、实验法等。

在教学过程中,教师将引导学生通过实际操作来掌握Python编程和数据挖掘技术,同时鼓励学生积极参与课堂讨论,培养学生的团队协作能力和创新思维。

四、教学资源本课程的教学资源包括教材、参考书、多媒体资料和实验设备等。

数据挖掘老师安排的作业

数据挖掘老师安排的作业

课后习题答案第一章:引言(Introduction)1.4数据仓库和数据库有何不同?有哪些相似之处?(How is a data warehouse different from a database? How are they similar?)p8答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。

它用表组织数据,采用ER数据模型。

相似:它们都为数据挖掘提供了源数据,都是数据的组合。

第二章:数据预处理(Data Preprocessing)2.4 假定用于分析的数据包含属性age。

数据元组的age 值(以递增序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。

(Suppose that the data for analysis includes the attribute age. The age values for the data tuples are (in increasing order) 13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45,46, 52, 70.)(a)该数据的均值是什么?中位数是什么?(What is the mean of the data? What is the median?)答:均值=(13+15+16+16+19+20+20+21+22+22+25+25+25+25+30+33+33+35+35+35+35+36+40+45+46+52 +70)/27=29.96中位数应是第14个,即x14=25=Q2。

数据挖掘上机操作题

数据挖掘上机操作题

数据挖掘上机操作题本文档旨在提供一些数据挖掘的上机操作题,帮助学生巩固和应用所学的知识。

以下是一些实用的题目,供参考和练。

题目一:数据预处理请按照以下步骤进行数据预处理:1. 导入数据集并查看各列的属性和内容。

2. 处理缺失值:检查并决定如何处理数据中的缺失值。

3. 处理异常值:检查并决定如何处理数据中的异常值。

4. 处理重复数据:检查数据中是否存在重复数据,并决定如何处理。

5. 对数据进行归一化处理:选择合适的归一化方法并应用于数据集。

请根据给定的数据集完成以上步骤,并记录每一步的操作和结果。

题目二:特征选择请根据以下步骤进行特征选择:1. 导入数据集并查看各列的属性和内容。

2. 计算特征之间的相关性:使用相关系数或其他方法计算特征之间的相关性,并选择相关系数较低的特征。

3. 使用特征选择算法:选择一个适当的特征选择算法(如卡方检验、信息增益等),并应用于数据集,选择出最重要的特征。

请根据给定的数据集完成以上步骤,并记录每一步的操作和结果。

题目三:数据聚类请按照以下步骤进行数据聚类:1. 导入数据集并查看各列的属性和内容。

2. 数据预处理:按照题目一的步骤对数据进行预处理。

3. 选择聚类算法:选择一个适当的聚类算法(如K-means、DBSCAN等)并应用于数据集。

4. 聚类结果分析:分析聚类结果并进行可视化展示。

请根据给定的数据集完成以上步骤,并记录每一步的操作和结果。

题目四:关联规则挖掘请按照以下步骤进行关联规则挖掘:1. 导入数据集并查看各列的属性和内容。

2. 数据预处理:按照题目一的步骤对数据进行预处理。

3. 设置最小支持度和置信度:根据数据集的大小和要求,设置适当的最小支持度和置信度。

4. 运行关联规则挖掘算法:应用Apriori算法或其他适当的算法,挖掘关联规则。

5. 分析并解释关联规则:对挖掘得到的关联规则进行分析和解释。

请根据给定的数据集完成以上步骤,并记录每一步的操作和结果。

数据挖掘第二次作业

数据挖掘第二次作业

-----WORD格式--可编辑--专业资料-----数据挖掘第二次作业第一题:1.a) Compute the Information Gain for Gender, Car Type and Shirt Size.b) Construct a decision tree with Information Gain.答案:a)因为class分为两类:C0和C1,其中C0的频数为10个,C1的频数为10,所以class元组的信息增益为Info(D)==11.按照Gender进行分类:(D)==0.971InfogenderGain(Gender)=1-0.971=0.0292.按照Car Type进行分类Info(D)=carType=0.314 Gain(Car Type)=1-0.314=0.6863.按照Shirt Size进行分类:(D)==0.988InfoshirtSizeGain(Shirt Size)=1-0.988=0.012b)由a中的信息增益结果可以看出采用Car Type进行分类得到的信息增益最大,所以决策树为:第二题:2. (a) Design a multilayer feed-forward n eural network (one hidden layer) f or the data set in Q1. Label the nodes in the input and output layers.(b) Using the neural network obtained above, show the weight values after one iteration of the back propagation algorithm, given the training instance “(M,Family, Small)". Indicate your initial weight values and biases and the learning rate used.a)Car Type?Shirt Size?C0C1familySportluxuryC0C1smallmedium,large, extra large1 23 4 5 6 7 8 9101112x11x12x21x22x23x31x32x33x34输入层隐藏层输出层b) 由a 可以设每个输入单元代表的属性和初始赋值X11 X12X21X22X23X31X32X33X34F M Family Sports Luxury Small Medium Large Extra Large0 1 1 0 0 1 0 0 0由于初始的权重和偏倚值是随机生成的所以在此定义初始值为:W1,10 W1,11W2,10W2,11W3,10W3,11W4,10W4,11W5,10W5,110.2 0.2 -0.2 -0.1 0.4 0.3 -0.2 -0.1 0.1 -0.1W6,10 W6,11W7,10W7,11W8,10W8,11W9,10W9,11W10,12W11,120.1 -0.2 -0.4 0.2 0.2 0.2 -0.1 0.3 -0.3 -0.1θ10 θ11θ12-0.2 0.2 0.3 净输入和输出:单元 j 净输入 Ij 输出Oj10 0.1 0.5211 0.2 0.5512 0.089 0.48每个节点的误差表:单元j Errj10 0.0089 11 0.0030 12 -0.12权重和偏倚的更新: W1,10W1,11W2,10W2,11W3,10W3,11W4,10W4,11W5,10W5,110.201 0.198 -0.211 -0.099 0.4 0.308 -0.202 -0.098 0.101 -0.100 W6,10W6,11W7,10W7,11W8,10W8,11W9,10W9,11W10,12W11,120.092 -0.211 -0.400 0.198 0.201 0.190 -0.110 0.300 -0.304 -0.099 θ10θ11 θ12 -0.287 0.1790.344第三题:3.a) Suppose the fraction of undergraduate students who smoke is 15% and thefraction of graduate students who smoke is 23%. If o ne-fifth of the college students are graduate students and the rest are undergraduates, what is the probability that a student who smokes is a graduate student? b) Given the information i n part (a), i s a randomly chosen college student morelikely to be a graduate or undergraduate student? c) Suppose 30% of the graduate students live i n a dorm but only 10% of theundergraduate students live in a dorm. If a student smokes and lives in the dorm, is he or she more likely to be a graduate or undergraduate student? You can assume independence between students who live i n a dorm and those who smoke.答:a) 定义:A={A 1 ,A 2}其中A 1表示没有毕业的学生,A 2表示毕业的学生,B 表示抽烟 则由题意而知:P(B|A 1)=15% P(B|A 2)=23% P(A 1)= P(A 2)=则问题则是求P(A 2|B)由166.0)()|B ()()|B (B 2211A P A p A P A P P则 277.0166.02.023.0)()()|(|222B P A P A B P B A P b) 由a 可以看出随机抽取一个抽烟的大学生,是毕业生的概率是0.277,未毕业的学生是0.723,所以有很大的可能性是未毕业的学生。

数据挖掘大作业

数据挖掘大作业

数据挖掘大作业1. 简介数据挖掘是一项重要的技术,它通过挖掘大型数据集中的隐藏信息和模式,帮助我们发现有价值的知识和洞察力。

本文档将介绍数据挖掘大作业的目标、背景和方法。

2. 目标本次数据挖掘大作业的目标是从给定的数据集中分析和提取有关某项主题的相关信息。

我们将利用数据挖掘技术来发现隐藏在数据中的模式和规律,并通过数据可视化的方式呈现出来。

3. 背景数据挖掘是一项复杂而多样化的领域,它可以应用于各种领域和行业。

通过数据挖掘,我们可以从海量数据中获得有用的洞察力,以便做出更好的决策和预测。

4. 方法在进行数据挖掘大作业时,我们将采取以下步骤:- 数据收集:收集与主题相关的数据,并确保数据的质量和准确性。

- 数据预处理:对数据进行清洗、去重、填充缺失值等预处理操作,以保证后续分析的准确性。

- 特征工程:根据问题的需要,对数据进行特征选择、转换和抽取,以提取最有用的特征。

- 模型选择:选择适当的数据挖掘模型,如聚类、分类、预测等,以实现我们的目标。

- 模型评估:对选定的模型进行评估和优化,确保模型的性能和准确性。

- 结果展示:将挖掘到的信息和洞察力进行可视化展示,以便更好地理解和传达。

5. 结论本次数据挖掘大作业将通过上述步骤来实现我们的目标,并且我们将采用合适的数据挖掘技术和方法来发现隐藏在数据中的知识和模式。

通过这次作业,我们将进一步提升我们的数据分析和挖掘能力,并为未来的决策和预测提供有价值的支持。

以上是关于数据挖掘大作业的简介,希望能对您有所帮助。

如有任何问题,请随时与我们联系。

谢谢!注:此文档为简要介绍,具体细节和步骤将根据实际情况进一步规划和执行。

数据挖掘-决策树法-上机实验

数据挖掘-决策树法-上机实验

某公司新推出一种理财产品,为了提高该产品的收益,围绕该产品是否会被购买,在人群中从年龄、收入、性别、结婚情况、理财能力、是否拥有房子、所在地区方面做分析。

步骤:
1.利用数据源中的“Excel”节点导入数据,并利用表格查看数据
2.用直方图体现所调查人群对该产品的响应度
从这个结果中看出将近85%的消费者不会购买该产品,为此必须对消费者进行针对性的销售。

3.随机的抽取80%的已调查人群,对他们的年龄、收入、性别、结婚情况、理财能力、
是否拥有房子、所在地区进行分析。

选择“类型”,并进行以下设置:
对这些特征做一个统计分析,选择“数据审核”节点,默认设置,执行。

4.利用“神经网络”节点来检测年龄、收入、性别、结婚情况、理财能力、是否拥有房
子、所在地区这些因素的重要性。

结果:
由着结果可知,地区分布、年龄和结婚情况是最重要的考察因素。

5.运用决策树法挖掘相关规则,选择C5.0节点,设置后执行
结果:
对该产品进行推销时主要围绕以下规则,有针对性地展开:在F区里,年龄在40岁左右的已婚中年人
6.分析所得规则的正确性,选取“分析”节点
结果:
整个实验的流程:。

数据挖掘部分作业答案

数据挖掘部分作业答案

一、概述数据挖掘概念:数据挖掘是对大量数据进行探索和分析、以便发现有意义的模式和规则的过程.数据仓库:数据仓库就是面向主题的、集成的、非易失的(稳定性)、随时间变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。

数据立方体:允许以多维对数据建模和观察.由维和事实组成.其中事实是数值的度量.分类:就是通过学习获得一个目标函数f, 将每个属性集x映射到一个预先定义好的类标号y. 分类任务的输入数据是纪录的集合,每条记录也称为实例或者样例.用元组(X,y)表示,其中,X 是属性集合,y是一个特殊的属性,指出样例的类标号(也称为分类属性或者目标属性).信息检索:信息检索(Information Retrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。

狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻(Information Search 或Information Seek)。

知识发现(KDD):知识发现是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。

OLAP:OLAP是针对特定问题的联机数据访问和分析.通过对信息(这些信息已经从原始的数据进行了转换,以反映用户所能理解的企业的实的“维”)的很多可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察.维:是人们观察数据的特定角度.企业常常关心产品销售随着时间推移而产生的变化的情况,这时企业是从时间的角度来观察产品的销售,所以时间就是一个维(时间维).企业也常常关心自己的产品在不同地区的销售分布情况,这时企业是从地理分布的角度来观察产品的销售,所以地理分布也是一个维(地理维).上卷:--通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集,也称为聚合操作.下卷:--是上钻的逆操作.它由不太详细的数据到更详细的数据.钻取可以通过沿维的概念分层向下或引入新的维来实现.切片:--设有(维1,维2,…,维i,…,维n,观察变量)多维数据集,对维i选定了某个维成员,则(维1,维2,…,维i成员,…,维n,观察变量)就是多维数据集(维1,维2,…,维I,…,维n,观察变量)在维i上的一个切片.切块:--将完整的数据立方体切取一部分数据而得到的新的数据立方体.在(维1,维2,…,维i,…,维k,…,维n,观察变量)多维数据集上,对维i,…,维k,选定了维成员,则(维1,维2,…,维i成员,…,维k成员,…,维n,观察变量)就是多维数据集(维1,维2,…,维i,…,维k,…,维n,观察变量)在维i,…,维k上的一个切块.二、简述1、KDD的主要过程KDD过程是多个步骤相互连接、反复进行人机交互的过程。

数据挖掘作业答案

数据挖掘作业答案
对下面一组产品,采用 k-中心点方法进行聚类计算 产品 成本 效益 一 10 优 二 6 中 三 4 中 四 7 良 五 6 一般 六 9 良 七 8 良 八 6 中 九 7 优 十 5 一般
要求:1.进行归一化; 2.聚类计算(计算到第 3 步).
答案如下
1.数据预处理 定量化 产品 成本 效益 一 10 95 二 6 75 三 4 75 四 7 85 五 6 60 六 9 85 七 8 85 八 6 75 九 7 95 十 5 60
a.对成本型指标(“越小越优型”)
xi'
' i
max(x) xi max(x) min(x)
b.对效益型指标(“越大越优型”)
yi min(y) y max(y) min(y)
归一化后结果如下表所示 成本 x’ 效益 y’ 成本 x’ 效益 y’ 成本 x’ 效益 y’ 与1号 中心 与2号 中心 0.0 1.0 0.0 1.0 0.0 1.0 0.0 0.0 0.0 0.8 1.0 1.28 0.7 0.4 0.7 0.4 0.7 0.4 0.7 0.6 0.92 0.1 0.4 0.41 1.0 0.4 1.0 0.4 1.0 0.4 1.0 0.6 1.16 0.2 0.4 0.45 0.5 0.7 0.5 0.7 0.5 0.7 0.5 0.3 0.58 0.3 0.7 0.76 0.7 0.0 0.7 0.0 0.2 0.7 0.2 0.7 0.7 0.0 0.7 1.0 1.2 0.1 0.0 0.1 0.3 0.7 0.3 0.7 0.2 0.7 0.2 0.3 0.36 0.6 0.7 0.92 0.7 0.4 0.7 0.4 0.3 0.7 0.3 0.3 0.42 0.5 0.7 0.91 0.5 1.0 0.5 1.0 0.7 0.4 0.7 0.6 0.92 0.1 0.4 0.41 0.8 0.0 0.8 0.0 0.5 1.0 0.5 0 0.5 0.3 1.0 1.04 0.8 0.0 0.8 1.0 1.28 0.0 0.0 0.0

数据挖掘作业2

数据挖掘作业2

数据挖掘作业2引言概述数据挖掘作业2是数据挖掘课程中的重要一环,通过这个作业,学生可以深入理解数据挖掘的相关概念和技术,提升数据挖掘能力。

在这篇文章中,我们将详细介绍数据挖掘作业2的内容和要求,帮助学生更好地完成这个作业。

一、数据集选择1.1 确定数据集的主题和目的在选择数据集时,首先需要确定数据集的主题和目的。

确定数据集的主题有助于我们更好地理解数据的含义和背景,从而更好地进行数据挖掘分析。

同时,明确数据集的目的可以帮助我们确定数据挖掘的目标和方法。

1.2 数据集的获取和清洗在确定数据集后,需要进行数据的获取和清洗工作。

数据的获取可以通过网络搜索、数据集库等途径获取,而数据清洗则是为了保证数据的质量和完整性,包括处理缺失值、异常值等。

1.3 数据集的特征分析在获取和清洗数据后,需要对数据集进行特征分析。

特征分析可以帮助我们更好地了解数据的特点和规律,为后续的数据挖掘建模做准备。

二、数据预处理2.1 数据缺失值处理在数据挖掘过程中,常常会遇到数据缺失值的情况。

在数据预处理阶段,需要对数据缺失值进行处理,可以选择填充缺失值、删除缺失值或者使用插值等方法。

2.2 数据标准化数据标准化是数据预处理的重要步骤之一,通过数据标准化可以将数据转换为统一的尺度,避免不同特征之间的差异对数据挖掘结果造成影响。

2.3 数据降维在数据挖掘过程中,常常会遇到高维数据的情况。

数据降维可以帮助我们减少数据的维度,提高数据挖掘的效率和精度。

三、数据挖掘建模3.1 确定数据挖掘算法在数据挖掘建模阶段,需要选择适合的数据挖掘算法。

常用的数据挖掘算法包括聚类、分类、关联规则挖掘等,根据数据集的特点和目的选择合适的算法。

3.2 模型训练和评估在选择数据挖掘算法后,需要进行模型训练和评估。

通过训练模型可以得到数据挖掘模型,而评估模型可以帮助我们评估模型的性能和准确度。

3.3 结果分析和可视化在完成数据挖掘建模后,需要对结果进行分析和可视化。

数据挖掘作业答案

数据挖掘作业答案

数据挖掘作业答案数据挖掘作业题⽬+答案华理计算机专业选修课第⼆章:假定⽤于分析的数据包含属性age。

数据元组中age值如下(按递增序):13 ,15 ,16 ,16 ,19 ,20 ,20,21 ,22 ,22,25 ,25 ,25 ,25 ,30 ,33 ,33 ,35 ,35 ,35,35,36,40,45,46,52,70.分别⽤按箱平均值和边界值平滑对以上数据进⾏平滑,箱的深度为3.使⽤最⼩-最⼤规范化,将age值35转换到[0.0,1.0]区间使⽤z-Score规范化转换age值35 ,其中age的标准差为12.94年。

使⽤⼩数定标规范化转换age值35。

画⼀个宽度为10的等宽直斱图。

该数据的均值是什么?中位数是什么?该数据的众数是什么?讨论数据的峰(即双峰,三峰等)数据的中列数是什么?(粗略地)找出数据的第⼀个四分位数(Q1 )和第三个四分位数(Q3 )给出数据的五数概括画出数据的盒图第三章假定数据仓库包含三个维:time doctor和patient ;两个度量:count和charge;其中charge是医⽣对病⼈⼀次诊治的收费。

画出该数据仓库的星型模式图。

由基本⽅体[day, doctor, patient]开始,为列出2004年每位医⽣的收费总数,应当执⾏哪些OLAP操作。

如果每维有4层(包括all ),该⽴⽅体包含多少⽅体(包括基本⽅体和顶点⽅体)?第五章数据库有4个事务。

设min_sup=60%,min_conf=80%TID Itmes_boughtT100 {K,A,D,B}T200 {D,A,C,E,B}T300 {C,A,B,E}T400 {B,A,D}分别使⽤Apriori和FP-增长算法找出频繁项集。

列出所有的强关联规则(带⽀持度s和置信度c ),它们不下⾯的元规则匹配,其中,X是代表顼客的变量,itmei是表⽰项的变量(例如:A、B等)下⾯的相依表会中了超级市场的事务数据。

大工20秋《数据挖掘》大作业

大工20秋《数据挖掘》大作业

大工20秋《数据挖掘》大作业During this semester。

I have gained a lot from the course of data mining。

In today's society。

the value of data is self-XXX analyzing。

mining。

and modeling data。

we can predict users' XXX design ideas for enterprises。

XXX。

XXX。

the value of data is XXX。

XXX summarize massive and complex data and make data create value is related to the course of data mining。

Data mining is implemented based on the Python language。

Through learning this programming language。

we have gone through a systematic learning from basic concepts to specific syntax and framework。

Finally。

XXX is a course with strong XXX course。

I have gained a brand XXX of the value of data。

I believe that I will use it more in the future.1.XXX and Python XXX1.XXX:KNN (K-XXX。

The input is also a sample feature value vector and the corresponding class label。

数据挖掘 决策树上机内容

数据挖掘 决策树上机内容

读取数据文件
• • • • • • • • 内容及节点: ฀ 2.1 Clementine可以读取的数据格式 ฀ 2.2 读取文本数据与查看数据 ฀ 2.3 读取SPSS数据 ฀ 2.4 读取数据库数据 ฀ 2.5 Clementine中的字段类型 ฀ 2.6 Clementine中的字段方向 ฀ 2.7 保存Clementine流
Clementine 面板

Clementine 可视化程序使用基础
• • • • • • 鼠标应用 ฀ 三键与双键鼠标 ฀ 左键 选择节点或图标置于流区域 ฀ 右键 激活Context菜单 ฀ 中键 连接或断开两个节点 ฀ 帮助
节点操作
• 1.3 节点选项板 在clementine系统窗口底部的选项板 (palette)中装有用来建立数据流的所有可能的 节点。 1、收藏夹(Favorites):用于存放最常用的节点 2、数据源(sources):用来将数据读clementine 系统的节点
• Derive:增加一个或多个属性集;
• 数据集drug1n中有7个字段,只有Na,K是人 体所含的矿物质元素。影响人体的BP和 Cholesterel的是这两种元素的比例。
状态检测实例
• 例3:利用clementine系统提供的数据集 C0ND1n,对一台机器提供的状态信息进行 监测,识别和预测故障状态的问题。
• • • • • •
1.7 通过双击来增加和连接节点 1.8 手工连接节点 1.9 在数据列中绕过节点 2.0 绕开一个节点 2.1 在当前的连接中增加节点 2.2 删除节点间的连接
2 读取数据文件
• 目的 ฀ 掌握Clementine如何读取文本格式数据 了解Clementine可以读取的数据格式 ฀ 掌握Clementine中的字段类型和方 向
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

智能数据挖掘课题名称:决策树姓名:学号:********一、决策树的基本概念机器学习中,决策树是一个预测模型;它代表的是对象属性值与对象值之间的一种映射关系。

树中每个节点表示某个对象,每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应具有上述属性值的子对象。

决策树仅有单一输出;若需要多个输出,可以建立独立的决策树以处理不同输出。

从数据产生决策树的机器学习技术叫做决策树学习,通俗说就是决策树。

决策树学习也是数据挖掘中一个普通的方法。

在这里,每个决策树都表述了一种树型结构,它由它的分支来对该类型的对象依靠属性进行分类。

每个决策树可以依靠对源数据库的分割进行数据测试。

这个过程可以递归式的对树进行修剪。

当不能再进行分割或一个单独的类可以被应用于某一分支时,递归过程就完成了。

另外,随机森林分类器将许多决策树结合起来以提升分类的正确率。

决策树同时也可以依靠计算条件概率来构造。

决策树如果依靠数学的计算方法可以取得更加理想的效果。

决策树一般可归纳为2 类:分类与预测。

本文着重关于其分类的作用,并以此来构建一个完整的决策树。

二、决策树分类器的优点以此次用的 ID3 算法为例,以此算法产生的决策树分类器具有很多优点:决策树的构造不需要任何领域知识或参数设置,因此适合于探测式知识发现;决策树可以处理高维数据,推理过程完全依赖于属性变量的取值特点,可自动忽略目标变量没有贡献的属性变量,也为判断属性变量的重要性,减少变量的数目提供参考,同时对噪声数据具有很好的健壮性;决策树归纳的学习和分类步骤是简单和快速的,推理过程可以表示成 If Then 形式,并且具有很好的准确率;获取的知识用树的形式表示是直观的,并且容易被人理解。

因而,决策树归纳分类是目前应用最广泛的归纳推理算法之一,在数据挖掘中受到研究者的广泛关注。

但是其缺点也是很多的,如:信息增益的计算依赖于特征数目较多的特征,而属性取值最多的属性并不一定最优。

ID3 是非递增算法。

ID3是单变量决策树(在分枝节点上只考虑单个属性),许多复杂概念的表达困难,属性相互关系强调不够,容易导致决策树中子树的重复或有些属性在决策树的某一路径上被检验多次。

抗噪性差,训练例子中正例和反例的比例较难控制。

三、ID3 算法3.1 ID3算法主要针对属性选择问题,是决策树学习方法中最具影响和最为典型的算法。

ID3采用贪心方法,其中决策树以自顶向下递归的分治方式构造。

大多数决策树归纳算法都沿用这种自顶向下的方法,从训练元组集和它们的相关联的类标号开始构造决策树。

随着树的构建,训练集递归地划分成较小的子集。

ID3算法中关键的一步是属性选择度量,即选择分裂准则。

其中的三种度量方法分别是信息增益、增益率和Gini指标。

(示例算法选择了第一种方法)。

当获取信息时,将不确定的内容转为确定的内容,因此信息伴着不确定性。

算法的基本策略如下:1.选择一个属性放置在根节点,为每个可能的属性值产生一个分支2.将样本划分成多个子集,一个子集对应于一个分支3.在每个分支上递归地重复这个过程,仅使用真正到达这个分支的样本4.如果在一个节点上的所有样本拥有相同的类别,即停止该部分树的扩展3.2 此次问题在选择属性值时采用启发式标准,其内容为:只跟本身与其子树有关,采取信息理论用熵来量度。

属性选择度量是一种选择分裂准则,将给定的类标记的训练元组的数据划分D“最好”地分成个体类的启发式方法。

如果我们要根据分裂准则的输出将 D 划分成较小的划分,理想地,每个划分是“纯”的,即,落在给定划分的所有元组都属于相同的类。

从概念上讲,最好的划分准则是导致最接近这种情况的划分。

此次问题采用一种流行的属性选择度量——信息增益。

信息增益度量基于Claude Shannon 在研究消息的值或“信息内容”的信息论方面的先驱工作。

设节点N代表或存放划分D的元组。

选择具有最高信息增益的属性作为节点N的分裂属性。

该属性使结果划分中的元组分类所需的信息量最小,并反映这些划分中的最小随机性或“不纯性”。

这种方法使对给定元组分类所需的期望测试数目最小,并确保找到一棵简单的树。

熵是选择事件时选择自由度的量度,其计算方法为:P=freq(Cj, S )/| S | ;Exp(S)=-SUM(P*LOG(P)) ; SUM()函数是求j从1到n的和。

E ntropy(X)=SUM( (|Ti|/|T|)* Exp (X) ;Gain(X)= Exp (X)- E ntropy(X) ;为保证生成的决策树最小,ID3 算法在生成子树时,选取使生成的子树的熵( 即 Gain(S)) 最小的特征来生成子树。

四、实验内容实验目的:研究糖尿病数据(diabetes数据集),构造一颗决策树。

实验数据:Title: Pima Indians Diabetes DatabaseFor Each Attribute: (all numeric-valued)1. Number of times pregnant2. Plasma glucose concentration a 2 hours in an oral glucose tolerance test3. Diastolic blood pressure (mm Hg)4. Triceps skin fold thickness (mm)5. 2-Hour serum insulin (mu U/ml)6. Body mass index (weight in kg/(height in m)^2)7. Diabetes pedigree function8. Age (years)Class Value Number of instances0 5001 268%*****************************************%% 构建一个决策树%*****************************************function decisiontree()[S1,S2,S3,S4,S5,S6,S7,S8,classity]=textread('train.txt','%f %f %f %f %f %f %f %f%s');D=[S1 S2 S3 S4 S5 S6 S7 S8];AttributName={ 'preg','plas','pres','skin','insu','mass','pedi','age'};t=classregtree(D,classity,'names',AttributName);t=prune(t,'level',5);disp(t);end%*****************************************%% 绘制一个决策树%*****************************************function show_tree()[S1,S2,S3,S4,S5,S6,S7,S8,classity]=textread('train.txt','%f %f %f %f %f %f %f %f %s');D=[S1 S2 S3 S4 S5 S6 S7 S8];AttributName={ 'preg','plas','pres','skin','insu','mass','pedi','age'};t=classregtree(D,classity,'names',AttributName);t=prune(t,'level',8);view(t);end%*****************************************%% 计算错误率并绘制成曲线%*****************************************function errorrate()[S1,S2,S3,S4,S5,S6,S7,S8,classity]=textread('train.txt','%f %f %f %f %f %f %f %f %s');D=[S1 S2 S3 S4 S5 S6 S7 S8];AttributName={ 'preg','plas','pres','skin','insu','mass','pedi','age'};t=classregtree(D,classity,'names',AttributName);t=prune(t,'level',5);costsum=zeros(10,1);for k=1:10cost=test(t,'cross',D,classity);costsum=costsum+cost;endcostsum=costsum/10;i=1:10;plot(i,costsum,'-o');xlabel(' 交叉次数');ylabel(' 错误率');title(' 决策树k 倍交叉错误率曲线');end五、实验结果如下:>> decisiontreeDecision tree for classification1 if plas<127.5 then node2 elseif plas>=127.5 then node3 else neg2 if age<28.5 then node 4 elseif age>=28.5 then node 5 else neg3 if mass<29.85 then node 6 elseif mass>=29.85 then node 7 else pos4 if mass<45.4 then node 8 elseif mass>=45.4 then node 9 else neg5 if mass<26.35 then node 10 elseif mass>=26.35 then node 11 else neg6 if plas<145.5 then node 12 elseif plas>=145.5 then node 13 else neg7 if plas<157.5 then node 14 elseif plas>=157.5 then node 15 else pos8 class = neg9 class = pos10 if mass<9.65 then node 16 elseif mass>=9.65 then node 17 else neg11 if plas<99.5 then node 18 elseif plas>=99.5 then node 19 else neg12 class = neg13 if age<61 then node 20 elseif age>=61 then node 21 else pos14 if age<30.5 then node 22 elseif age>=30.5 then node 23 else pos15 class = pos16 class = pos17 class = neg18 if plas<28.5 then node 24 elseif plas>=28.5 then node 25 else neg19 if pedi<0.561 then node 26 elseif pedi>=0.561 then node 27 else pos20 if age<25.5 then node 28 elseif age>=25.5 then node 29 else pos21 class = neg22 if pres<61 then node 30 elseif pres>=61 then node 31 else neg23 if pedi<0.4295 then node 32 elseif pedi>=0.4295 then node 33 else pos24 class = pos25 class = neg26 if pedi<0.2 then node 34 elseif pedi>=0.2 then node 35 else neg27 if preg<6.5 then node 36 elseif preg>=6.5 then node 37 else pos28 class = neg29 if mass<27.1 then node 38 elseif mass>=27.1 then node 39 else pos30 class = pos31 if mass<41.8 then node 40 elseif mass>=41.8 then node 41 else neg32 if mass<45.55 then node 42 elseif mass>=45.55 then node 43 else pos33 class = pos34 class = neg35 if preg<1.5 then node 44 elseif preg>=1.5 then node 45 else neg36 if insu<120.5 then node 46 elseif insu>=120.5 then node 47 else pos37 class = pos38 class = pos39 if pres<82 then node 48 elseif pres>=82 then node 49 else neg40 if pedi<1.1415 then node 50 elseif pedi>=1.1415 then node 51 else neg41 class = pos42 if pres<92 then node 52 elseif pres>=92 then node 53 else neg43 class = pos44 class = pos45 if pres<67 then node 54 elseif pres>=67 then node 55 else neg46 if age<34.5 then node 56 elseif age>=34.5 then node 57 else neg47 class = pos48 class = pos49 class = neg50 class = neg51 class = pos52 if pedi<0.1365 then node 58 elseif pedi>=0.1365 then node 59 else neg53 class = pos54 class = pos55 if mass<34.45 then node 60 elseif mass>=34.45 then node 61 else neg56 class = neg57 class = pos58 class = pos59 class = neg60 if pres<83 then node 62 elseif pres>=83 then node 63 else neg61 class = neg62 if plas<120 then node 64 elseif plas>=120 then node 65 else pos63 class = neg64 class = pos65 if pedi<0.239 then node 66 elseif pedi>=0.239 then node 67 else neg66 class = pos67 class = neg六、总结与分析实验中使用了两个函数classregtree和prune:1.Classregtree是决策分类函数,输入t = classregtree(X,y,'Name',value),X是属性的集合,Y是相应的类别。

相关文档
最新文档