weka分类、聚类和关联分析概述
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
weka分类、聚类和关联分析概述
数据挖掘算法概述
数据挖掘算法我们总的来说有这么四大类算法:
1.分类算法
a)决策树
b)神经网络
c)SVM
d)贝叶斯
e)etc
2.聚类算法
3.关联分析
4.回归
这三类算法weka总都有实现,而且算法种类很多,仅有小部分算法是我知道的,大量的算法不清楚是怎样工作的。
具体的算法我们可以去看他的源码。
回归:
什么叫回归?这个很简单,我们手上有一系列的二维数对,我们可以把数据在一个坐标轴上画出来,如果我们发现这个数对的大致轨迹是一条直线,我们可以用这条直线代表这些点的轨迹,拿到这条直线有什么用呢?第一个想法是可以进行预测,第二个用途是分析参数的重要程度,可以调整今后的策略。
回归的分类。
上段话只是简单的说了一下什么是回归,以及回归的用途。
我们使用回归最简单的就是一个自变量一个因变量这种叫做二元线性回归,当然就可以有多元线性回归。
如果我们把一次的指数增大为2,我们可以转换成多元线性回归,这里使用matlab就比较方便了。
即除了线性回归还有非线性回归。
分类:
这个是我总的来说最擅长的一类算法,分类算法想法就是把两个物品分开,或称为分类。
总的过程有三部分:
1.特征提取
2.数据转换
3.分类
我们能看出来,分类算法很简单,只是最后一步,所以说难度在前两步,很多初学数据挖掘的人总会把重心放到第三步,但是其实最难的是前两步。
聚类:
从名字上我们就可以看出来,什么叫聚类。
这个我用的比较少,没啥要说的,在工具使用上spass是比较好的工具。
关联分析:
关联分析说白了就好像在数据库中的函数依赖,这个现在很多人正在这方面研究,当然没有那么狭隘的只是关联分析——购物篮分析。
这个百度一下可以发现很多关联分析的算法,这个可以看看书,估计暂时用不到。