基于R软件的数据挖掘应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于R软件的数据挖掘应用

作者:李韵

来源:《现代职业教育·职业培训》2017年第06期

[摘要] R软件集成了多种数据分析和可视化方法,具有强大的分析能力和出色的扩展性,因此被广泛应用于数据挖掘之中。通过聚类分析和分类回归树方法给出了R软件在数据挖掘中的应用。从简洁的脚本设计和出众的分析效果展示了 R 软件的基本特点及其在数据挖掘中的优势。

[关键词] R软件;数据挖掘;聚类分析;分类回归树

[中图分类号] F407.67 [文献标志码] A [文章编号] 2096-0603(2017)18-0045-01

近年来,随着电子商务、社交网站、移动终端应用开发的兴起,企业对用户基本数据、行为数据、网络痕迹数据等信息的掌握逐渐成为其在信息领域的核心竞争力,“用数据说话、用数据决策”已成为企业未来发展的基石。然而,传统数据在全样抽取时存在时效性差、不适合处理实时数据的缺陷,因此,如何从数据中挖掘出有价值的信息就显得十分重要。

一、数据准备

数据文件包括通用型文件如纯文本文件、Excel等,通过加载不同的功能模块,R软件还可以读取多种数据文件。通过安装 RODBC、RJDBC和RMySQL可以获取对 ODBC、JDBC和Oracle 数据源的访问能力。由于实际应用中往往需要对异构数据源进行挖掘,R 软件提供的针对各种数据源的访问接口具有很强的适用性。

二、数据挖掘建模

(一)聚类分析

k-means是经典的基于划分的聚类方法,其基本思想是使聚类性能指标最小化。所用的聚类准则函数是聚类集中每个样本点到该类中心的距离平方之和,应使其最小化。为此,首先根据给定聚类数K,为每个聚类确定一个初始聚类中心;其次将样本集里的各个样本按最小距离原则分配到最邻近的聚类,并使用每个聚类中的样本均值作为新的聚类中心,如此重复直到聚类中心不发生变化;最后可获得K个聚类。

R软件中可以用k-means()函数来进行聚类。聚类可视化采用判别投影绘制函数plotcluster(),把数据对象映射平面空间,展示聚类之间的异构性。以数据集iris为例。所用代码见表1。

(二)分类回归树分析

R软件提供的分类回归树函数有很多种,为简化获得的分类回归树模型,避免产生过度拟合,常采用的分类回归树函数为rpart(),rpart()可以建立一个分类回归树,并且可以选择最小误差的预测。利用rpart包中的bodyfat数据集建立分类回归树,然后用该分类回归树预测,所用代码见表2。

优秀的数据挖掘工具一方面要求丰富的数据挖掘功能,另一方面也需要优化的算法和用户体验,R软件具备构建实用性强的数据挖掘系统的各种条件,且具有开源的特点,交互方式提供可视化界面,还支持数据挖掘工作流的任务定义与执行,简化了编程人员的操作。此外,可通过自定义脚本来进行分析功能及其他诸如C语言、java语言的调用等。因此,R语言未来将在大数据的挖掘领域有更广泛的应用。

参考文献:

邵峰晶,于忠清.数据挖掘原理与算法[M].北京:中国水利水电出版社,2003.

相关文档
最新文档