统计行业数据分析与数据挖掘工具应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Zhang Miao
(Tianjin Pharmaceutical Holdings Pacific Co., Ltd., Tianjin 300040, China)
Abstract: At present, with the vigorous development of network information technology, people pay more and more attention to the collection, collation, analysis and application of data. Through a series of processing and processing of data, the role of data in promoting social progress and improving people's lives is constantly highlighted. In the era of big data, the value of data is enlarged infinitely, the level of data analysis is constantly improving, and the tools of data mining are constantly updated. Based on this, the author mainly elaborates the relevant contents of data analysis and data mining tools in statistical industry, hoping to provide reference for relevant units and personnel to carry out work.
2019 年第 19 期
信息与电脑 China Computer & Communication
数据库技术
统计行业数据分析与数据挖掘工具应用
张 邈 (天津医药集团太平医药有限公司,天津 300040)
ቤተ መጻሕፍቲ ባይዱ
摘 要:现阶段,随着网络信息技术的蓬勃发展,人们越来越重视对数据的收集、整理、分析以及应用,通过对数 据进行一系列加工处理,使得数据在推动社会进步和改善人们生活方面的作用不断凸显。在大数据时代,数据的价值被 无限放大,数据分析的水平不断提高,数据挖掘的工具不断更新。基于此,笔者主要对统计行业数据分析与数据挖掘工 具的相关内容进行阐述,希望能够为有关单位和相关人员开展工作提供借鉴。
关键词:统计行业;数据分析;数据挖掘;挖掘工具;工具应用 中图分类号:TP311.13 文献标识码:A 文章编号:1003-9767(2019)19-129-03
Application of Data Analysis and Data Mining Tools in Statistical Industry
在功能层所使用的这些软件中,根据不同软件工具的不 同特点还可以进行分类,综合功能突出的软件有 Python、R 软件、MATLAB。统计分析功能突出的软件有 SAS、JMP、 STATA 和 SPSS。 数 学 计 算 功 能 突 出 的 软 件 有 MATLAB、 Mathematica 和 Maple。除此之外,还有质量控制功能突出 的软件工具有 MINITAB,计量经济功能突出的软件工具有 E-views 和 AMOS 等。
1 数据分析与数据挖掘工具的分类
一般情况下,数据分析与数据挖掘工具的功能流程主要 包括数据获取、数据分析挖掘和数据展示。在不同的功能层 中,有各自适用的工具软件或程序。
首先,在数据获取层,比较常用的 EpiData 是问卷数据 录入适用性最强的工具,通过 EpiData 可以直接将数据导入 SPSS 软件中。而 DataLoad 是基于键盘模仿,将数据与键盘 按键以表格形式进行存储,主要进行 Oracle 开发的数据录 入工作,在实际工作中,如果需要在目标程序界面录入数据 时,DataLoad 会根据定义好的数据和键盘顺序完成 Excel 的
作者简介:张邈 (1975—),男,河北衡水人,本科,工程师。研究方向:计算机科学技术在现代药品经营中的应用、大数 据管理等。
— 129 —
数据库技术
信息与电脑 China Computer & Communication
2019 年第 19 期
2 开源与非开源数据分析与数据挖掘工具的概述
在数据分析与数据挖掘工具的功能流程层中,数据挖掘 分析层相对较为重要,所以下文将按照数据挖掘分析层所使 用软件工具的开源与非开源分类方式进行分别概述。
Key words: statistical industry; data analysis; data mining; mining tools; tool application
0 引言
随着网络信息技术的快速发展,现阶段获取数据的速度 数量以及质量等各方面都发生了巨大的变化。在大数据时代, 数据的生命力旺盛,价值较高,为了实现数据利用的最大化, 对于数据分析与数据挖掘工具的应用就显得尤为重要。
录入工作,而国家统计局的 Apras 系统则能够高效定义各类 录入界面和检验录入信息。其次,在数据分析挖掘层,所使 用的工具主要分为开源工具与非开源工具,其中,开源工具 主 要 包 括 R 软 件、Python、Weka、Rapidminer 等, 而 非 开 源 工 具 主 要 包 括 MATLAB、SAS、JMP、STATA、SPSS、 GAUSS、DSP、马克威和 EVIEWS 等。最后,在数据展示层, 国产工具主要以 YongHong Z-Suite、Qlik View 为主,而国际 上比较知名的包括斯坦福的 tableau、IBM 公司的 Cognos 和 SAP 的水晶易表 [1]。
2.1 数据分析与数据挖掘的开源类软件工具
2.1.1 R 软件 R 软件具有环境开放、功能完善、系统连贯、运算快速