张亨整理 四个常用统计软件SAS STATA SPSS R语言分析比较及其他统计软件概述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
扩展性
SAS 语言具有 强大的对数据 处理的能力, 但其不具有对 新算法的集成 功能,因此算 法比较固定, 需随着 SAS 软 件的版本更新 才能更新算法
STATA 的编程 功能也很强 大,每期的
STATA journal 都有最新的模 型程序更新
不具备扩展 性,无法编写 新算法,只能 使用软件提供
其网址是:www.r-project.org
二、 使用范围
使用范围
典型应用 范围
适合领域 适合人员
SAS
STATA
市场需求预
测、销售预测、 医学,生物统
潜在客户开 计研究,学术
发、CRM、经
界
营绩效分析等
管理科学(企 业、资料、财 务、会计、经
济……)
统计学、经济 学、生物学、 医药学、社会 学、人口学
SPSS 是世界上最早的统计分析软件,由美国斯坦福大学的三位研究生 Norman H. Nie、C. Hadlai (Tex) Hull 和 Dale H. Bent 于 1968 年研究开发成功, 同时成立了 SPSS 公司,并于 1975 年成立法人组织、在芝加哥组建了 SPSS 总部。
2009 年 7 月 28 日,IBM 公司宣布将用 12 亿美元现金收购统计分析软件提供商 SPSS 公司。如今 SPSS 已出至版本 22.0,而且更名为 IBM SPSS。迄今,SPSS 公司已有 40 余年的成长历史。
业级应用产品,这些厂商 Access、文本编辑器等
包括 Oracle、IBM、 生成的数据文件。
Teradata、Sybase、SAP。
数据的处 理
数据处理功能非常强 大,SAS 语言的优势所
在
在数据管理和许多前沿统 计方法中的功能还是非常
强大的。
只能利用菜单进行一些 数据的常规操作
完美的数据可视化制作 工具,丰富的图形函数和 外置包,几乎无限的扩展 能力,数据处理很强大
据格式才能使用。
通常数据来源于数据库下 载,而不是手工录入。 STATA 不能直接支持很多 格式(Excel files, SAS files),可以先保存为 csv 格式后再导入 STATA
实际基本上各大数据库 能打开 Excel、DaBase、
厂商已有相应的 R 语言企 Foxbase、Lotus 1-2-3、
据输出/输入功能。
四、 软件优缺点 (一)SAS 优缺点
一般用法 优点:SAS 由于其功能强大而且可以编程,很受高级用户的欢迎。 缺点:也正是基于此,它是最难掌握的软件之一。使用 SAS 时,你需要编 写 SAS 程序来处理数据,进行分析。如果在一个程序中出现一个错误,找到并 改正这个错误将是困难的。 数据管理。 优点:在数据管理方面,SAS 是非常强大的,能让你用任何可能的方式来处 理你的数据。它包含 SQL(结构化查询语言)过程,可以在 SAS 数据集中使用 SQL 查询。 SAS 可以同时处理多个数据文件。它可以处理的变量能够达到 32,768 个, 以及你的硬盘空间所允许的最大数量的记录条数。 缺点:但是要学习并掌握 SAS 软件的数据管理需要很长的时间,在 STATA 或 SPSS 中,完成许多复杂数据管理工作所使用的命令要简单的多。 统计分析 优点:SAS 能够进行大多数统计分析(回归分析,logistic 回归,生存分析, 方差分析,因子分析,多变量分析)。SAS 的最优之处可能在于它的方差分析, 混合模型分析和多变量分析。 缺点:而它的劣势主要是有序和多元 logistic 回归(因为这些命令很难),以 及稳健方法(它难以完成稳健回归和其他 稳健方法)。尽管支持调查数据的分析, 但与 STATA 比较仍然是相当有限的。 绘图功能 优点:在所有的统计软件中,SAS 有最强大的绘图工具,由 SAS/Graph 模 块提供。 缺点:SAS/Graph 模块的学习也是非常专业而复杂,图形的制作主要使用程 序语言。SAS 8 虽然可以通过点击鼠标来交互式的绘图,但不象 SPSS 那样简单。 (二)STATA 优缺点 一般用法 优点:STATA 以其简单易懂和功能强大受到初学者和高级用户的普遍欢迎。 使用时可以每次只输入一个命令(适合初学者),也可以通过一个 STATA 程序一 次输入多个命令(适合高级用户)。这样的话,即使发生错误,也较容易找出并 加以修改。 缺点:有些操作用菜单不方便实现。 数据管理 优点:尽管 STATA 的数据管理能力没有 SAS 那么强大,它仍然有很多功能 较强且简单的数据管理命令,能够让复杂的操作变得容易。STATA 主要用于每次 对一个数据文件进行操作,难以同时处理多个文件。 缺点:随着 STATA/SE 的推出,现在一个 STATA 数据文件中的变量可以达到 32,768,但是当一个数据文件超越计算机内存所允许的范围时,你可能无法分析 它。 统计分析
1984 年 SPSS 总 部 首 先 推 出 了 世 界 上 第 一 个 统 计 分 析 软 件 微 机 版 本 SPSS/PC+,开创了 SPSS 微机系列产品的开发方向,极大地扩充了它的应用范围, 并使其能很快地应用于自然科学、技术科学、社会科学的各个领域。世界上许多 有影响的报刊杂志纷纷就 SPSS 的自动统计绘图、数据的深入分析、使用方便、 功能齐全等方面给予了高度的评价。
的固定功能
R 的可扩展功 能很强,可以 任意实现自己 的算法,甚至 都可以编游戏 了,不过这方 面并不是 R 的 长处,R 的主要 应用在统计编
程
三、 综合比较
SAS
STATA
SPSS
R
使用 Windows 的窗口方
式展示各种管理和分析
操作界面
纯编程界面,操作困难
STATA 就如一个半自动相 机,也就是说它把傻瓜菜 单和命令编程结合了起
新版本的 STATA 采用最具亲和力的窗口接口,使用者自行建立程序时,软 件能提供具有直接命令式的语法。STATA 提供完整的使用手册,包含统计样本 建立、解释、模型与语法、文献等超过一万余页的出版品。
除此之外,STATA 软件可以透过网络实时更新每天的最新功能,更可以得 知世界各地的使用者对于 STATA 公司提出的问题与解决之道。使用者也可以透 过 STATA Journal 获得许许多多的相关讯息以及书籍介绍等。另外一个获取庞大 资源的管道就是 STATAlist,它是一个独立的 listserver,每月交替提供使用者超 过 1000 个讯息以及 50 个程序。
来。
数据方法的功能,使用 对话框展示出各种功能 选择项,只要掌握一定 的 Windows 操作技能, 粗通统计分析原理,就
R 的界面非常简洁,只有 一个菜单栏,和一个默认 新建的 R Console 控制
台
可以使用该软件为特定
的科研工作服务
数据兼容
SAS 直接兼容较少的数 据(库)格式,对于其 它不直接兼容的数据格 式需使用 SAS Access 将 数据格式转换为 SAS 数
其网址是:http://www.spss.com/ (四) R 语言简介
R 是用于统计分析、绘图的语言和操作环境。R 是属于 GNU 系统的一个自 由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。
R 是统计领域广泛使用的诞生于 1980 年左右的 S 语言的一个分支。可以认 为 R 是 S 语言的一种实现。而 S 语言是由 AT&T 贝尔实验室开发的一种用来进 行数据探索、统计分析和作图的解释型语言。最初 S 语言的实现版本主要是 S-PLUS。S-PLUS 是一个商业软件,它基于 S 语言,并由 MathSoft 公司的统计 科学部进一步完善。后来 Auckland 大学的 Robert Gentleman 和 Ross Ihaka 及其 他志愿人员开发了一个 R 系统。由“R 开发核心团队”负责开发。 R 是基于 S 语言的一个 GNU 项目,所以也可以当作 S 语言的一种实现,通常用 S 语言编写 的代码都可以不作修改的在 R 环境下运行。 R 的语法是来自 Scheme。R 的使用 与 S-PLUS 有很多类似之处,这两种语言有一定的兼容性。S-PLUS 的使用手册, 只要稍加修改就可作为 R 的使用手册。所以有人说:R,是 S-PLUS 的一个“克 隆”。
其网址是:http://www.STATA.com/ (三) SPSS 简介
SPSS(Statistical Product and Service Solutions),“统计产品与服务解决方案” 软件。最初软件全称为“社会科学统计软件包”(Statistical Package for the Social Sciences),但是随着 SPSS 产品服务领域的扩大和服务深度的增加,SPSS 公司 已于 2000 年正式将英文全称更改为“统计产品与服务解决方案”,标志着 SPSS 的战略方向正在做出重大调整。为 IBM 公司推出的一系列用于统计学分析运算、 数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称 SPSS,有 Windows 和 Mac OS X 等版本。
专业研究及编 统计研究人员
程人员
SPSS
R
典型的应用是 民意调查、问 卷分析;主要 用于社会科学
研究
计量经济学、 制造、金融、 生物医药、学
术论文
社会科学(社 会、教育、心 理、政治、行 政、传播…), 行政管理领域
基本统计学、 经济学、生物 信息学、生态 学、医药学、 社会学、地理
学
应用统计人员 统计研究人员
SAS 的图形功能很强
(matrix) ,星形图
交互图、线形交互图、
(star) ,分位数图。这些 带形交互图、饼形交互
图形的巧妙应用,可以满 图、箱形交互图、误差
足绝大多数用户的统计作 条形交互图、直方交互
图要求。在有些非绘图命 图和散点交互图等。图
令中,也提供了专门绘制 形生成以后,可以进行
某种图形的功能,如在生
其网址是:http://www.sas.com/ (二) STSTA 简介
STATA 统计软件由美国计算机资源中心(Computer Resource Center)1985 年研制。STATA 是一套提供其使用者数据分析、数据管理以及绘制专业图表的 完整及整合性统计软件。它提供许许多多功能,包含线性混合模型、均衡重复反 复及多项式普罗比模式。
取、数据管理、数据分 归, Poisson 回归,负二
析和数据展现功能。SAS 项回归及广义负二项回 提供很多常用统计方
系统中提供的主要分析 归,随机效应模型等。具 法,但是分析功能仍然
功能包括统计分析、经 体说, STATA 具有如下
有所欠缺
济计量分析、时间序列 统计分析能力:数值变量
分析、决策分析、财务 资料的一般分析,分类资
分析和全面质量管理工 料的一般分析,等级资料
具等等,功能相当强大。 的一般分析,相关与回归
分析,其他方法如质量控
制,整群抽样的设计效率,
诊断试验评价, kappa
等。
R 的强项是绘图功能,制 图具有印刷的素质,也可
加入数学符号。
R 是一套完整的数据处 理、计算和制图软件系 统。其功能包括:数据存 储和处理系统;数组运算 工具(其向量、矩阵运算 方面功能尤其强大);完 整连贯的统计分析工具; 优秀的统计制图功能;简 便而强大的编程语言:可 操纵数据的输入和输出, 可实现分支、循环,用户
可自定义功能。
编程灵活 性
对于数据预处理、操作 方面具有很强大的灵活 性,但是对于统计分析 功能灵活性不强,只能 通过设置不同参数来改
变输出结果。
STATA 是一个统计分析软 件,但它也具有很强的程
序语言功能
几乎是固定的用法,不 具备灵活性
强大的编程语言。R 的功 能能够通过由用户撰写 的套件增强。增加的功能 有特殊的统计技术、绘图 功能,以及编程界面和数
四个常用统计软件 SAS,STATA,SPSS,R 语言
分析比较及其他统计软件概述
一、 SAS,STATA,SPSS,R 语言简介 (一) SAS 简介
SAS(全称 Statistical Analysis System,简称 SAS,翻译成汉语是统计分析系 统)是全球最大的软件公司之一,是由美国 NORTH CAROLINA 州立大学 1966 年开发的统计分析软件。1976 年 SAS 软件研究所(SAS INSTITUTE INC)成立, 开始进行 SAS 系统的维护、开发、销售和培训工作。期间经历了许多版本,并 经过多年来的完善和发展,SAS 系统在国际上已被誉为统计分析的标准软件,在 各个领域得到广泛应用。
编辑。
存分析中,提供了绘制生
存曲线源自文库,回归分析中提
供了残差图等。
STATA 的统计功能很强,
除了传统的统计分析方法
外,还收集了近 20 年发
展起来的新方法,如 Cox
SAS 是确切地说是一套 比例风险回归,指数与
大型集成应用软件系 Weibull 回归,多类结果与
统,具有完备的数据存 有序结果的 logistic 回
多维数据 的图形描
述
分析方法
STATA 的作图模块,主要
提供如下八种基本图形的
制作 : 直方图
(histogram) ,条形图 利用 SPSS 可以生成数
(bar), 百分条图
十种基本图和交互图。
(oneway) ,百分圆图 交互图可有不同风格的
(pie) ,散点图
二维、三维图。交互图
(twoway) ,散点图矩阵 包括条形交互图、点形