武汉大学SAS总复习笔记(精品版)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第1章SAS基础
1.SAS工作界面与方式
2.常用工作模块
–VIEWTABLE模块
✧Viewtable第一行显示变量的标签
–初识INSIGHT模块
✧表格的列称为变量,表格的行称为观测
✧变量分为:字符型和数值型(按变量的测量水平可分为:区间型变量和列名
型变量)
–初识“分析家”
3.SAS文件的管理方式
✧逻辑库(临时+永久)
✧数据集(描述部分+数据部分-变量、观测)
4.数据集的建立
5.SAS编程初步
第2章SAS的描述统计功能
• 2.1 描述性统计的基本概念
总体:总体是指所研究对象的全体组成的集合。
样本:样本是指从总体中抽取的部分对象(个体)组成的集合。样本中包含个体的个数称为样本容量。
参数:参数是用来描述总体特征的概括性值。
统计量:统计量使用来描述样本特征的概括性值。
–表示数据位置的统计量
✧均值:所有观测值得平均值,是描述数据取值中心位置的一个度量。
✧中位数:中位数是描述观测数据中心位置的统计量,大体上其数据大小
为观测值的一半。优点是不受个别极端数据的影响。
✧众数:观测值中出现最多的数称为众数。
✧百分位数:分位数也是描述数据分布和位置的统计量。
–表示数据分散程度的统计量
✧极差与半极差:极差就是数据中的最大值和最小值之间的差。半极差是
上下四分位数之差,描述了中间半数观测值得散布情况。
✧方差与标准差:反映数据对其均值中心的某种离散程度。
✧变异系数:将标准差表示为均值的百分数。
–表示数据分布形状的统计量
✧偏度:刻画数据对称性的指标。(均值对称时为零,左侧数据分散时为负,
右侧时为正)
✧峰度:描述数据向分布尾端散布的趋势。(标准正态分布时为零,尾部较
正态分布分散时为正,集中时为负)
–正态分布
• 2.2 在SAS中计算统计量
• 2.3 统计图形(定量变量和分类变量的图形表示)–什么类型数据适合用什么图形
定量变量:
✧直方图
数值型变量展示变量取值的分布
可以估计总体的概率密度,组距对直方图的形态影响很大。
可以看出数据分布的疏密。
✧盒形图
简洁地表现数据在数轴上的分布及其特点
中间横线是数据的中位数。
封闭盒子的上下两横线(边)分别为上、下四分位数(点)。
盒子的长度是分布的四分位间距。类似标准差
触须线最长可以延伸到四分位间距的1.5倍。异常点考虑剔除
可以大体看出数据集中在什么范围,上下两侧是否对称。
常将分类数据的若干个盒形图放在一个图中比较。
✧散点图
得到的数据有两个变量,希望了解两个变量的关系
回归分析
✧线图
表示变量间的取值变化情况,有单式和复式两种。
常用来描述变量与时间变量的关系。
分类变量:
✧条形图——给出分类变量取每个值的频数。
✧饼图——对分类变量描述其频数取值的比例。
✧马赛克图——针对两个以上分类变量。直观显示两个以上变量每种取值组合
的观测个数和比例。
• 2.4 用SAS绘制统计图形
–图形结果的查看
–过程步语句实现制图
✧Gchart、Gplot、
第3章区间估计与假设检验
1、假设检验的理论依据
✧对总体参数进行假设检验时,首先要给定一个原假设H0,H0是关于总体参
数的描述,与此同时存在一个与H0相对立的备选假设H1,H0与H1有且只有一个成立;经过一次抽样,若发生了小概率事件(通常把概率小于0.05的事件称为小概率事件),可以依据“小概率事件在一次试验中几乎不可能发生”的理由,怀疑原假设不真,做出拒绝原假设H0,接受H1的决定;
反之,若小概率事件没有发生,就没有理由拒绝H0,从而因做出拒绝H0的决定。
2、均值比较的T检验的一般步骤
✧1、根据问题确立原假设H0和备选假设H1;
✧2、确立一个显著水平α,它是衡量稀有性(小概率事件)的标准,常取为
0.05;
✧3、根据SAS计算出的p值,就可以在指定的显著水平下,作出拒绝或者不
能拒绝原假设的决定。
–单样本T检验
–独立样本T检验(不匹配)
–配对样本T检验(成对匹配)
3、分布检验
✧分布拟合图
直方图顶端的形态为折线,而常用的一些分布的密度曲线如正态分布等都是光滑曲线,所谓分布拟合图就是在限定的参数分布类中通过对参数的估计,用估计得到的参数所对应的密度曲线去拟合直方图顶部的形态。
✧QQ图
一种散点图,横坐标为标准正态分布的分位数,可以帮助我们方便地鉴别数据的分布是否近似于某种类型的分布。还可获得分布的偏度和峰值的粗略信息。
要利用QQ图鉴别样本数据是否近似于正态分布,只需看QQ图上的点是否近似的在一条直线附近,该直线的斜率为总体的标准差,截距为总体的均值。正态性检验
第4章相关和回归分析
1、什么是相关分析?如何实现相关分析,如何判断是否相关及相关程度.
✧变量之间的关系有函数关系和相关关系,其中相关关系是指变量间的某种非
确定的依赖关系。寻找变量间相关关系的规律称为相关分析。
✧相关分析就是对变量之间的相关关系进行描述与度量,简单相关分析通常指
对两变量见相关关系的研究。