SAS统计图形
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
gchart过程可以使用的图形关键字及其图形类型
图形关键字 block hbar hbar3d vbar vbar3d 图形类型 方块图 水平条形图 三维水平条形图 垂直条形图 三维垂直条形图 图形关键字 pie pie3d donut star 图形类型 饼图 三维饼图 环形图 星型图
【例3-27】根据表3-1学生体检数据,以身高为分析变量 绘制频数条形图。
V=<符号> CV=<颜色> H=<n><单位> POINTLABEL
马赛克图一般不针对单个变量,而是针对两个以上 分类变量。这种图的好处是直观显示了两个以上变 量每种取值组合的观测个数和比例。
3.4.1 用Insight绘制统计图形 3.4.2 用“分析家”绘制统计图形 3.4.3 编程绘制统计图形
1、绘制直方图和条形图 ◦ 【例3-19】 根据表3-1学生体检数据,以体重 为分析变量绘制直方图。
效果有何 不同?
语法格式 ◦ PROC GPLOT DATA=<数据集名>; ◦ PLOT <纵轴变量>*<横轴变量>[=<分组变 量>][/<选项1>]; ◦ [SYMBOL<N> <选项2>;] ◦ RUN; gplot过程可绘制散点图和连线图等包含两个变量 的图形。每个点对应一个观测,由横坐标和纵坐 标定位,构成一幅平面散点图或连线图。 主要表示: ◦ 一个变量随另一个变量的变化; ◦ 变量之间的关系; ◦ 数据值的分布。
1、绘制直方图
【例3-24】根据表3-1学生体检数据,绘制身高分布直方 图。
2、绘制条形图
分析家绘制条形图分为水平条形图和垂直条形图。其操作 步骤与绘制直方图相同。
3、绘制散点图(线图)
【例3-25】根据表3-1学生体检数据,以身高为横轴、体 重为纵轴,分别绘制散点图和线图。
【例3-28】根据表3-1学生体检数据,按性别分组, 绘制身高的频数条形图。 proc gchart data=mylib.class; vbar height/group=sex; run;
◦ 也可以使用subgroup选项设置分组。 proc gchart data=mylib.class; vbar height/subgroup=sex; run;
1、条形图(Bar Chart) 2、饼图(Pie Chart) 3、马赛克图(Mosaic Plot)
条形图是描述已汇总为频数、相对频数或百分比频 数分布的定性数据的图形。
通常将横轴指定为数据的分组标志,而将纵轴指定 为频数、相对频数或百分比频数的刻度(横轴和纵 轴也可互换);每组标志都用相同宽度的条形表示, 条形的长度等于观测数值的大小。在绘图时通常将 条形分开以突出每组数据的独立性。
4
5 6 7 8 9 10 11 12 13 14 15
2
2 2 2 1 1 1 2 1 1 1 2
1765
2184 2050 2460 1976 2850 4275 2010 2236 3305 2400 2250
1530
1900 2050 2184 1170 2496 2760 1275 1810 2820 1976 1970
【例】下表为两个不同地区居民家庭收入和支出情况的 抽样调查(单位:元),试绘制收入情况的频数条形图。 数据集 Mylib.sryzc 中, 4 个变量名分别为: ID 、 R_ID 、 Income 和 Outgo ,相应的标签名为家庭编号、地区编 号、家庭总收入和家庭总支出。
家庭编号 1 2 3 地区编号 2 2 1 家庭总收入 1794 1716 3410 家庭总支出 1550 1365 2730 家庭编号 16 17 18 地区编号 2 1 1 家庭总收入 2200 2730 2496 家庭总支出 2060 2236 1455
【例3-29】根据表3-1学生体检数据,以绘制身高 的频数百分比饼图。 proc gchart data=mylib.class; pie height/type=percent; run;
【例3-30】根据表3-1学生体检数据,按性别分组, 绘制体重的频数方块图。 proc gchart data=mylib.class; block weight/group=sex; run;
◦ 【例3-20】根据表3-1学生体检数据,以年龄 为分析变量生成条形图。
2、绘制盒形图和马赛克图 ◦ 【例3-21】 以学生体检表中的体重为分析变量, 绘制盒形图。
来自百度文库
3、绘制散点图 ◦ 【例3-22】根据表3-1学生体检数据,绘制身 高与年龄的散点图。
4、绘制线图 ◦ 【例3-23】根据表3-1学生体检数据,绘制体 重随身高变化的线图。
对于数值型变量,常用直方图来展示变量取值的分布。 将变量取值的范围分成若干区间(一般是等间距的), 在等间距区间的情况下,每个区间的长度称为组距。 考察数据落入每一个区间的频数或频率,在每一个区 间上画矩形,它的宽度是组距,高度可以是频数、频 率或密度(频率/组距)。组距对直方图的形态有很 大的影响,组距太小,每组的频数较少,由于随机性 的影响,邻近区间上的频数可能很大;组距太大,直 方图所反映概率密度的形态就会过于粗略。一个合适 的分组是希望直方图的形态能接近总体的概率密度, SAS软件会根据样本容量在样本取值范围内自动地确 定一个分组方式,另外也提供设定分组的方法。
PLOT选项1用来设置图形的整体特性,例如坐标
轴的值、颜色,外框颜色、填充色等
选项 含义 图形加/不加边框 图形背景色 在水平(垂直)轴的每个主刻度处加入垂直(水平)参考线 取消坐标轴及相关的图形元素 设置坐标轴颜色 设置与轴相关的文字颜色 设置水平轴主刻度值 设置垂直轴主刻度值 多个图形绘在一张图中 显示图例 说明 默认为加边框 默认为白色
3.3.1 定量变量的图形表示 3.3.2 分类变量的图形表示
1、直方图(histogram) 2、盒形图 3、散点图(Scatter Plot) 4、线图(Line Plot)
直方图是根据变量的取值来显示其频数分布情况的 图形。它的横轴代表数据分组,纵轴可用频数或百 分比(频率)表示。
19
20 21 22 23 24 25 26 27 28 29 30
1
1 2 1 2 2 2 1 2 2 1 2
1760
2820 2250 3170 1200 1776 1980 2455 1080 1986 3369 1530
1040
2366 1966 2400 1250 1350 1794 2550 1380 1200 2305 1316
散点图是由坐标轴上的一系列散点构成的图形,通 常用来表示两个变量之间的关系。当坐标轴中的散 点多的能够连成线的时候,便成为了线图。
线图是由折线和曲线构成的图形。线图在生活中很 常见,如股票的K线图、价格走势图等。线图一般 由两个变量绘制。
一个变量作为分析变量,即线图中线所代表的含义; 另一个变量往往是定性变量或时间变量,作为分类 变量或参照变量,用以考察分析变量的变动状况。 此外,借助线图也可以同时考察多个变量的变动状 况,并从中找出数据之间的关系。
goptions colors=(red green blue pink orange brown); proc gchart data=mylib.sryzc; vbar income/patternid=midpoint; run;
proc gchart data=mylib.sryzc; vbar income/group=r_id patternid=group; run;
proc gchart data=mylib.class; vbar height; run;
在绘制条形图时,亦可自定义每个矩形块的中点值。例 如: proc gchart data=mylib.class; vbar height/midpoints=50 55 60 65 70; run;
◦ 常对GPLOT过程输出的图形进行参数设置
图形选项
计算中心
一般格式 选项
◦ GOPTIONS 选择项; ◦ Cback=颜色 图形的背景色 ◦ Colors=(颜色列表) 规定图形的默认颜色顺序 ◦ Cell|nocell 进行或不进行单元调整 ◦ Cpattern=颜色 规定pattern语句的默认颜色值 ◦ CSYMBOL=颜色 规定symbol语句的默认颜色值 ◦ Ctext=颜色 ftext=字形 htext=高度 规定文本 颜色、字形和高度 ◦ Ctitle=颜色 ftitle=字形 htitle=高度 规定所有 title和footnote的默认颜色、字形和高度
盒形图是一个用来描述数据分布状况的、类似盒子 的图形,有时也叫盒式图、箱线图,是统计分析中 一个重要的描述性分析工具。 盒形图可显示数据的5个特征值:最大值、最小值、 中位数和两个四分位数。
盒形图由一个盒子和两根线构成。盒子的中间线代表数据的中 位数,数据中有一半大于中位数(在其之上),另一半小于中 位数(在其之下)。封闭盒子的上下两横线(边)分别为上、 下四分位数(点)。因此盒子上下边线内包含了位于分布中间 的50%的数据。盒子的长度就是分布的四分位间距。其作用类 似于标准差,可以反映数据分布的分散程度。从盒子边线向外 画了两条线叫做触须线,最长可以延伸到四分位间距的1.5倍, 但是如果已经到了数据的最小值或最大值处就不再延伸。如果 有些数据值超出了触须线的范围,则这些数据用触须线以外的 点来画出,一般认为这样的店是可能的异常点,在进一步进行 数据分析时可以考虑是否需要剔除它。 从盒形图上可以大体看出数据集中在什么范围,上下两侧是否 对称。如果盒子的下半部比上半部长,而且下触须线比上触须 线长,说明数据分布为左偏;否则数据分布为右偏。
4、绘制饼图
【例3-26】根据表3-1学生体检数据,按身高分类绘制饼 图。
1、GChart过程 2、GPlot过程
Goptions
图形选项
Symbol
◦ 设置图形输出的参数,如 ◦ goptions ftext=SWISS ctext=BLACK htext=1 cells;
FRAME|NOFRAME CFRAME=<颜色> AUTOHREF(AUTOVREF) NOAXIS CAXIS=<颜色> CTEXT=<颜色> HAXIS=<值列表> VAXIS=<值列表> OVERLAY LEGEND
SYMBOL语句选项2点或连线的相关参数
选项 含义 设置点使用的符号 取值 plus,x,star,square,diamond,triangle,hash,paw,point,dot,circle black,red,green,blue,cyan,magenta,gray,pink,orange,brown,yellow
饼图是一种描述定性数据的相对频数和百分比频数 分布的图形,通常以圆饼或椭圆饼的形式出现。
饼图的整个圆即代表一个总体的全部数据,圆中的 一个扇形表示总体的一个类别,其面积大小由相应 部分占总体的比例决定,且各部分比例的总和必为 100%。在统计分析中,他主要用来研究结构性问 题,如股权结构、投资结构等。
语法格式 PROC GCHART DATA=<数据集名>; <图形关键字><变量名>/<选项列表>; RUN; gchart可以绘制方块图、条形图、饼图、环形图等,不同 的图形关键字表示绘制不同图形。 ◦ 变量名:指定需要绘制图形的分析变量。 ◦ 选项列表:根据不同的图形关键字有不同的选项。常用 的选项有: type=统计量关键字,常用的统计量关键字有Freq (频数)、mean(均值)、sum(总和)、percent (频数百分比),默认为频数。 group=变量:指定分组变量。 subgroup=变量:按分组变量的值分段。 midpoints=值列表:指定条形图每个矩形中点。 levels=值:指定条形图中矩形的个数。