探索性数据分析-韩猛

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

• 转换成标准得分的变化只是标准化 (standardization) 的一种,任何数据转换成 标准得分后,他的均值都为0,方差为1. • 在一些标准化中,观测值减去的有可能是 中位数,分母也可能是极差,也可能把所 有的数变换到某些区间中,例如[-1,1],[0,1] 等等。有的统计量仅减去位置统计量,而 不除以尺度统计量。这都根据需要而定, 不能一概而论。
软件的使用
• 1制表 R软件 软件:例3.1中分别用ftable(Titanic, row.vars 软件 =2, col.vars=4); 和ftable(Titanic,row.vars =c(2,3) ,col.vars=c(1,4))画出。语句中的 row.vars后面是行所代表的变量号,第一个 表的行是第二个变量Sex;第二个表的行是 第二个和第三个变量Sex和Age.列类似
• 例2.5 (800Rich.txt,800Rich.sav数据) 给出数据中800富豪的净资产和年龄的盒 型图
茎叶图 (stem-and-leaf plot)
• 直方图和盒型图都对原始数据进行了简化 和汇总,因此从这两个图不能恢复原始数 据 • 茎叶图则在数据量不是太大的情况下,即 显示了完全的原始数据,又显示了数据分 布的形状 • 例2.6 (800Rich.txt,800Rich.sav数据) 给出数据中美国富人年龄的茎叶图
• 每个数据点在其样本中都有一个相对位置,对 于这个位置的度量就是统计计量标准得分 计量标准得分 • 例2.11(2income.txt,2income.sav) 这一数据给出了随机抽取的地区1的275人和 地区2的187人的月收入(元)各个地区的物价 水平和消费水平都很不相同,因此各地区的贫 富标准也应该不一样。如果用统一的标准来判 断,那么在一个地区的首富在另一个地区就属 于中下水准。这时如果想在地区1的一些人的 收入相当于地区2的那种水平的收入,就需要 得到两个地区的标准得分,然后再进行比较。
描述统计方法
韩猛
一、制表方法-列联表 (contingency table)
• 表格是最常用的表达方式之一,我们以一个例 子来说明表格是如何描述数据的 • 例2.1(Titanic.txt,Titanic.sav) 这是著名的泰坦尼克号油轮的海难数据,包含4 个定性变量(1)舱位等级:分为1st(一等舱)、 2nt(二等舱)、3rd(三等舱)、船员(crew)四个水 平;(2)性别(sex):男性(Male)、女性 (Female)两个水平;(3)年龄:儿童(Child)、成 人(Adult)两个水平;(4)是否生还(Survived):分 为否(No)、是(Yes)两个水平
Sex No
Survived Yes
Male Female
1364 126
367 344
二、图描述方法
• 条形图(bar chart, bar plot, bar graph) 用来描述那些已经用频数或频率汇总了的定 性变量。一个坐标轴代表定性变量的各个 取值,每个变量位置的条长度和其所代表 的水平的频数或频率成比例。 例2.2 再以Titanic数据为例
• 3、标准得分、标准化和离群点 标准得分(standard score) 标准得分( 申请出国留学的人都可能被要求提供推介信。 推介信上往往要求推介人提供被推介人的 各种能力在其班上处于上面百分之几的位 置。比如某学生的英语表达能力属于最好 的5%范围,这种相对位置所包含的信息要 比绝对的打分要容易理解,如果要打分的 话,可能所有的人都打满分或都打零分, 但绝对不会是所有的人都属于最好的10%范 围。
散点图(scatter plot)
• 前面的各个图形仅代表了一个变量的观察 数据,对于两个变量间的关系,则可以用 散点图来描述。 • ቤተ መጻሕፍቲ ባይዱ2.7 (800Rich.txt,800Rich.sav数据) 给出数据中美国富人年龄(横坐标)和 净资产(纵坐标)的散点图。
• 例2.8(airport2.txt,airport.sav) 数据是中国十个航空港从1995年1月到 2003年12月的旅客吞吐量,给出改数据的 散点图。
• 计算汇总统计量
软件 R软件 SPSS软件 选项 有了数据x之后用:summary(x),mean(x),sd(x),var(x),等等 Analyze->Descriptive Statistics->Frequencies/Explore/Descriptives
T2=ftable(Titanic,row.vars=4,col.vars =1); rownames(T2)=c("遇难","生还"); colnames(T2)=c("一等舱","二等舱 ","三等舱","船员"); par(mfrow=c(1,2)); tt=barplot(T2,legend=rownames(T2), ylim=c(0,1050));title(main="泰坦尼 克海难"); tt=barplot(T2,legend=rownames(T2), beside=T,ylim=c(0,1050));title(main=
• 其他的图形还包括Chernoff)面孔图、马赛克 图、星图、雷达图、泡泡图
三、汇总统计量
• 1、关于位置的汇总统计量:样本均值、样本 中位数、众数和样本分位数。 • 2、关于分散尺度的汇总统计量:样本方差、 样本标准差、极差、四分位数间距、标准误差 标准误差—如果取很多样本,就会得到很多 均值,这些均值也有标准差,衡量这些均值标 准差的统计量称为标准误差(standard error, s.e.) s.e.=s/n^(1/2)
饼图(pie chart)
• 饼图 为一个由许多扇形组成的圆,各扇形 的大小等于变量各个水平的频数比例。 • 适用于变量不是太多的情况。 • 例2.3(800Rich.txt,800Rich.sav数据) 画出富人最多的前十个国家和地区的富人人 数的饼图。
直方图(histogram)
• 直方图是定量变量最常用的图表示之一, 其做法是通常把横轴分成若干等宽度的区 间,然后计算数据在各个区间上的频数, 并在各区间上画出高度与数据在相应区间 的频数成比例的矩形条。 • 例2.4 (800Rich.txt,800Rich.sav数据) 给出数据中800个富豪的净资产和年龄的 直方图(取不同的区间划分)
盒型图
• 描述数量变量的另一个图为盒型图,又称为箱 图、箱线图、盒子图等(box plot,box-andwhisker plot),是由一个盒子(box)和两边各一 条线(whisker)组成。如果盒型图是竖着的 (当然也可能是水平放着的),那么矩形盒子 的上下两边分别代表上四分位数(third quantile) 和下四分位数(first quantile),盒子中间的一条 线是中位数(median).盒子的长度等于上下四 分位数之差,称为四分位间距或四分位极差 (interquantile range)
• 例2.9(riskwho.txt, riskwho.sav) 这一数据来自于世界卫生组织关于各国 情况的数据,我们这里仅考虑其中各国的 人均收入(美元)。该数据把国家分成6个 地区,这里采集欧洲46个国家和非洲44个 国家的人均收入。这里关于位置的参数用 的是中位数,尺度参数是极差
• 例2.10(F2000.txt, Forbes2000.sav数据) 该数据是福布斯公布的全球2000个大企业 的数据,下图展示了其中693家美国企业和 58家德国企业的利润盒型图
• 离群点(outlier) 有人认为如果一个数据点的标准得分小于-3 或者大于3,则可以粗略地说它是该数据的离 群点。这一说法是基于正态分布数据中大约 99.7%的数据点都落在均值的3个标准差范围之 内的事实,也就是说如果是来自正态分布的总 体,这种说法比较准确,但是当一个数据不是 来自正态分布时,这种说法就不那么准确了。 离群点的术语还经常用在回归模型中,他是 描述残差大的点,离群是“远离”所选择的回 归模型。因此,如果模型本身不合适那么所谓 的“离群点”就不一定真的“离群”了。
• 2 作图
图形 直方图 盒型图 茎叶图 散点图 饼图 条形图 用R绘图的基本函数 绘图的基本函数 hist() boxplot() stem () plot() pie() barplot()
图形 直方图 盒型图 茎叶图、直方图、盒型图 散点图 饼图 条形图
用SPSS绘图的基本选项 绘图的基本选项 Graphs->(新版:Interactive)->Histogram Graphs->(新版:Interactive)->Boxplot Analyze->Descriptive Statistics->Explore->Plot Graphs->Scatter/Graphs->Line/Graphs->Sequence(新 版:Graphs->Interactive->Scatterplot) Graphs->(新版:Interactive)->Pie Graphs->(新版:Interactive)->Bar
相关文档
最新文档