聊聊AP统计(
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
聊聊AP统计( AP Stati...
第三讲开始来说说描述性统计学。
从这讲开始,咱们来看看⼀些统计学常⽤的分析问题的图表、⼯具、术语,要求⼤家能⾃⼰画出这些图表来,并且记住如何来描述这些图表的统计学特征,重点在于区分什么情况下应该选⽤什么样的图表。
注意:不要以为这些⽐较简单就轻视它。
⼤题第⼀道,⼀定是考这些东西,年年如此。
第⼀步:categorical 型数据和quantitative 型数据的区分。
这个是AP统计学的⼊门概念,如果你在中国读统计学的话,⼤家⼀般是不做这个区分的。
Categorical型数据,我们把它翻译成“分类型数据”,Quantitative 型数据,译作“数量型数据”。
什么是“分类型数据”呢?其特点就在“分类”⼆字,不论数据来源如何,只要你是按照“分类”的原则进⾏处理的,那么这样处理之后,就得到了categorical 型数据。
⽐如说,我有这样⼀个班同学参加某考试的成绩:
39, 70, 60, 75, 18, 23, 23, 26, 96, 37, 55, 8, 40, 48, 56, 42, 48, 52, 38, 44, 59, 60, 62, 18, 80, 82, 36
如果按照10分⼀个区间,将0分到100分划分成10个区间,实际上就将上⾯这组数据分成了10类,这就叫categorical 型数据了。
总结之后如下表所⽰
Categories Frequency (频数)
0-101
10-202
20-303
30-404
40-505
50-604
60-703
70-802
80-902
90-1001
其中的第⼀类,可以叫做“0-10”类型,也可以叫做类型⼀,随便你起什么名字。
“10-20”类型,也可以叫做类型⼆,以此类推……我们就有了10个类型。
然后在平⾯直⾓坐标系上,横轴为类型,纵轴为频数,就可以做出如下图所⽰的Bar Chart(柱状图)。
注意:Bar Chart 是⽤来描述Categorical 型数据的,要特别和⽤来描述Quantitative 型数据的直⽅图Histogram 加以区分,因为这两个图实在是长得太像了。
同样是上⾯这个故事背景,换⼀种数据处理⽅法,就会得到Quantitative 型数据所对应的直⽅图Histogram.
此直⽅图做法如下:
1、在平⾯直⾓坐标系的⽔平轴记为成绩,纵轴记为频数。
2、在⽔平轴上,将从0到100均分成10个区间。
3、成绩落⼊每个区间内的⼈数作为对应区间的⼩长⽅形的⾼度。
同学们会发现,⽤这样的⽅法画出来的Histogram 和上⾯那个Bar Chart 极为近似。
为了加以区分,做出如下说明:
1、 Bar Chart因为描述的是Categorical型数据,所以:
a)不同的Bar之间的距离不⼀定要相等(也就是说上⾯的Bar Chart中⼗个Bar之间的距离可以不相等),换句话说,不
同Bar彼此可以紧紧挨着,也可以不挨着,离远离近都可以。
b)不同的Bar之间不⼀定有严格的先后次序(也就是说,上⾯的那个Bar Chart中的⼏个柱⼦可以前后颠倒,打乱次
序)。
c)当然我们画图的时候⼀般不会天马⾏空,随⼼所欲地画,⼀般会把不同Bar 之间的距离画成相等,不同Bar的次序也
尽量有⼀些规律。
2、 Histogram 因为描述的是Quantitative 型数据,⽽且绘制过程中⾸先是对横轴进⾏了切分,所以:
a)所有的Bar都是彼此紧紧挨着,如果出现某区间内是空⽩,那是因为该区间对应的频数是0。
b) Bar之间有严格的前后次序。
c) Histogram 的横坐标都是标在Bar的长⽅形的竖线下⽅,⽽Bar Chart的横坐标都是标在长⽅形下⽅的正中央。
总之,⽤康德的话来说就是“The human understanding is the true law-giver of nature”(⼈的理性为⾃然⽴法)。
数据本⾝⽆所谓Categorical 或者Quantitative,你把数据分成若⼲类来处理,这些数据就是Categorical型数据;你把数据按照画直⽅图的⽅式分配到了各个区间⾥⾯,这些数据就是Quantitative型数据。
当然,在很多情况下,⼤家并不需要做这么细致的理解,⽐如下⾯这个表格统计的是某班同学的鞋⼦的颜⾊
Colors Frequency
Red2
Blue5
Black9
White16
Other7
这组数据就是很明显的分类型categorical数据,按照鞋⼦的颜⾊分成5类,我们根本就不考虑Quantitative的问题了。
接下来我们会进⼀步介绍
categorical 型数据常⽤图表以及quantitative 型数据常⽤图表。