第四章 中心趋势测量
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3、根据分组数据求均值
计算公式:
bn X n
i i
i
其中,bi为第i组的组中值 ni为第i组的频次
表1:工人日加工零件频数分布表
组号 1 2 日加工零件数 105-110 110-115 频数(ni) 3 5 中心值(bi) bi× ni 107.5 112.5 117.5 322.5 562.5 940.0
利用该公式,可以计算 10%、25%、75%等任何 一个分位点的变量值,只 需将公式中的50%换成相 应分位数即可
分位数 将所有的变量值由低到高排列并等分若干部分后, 处于等分点位置的数值。
四分位数:把数据等分为4等分的三个点,每份包 括 25% 的数据,这三个点上的数据就是四分位 数。 与此类似的还有十分位数,百分位数等。
2
Md [ X n X ( n2) ] / 2
2 2
3、根据分组数据求中位数
表2.3 某校学生视力统计表 (N=1000)
组界 0.2-0.4 … … … 0.4-0.6 0.6-0.8 0.8-1.0 1.0-1.2
下界值L 上界值U
下界累计百分比L%
频次
累计频次cf
累计百分比 cf%
究竟选择哪种集中趋势量数?
首先看变量的层次,看数据的类型。高层次的 变量可以用低层次的量数来测量。 • 如果是分类数据,就使用众数 •如果数据中包含极值,平均数有可能被扭曲, 中位数可以更好地反应数据 •如果是定距层次变量,而且不包含极值,使用 均值的精确性更高
箱形图
X (U L)* 50% L% U % L%
50%
L%
36.3% X
0.8 L 1.0 U
Md L
Md
(U L)(50% L%) U % L%
L(U % 50%) U (50% L%) U % L%
0.8 (54.5% 50%) 1.0 (50% 36.3%) 54.5% 36.3% 0.8 0.045 1.0 0.137 0.173 0.95 0.182 0.182 Md
121 182 …
363 545 …
36.3 54.5
上界累计百分比U%
(1)根据统计表中的累计百分比,找出含有50%的区间 (2)求出含有50%区间的上界值U、下界值L、上界累计百分比 U%,下界累计百分比L%和组距h (3)利用线性插值法,求出累计百分比为50%的变量值
…
U%
54,5%
X 50% L% U L U % L%
均值(mean)
1、根据原始资料求均值
X X n
X为数据中每个具体的数值
n为样本数
表2.1 三个不同商店的消费者数 商店名 兰哈姆公园商店 威廉斯堡商店 下城商店 年顾客数量 2150 1534 3564
有关均值,我们需要了解的:
• 均值也叫典型平均数或中心值,总体均值我们常用希腊字母 表 示,样本的均值我们常用罗马字母 X 表示。 • 公式中的小写字母n表示用于计算均值的样本的规模,大写字母N一般 用于表示总体规模。有些时候,对于两者不加以区分。
三种选择集中值的做法: 1、根据频次:哪个变量值具有的频次最多,就选择哪个变量值。 2、根据居中:变量排序后,选择处于中间位置的变量值。 3、根据平均:计算变量的平均值作为集中值。
众数(Mode)
定义:某个数据中出现次数最多的数值
政党背景 民主党 共和党 无党派人士 次数或频数 90 70 140
Mo:无党派人士 还是 140?
1、众数≠频次 2、若每个数值出现的次数相同,则没有众数 3、若出现次数最多的数值不止一个,则该数据为多峰分布
中位数(Median)
定义:将数据按从小到大或从大到小的顺序排列, 位于中间位置的数值,就是中位数。
1、 根据原始资料求中位数
当数值的个数是奇数时,中位数即是中间位置的数值
89 78 60
总计
12 9 1
100 n1X1表示变量值X1与它对应频次n1的乘积 n2X2表示变量值X2与它对应频次n2的乘积 nkXk表示变量值Xk与它对应频次nk的乘积
X
Biblioteka Baidu
ni X i ni
n1 X 1 n2 X 2 ... nk X k n1 n2 ...nk
2、根据频次分布求中位数
表2.3 某班英语成绩统计表 成绩 A B C D 频次 10 210 195 85 累计频次 10 220 415 500 百分比 2% 42% 39% 17% 累计百分比 2% 44% 83% 100%
小计
500
100%
n为样本数,当n为奇数时, 当n为偶数时,
Md X ( n1)
• 样本均值是非常准确地反映总体均值的集中趋势量数,只能用于定 距变量 • 均值对极值(最大值或最小值)非常敏感。极值会使得均值向一方 或另一方倾斜,也使得均值对数据组的代表性减弱,同时作为集中 趋势量数的有效性减弱。
2、根据频次分布求均值
表2.2 飞行员飞行熟练程度测验结果统计表
数值 97 94 92 91 90 频数 4 11 12 21 30
众数 适用变量 稳定性 定类变量 最不稳定 中位数 定序变量 均值 定距变量, 定比变量
较 均 值 的 稳 最稳定 定性差
计算时要用 可最快速求出 只 需 中 间 的 计 算 时 要 用 数据 数据 到全部数据 极端值的影 有时候对个别 对 极 端 值 不 受 极 端 值 的 响 值的变动也很 敏感 影响 敏感 分组变化时 影响较大 的影响 有些影响 不大
根据中心值计算的均值(123.2)与原始数据计算的均值 (122.2)相比,有一定误差,但对于社会学研究来说, 其精度已经可以接受。
三者的关系
一般情况下,众数,中位数和均值三者具有以下关系:
三者相等 Mo = Me = X
左偏分布
右偏分布 Mo < Me < X
X < Me < Mo
三种集中趋势量数的比较
第四章 中心趋势测量
主要概念
众数
中位数 • 分位数 四分位数 十分位数 百分位数
均值
问题:我们在上节课中学习了通过统计表,用若干个数字,如频数或 百分比来简化变量的资料分布。我们是否能对数据做进一步简化?
集中趋势量数(measures of central tendency) 定义——在描述一组数据时,用某一个典型的变量值或 特征值来代表全体变量,这个典型的变量值或特征值被 称作集中值或集中趋势量数。
3
4 5 6 7 合计
115-120
120-125 125-130 130-135 135-140
8
14 10 6 4 ∑ ni =50
122.5
127.5 132.5
1715.0
1275.0 795.0
137.5
550.0
∑ bi ni =6160
bn X n
i i
i
6160 123.2 50
Md X ( n1)
2
当数值的个数是偶数时,中位数即是中间两个数值的平均值
Md [ X n X
2
n ( 1) 2
]/ 2
例:5个家庭的收入
$135456
$54365
$25500
$37668
$32456
6个家庭的收入从低到高排列:
$25500; $32456; $37668; $ 34500; $54365 ; $135456