统计学中的几个问题
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
记者
一八 一二 一0 九 四 二
第一选择 A B四 C二九 D E E
第二选择 D
E
B CBC
第三选择 E
D
E
EDD
第四选择 C
C
D BCB
第五选择 B
A
A AAA
逐论选举
采用这种方式的有
奥斯卡奖评选 爱尔兰议会选举, 澳大利亚上院选举
博尔达记分法
规则:对每种选择赋予一定分值,然后累加出总分 值,以最高分者获胜。一八世纪法国数家博尔达首 先提出,故命名之。
药物 安慰剂
试验次数 三00 五四0
成功次数 二四六 四五四
平均 八二% 八四%
辛普森悖论
以上三个悖论的实质是相同的。这类问题在二0实际 初就有人讨论。
一九五一年E.H.辛普森在他发表的论文中,对此现象 进行了正式描述。于是,就把这类悖论统称为“辛 普森悖论”
这类悖论表明这样一个事实:在某些情况下,在分 组比较中都占优势的一方,会在合并后的总评中成 为失势的一方。
数值。如果数值有奇数个,则中位数就简单取中间 项的值。如果有偶数项,中位数往往取中间两项的 算术平均 众数:数项中出现次数最多的值
平均数的陷阱
算术平均容易受少数极端数值的影响,事实上,很 多和钱有关的分布,如收入房价财富等,都有很强 的右偏现象,用算术平均往往会给人以歪曲的印象。
从统计角度看,用中位数和众数表达,最大的好处 是不受两头的影响。对一些有偏的分布,用中位数 和众数往往能更好地反映情况。一般而言,有关收 入的统计若用中位数和众数来表述,较为公平。
魔术家的数魔术
魔术家大卫.科波菲尔提出一个数魔术:只要走动一 个人,就可以使整整两个国家增加他们的平均国民 收入
请你想想,为什么?
魔术家的数魔术
大卫.科波菲尔的方法: 比如韩国与朝鲜,韩国的人均年收入是二三000美元, 朝鲜的是一000美元,现在一位年收入二0000美元的 韩国人调到朝鲜工作,年薪不变。这样两个国家的人 均收入都得到提升。
第四选择 C
C
D BCB
第五选择 B
A
A AAA
逐论选举
如此原来支持D的记者将把票投给C 第三轮淘汰B
记者
一八 一二 一0 九 四 二
第一选择 A B四 C二九 D E E
第二选择 D
E
B CBC
第三选择 E
D
E
EDD
第四选择 C
C
D BCB
第五选择 B
A
A AAA
逐论选举
第四轮支持B的一六名记者将把票投给C,于是,C 将有三七张票,成为胜者。
现在讨论的问题是曹雪芹的写作风格,那么母体应 该是曹雪芹的写作风格,《红楼梦》是样本。陈炳 藻教授搞错了
陈大康
《红楼梦》作者考证
陈大康教授逐字逐句地点:《 红楼梦》全书中 “之”“乎”“者”“也”各出现了多少次,五字 句六字句各 有多少……这个工作我做了一年多
在同义词的使用上两个人不一样。比如说“我索性 怎么样”,还有一种说法是“我越性怎么样”。 “越性”“索性”是一对同义词,但是在前八十回 里用的是“越性”,在后四十回用的是“索性”, 类似这样的同义词陈大康教授找到二七对
记者
一八 一二 一0 九 四 二
第一选择 A
B
C DEE
第二选择 D
E
B CBC
第三选择 E
D
E
EDD
第四选择 C
C
D BCB
第五选择 B
A
A AAA
结论
分别看每一种选举方式,都有道理。但按照不同的 选举方式,得到的选举结果却是人人都可以当选。
《红楼梦》作者考证
美国威斯康星大的陈炳藻教授,他利用概率论的方 法研究《红楼梦》中虚字 的出现规律,得出一个结 论:《红楼梦》后四0回也是曹雪芹写的
平均数的陷阱
北京市统计局关于公布二0一一年度北京市职工平均 工资的通知 京人社规发二0一二八七号 二0一二年0四 月0六日 各有关委办局,各控股集团公司企业集团公 司,各区县人力资源和社会保障局各社会保险经代办 机构: 现将二0一一年度全市职工平均工资公布如下: 二0一一年度全市职工平均工资为五六0六一元, 月平均工资为四六七二元,比上年增长一一.二%。 凡按二0一一年度全市职工平均工资计算的事项,均按 本通知标准执行。
男婴的比例
一个小镇有大小两所医院。在大医院里每天大约有 四五个婴儿出声,在小医院里每天大约有一五个婴 儿出声。我们知道,大约有五0%的婴儿是男孩。当 然,真正的百分比每天都不一样,有时候高于五0%, 有时候低于五0%。在一年的时间里,每一所医院都 记录了出声的男孩比例高于六0%的天数。你认为哪 一个医院记录的天数多?大医院小医院,还是基本 一致?
支持率与抽样调查
这里使用的样本是一种自发性回应样本,是有人们 自行决定要不要回应。
自愿回答的本性就是吸引那些对问题的真论具有强 烈感情,特别是负面感情的人。
样本中不要孩子的父母百分比远大于全体父母中不 要孩子的百分比
这是一种有偏差的样本,不能代表总体情况
支持率与抽样调查
有人对此有进行了一次科的抽样调查,结果发现九 一%的父母还会再要孩子。
把《红楼梦》按回分成三组A组:一~四0回 B组: 四一~八0回C组:八一~一二0回,每组随机抽取 两万字,加上《儿女英雄 传》中随机抽取的两万字 D组,总共八万。统计了一四个指标之后,他发现 ABC三组 是一样的,和D组不一样。于是结论是前面 三组是一个人写的
《红楼梦》作者考证
原理是对的,但陈炳藻教授的样本选取有问题。他 是把《红楼梦》作为母体,那几万字作为样本;
对于从随机样本算出的统计量的表现,总体的大小 影响是很小的。
录取率悖论
一所美国高校的两个院,分别是法院和商院。新期招声后, 人们对两个院的男女声录取情况做了如下统计:
法院
性别
录取
拒收
总数
录取比例
男声 八
四五
五三
一五.一 %
商院
女声
性别
五一
录取
一0一 一五二 三三.六
拒收
总数
%录取比例
男声 二0一 五0 二五一 八0.一%
统计的波动
补充这个团体略而不言的一个事实:等候被处决的 女死刑犯人数自有七人,而等待处决的男死刑犯数 目多达二四00人。
支持率与抽样调查
支持率与抽样调查
支持率与抽样调查
美国咨询专栏作家安妮.兰德斯每隔两三年就要进行 一次自愿回答的调查,让她的读者回答一个有争议 的问题。如在一九七二年第一次调查中她问:“假 如你能重新选择的话,你是否还会要孩子?”在接 近一0000个回答中,大约七0%回答是“不”,许多 人在回答中还加进动人的故事,讲述抚养孩子种种 苦楚。这个结果是否能真实反映全体父母的情况呢?
主。每位记者对这五为候选球员的喜爱程度进行了排序,ቤተ መጻሕፍቲ ባይዱ如下表
记者
一八 一二 一0 九 四 二
第一选择 A
B
C DEE
第二选择 D
E
B CBC
第三选择 E
D
E EDD
第四选择 C
C
D BCB
第五选择 B
A
A AAA
简单多数票选举
规则:以最多票者为胜者 上例中A是胜者 许多国家总统选举,国会议员选举等都采用这种选
平均数的陷阱
厂长解释说:我们工厂里共有二0人,我厂长每个月 四000元,四个管理人员,没人每月二000元,剩下 一五个像你这样的工人,没人每月八00元。你算算 看,没人的平均工资是不是一二00元?我们的招工 启事上的承诺就是这样的,一点错都没有呀。
平均数的陷阱
算术平均:总值除以总项数 中位数:把数据按大小顺序排列,处于中心位置的
举制。 问题:选出的候选人票数可能低于半数,上例中A只
有一八票,占总票数的三二.七%。这不符合“大多 数原则”
两轮选举
规则:第一轮“海选”,然后再得票前两名之间进 行第二轮选举。
上面的例子中,第一轮选举后剩下A与B。在第二轮 的选举中,A将获得一八票,而B将获得余下的三七 票,结果是B当选。
平均数的陷阱
值此岁末年初之际,各行各业职工一年来薪酬几多, 是社会广泛关注的话题。放眼三百六十行,银行业 无疑是高收入行业。二0一0年度,一六家上市银行 职工人均年收入八.四三万元。其中,浦发银行人均 年收入最高,达二四.四二万元。据了解,二0一一 年度银行职工薪酬增长幅度较大。初步估算,一六 家上市银行二0一一年度职工总数为一八二六六0五 人,人均收入达到一二.二七万元。
逐论选举
规则:进行多轮投票,每轮淘汰一名得票最少的。
在上面的例子中,第一轮将淘汰E,第二轮中原来把E作为 第一支持的六名记者转投别人,其中四人投B,三人投C。 第二轮淘汰D。
记者
一八 一二 一0 九 四 二
第一选择 A B一六 C一二 D E E
第二选择 D
E
B CBC
第三选择 E
D
E EDD
A班男声 A班女声 B班男声 B男女声
及格 一八 二0 二六 一三
不及格 二 一0 四 七
总数 二0 三0 三0 二0
及格率 九0% 六六.七% 八六.七% 六五%
及格率悖论
两个班全体声的及格率
及格
总数
A班
三八
五0
B班
三九
五0
及格率 七六% 七八%
药效悖论
某研究单位研究出一种新药,为了检验药是否有效, 人们对一组病人进行试验。试验中,给予一些病人
支持率与抽样调查
第一次科性的抽样方法出现在美国爱荷华州,创始人盖洛 普一九0一~一九八四,在读博士的时候创建了一种抽样方 法
一九三六年罗斯福与共和党的兰登竞选总统,当时,《文 摘》杂志进行了民意调查。指导思想是:样本越大,结果 越准确。在全国的电话号码薄和汽车登记薄上找出越一 000万选民,进行了大规模的舆论调查,对其中约二00万 名选民的回答结果进行了分析后得出:兰登将以压倒性的 优势获胜。
在上例中,对第一选择至第五选择分别记五四三二 一分,则A的得分是:一八×五一二×一一0×一九 ×一四×一二×一=一二七;B:一五六;C:一六二; D:一九一;E:一八九.
D当选 在体育中,多采用这种方式以排出参赛队伍的名次。
鹰派对决
规则:让两个候选人之间进行表决。 E: A=三七:一八 E:B=三三:二二 E: C=三六:一九 E:D=二八:二七 E当选
为什么?在数上怎样解释?
选举与选举方式
民主选举的最基本原则是“多数选举”,即获得多 数票的候选人当选
选举的结果与选举制度有很大关系 在选民的“偏爱”不变,只要改变了选举方式,就
会选出不同的赢家
每年一次的足球界的金球奖评选,假设五五位记者要从五 个候选球员记为A,B,C,D,E中选出一位为该年度的金球奖得
真正的新药,而其余病人则给以“安慰剂”不含药 物的药片,结果如下:
药物 安慰剂
试验次数 一00 四0
成功次数 六六 二四
平均 六六% 六0%
药效悖论
另一位研究者对更大的病人组重复了这一试验,结 果如下
药物 安慰剂
试验次数 二00 五00
成功次数 一八0 四三0
平均 九0% 八六%
药效悖论
两位研究者对发现感到非常兴奋,决定把他们的数 据合并起来公布结果,但是他们困惑地看到了最意 想不到的结局。
盖普洛的样本小很多,他分析的结果是:罗斯福将以五五. 七%的投票率获胜
支持率与抽样调查
科的抽样的基本思想是:让没有个人因素的客观的 机遇来选择样本,即用随机选取样本来消除偏差。 现在专业的民意调查和其它一些抽样调查,都是采 用随机抽样。
随机抽样的样本大小只要在一000~一五00间就足够 大了
女声 九二 九
一0一 九一.一 %
录取率悖论
从这两个表格看,女声在两个院都被优先录取了。 即女声的录取率较高。
把数据汇总,再看
性别
录取
拒收
总数
录取比例
男声
二0九 九五
三0四 六八.八 %
女声 一四三 一一0 二五三 五六.五 从总体看女声的录取率反而较低了,为%什么?
及格率悖论
A,B两班各有五0名声,其中,A班二0名男声,三0 名女声;B班三0名男声,二0名女声.两个班参加同 一次测试,测试结果如下:
统计中的几个问题
平均数的陷阱 样本与总体 辛普森悖论 选举与选举方式 名额分配
平均数的陷阱
小李大毕业了,他需要找一份合适的工作。一天, 他看到一个小厂的招工启事。其中工资一项工厂承 诺:所有人员平均工资一个月一二00元。小李觉得 这个报酬还可以,于是去应聘并成为这个工厂的一 员。
工作一个月后,小李领到了工资,自有八00元。气 愤的小李去找厂长问原因。
统计的波动
正确答案是:小医院 样本的大小对统计的波动影响很大 在其他因素保持不变时,较大的样本总是能够更精
确的估计出总体的情况,样本越小,波动就越可能 出现
统计的波动
有一个男性团体对女性歧视,想证明女人对男人有 多坏。这个团体找到了一个数据,对这个数据他们 是这样陈述的:在等待处决的女死刑犯中,一半是 因为谋杀了亲夫,而等待处决的男死刑犯中,只有 三分之一是因犯了杀妻罪。