统计学第一章 绪论
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
前80回与后40回之间有交叉。 前80回是曹雪芹据《石头记》写成,中 间插入《风月宝鉴》,还有一些别的增 加成分。 后40回是曹雪芹亲友将曹雪芹的草稿整 理而成,宝黛故事为一人所写,贾府衰 败情景当为另一人所写。等等。
案例3:撑死的人比饿死的人多!
据统计,肥胖并发脑血栓和心衰的发病 率比正常体重高1倍,患冠心病2-5倍,高血 压发病率多2-6倍,糖尿病者高4倍。美国生 命保险协会的统计调查结果显示,超重25% 和35%的肥胖症者的死亡率比正常人高28% 和50%。表明肥胖程度和死亡率呈正相关, 美国每年因肥胖患有冠心病和高血压、高血 脂、糖尿病而死亡的人数大约有30万人。
统计学
教师:郑奕君
你想过下面的问题吗?
• 当你买了一台电视时,被告知三年内可以 免费保修。你想过厂家凭什么这样说吗? 说多了,厂家会损失;说少了,会失去竞 争,也是损失。到底这个保修期是怎样决 定的呢?
(和正态分布有关)
• 在同一年级中,同样统计学的课程可能由 一些不同教师讲授。教师讲课方式当然不 一样,考试题目也不一定相同。那么如何 比较不同班级的统计学成绩呢?
• 比如,一项广告可以说,“有三分之二人选 择某产品”。人们往往理解为在广大消费者 中,有三分之二的人选择该产品。 但是,也不是没有下面的可能:即该广告数 据仅仅来源于一个三口之家,其中有两个家 庭成员使用该产品。
• 数据可以有误或做假
• 统计方法(有意或无意)使用不当可 以误导。有低级误导和高级误导。
案例2:《红楼梦》作者考证
自从胡适作《红楼梦考证》以来,都认为曹雪芹作 前80回,后40回为高鹗所续。然而这种看法一直饱 受争议。1987年,复旦大学李贤平教授巧妙运用统 计方法来判断《红楼梦》的作者。 一般认为,每个人使用某些词的习惯是特有的。于 是李教授用陈大康先生对每个回目所用的47个虚字 (之,其,或,亦……,呀,吗,咧,罢……;可, 便,就,……等)出现的次数(频率),作为《红 楼梦》各个回目的数字标志,并以120个回目作为 120个样本,使用统计分析方法,看看哪些回目出自 同一人的手笔。最后李教授得出了许多新结果:
第四节 统计数据的来源与质量
一、统计数据的间接来源 二、统计数据的直接来源 三、统计数据的质量
一、统计数据的间接来源
• 1. 公开出版物:《 中国统计年鉴》、《中国统计摘要》、 《中国社会统计年鉴》、《中国工业经济统计年鉴》、 《中国农村统计年鉴》、《中国人口统计年鉴》、《中 国市场统计年鉴》、《世界经济年鉴》、《国外经济统 计资料》、《世界发展报告》……
统计学
“统计学是收集、分析、表 述和解释数据的艺术与科 学”(摘自不列颠百科全 书)
二、统计学的研Hale Waihona Puke Baidu对象、流程
统计研究的目的(对象)
探索随机现象(数据)的 内在规律—统计规律
统计研究的过程
收集 数据
整理 数据
分析 数据
解释 数据
什么是数据?
• 未经加工的原始资料,数字、文字、符号、 图像、音频、视频等都是数据
总体内在的 数量规律性
理论统计学 ——指统计学的数学原理,它主要研究
统计学的 一般理论和统计方法的数学基础 (包括概率论在内)
应用统计学 ——研究如何应用统计方法去解决实
际问题。如:生物统计、经济统计、社会统计、 人口统计、农业统计等等
统计能做些什么?
• 案例1 :啤酒与尿布的故事! • 案例2 :《红楼梦》出自谁的手笔? • 案例3: 撑死的人比饿死的人多? • 案例4: 算算你的气数
• 《统计陷阱》(上海财经大学出版社)
第一章 绪论
第一节 统计学的基本问题 第二节 统计学的分科 第三节 统计学的基本概念 第四节 统计数据的来源与质量
第一节 统计学的基本问题
一、统计的含义 二、统计学的研究对象、研究方法、流程 三、统计学的发展历史
一、统计、统计学、统计规律
统计的3种不同含义: 1、统计工作——搜集数据的活动 2、统计数据——对现象计量的结果 3、统计学
这就是人一辈子的平均呼吸次数,就是一个 人的气数。
既然这样,试想若将单位时间的呼吸次数增 加一倍,那我们的上述气数的使用期限就缩 短一倍。为什么从事剧烈体育运动,比如足 球运动员,其寿命普遍低于人均寿命呢?原 因就在这里。反过来,平静一些,做深呼吸, 将呼吸次数降低,那上述气数的使用期限不 就大大延长了吗?故道家言“我命在我不在 天”。
例:指标名称
指标值
工业企业总数:
10000000
工业企业职工数 :
3亿人
工业总产值:
5千亿
平均工资:
10200元/年人
生产工人比重:
67.2%
总体单位:
每一个工业企业
注:指标可以是指标名称也可以是指标名称+指标值
特点: 可量性、综合性。
指标构成形式
总量指标(绝对数) 相对指标(相对数)
平均指标(平均数)
• 有统计学之实,无统计学之名
近代统计学——凯特勒时代
• 代表人物:凯特勒 (Adolphe Quetelet)
• 古典统计学的集大成者,近代统计学的先驱者。
• 贡献:把概率论、误差法则、正态分布引进统计 学,用大数定律研究规律,丰富了统计方法体系。
• 平均人理论:“我这里所研究的人,他在社会中 的存在就像物体的重心,亦即那些社会因素围绕 着波动的平均数”
• 样本:样本是从总体中抽取的一部分个体的 集合。 (总体的子集)
总体、总体单位、样本关系
随机或非随机抽取
总体
总体单位
样本
2. 指标和标志
• 标志: 含义:用来表示总体单位特征的名称。
作用:标签,将各总体单位区分开来。 例:研究本班的情况,姓名,成绩,性别… 把每个个体区分开来。 标志值:标志的具体表现形式。
3. 参数和统计量
• 参数:概括整个总体所有数据的一个数值。 (总体的某种特征值)
– 例:总体平均数、总体比例,总体方差等
• 统计量:概括整个样本所有数据的一个数值。 (样本的某种特征值)
-例:样本平均值、样本比例,样本方差等
• 参数是固定的,统计量是变化的
• 每一个参数,有一个相应的样本统计量
总体
现代统计学
• 频率学派 • 贝叶斯学派
第二节:统计学的分科 • 统计学的分科
描述统计 推断统计 理论统计 应用统计
描述统计
1. 内容
¥
– 搜集数据
50
– 整理数据
– 描述数据
25
2. 目的
0
– 描述数据特征
– 找出数据的基本规律
Q1 Q2 Q3 Q4
x = 30 s2 = 105
推断统计
1. 内容
• 例:中华人民共和国人口普查
• 总体:具有中华人民共和国国籍的所有公民
• 总体单位:每一位公民
• 标志名称
标志值
• 国籍:
中国(不变标志)
• 姓名:
张三
• 性别:
男
• 民族:
汉
• 婚姻状况:
已婚
• 家庭成员数:
4人(离散变量)
• 年龄:
50 (连续变量)
• 身高:
172cm
• 体重:
72.5kg
案例1:啤酒与尿布的故事
全球最大的零售商沃尔玛(Walmart) 通过对顾客购物的数据分析后发现,很多周 末购买尿布的顾客也同时购买啤酒。经过深 入研究后发现,美国家庭买尿布的多是爸爸。 爸爸们下班后要到超市买尿布,同时要“顺 手牵羊”带走啤酒,好在周末看棒球赛的同 时过把酒瘾。后来沃尔玛就把尿布和啤酒摆 放得很近,从而双双促进了尿布和啤酒的销 量。这个故事被公认是数据分析的经典范例。
• 收入:
2000元/月
分类
标 志
按性质分
品质标志 – 例:产品品名、商品类别、 籍贯、性别等
数量标志 – 例:商品价格、年 龄、消费者的收入等
按标志表现的异同
不变标志
可变标志
注:不变标志把总体单位联系在一起,可变标志成就 了统计研究的必要
指标
含义:
用来表示总体数量特征的量,一般更习惯 称指标为变 量,由指标名称和指标值构成。
3. 今天,社会经济统计和数理统计仍然在以各自 不同的方式发展着
4.演变过程 古典统计学:17世纪中叶~18世纪中叶
国势学派 政治算术学派 近代统计学:18世纪末~19世纪末
数理统计学派 社会统计学派 现代统计学:20世纪中叶~至今
频率学派 贝叶斯学派
古典统计学之国势学派
• 奠基人——海门尔.康令 (H.Conring )
案例4:算算你的气数
在中国民间,对人的寿命形象的称呼为 “气数”。气数是什么呢?就是人呼吸的 次数。当年阿难尊者请教世尊释迦牟尼, 生死是个什么概念?世尊回答:生死是呼 吸间的事。我们现在来做一个统计,我们 把人的平均寿命定为72岁。若将人的正常 呼吸数,按每分钟15次计算,那么,每天 的呼吸次数为21600次,一年若按360天计 算,则每年的呼吸次数为7776000次,将 这个呼吸数再乘以72,就得到559872000 次。
(方差分析)
• 大学排名是一个非常敏感的问题。不同的机 构得出不同的结果;各自都说自己是客观、 公正和有道理的。到底如何理解这些不同的 结果呢?
• 一个从来没有研究过红楼梦的统计学家如何 根据比较写作习惯得出红楼梦从哪一段开始 就不是曹雪芹的手笔了呢?
• ……
你相信统计结果吗?
• 最常见于媒体的问题是在公布抽样调查结果 时,不提样本量和调查对象(或如何得到样 本的)。
总体
▪ 参数估计
▪ 假设检验
2. 目的
▪ 对总体特征作出
推断
样 本
描述统计与推断统计的关系
概率论 (包括分布理论、大数定律
和中心极限定理等)
反映客观现象 的数据
样本数据 总体数据
描述统计
(统计数据的搜集 、整理、显示和分
析等)
推断统计
(利用样本信息和概率 论对总体的数量特征进
行估计和检验等)
统计学探索现象数量规律性的过程
• 总体单位:构成统计总体的各个单位。
• 总体和总体单位关系: * 对于同一研究目的,二者是包含关系 * 统计研究目的改变,总体、总体单位可
以相互转化。 例:新生入学体检,某班体检情况, 总体:某个班级 总体单位:该班每一位新生
若以班级为单位上报各项体检指标的平均 值,则班级变为总体单位,总体为所有班级
更
计量单位
多
分
类
实物指标 价值指标
时间性质不同
时期指标
时点指标
注:各种相互联系的指标所构成的整体即指标体系
• 还可分为:
质量指标:说明总体质量状况 数量指标:说明总体总量状况,
也叫总量指标。 ●考虑:
一个完整的统计指标应包括什么?
• 变量:即可变标志,用于描述总体 单位所具有的特征或特性。
• 有时也指这些特征或特性的值汇总 或加工后的量。(指标名称)
样本
参数
统计量
小练习(1)
• 某药品制造商感兴趣的是用该公司开发的某种 新药能控制高血压人群血压的比例。进行了一项 包含5000个高血压病人个体的研究。他发现用这 种药后80%的个体,他们的高血压能够被控制。 假定这5000个个体在高血压人群中具有代表性的 话,回答下列问题: 1、总体是什么? 2、样本是什么? 3、识别所关心的参数 4、识别样本统计量并给出它的值 5、我们知道这个参数的值么?
• 代表人——阿亨.瓦尔 (Gottfried Achenwall) 在《近代欧洲各国国势学论》提出“统计学”
• 有统计学之名,无统计学之实
古典统计学之政治算术学派
• 创始人:威廉.配弟 (William Patty)
• 代表作:《政治算术》——就是用数字和 统计学方法 “和只用比较级和最高级的词语以及单纯 作思维的论证相反,我却采用了这样的方 法(作为我很久以来就想建立的政治算术 的一个范例)即用数字、重量、和尺度的 词语来表述我自己想说的问题”
2. 网络
Internet
中 国 人 口 统 计 年 鉴
中 国 市 场 统 计 年 鉴
二、统计数据的直接来源
• 统计调查方式
普
抽
样
查
调 查
统
重点
计
调查
报 表
典型 调查
普查 (概念要点)
1. 为特定目的专门组织的非经常性全面调 查
什么是数据内在的数量规律性?
如何探索?
三、统计学发展历史
1. 一般认为,统计学产生于17世纪中叶
2. 统计学的发展过程基本上沿着两条主线展开
以“政治算术学派”为开端形成和发展起 来的、以社会经济问题为主要研究对象的社 会经济统计 以概率论的研究为开端、并以概率论为基础 形成和发展起来的、以方法和应用研究为主 的数理统计
第三节 统计学的基本概念
1. 总体和样本 2. 指标和标志 3. 参数和统计量
1. 总体、总体单位和样本
• 总体:总体是包含所研究的全部个体的集合。 • 总体三大特征:
①同质性 ②大量性 ③差异性 • 总体分类: ①有限总体:指总体单位数有限而可以计数 的总体 ②无限总体:指总体单位数无限不可以计数 的总体