统计学从数据到结论(人大吴喜之老师)01一些基本概念精品PPT课件

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 有些概率是无法精确推断的。 • 比如你明天感冒的概率 • 有些概率是可以知道的。 • 比如在打桥牌时得到一手黑桃的概
率 为 1/635013559600 , 大 约 为 1.574770×10-12(条件是洗牌均匀, 没有作弊)。实际上得任何特定的 一手牌的概率都是一样的,对吗?
§1.3 变量和数据
• 什么是概率(probability)? • 新闻中最常见的是“降水概率” • 从某种意义说来,概率描述了某件事
情发生的机会。
• 显然,这种概率不可能超过百分之百, 也不可能少于百分之零。
• 概率是在0和1之间(也可能是0或1) 的一个数,描述某事件发生的机会。
§1.2 现实中的随机性和规律性,概率和机会
统计学
─从数据到结论
第一章 一些基本概念
§1.1 统计是什么?
• 统计是人类思维的一个归纳过程 • 站在一个路口,看到每过去20辆
小轿车时,也有100辆自行车通过 • 而且平均每10个轿车载有12个人 • 于是,你认为小汽车和自行车在
这个路口的运载能力为24:100 • 这是一个典型的统计思维过程
是统计。
§1.2 现实中的随机性和规律性,概率和机会
• 从中学起,我们就知道物理 学F=的m许a等多等定律,例如v=v0+at;
• 但是在许多领域,很难用如 此确定的公式或论述来描述 一些现象。
§1.2 现实中的随机性和规律性,概率和机会
• 一些现象既有规律性又有随 机性(randomness)
(qualitative variable,或categorical
variable)。 • 这些定性变量也可以由定量 变量来描述,如男女生的数 目,持有某观点的人数比例 等等。
§1.3 变量和数据
• 定性机来分析。 •数 据 中 它 们 通 常 用 哑 元 (dummy variable)代表,比 如性别用0、1代表,三种收 入用0、1、2代表(或用字母 代表)
• 一节火车车厢有多少坐位是 一个固定的数目,称为常数 (constant)或者常量。
• 但是,开车后,坐在这节车 厢的旅客有多少就没准了。 这有随机性。该车厢的乘客 数为变量(variable)。
§1.3 变量和数据
• 一个学校的注册在校男女生 比例是固定的,为常量
• 但是,该校任意一群学生的 男女生比例就不一定和全校 的比例一样了,它为变量 (variable)。
§1.1 统计是什么?
• 一句话, • 统 计 学 ( statistics ) 是 用
以收集数据,分析数据和由 数据得出结论的一组概念、 原则和方法。
• 以归纳为主要思维方式的统计不是 以演绎为主的数学
• 统计可应用于各个不同学科,在有 些学科已经有其特有的方法和特点;
如生物统计(biostatistics)、经济计 量 学 (econometrics) 以 及 目 前 很 热 门的生物信息(bioinformation)和数 据挖掘(Data Mining)的方法主体都
§1.3 变量和数据
• 有了变量,何谓数据? • 不同机构调查所得到的北京 收入万元以上市民的比例都 不一样,这是变量 • 而这些调查产生一些数目, 这些数目就是数据(data) • 数据是关于变量的观测值。
§1.3 变量和数据
• 通过数据可验证有关的理论 或假定。 • 比如通过抽样调查验证美国 选民对共和党候选人的支持 率是否超过50% • 通过抽样,可以检验某批产 品是否合格等等
• 肺癌患者中(主动或被动) 吸烟的比例较大,这体现了 规律性
• 而绝非每个吸烟的人都会患 肺癌,这体现了随机性
§1.2 现实中的随机性和规律性,概率和机会
• 再如,一般来说,白种人身 材比黄种人要高些,这就是 规律性
• 但对于具体的一个白人和一 个黄种人,就很难说谁高谁 矮了,这体现随机性
§1.2 现实中的随机性和规律性,概率和机会
§1.1 统计是什么?
• 一般来说,统计先从现实世界收集数 据(信息),如观测路口的交通
• 然后,根据数据作出判断,称为模型 • 模型是从数据产生的 • 模型也需要根据新的信息来改进 • 不存在完美的模型 • 模型的最终结局都是被更能够说明现
实世界的新模型所取代
统计学可以应用于几乎所有的领域:
精算,农业,动物学,人类学,考古学,审计 学,晶体学,人口统计学,牙医学,生态学, 经济计量学,教育学,选举预测和策划,工程, 流行病学,金融,水产渔业研究,遗传学,地 理学,地质学,历史研究,人类遗传学,水文 学,工业,法律,语言学,文学,劳动力计划, 管理科学,市场营销学,医学诊断,气象学, 军事科学,核材料安全管理,眼科学,制药学, 物理学,政治学,心理学,心理物理学,质量 控制,宗教研究,社会学,调查抽样,分类学, 气象改善,博彩等。
§1.4 变量之间的关系
• 现实世界紧密联系的 • 人们想知道投资方式和经济 效益之间的关系、旅客人数 和经济发展之间的关系等等 • 不讨论变量之间的关系,就 无从谈起任何有深度的应用, 统计的基本概念就仅仅是摆 设而已。
§1.4.1 定量变量间的关系
• 例1.1.广告投入和销售之间的关系。 下表(数据ads.txt)显示了某企业 的广告投入和销售额之间的关系 (万元)。
§1.3 变量和数据
• 当变量按照随机规律所取的 值是数量时该变量称为定量 变量或数量变量(quantitative variable);
• 因为是随机的,也称为随机 变量(random variable)。
• 如身高体重,购买某商品的 人数等等
§1.3 变量和数据
• 象性别,观点之类的取非数 量值的变量就称为定性变量 或属性变量或分类变量
广告 1.0 3.2 3.2 5.5 5.9 7.1 7.3 9.2 10.8 12.1 销售 9.4 31.8 33.2 52.4 53.5 56.0 56.9 59.2 60.1 63.5
销 售额
70
60
50
40
30
20
10
0
0
2
广告 投入
横坐标代表广告投入, 而纵坐标代表销售收入。 看得出有何种关系吗?
相关文档
最新文档