统计学基础知识-4
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据的“位置”
43
上下四分位数(或分别称 为第一四分位数和第三四 分位数,first quantile, third quantile)则分别位 于(按大小排列的)数据 的上下四分之一的地方。
数据的“位置”
44
一般地还称上四分位数为75百分位数(75 pecentile,有75%的观测值小于它),下四分位 数为25百分位数(有25%的观测值小于它)。 一般地,k百分位数(k-pecentile)意味着有k% 的观测值小于它。 如果令a=k%,则k百分位数也称为a分位数(aquantile)。 样本中出现最多的数目,称为众数(mode)
高三男生身 高
170
160
150 140
N = 163 175
地区1
地区2
地区
28
27
26
25
24
23
22
21 女 20 1900 男 1920 1940 1960 1980 2000
散点图
34
饼图
35
大量的数字既繁琐又不直观;需要对数据 做人们时间和耐心所允许的简化 我们可以用 “平均”,“差距”或百分 比等来概括大量数字。 由于定性变量主要是计数,比较简单,常 用的概括就是比例或百分比。下面主要介 绍关于定量变量的数字描述。
直方图
32
210
200
158 96 5
190
248 250 259 323
180
盒型图
盒子的中间横线是数据的中位数(median),封闭盒子的上下两横线(边)为上下四 分位数(点);按照SPSS的默认选项,如果所有样本中的数目都在离四分位点1.5 倍盒子长度之内,则线的端点为最大和最小值,否则线长就是1.5倍的盒子长度(盒 子长度称为四分位间距),在其外面的度量单独点出 33
变量和数据
13
一个学校的注册在校男女生
比例是固定的,为常量 但是,该校任意一群学生的 男女生比例就不一定和全校 的比例一样了,它为变量 (variable)。
統計变量和数据
14
有了变量,何谓数据? 不同机构调查所得到的太原市
收入万元以上市民的比例都不 一样,这是变量 而这些调查产生一些数目,这 些数目就是数据(data) 数据是关于变量的观测值。
个体、总体和样本
26
而调查时问到的那部分市民的观点(也 就是部分个体)称为该总体的一个样本 (sample),是总体的一部分。 也有可能试图调查所有的人(比如人口 普查),那叫做普查(census)。
个体、总体和样本
27
通常情況下,工業生産中的縂體指一個檢驗批,
要求在相同時間、地點、設備、技術和原材料儅 要素前提下,完成生産。 樣本是指部分個體的集合; 單件產品是研究的個體。
還是偶然的?
公鷄打鳴和太陽升起的關係
思考一下
22
統計學的基本概念
樣本和總體
23
在自然的未被控制的条件下观测到的数据, 称为观测数据(observational data)。 在人工干预和操作情况下收集的数据就称为 试验数据(experimental data)。 請你根據自己的工作,举出观测数据和试验 数据的例子。
30
20
10
0 150.0 155.0 160.0 165.0 170.0 175.0 180.0 185.0 190.0 195.0 200.0
图 3.1 地 区 1高 三 男 生 身 高 的 直 方 图
Std. Dev (标准差)=10.91,Mean (均值)=170.9,N (人数)=163
如何用少量数字来概括数据?
37
概括统计量经常对应于总体的无 法观测到的某些参数。 这时,统计量可作为这些参数的 估计。一些统计量还可以用来检 验样本和假设的总体是否一致。
如何用少量数字来概括数据?
38
注:一些统计量前面有时加上“ 样本”二字,以区别于总体的同 名参数。如“样本均值”和“样 本标准差”,以区别于总体均值 和总体标准差;但在不会混淆时 可以只说“均值”和“标准差” 。 如何用少量数字来概括数据?
现实中的随机性和规律性,概率和机会
10
我們在前面的課程中,引進了 概率
隨機變量及其分佈
常用的統計分佈
這些都是統計學研究的數學基礎,也是
質量管理的重要知識準備。
統計學研究的基礎在於
11
統計變量和數据
統計學的基本工具
12
一节火车车厢有多少坐位是一个固
定的数目,称为常数(constant)或者 常量。 但是,开车后,坐在这节车厢的旅 客有多少就没准了。这有随机性。 该车厢的乘客数为变量(variable)。
210 200
158 96 5
统计中有许多尺度统计量。 一般来说,数据越分散, 尺度统计量的值越大。
数据的“尺度”
190
248 250 259 323
180
高三男生身 高
170
160
150 140
N = 163 175
地区1
地区2
地区
48
极差(range);就是极大值和极小值之间的 差。 前面两个高三男生身高数据的极差分别为 50cm和32cm。 盒形图盒子的长度为两个四分位数之差,称 为四分位数极差或四分位间距 (interquantile range);它描述了中间半 数观测值的散布情况。极差和四分位极差实 际上各自只依赖于两个值,信息量太少。
18
70
60
50
40
30
20
10
横坐标代表广告投入,而纵 坐标代表销售收入。 看得出有何种关系吗?
0 2 4 6 8 10 12 14
销售额
0
广告投入
19
能否从该数据回答下面问题: 这两个变量是否有关系? 如果有,它们的关系是否显著? 这些关系是什么关系,能否用数学模型
来描述? 这个关系是否带有普遍性?
8
一些现象既有规律性又有随机性
(randomness) 肺癌患者中(主动或被动)吸烟 的比例较大,这体现了规律性 而绝非每个吸烟者都会患肺癌, 这体现了随机性
现实中的随机性和规律性,概率和机会
9
再如,一般来说,白种人
身材比黄种人要高些,这 就是规律性 但对于具体的一个白人和 一个黄种人,就很难说谁 高谁矮了,这体现随机性
统计是人类思维的一个归纳过程 站在一个路口,看到每过去20辆 小轿车时,也有100辆自行车通过 而且平均每10个轿车载有12个人 于是,你认为小汽车和自行车在这 个路口的运载能力为24:100 这是一个典型的统计思维过程
4
统计是什么?
一般来说,统计先从现实世界收集数据( 信息),如观测路口的交通 然后,根据数据作出判断,称为模型 模型是从数据产生的 模型也需要根据新的信息来改进 不存在完美的模型 模型的最终结局都是被更能够说明现实世 界的新模型所取代
数据的“尺度”
49
另一个常用的尺度统计量为(样本)标准差(standard deviation)。度量样本中各数值到均值距离的平均。 标准差实际上是方差 (variance) 的平方根。如果记样 本中的观测值为x1,…,xn,则样本方差为
39
数据有位置吗?
这里三个数据的位置一样吗? 数据的“位置”
40
“位置”一般是关于数据中某变量观测值 的“中心位置”或者数据分布的中心( center或center tendency)。 和这种“位置”有关的统计量就称为位 置统计量(location statistic)。 位置统计量当然不一定都是描述“中心 ”了,比如后面要讲的k百分位数(或k %分位数)。
数据的“位置”
41
Leabharlann Baidu 最常用的位置统计量就是小学时所学到的算术 平均数,它在统计中叫做均值 (mean);严格地 说叫做样本均值(sample mean),以区别于总体 均值。 如果记样本中的观测值为x1,…,xn,则样本均值 定义为
数据的“位置”
42
(样本)中位数(median) 是数 据按照大小排列之后位于中间的 那个数(如果样本量为奇数),或 者中间两个数目的平均(如果样 本量为偶数)。 由于中位数不易被极端值影响, 所以中位数比均值稳健 (robust)。
數據是什麽?
15
通过数据可验证有关的理论或假定。 比如通过抽样调查验证美国选民对共
和党候选人的支持率是否超过50% 通过抽样,可以检验某批产品是否合 格等等
統計数据
16
现实世界紧密联系的 人们想知道投资方式和经济效益之
间的关系、旅客人数和经济发展之 间的关系等等 不讨论变量之间的关系,就无从谈 起任何有深度的应用,统计的基本 概念就仅仅是摆设而已。
变量之间的关系
17
例
广告投入和销售之间的关系。下表显示了某 企业广告投入和销售额之间的关系(万元)。
1.0 9.4 3.2 3.2 5.5 5.9 7.1 7.3 9.2 10.8 12.1
广告 销售
31.8 33.2 52.4 53.5 56.0 56.9 59.2 60.1 63.5
定量变量间的关系
工業管理
28
基本統計量
均值、方差和標準差
29
在对数据进行深入加工之前,总应该对数据有 所印象。 可以借助于图形和简单的运算,来了解数据的 一些特征。 由于数据是从总体中产生的,其特征也反映了 总体的特征。对数据的描述也是对其总体的一 个近似的描述。
30
如何用图来表示数据?
31
40
数据的“位置”
45
这两个数据“胖瘦”一样吗 ? 数据的“尺度”
46
数据中数目的分散程度由尺度统计 量(scale statistic)来描述。 尺度统计量是描述数据散布,即描 述集中与分散程度或变化( spread或variability)的度量。
数据的“尺度”
47
从前面两个高三男生身高数据的盒形图。 左边的数据平均要高些,但右边的数据散 布范围要小得多。
数据是怎样得到的?
24
需要调查太原市民对交通规则的观点; 对象是所有市民, 目的是希望知道市民中对该问题的不同 看法各自占有的比例 显然,不可能去问所有的北京市民,而 只能够问一部分; 并且根据这一部分的观点来理解整个太 原市民的总体观点。
25
个体、总体和样本
在这个例子中,单个太原市民的观 点称为个体(element) 所有太原市民对这个问题的观点为 一个总体(population),总体是 包含所有要研究的个体的集合。
統計學基礎知識
山西財經大學 米子川
1
什麽是統計學 統計學的概念及統計思想導入 基本統計量:均值、方差和標準差 統計學解決問題的方式 工業生產過程中的統計技術 練習:分析一組資料的統計分佈和正態概率紙 的應用。
第四囘 統計學初步
2
統計學是什麽?
質量管理的第一基礎
3
如何用少量数字来概括数据?
36
可用少量所谓汇总统计量或概括统计量 (summary statistic)来描述定量变 量的数据。 这些数字是从样本数据得来的,因而也 是样本的函数, 任何样本的函数,只要不包含总体的未 知参数,都称为统计量(statistic)。 样本的随机性决定统计量的随机性(统 计量也是随机变量)
这个关系是不是因果关系?
定量变量间的关系
20
关于因果关系 在可控制的试验中,较容易找到因果关系;
比如治疗方式和疗效的关系等 但是,一般来说,变量之间有关系这个事实 并不意味着一定存在明确的因果关系。
定量变量间的关系
21
工業生産中的變量關係一般會是怎樣的? 生産出一個不合格品和什麽因素有關係?必然的
5
统计是什么?
精算,农业,动物学,人类学,考古学,审计学,晶体 学,人口统计学,牙医学,生态学,经济计量学,教育 学,选举预测和策划,工程,流行病学,金融,水产渔 业研究,遗传学,地理学,地质学,历史研究,人类遗 传学,水文学,工业,法律,语言学,文学,劳动力计 划,管理科学,市场营销学,医学诊断,气象学,军事 科学,核材料安全管理,眼科学,制药学,物理学,政 治学,心理学,心理物理学,质量控制,宗教研究,社 会学,调查抽样,分类学,气象改善,博彩等。
统计学可以应用于几乎所有的科學领域
6
一句话,
统计学( statistics)是用以收集数 据,分析数据和由数据得出结论的一 组概念、原则和方法。
统计是什么?
7
以归纳为主要思维方式的统计
统计可应用于各个不同学科,在有些学科已 经有其特有的方法和特点;如生物统计 (biostatistics) 、 经 济 计 量 学 (econometrics)以及目前很热门的 生物信 息 (bioinformation) 和 数 据 挖 掘 (Data Mining)的方法主体都是统计 質量管理和工業生産領域是統計學的一大重