统计学:从数据到结论(人大吴喜之老.
合集下载
统计学:从数据到结论(人大吴喜之老
高三男生身 高
170
160
150
§3.1.1 定量变量的图表示:3.茎叶图
• 在直方图和盒形图中,很难恢复数据 的原貌。而另一种图:茎叶图(stemand-leaf plots)可以恢复数据 • 以地区1高三男生身高为例(图3.3), 茎叶图既展示了分布形状又有原始数 据。它象一片带有茎的叶子。茎为较 大位数的数字,叶为较小位数的数字。
§3.2 如何用少量数字来概括数据?
• 概括统计量经常对应于总体 的无法观测到的某些参数。 • 这时,统计量可作为这些参 数的估计。一些统计量还可 以用来检验样本和假设的总 体是否一致。
§3.2 如何用少量数字来概括数据?
• 注:一些统计量前面有时加 上“样本”二字,以区别于 总体的同名参数。如“样本 均值”和“样本标准差”, 以区别于总体均值和总体标 准差;但在不会混淆时可以 只说“均值”和“标准差”。
40
-3 -2 -1 0 x 1 2 3
80
60
20
40
0
0
-3
20
60
80
-2
-1
0 y
1
2
3
图 3.7 两个尺度不同的数据的直方图,左边的标准差大约只有右边的一半
§3.2.3 数据的标准得分
• 假定两个水平类似的班级(一 班和二班)上同一门课, • 但是由于两个任课老师的评分 标准不同,使得两个班成绩的 均值和标准差都不一样(数据: grade.txt)。
30
40
直方图
20
10
0 150.0 155.0 160.0 165.0 170.0 175.0 180.0 185.0 190.0 195.0 200.0
从数据到结论(人民大学吴喜之教授)12时间序列分析
140
我们例中时间序列数据的指数平滑和对未来的预测
120
100
80
ห้องสมุดไป่ตู้
60
40
20 SA LES
0
Fit for SA LES
-20
JAN
19O9C0T
1J9U9L019A9P1R
JAN 1992
19O9C3T
1J9U9L319A9P4R
JAN 1995
19O9C6T
1J9U9L619A9P7R
JAN 1998
例tssales.sav
• 利用点图则可以得到对该数据更加直观的印象: 120
某企业从1990年1月到2002年12月的销售数据图(单位:百万元)
100
80
60
SALES
40
20
JAN
19S9E0P
19M9A0Y
JAN 1991
19S9E2P
19M9A2Y
JAN 1993
19S9E4P
1M99A4Y
ARIMA模型 :AR模型
• 比指数平滑要有用和精细得多的模型是Box-Jenkins引 入 的 ARIMA 模 型 。 或 称 为 整 合 自 回 归 移 动 平 均 模 型 (ARIMA 为Autoregressive Integrated Moving Average 一些关键字母的缩写)。该模型的基础是自回归和移动 平均模型或ARMA(Autoregressive and Moving Average) 模型。
• 它由两个特殊模型发展而成,一个特例是自回归模型或 AX测tR表值示(由A,u其to则以re一前gr个的es纯spiv个粹e)观的模测A型R值。的(p假)线模定性型时组意间合味序加着列上变用随量X机1的, 误一X2差个, …项观, at(该误差为独立无关的)而得:
从数据到结论(人民大学吴喜之教授)03统计推断S
结从 论数 的据 过得 程到 对 现 实 世 界 的
统 计 推 断
估计
• 总体代表我们所关心的那部分世界。 • 而在利用样本中的信息来对总体进行推断 之前人们往往对代表总体的变量假定了分 布族。(描述数据时不用假定) • 比如假定人们的身高属于正态分布族;在 抽样调查时假定了二项分布族等等(这些假 定可能有风险!)。 • 这些模型基本上是根据“经验”来假定的, 仅仅是对现实世界的一个近似。
一个描述性例子
一个描述性例子 • 实际上,第二个调查隐瞒了置信 度(等价于隐瞒了样本量)。 • 如果第二个调查仅仅调查了50个 人,有35个人反对该观点。根据 后面的公式可以算出,第二个调 查的置信区间的置信度仅有11%。
• 置信度的概念大量重复抽样时的一 个渐近概念。 • 类似于“我们目前得到的置信度为 95% 的 置 信 区 间 ( 比 如 上 面 的 75%±3%)以概率0.95覆盖真正的 比例p”的说法是错误的。 • 实际上应该说“重复类似的抽样所 得到的大量区间中有大约95%的覆 盖真实比例(其值可能永远未知)。
估计
• 在假定了总体分布族之后,进一步 对总体的认识就是要在这个分布族 中选择一个适合于我们问题的成员 • 由于分布族成员是由参数确定的, 如果参数能够估计,对总体的具体 分布就知道得差不多了。
估计量是用来估计的统计量
• 我们知道,统计量是样本的不包含 未知参数的函数。样本均值、样本 标准差都是统计量。 • 由于样本是随机的,统计量也是随 机变量。 • 用于估计总体参数的统计量称为估 计量;样本均值和标准差都是总体 均值和标准差的常用估计量。
假设检验的过程和逻辑
• 根据零假设(不是备选假设!),我们可 以得到该检验统计量的分布; • 然后再看这个统计量的数据实现值 (realization)属不属于小概率事件。也就 是说把数据代入检验统计量,看其值是否 落入零假设下的小概率范畴 • 如果的确是小概率事件,那么我们就有可 能拒绝零假设,否则我们说没有足够证据 拒绝零假设。
统 计 推 断
估计
• 总体代表我们所关心的那部分世界。 • 而在利用样本中的信息来对总体进行推断 之前人们往往对代表总体的变量假定了分 布族。(描述数据时不用假定) • 比如假定人们的身高属于正态分布族;在 抽样调查时假定了二项分布族等等(这些假 定可能有风险!)。 • 这些模型基本上是根据“经验”来假定的, 仅仅是对现实世界的一个近似。
一个描述性例子
一个描述性例子 • 实际上,第二个调查隐瞒了置信 度(等价于隐瞒了样本量)。 • 如果第二个调查仅仅调查了50个 人,有35个人反对该观点。根据 后面的公式可以算出,第二个调 查的置信区间的置信度仅有11%。
• 置信度的概念大量重复抽样时的一 个渐近概念。 • 类似于“我们目前得到的置信度为 95% 的 置 信 区 间 ( 比 如 上 面 的 75%±3%)以概率0.95覆盖真正的 比例p”的说法是错误的。 • 实际上应该说“重复类似的抽样所 得到的大量区间中有大约95%的覆 盖真实比例(其值可能永远未知)。
估计
• 在假定了总体分布族之后,进一步 对总体的认识就是要在这个分布族 中选择一个适合于我们问题的成员 • 由于分布族成员是由参数确定的, 如果参数能够估计,对总体的具体 分布就知道得差不多了。
估计量是用来估计的统计量
• 我们知道,统计量是样本的不包含 未知参数的函数。样本均值、样本 标准差都是统计量。 • 由于样本是随机的,统计量也是随 机变量。 • 用于估计总体参数的统计量称为估 计量;样本均值和标准差都是总体 均值和标准差的常用估计量。
假设检验的过程和逻辑
• 根据零假设(不是备选假设!),我们可 以得到该检验统计量的分布; • 然后再看这个统计量的数据实现值 (realization)属不属于小概率事件。也就 是说把数据代入检验统计量,看其值是否 落入零假设下的小概率范畴 • 如果的确是小概率事件,那么我们就有可 能拒绝零假设,否则我们说没有足够证据 拒绝零假设。
从数据到结论(人民大学吴喜之教授)11对应分析精编版
记R=diag(ai.), C=diag(a.i), R1/2= diag(a.i1/2), 则上面式子为
rx=R-1Ay; ry=C-1A’x 或
rR1/2x=(R-1/2AC-1/2)C1/2y;
rC1/2y=(C-1/2A’ R-1/2)R1/2x= (R-1/2 A C-1/2 )’R1/2x X为一个解的条件是下面特征值问题有解(最 大特征值为1是平凡解, 两组非零特征值相同!)
SPSS的实现
• 加权之后,选择Analyze-Data Reduction -Correspondence Analysis,
• 然后把“汉字使用”选入Row(行),再 点击Define Range来定义其范围为 1(Minimum value)到3(Maximum value), 之后点击Update。
例子(数据ChMath.sav )
• 在研究读写汉字能力与数学的关系的研究 时,人们取得了232个美国亚裔学生的数学 成绩和汉字读写能力的数据。
• 关于汉字读写能力的变量有三个水平: “纯汉字”意味着可以完全自由使用纯汉 字读写,“半汉字”意味着读写中只有部 分汉字(比如日文),而“纯英文”意味 着只能够读写英文而不会汉字。而数学成 绩有4个水平(A、B、C、D)。
l1
up1 l1
u12 l2 u22 l2
up2 l2
u1m
lm
v11 l1
u2m
lm
G
v21
l1
vpm lm vn1 l1
v12 l2 v22 l2
vn2 l2
v1m
lm
v2m lm
vnm lm
统计学从数据到结论(人大吴喜之老师)01一些基本概念精品PPT课件
• 有些概率是无法精确推断的。 • 比如你明天感冒的概率 • 有些概率是可以知道的。 • 比如在打桥牌时得到一手黑桃的概
率 为 1/635013559600 , 大 约 为 1.574770×10-12(条件是洗牌均匀, 没有作弊)。实际上得任何特定的 一手牌的概率都是一样的,对吗?
§1.3 变量和数据
• 什么是概率(probability)? • 新闻中最常见的是“降水概率” • 从某种意义说来,概率描述了某件事
情发生的机会。
• 显然,这种概率不可能超过百分之百, 也不可能少于百分之零。
• 概率是在0和1之间(也可能是0或1) 的一个数,描述某事件发生的机会。
§1.2 现实中的随机性和规律性,概率和机会
统计学
─从数据到结论
第一章 一些基本概念
§1.1 统计是什么?
• 统计是人类思维的一个归纳过程 • 站在一个路口,看到每过去20辆
小轿车时,也有100辆自行车通过 • 而且平均每10个轿车载有12个人 • 于是,你认为小汽车和自行车在
这个路口的运载能力为24:100 • 这是一个典型的统计思维过程
是统计。
§1.2 现实中的随机性和规律性,概率和机会
• 从中学起,我们就知道物理 学F=的m许a等多等定律,例如v=v0+at;
• 但是在许多领域,很难用如 此确定的公式或论述来描述 一些现象。
§1.2 现实中的随机性和规律性,概率和机会
• 一些现象既有规律性又有随 机性(randomness)
(qualitative variable,或categorical
variable)。 • 这些定性变量也可以由定量 变量来描述,如男女生的数 目,持有某观点的人数比例 等等。
率 为 1/635013559600 , 大 约 为 1.574770×10-12(条件是洗牌均匀, 没有作弊)。实际上得任何特定的 一手牌的概率都是一样的,对吗?
§1.3 变量和数据
• 什么是概率(probability)? • 新闻中最常见的是“降水概率” • 从某种意义说来,概率描述了某件事
情发生的机会。
• 显然,这种概率不可能超过百分之百, 也不可能少于百分之零。
• 概率是在0和1之间(也可能是0或1) 的一个数,描述某事件发生的机会。
§1.2 现实中的随机性和规律性,概率和机会
统计学
─从数据到结论
第一章 一些基本概念
§1.1 统计是什么?
• 统计是人类思维的一个归纳过程 • 站在一个路口,看到每过去20辆
小轿车时,也有100辆自行车通过 • 而且平均每10个轿车载有12个人 • 于是,你认为小汽车和自行车在
这个路口的运载能力为24:100 • 这是一个典型的统计思维过程
是统计。
§1.2 现实中的随机性和规律性,概率和机会
• 从中学起,我们就知道物理 学F=的m许a等多等定律,例如v=v0+at;
• 但是在许多领域,很难用如 此确定的公式或论述来描述 一些现象。
§1.2 现实中的随机性和规律性,概率和机会
• 一些现象既有规律性又有随 机性(randomness)
(qualitative variable,或categorical
variable)。 • 这些定性变量也可以由定量 变量来描述,如男女生的数 目,持有某观点的人数比例 等等。
统计学:从数据到结论(人大吴喜之老师课件)01一些基本概念
统计学可以应用于几乎所有的领域: 统计学可以应用于几乎所有的领域
精算,农业,动物学,人类学,考古学, 精算,农业,动物学,人类学,考古学,审计 晶体学,人口统计学,牙医学,生态学, 学,晶体学,人口统计学,牙医学,生态学, 经济计量学,教育学,选举预测和策划,工程, 经济计量学,教育学,选举预测和策划,工程, 流行病学,金融,水产渔业研究,遗传学, 流行病学,金融,水产渔业研究,遗传学,地 理学,地质学,历史研究,人类遗传学, 理学,地质学,历史研究,人类遗传学,水文 工业,法律,语言学,文学,劳动力计划, 学,工业,法律,语言学,文学,劳动力计划, 管理科学,市场营销学,医学诊断,气象学, 管理科学,市场营销学,医学诊断,气象学, 军事科学,核材料安全管理,眼科学,制药学, 军事科学,核材料安全管理,眼科学,制药学, 物理学,政治学,心理学,心理物理学, 物理学,政治学,心理学,心理物理学,质量 控制,宗教研究,社会学,调查抽样,分类学, 控制,宗教研究,社会学,调查抽样,分类学, 气象改善,博彩等。 气象改善,博彩等。
统计学
─从数据到结论
第一章 一些基本概念
统计是什么? §1.1 统计是什么?
• 统计是人类思维的一个归纳过程 • 站在一个路口,看到每过去20辆 站在一个路口,看到每过去 辆 小轿车时,也有100辆自行车通过 小轿车时,也有 辆自行车通过 • 而且平均每 个轿车载有 个人 而且平均每10个轿车载有 个轿车载有12个人 • 于是,你认为小汽车和自行车在 于是, 这个路口的运载能力为24:100 这个路口的运载能力为 • 这是一个典型的统计思维过程
• 再如,一般来说,白种人身 再如,一般来说, 材比黄种人要高些, 材比黄种人要高些,这就是 规律性 • 但对于具体的一个白人和一 个黄种人, 个黄种人,就很难说谁高谁 矮了, 矮了,这体现随机性
从数据到结论(人民大学吴喜之教授)04变量间的关系
SPSS Syntax: UNIANOVA s1 BY income WITH j3 /METHOD = SSTYPE(3) /INTERCEPT = INCLUDE /CRITERIA = ALPHA(.05) /DESIGN = income j3 .
注意 • 这里进行的线性回归,仅仅是回归 的一种,也是历史最悠久的一种。 • 但是,任何模型都是某种近似; • 线性回归当然也不另外。 • 它被长期广泛深入地研究主要是因 为数学上相对简单。 • 它已经成为其他回归的一个基础。 • 总应该用批判的眼光看这些模型。
例1广告投入和销售之间的关系(数据ads.sav)
70 60
50
40
30
20
10
S A LE
0 0 2 4 6 8 10 12 14
AD
• 这两个变量是否有关系?显然,它们有关系; 这从散点图就很容易看出。基本上销售额是 随着广告投入的递增而递增。 • 如果有关系,它们的关系是否显著?这也可 以从散点图得到。当广告投入在6万元以下, 销售额增长很快;但大于这个投入时,销售 额增长就不明显了。因此,这两个变量的关 系是由强变弱。 • 这些关系是什么关系,是否可以用数学模型 来描述?本例看上去是可以拟合一个回归模 型(后面会介绍),但绝不是线性的(用一 条直线可以描述的)。具体细节需要进一步 的分析
相关和回归分析 • 一旦建立了回归模型 • 可以对各种变量的关系有了进一步的 定量理解 • 还可以利用该模型(函数)通过自变 量对因变量做预测。 • 这里所说的预测,是用已知的自变量 的值通过模型对未知的因变量值进行 估计;它并不一定涉及时间先后的概 念。
例1 有50个从初中升到高中的学生.为了比较初三的成绩是 否和高中的成绩相关,得到了他们在初三和高一的各科平 均成绩(数据:highschool.sav)
从数据到结论(人民大学吴喜之教授)11对应分析
( j 1, ..., p ).
i 1
行记分(row score) xi和列记分yj的加权均值成 比例, 而列记分yj和行记分xi的加权均值成比 例. 数值r为行列记分的相关(在典型相关的意 义上).
记R=diag(ai.), C=diag(a.i), R1/2= diag(a.i1/2), 则上面式子为 rx=R-1Ay; ry=C-1A’x 或 rR1/2x=(R-1/2AC-1/2)C1/2y; rC1/2y=(C-1/2A’ R-1/2)R1/2x= (R-1/2 A C-1/2 )’R1/2x X为一个解的条件是下面特征值问题有解(最 大特征值为1是平凡解, 两组非零特征值相同!)
对 应 分 析
行和列变量的相关问题
• 在因子分析中,或者对变量(列中的变量) 进行分析,或者对样品(观测值或行中的 变量)进行分析;而且常常把每一种分析 结果画出载荷图来看各个变量之间的接近 程度。 • 典型相关分析也只研究列中两组变量之间 的关系。 • 然而,在很多情况下,所关心的不仅仅是 行或列本身变量之间的关系,而是行变量 和列变量的相互关系;这就是因子分析等 方法所没有说明的了。先看一个例子。
对应分析 • 处理列联表的问题仅仅是对应分析的 一个特例。一般地, • 对应分析常规地处理连续变量的数据 矩阵;这些数据具有如在主成分分析、 因子分析、聚类分析等时所处理的数 据形式。 • 在因子分析中,根据各行变量的因子 载荷和各列变量的因子载荷之间的关 系,行因子载荷和列因子载荷之间可 以两两配对。
对应分析
• 如果对每组变量选择前两列因子载荷,那么两组 变量就可以画出两个因子载荷的散点图。 • 由于这两个图所表示的载荷可以配对,于是就可 以把这两个因子载荷的两个散点图画到同一张图 中,并以此来直观地显示各行变量和各列变量之 间的关系。 • 由于列联表数据形式和一般的连续变量的数据形 式类似,所以也可以用对应分析的数学方法来研 究行变量各个水平和列变量各个水平之间的关系; • 虽然对不同数据类型所产生结果的解释有所不同, 数学的原理是一样的。下面通过对ChMath.sav 数据的计算和结果分析来介绍对应分析。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
§3.2.3 数据的标准得分• 即,某观测值xi的标准得分定义为 xi x z s
§3.2.3 数据的标准得分• 在我们的例子中,张颖的标准得分为 (90-78.53/9.43 = 1.22 ,而刘疏的标准得分为 (8270.19/7=1.69。
• 显然如果两个班级平均水平差不多,刘疏的成绩应该优于张颖的成绩;这是在标准化之前的数据中不易看到的。
110 3 100 2 90 1 80 0 70 -1 60 2 -2 2 准分标得 50 40 N= 1 -3 -4 图 3.8 两个班级分数的原始数据(左)和标准得分(右)的盒形图可以看出,原始数据是在各自的均值附近,而散布也不一样。
但它们的标准得分则在0周围散布,而且散布也差不多。
实际上,任何样本经过这样的标准化后,就都变换成均值为0、方差为1的样本。
标准化后不同样本观测值的比较只有相对意义,没有绝对意义。
分得 1 97 100 N= 97 100 一班二班一班二班班级班级。