浅谈统计学的发展脉络
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
J0
找出来?
( 2)
如何把
若干值得注意的事项 关 于 变 量 选 择
设有观测数据: x1 xi1, x2 xi 2 ,..., x p xip 时 即
y yi
yi xi ' i xi ' ( xi1 ,..., xip ), i 1,...,n,
y1 x1 ' 1 Yn ... , X n ... , ( n ) ... y x ' n n n
推荐:
蓬 勃 发 展 时 期 (1950~)
现代数学手册· 随机数学卷
陈希孺、郑忠国主编 华中科技大学出版社( 2000)
7. 多元统计分析 8. 贝叶斯统计 9. 稳健统计 10. 蒙特卡罗法 11. 现代统计计算方法 12. 随机过程
1. 概率论 2. 数理统计 3. 试验设计 4. 抽样调查 5. 质量管理 6. 线性模型
[2]韦博成 漫话信息时代的统计学 中国统计出版社( 2011) [3]陈家鼎等 数理统计学讲义(第二版) 高等教育出版社( 2006) [4]陈家鼎 郑忠国 概率与统计 北京大学出版社( 2007) [5]陈铁梅 定量考古学 北京大学出版社( 2005)
[6]王学仁 地质数据的多变量分析 科学出版社( 1982)
下, || Yn X n ||2的最小值点 叫做
~
当 t 较小时,Lasso估计 的许多分量为0,所建立的 回归方程不含有这些分量为0所对应的自变量。
~
的Lasso估计。
Lasso估计有许多较好性质,但后来发现在许多情况下, 所选出的自变量缺乏相合性。
若干值得注意的事项 关 于 变 量 选 择
8 n 50 时可用W检验;当 n 8 时可用EP检验。
若干值得注意的事项 关 于 假 设 检 验
对于比率p(成功率)的检验有国际标准IEC1123( 1991)
对于指数分布 的
F x 1 e
x
( x 0)
的检验有国际标准IEC61124( 2006)
若干值得注意的事项 关 于 试 验 设 计
时,R. Nishi (Anal. Stat.( 1984), 758- 765)最先给出了证明。 本人近期扩展到一般情形。 GIC准则看来很好,但有大问题: 当
p 较大时要求出GIC的最小值点很困难,甚至不可能。
n
实际工作中常用逐步回归法,计算简便,但找出的 ~ 有何优良性?至今未研究清楚。 自变量足标集 J
统计学的发展脉络 学 科 形 成 时 期
随机变量的统计 数据的类型 随机向量的统计(多元统计) 随机过程的统计(包括时间序列) 四位大家
(1900~1950)
K. Pearson( 1857~ 1936) R. A. Fisher( 1890~ 1962) J. Neyman( 1894~ 1981) A. Wald( 1902~ 1950)
若 干 值 得 注 意 的 事 项
Page 16
YOUR LOGO
源自文库
若干值得注意的事项 关 于 假 设 检 验
一类是显著性检验: 控制第一类错误概率不超过给定的值 ,对第二类 错误概率只要求尽量小。 另一类是控制两类错误概率大小的检验。 正态性检验
有新的国家标准GB/T4882——2001,
2
an GIC ( J ) ln Qn ( J ) (# J ) n
其中 #
J
是
J
中元素个数,
使GIC( J ) 达到最小值的
J 记为 J n 。
若干值得注意的事项 关 于 变 量 选 择
定理 设下列条件满足 A. 1 , 2 ,...,是独立列,E 0, E 2 2 且 i i
[7]现代数学手册· 随机数学卷(陈希孺、郑忠国主编)1-932 华中科技大学出版社( 2000) [8]张里千等:正交法与应用数学,科学出版社( 2009) [9]陈家鼎,生存分析与可靠性,北京大学出版社( 2005)
参考文献
[10]茆诗松,高等数理统计,高教出版社( 1998) [11]ToCai和X.Shen主编:High-Dimensional Data Analysis,
统计学的发展脉络 蓬 勃 发 展 时 期 (1950~)
统计学各分支都向纵深发展,除了建立 已有统计方法(如最大似然估计、最小二乘估计)
的理论基础和精细化之外,针对类别数据(定性数据)、 不完全数据提出了处理方法。特别是1980年以来, 高速计算机的使用对统计学的发展有重大影响。
统计学的发展脉络
B. N种水平组合中较优或最优的是哪些?
若干值得注意的事项 关 于 试 验 设 计
拉丁方设计 正交拉丁方设计 正交设计
日本利用正交设计提高产品质量,取得很大成绩。 我国以张里千( 1929-) 为代表在1970年代初最先认识到 不可把解决问题A与B混为一谈。
若以B为目标(工业试验常是这样),则在试验安排上 不必考虑因素间交互作用,用小的正交表多安排因素, 试验的次数少。
浅谈统计学的发展脉络
陈家鼎
Page 2
统计学的性质与特点 定 《中国大百科全书》
义
统计学: 研究怎样地收集、整理和分析数据, 以对所考察的问题做出推断或预测 直至为采取一定的决策和行动提供依据和建议。 《不列颠百科全书》 统计学: “收集和分析数据的科学与艺术。”
统计学的性质与特点 定
义
统计学是数学性质的科学,
未得到公认。
韦博成从引用率的角度列出下表 (数据来自Google的学术搜索(2011年1月18日))
统计学的发展脉络 蓬 勃 发 展 时 期 (1950~)
表1 引用率最高的几个统计学方向 方向 生存分析 EM算法 生存分析 引用率( 次) 作者 35252 22724 20022 E.Kaplan &P.Meier(1958) A.Demster等 (1977) D.R.Cox( 1972) P.Mccullagh( 1983, 1989) B.Efron( 1979)
要考察m个因素 F 对某个指标y的影响,因素 1 , F2 ,...,F m
Fj
有
s j 个水平要比较(s
j
2, j 1,...,m) ,
m j 1
所有可能的水平组合有 N
s j 种。
如何安排试验(即选取一部分水平组合做试验) 以回答下列问题: A. 哪个因素影响最大,哪个次之, 哪些因素的影响可以忽略?
广义线性模型 16945 自助法 16321
统计学的发展脉络 蓬 勃 发 展 时 期 (1950~)
看来,贝叶斯统计的日益兴盛是一大特点。 表二 贝叶斯统计计算的引用率 方向 引用率(次 ) 作者 W.Hastings( 1970)
MCMC方法 15017
MCMC方法 10706
S.Geman(1984)
推断性统计方法 最小二乘法 矩法 ...
(~1900)
统计学的发展脉络 萌 芽 时 期
统计思想上的重大进展: 数据是来自服从一定概率分布的总体。 统计学就是用数据去推断这个分布的未知方面。
(~1900)
正态分布( Gauss, 1809) Pearson分布族( K. Pearson, 1894)
若干值得注意的事项 关 于 变 量 选 择
这是普遍性问题,现以线性回归为例说明其 重要性和复杂性。 设
y
是因变量,
x1,...,x p 是自变量,
p
y i xi ,
i 1
(1)
E 0 其中 ( 1,..., p )' 未知, 是随机误差。
设
J 0 D( ) { j : 1 j p, j 0},
13. 时间序列分析 14. 随机分析 15. 排队论 16. 库存论 17. 马尔可夫决策过程 18. 可靠性与生存分析 19. 决策分析
统计学的发展脉络 蓬 勃 发 展 时 期 (1950~)
突破性进展 美国著名统计学家P.Huber提出的三项:
稳健统计、自助法( Bootstrap)、生存分析
2
分布( F. Helmet, 1876)
统计学的发展脉络 学 科 形 成 时 期 (1900~1950)
主要概念、方法、定理及分支形成。 收集数据 抽样调查( A. L. Bowley, 1906) 试验设计( R. A. Fisher, 1935) 点估计 估计 分析数据 假设检验 统计判决 置信区间 显著性检验 控制两类错误的检验
b. 适应的Lasso估计
1 ˆ ˆ ˆ w 设 ( 1,..., p ) 是 的最小二乘估计, j , ˆ |j | p 1 L( ) || Yn X n ||2 w j | j | ( 0) n j 1
使 L( ) 达到最小值的
*
叫做适应的Lasso估计。
令
则
Yn X n ( n )
(3)
若干值得注意的事项 关 于 变 量 选 择
有了数据Yn , X n ,如何给出 J 0 和 n
EYn 的优良估计?
——利用GIC准则可找到渐近的优良估计。 设
J { j1,..., jk } {1,2,..., p}( ji j2 ... jk ),
且
0 ),适应的Lasso估计
*
相合性: J n
*
* { j : 0} 满足P( J n J0 ) 1
* || n ( ) || 依概率有界, 收敛速度快:
但仍有大问题:对给定的
n, n
的最优或较优选择是什么?
总之,变量选择问题相当复杂。
参考文献
[1]陈希孺 数理统计学简史 湖南教育出版社( 2002)
若干值得注意的事项 关 于 变 量 选 a. 对于模型( 2) ,给定正数 t,在条件 p 择 | i | t
i 1
从1990年代以来出现了新的方法。最引人注意的是 Lasso方法和适应的Lasso估计。前者是R. Tibshirani ( JRSS, ser.B, 58( 1996), 267-288) 提出的, 后者是H. Zou( JASA, 101(2006), 1418-1429) 提出的。
X n ( J ) 是 X n的第 j1 列, ..., 第 jk 列组成的矩阵。
若干值得注意的事项 关 于 变 量 选 择
( J ) ( X n ( J )' X n ( J )) X n ( J )'Yn
(n) 1
Qn ( J ) || Yn X n ( J )
(n)
( J ) || (残差平方和)
* * * 当样本量较大时有很多 使得 (1 ,..., p )' 的一些
分量为0。因而用 建立的回归方程 实现了变量选择。
*
y * j xj
j 1
p
若干值得注意的事项 关 于 变 量 选 择
可以证明,只要 (例如, n
n 适当选择
n
* j
n 在相当广泛的条件下有下列性质:
1 ); sup E | i | (对某个 2
B.
若 an
1 X n ' X n M 正定( n n 2
且
≥1 i
) 。
则
a.相合性: P( J n
n
1
an 0(n )
J n 有下列性质:
J 0 ) 1(n ) ;
b.渐近有效性: n 的最小二乘估计 X ( J n ) ( n ) ( J n )与 J 0 已知时 n 的最小二乘估计 X n ( J 0 ) ( n ) ( J 0 ) 有渐近相等的 均方误差:
若干值得注意的事项 关 于 变 量 选 择
lim E || X n ( J n ) ( n ) ( J n ) n ||2
n
lim E || X n ( J 0 )
n
(n)
( J 0 ) n || (# J 0 )
2
2
2 { } N ( 0 , ) 当 i 独立同分布且为
可看成数学的一个分支, 但与数学其他众多分支有很大的不同。
统计学的性质与特点 特
中立性
不肯定因果关系
点
社会经济统计
生物医学统计 工业应用统计 ...
应 用
统 计 学 的 发 展 脉 络
Page 6
YOUR LOGO
统计学的发展脉络 萌 芽 时 期
描述性统计占主导地位
《关于死亡公报的自然和政治观察》(J· Graunt, 1662) 寿命表
找出来?
( 2)
如何把
若干值得注意的事项 关 于 变 量 选 择
设有观测数据: x1 xi1, x2 xi 2 ,..., x p xip 时 即
y yi
yi xi ' i xi ' ( xi1 ,..., xip ), i 1,...,n,
y1 x1 ' 1 Yn ... , X n ... , ( n ) ... y x ' n n n
推荐:
蓬 勃 发 展 时 期 (1950~)
现代数学手册· 随机数学卷
陈希孺、郑忠国主编 华中科技大学出版社( 2000)
7. 多元统计分析 8. 贝叶斯统计 9. 稳健统计 10. 蒙特卡罗法 11. 现代统计计算方法 12. 随机过程
1. 概率论 2. 数理统计 3. 试验设计 4. 抽样调查 5. 质量管理 6. 线性模型
[2]韦博成 漫话信息时代的统计学 中国统计出版社( 2011) [3]陈家鼎等 数理统计学讲义(第二版) 高等教育出版社( 2006) [4]陈家鼎 郑忠国 概率与统计 北京大学出版社( 2007) [5]陈铁梅 定量考古学 北京大学出版社( 2005)
[6]王学仁 地质数据的多变量分析 科学出版社( 1982)
下, || Yn X n ||2的最小值点 叫做
~
当 t 较小时,Lasso估计 的许多分量为0,所建立的 回归方程不含有这些分量为0所对应的自变量。
~
的Lasso估计。
Lasso估计有许多较好性质,但后来发现在许多情况下, 所选出的自变量缺乏相合性。
若干值得注意的事项 关 于 变 量 选 择
8 n 50 时可用W检验;当 n 8 时可用EP检验。
若干值得注意的事项 关 于 假 设 检 验
对于比率p(成功率)的检验有国际标准IEC1123( 1991)
对于指数分布 的
F x 1 e
x
( x 0)
的检验有国际标准IEC61124( 2006)
若干值得注意的事项 关 于 试 验 设 计
时,R. Nishi (Anal. Stat.( 1984), 758- 765)最先给出了证明。 本人近期扩展到一般情形。 GIC准则看来很好,但有大问题: 当
p 较大时要求出GIC的最小值点很困难,甚至不可能。
n
实际工作中常用逐步回归法,计算简便,但找出的 ~ 有何优良性?至今未研究清楚。 自变量足标集 J
统计学的发展脉络 学 科 形 成 时 期
随机变量的统计 数据的类型 随机向量的统计(多元统计) 随机过程的统计(包括时间序列) 四位大家
(1900~1950)
K. Pearson( 1857~ 1936) R. A. Fisher( 1890~ 1962) J. Neyman( 1894~ 1981) A. Wald( 1902~ 1950)
若 干 值 得 注 意 的 事 项
Page 16
YOUR LOGO
源自文库
若干值得注意的事项 关 于 假 设 检 验
一类是显著性检验: 控制第一类错误概率不超过给定的值 ,对第二类 错误概率只要求尽量小。 另一类是控制两类错误概率大小的检验。 正态性检验
有新的国家标准GB/T4882——2001,
2
an GIC ( J ) ln Qn ( J ) (# J ) n
其中 #
J
是
J
中元素个数,
使GIC( J ) 达到最小值的
J 记为 J n 。
若干值得注意的事项 关 于 变 量 选 择
定理 设下列条件满足 A. 1 , 2 ,...,是独立列,E 0, E 2 2 且 i i
[7]现代数学手册· 随机数学卷(陈希孺、郑忠国主编)1-932 华中科技大学出版社( 2000) [8]张里千等:正交法与应用数学,科学出版社( 2009) [9]陈家鼎,生存分析与可靠性,北京大学出版社( 2005)
参考文献
[10]茆诗松,高等数理统计,高教出版社( 1998) [11]ToCai和X.Shen主编:High-Dimensional Data Analysis,
统计学的发展脉络 蓬 勃 发 展 时 期 (1950~)
统计学各分支都向纵深发展,除了建立 已有统计方法(如最大似然估计、最小二乘估计)
的理论基础和精细化之外,针对类别数据(定性数据)、 不完全数据提出了处理方法。特别是1980年以来, 高速计算机的使用对统计学的发展有重大影响。
统计学的发展脉络
B. N种水平组合中较优或最优的是哪些?
若干值得注意的事项 关 于 试 验 设 计
拉丁方设计 正交拉丁方设计 正交设计
日本利用正交设计提高产品质量,取得很大成绩。 我国以张里千( 1929-) 为代表在1970年代初最先认识到 不可把解决问题A与B混为一谈。
若以B为目标(工业试验常是这样),则在试验安排上 不必考虑因素间交互作用,用小的正交表多安排因素, 试验的次数少。
浅谈统计学的发展脉络
陈家鼎
Page 2
统计学的性质与特点 定 《中国大百科全书》
义
统计学: 研究怎样地收集、整理和分析数据, 以对所考察的问题做出推断或预测 直至为采取一定的决策和行动提供依据和建议。 《不列颠百科全书》 统计学: “收集和分析数据的科学与艺术。”
统计学的性质与特点 定
义
统计学是数学性质的科学,
未得到公认。
韦博成从引用率的角度列出下表 (数据来自Google的学术搜索(2011年1月18日))
统计学的发展脉络 蓬 勃 发 展 时 期 (1950~)
表1 引用率最高的几个统计学方向 方向 生存分析 EM算法 生存分析 引用率( 次) 作者 35252 22724 20022 E.Kaplan &P.Meier(1958) A.Demster等 (1977) D.R.Cox( 1972) P.Mccullagh( 1983, 1989) B.Efron( 1979)
要考察m个因素 F 对某个指标y的影响,因素 1 , F2 ,...,F m
Fj
有
s j 个水平要比较(s
j
2, j 1,...,m) ,
m j 1
所有可能的水平组合有 N
s j 种。
如何安排试验(即选取一部分水平组合做试验) 以回答下列问题: A. 哪个因素影响最大,哪个次之, 哪些因素的影响可以忽略?
广义线性模型 16945 自助法 16321
统计学的发展脉络 蓬 勃 发 展 时 期 (1950~)
看来,贝叶斯统计的日益兴盛是一大特点。 表二 贝叶斯统计计算的引用率 方向 引用率(次 ) 作者 W.Hastings( 1970)
MCMC方法 15017
MCMC方法 10706
S.Geman(1984)
推断性统计方法 最小二乘法 矩法 ...
(~1900)
统计学的发展脉络 萌 芽 时 期
统计思想上的重大进展: 数据是来自服从一定概率分布的总体。 统计学就是用数据去推断这个分布的未知方面。
(~1900)
正态分布( Gauss, 1809) Pearson分布族( K. Pearson, 1894)
若干值得注意的事项 关 于 变 量 选 择
这是普遍性问题,现以线性回归为例说明其 重要性和复杂性。 设
y
是因变量,
x1,...,x p 是自变量,
p
y i xi ,
i 1
(1)
E 0 其中 ( 1,..., p )' 未知, 是随机误差。
设
J 0 D( ) { j : 1 j p, j 0},
13. 时间序列分析 14. 随机分析 15. 排队论 16. 库存论 17. 马尔可夫决策过程 18. 可靠性与生存分析 19. 决策分析
统计学的发展脉络 蓬 勃 发 展 时 期 (1950~)
突破性进展 美国著名统计学家P.Huber提出的三项:
稳健统计、自助法( Bootstrap)、生存分析
2
分布( F. Helmet, 1876)
统计学的发展脉络 学 科 形 成 时 期 (1900~1950)
主要概念、方法、定理及分支形成。 收集数据 抽样调查( A. L. Bowley, 1906) 试验设计( R. A. Fisher, 1935) 点估计 估计 分析数据 假设检验 统计判决 置信区间 显著性检验 控制两类错误的检验
b. 适应的Lasso估计
1 ˆ ˆ ˆ w 设 ( 1,..., p ) 是 的最小二乘估计, j , ˆ |j | p 1 L( ) || Yn X n ||2 w j | j | ( 0) n j 1
使 L( ) 达到最小值的
*
叫做适应的Lasso估计。
令
则
Yn X n ( n )
(3)
若干值得注意的事项 关 于 变 量 选 择
有了数据Yn , X n ,如何给出 J 0 和 n
EYn 的优良估计?
——利用GIC准则可找到渐近的优良估计。 设
J { j1,..., jk } {1,2,..., p}( ji j2 ... jk ),
且
0 ),适应的Lasso估计
*
相合性: J n
*
* { j : 0} 满足P( J n J0 ) 1
* || n ( ) || 依概率有界, 收敛速度快:
但仍有大问题:对给定的
n, n
的最优或较优选择是什么?
总之,变量选择问题相当复杂。
参考文献
[1]陈希孺 数理统计学简史 湖南教育出版社( 2002)
若干值得注意的事项 关 于 变 量 选 a. 对于模型( 2) ,给定正数 t,在条件 p 择 | i | t
i 1
从1990年代以来出现了新的方法。最引人注意的是 Lasso方法和适应的Lasso估计。前者是R. Tibshirani ( JRSS, ser.B, 58( 1996), 267-288) 提出的, 后者是H. Zou( JASA, 101(2006), 1418-1429) 提出的。
X n ( J ) 是 X n的第 j1 列, ..., 第 jk 列组成的矩阵。
若干值得注意的事项 关 于 变 量 选 择
( J ) ( X n ( J )' X n ( J )) X n ( J )'Yn
(n) 1
Qn ( J ) || Yn X n ( J )
(n)
( J ) || (残差平方和)
* * * 当样本量较大时有很多 使得 (1 ,..., p )' 的一些
分量为0。因而用 建立的回归方程 实现了变量选择。
*
y * j xj
j 1
p
若干值得注意的事项 关 于 变 量 选 择
可以证明,只要 (例如, n
n 适当选择
n
* j
n 在相当广泛的条件下有下列性质:
1 ); sup E | i | (对某个 2
B.
若 an
1 X n ' X n M 正定( n n 2
且
≥1 i
) 。
则
a.相合性: P( J n
n
1
an 0(n )
J n 有下列性质:
J 0 ) 1(n ) ;
b.渐近有效性: n 的最小二乘估计 X ( J n ) ( n ) ( J n )与 J 0 已知时 n 的最小二乘估计 X n ( J 0 ) ( n ) ( J 0 ) 有渐近相等的 均方误差:
若干值得注意的事项 关 于 变 量 选 择
lim E || X n ( J n ) ( n ) ( J n ) n ||2
n
lim E || X n ( J 0 )
n
(n)
( J 0 ) n || (# J 0 )
2
2
2 { } N ( 0 , ) 当 i 独立同分布且为
可看成数学的一个分支, 但与数学其他众多分支有很大的不同。
统计学的性质与特点 特
中立性
不肯定因果关系
点
社会经济统计
生物医学统计 工业应用统计 ...
应 用
统 计 学 的 发 展 脉 络
Page 6
YOUR LOGO
统计学的发展脉络 萌 芽 时 期
描述性统计占主导地位
《关于死亡公报的自然和政治观察》(J· Graunt, 1662) 寿命表