数理统计学的最新进展以及应用研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数理统计学的最新进展以及应用研究
邵丹阳 09271078
摘要:数理统计是伴随着概率论的发展而发展起来的一个数学分支,研究如何有效的由集、整理和分析受随机因素影响的数据,并对所考虑的问题作出推断或预测,为采取某种决策和行动提供依据或建议.随着社会管理的日趋复杂,人们试图对客观现象进行定量分析,研究统计计量和分析方法的数理统计学随之诞生。目前,随着统计方法在各个领域的应用,统计学已发展成为具有多个分支的大家族。随着社会经济的多元化、金融交易的多样化、国际市场间资本移动的迅猛增长、以及电子商务的出现,统计学及其应用将会继续发展和扩大。本文还将介绍小域估计方法。小域估计由于落入小域的目标量很少甚至为零,而利用传统的直接估计方法无法得到小域的目标变量的有效估计量。
关键词:数理统计、统计计量、定量分析、小域估计、
1、数理统计学的定义
数理统计学是研究有效地运用数据收集与数据处理、多种模型与技术分析、社会调查与统计分析等,对科技前沿和国民经济重大问题和复杂问题,以及社会和政府中的大量问题,如何对数据进行推理,以便对问题进行推断或预测,从而对决策和行动提供依据和建议的应用广泛的基础性学科。
用数理统计方法去解决一个实际问题时,一般有如下几个步骤:建立数学模型,收集整理数据,进行统计推断、预测和决策。这些环节不能截然分开,也不一定按上述次序,有时是互相交错的。
笼统地说,数理统计学的理论和方法,与人类活动的各个领域在不同程度上都有关联。因为各个领域内的活动,都得在不同的程度上与数据打交道。都有如何收集和分析数据的问题,因此也就有数理统计学用武之地。可以举几个例子来说明这一点,如在工业中生产一种产品,首先有设计的问题,包括配方和工艺条件的选定,这要通过从大量可能的条件组合中,通过分析试验结果来选定,可能的条件组合很多,选择哪一部分去做试验是一个很有讲究的问题,在数理统计学
中有一个专门分支叫“试验设计”,就是研究怎样在尽可能少的试验次数之下,达到尽可能高效率的分析结果;其次,在生产过程中,由于原材料,设备调整及工艺参数等条件可能的变化,而造成生产条件不正常并导致出现废品,在统计学中有一门“工序控制”的学问,通过在生产过程中随时收集数据并用统计方法进行处理,可以监测出不正常情况的出现以便随时加以纠正,避免出大的问题;然后,大批量的产品生产出来后,还有一个通过抽样检验以检验其质量是否达到要求,是否可以出厂或为买方所接受的问题,处理这个问题也要使用数理统计方法,在我国现行的国家标准中有一些就与这个问题有关。
2、数理统计学研究的最新进展
数理统计学是随着人类社会的发展和社会管理的需要发展起来的。1940年以后,数理统计的学派开始多元化。数理统计学也得以迅速发展。50年代极值理论的研究有了很大的进展,通常是选取一年中某时期或某领域的最大值进行研究,将取得的极值数据按照三种极值分布模式拟合,推测其参数。但极值数据适合于何种形式的极值分布事先很难确定,因此在1950年以英国的统计学者为主展开了以一种形式表现三种类型极值分布的一般极值分布的数据解析研究。60年代开始了2变量的极值分布研究以及对具有从属性概率过程的极值统计量的渐进分布研究。”目前,随着统计方法在各个领域的应用,统计学已发展成为具有多个分支的大家族。随着社会经济的多元化、金融交易的多样化、国际市场间资本移动的迅猛增长、以及电子商务的出现,统计学及其应用将会继续发展和扩大。
2.1 数理统计研究方面的最新成果
非参数和半参数回归模型主要研究了生存分析和经济计量学中的非参数和半参数回归模型。议一种估计状态价格密度和金融衍生产品定价的新的半参数技术被提出,这种方法建立在将非参数方法引入估计标准化状态变量的状态价格分布的物理模型基础上,被称为定价公式中的自动误差修正。实证研究显示,与其他定价模型相比,该方法在预测和避险能力方面表现突出。使用链接函数估计非参数可加回归模型的可加分量考虑了均值回归和分位数回归。研究表明,如果可加成份和链接函数是二阶可微的,那么可加成份可以使用概率论中的一维非参数点
态收敛速度进行估计,且每一个可加成份的估计都是oracle有效的,不存在维数灾难问题。还表明在均值回归情况下,对于链接函数未知的情况,不存在渐近惩罚。在简单的独立同分布变量情形下,多变量密度估计的非参数和半参数估计方法值得提倡,并在某些情况下在尾部使用误差消除和方差减少技术对它们进行改进,从而变换核密度估计方法被扩展到多变量情形,并与半参数方法结合起来。使用基于随机森林的自我训练的半监督学习:自我训练是一种用于实施半监督学习的迭代程序。在每一次迭代中,用基础分类器将数据根据对分类标签所做的训练进行分类。每一点的权数是这些预测出来的分类标签信度测算的比例。由于使用随机森林可以得到比许多其他流行分类器更精确的分类概率估计,因此建议使用随机森林作为基础分类器。
贝叶斯推断的先验描述几乎总是不完备的。常用的方法是用公式表示一个与能得到的先验信息一致的、有方便函数形式的先验分布,如共轭先验分布。但这种先验表示可能显示出较差的稳健性,因此有必要采用先验的更稳健形式。Sweeting Trevor给出了已知部分先验信息情形下的稳健预期推断。研究集中于讨论以预测作为统计分析主要目标的情形,考虑了一个或更多未来观测的预测分布的先验稳健性,分析建立在由基本的对数得分规则产生的预测后悔值的相对熵指标基础上,从一组与给定先验信息一致的先验估计中选择最小化最大渐近后悔值的先验估计。这一方法的优势在于,无论仅仅考虑一个未来观测或许多未来观测的预测分布,都将得到相同的最小最大先验估计,报告了许多正态基础上模型的结果,包括一个正态层次模型,并说明了如何使用仿真计算方法得到最小最大先验估计。尽管没有考虑含糊先验信息,但是注意到最小最大先验估计可以从所有的连续非退化先验估计中推导出来。
2.2 经济社会统计和官方统计的最新成果
统计机构程序和产品的质量是欧洲统计实施规范的核心。各国国家统计机构和欧盟统计局根据规范原则所作的自我评价得出了比较满意的结果。要全面完善这一自我规范工具,还将面I临许多挑战。PeterHackl建议通过标准化的程序和工具,降低成本,提高国家统计局的统计质量。为实现提供高质量统计产品和信息这一目标,奥地利国家统计局将其战略管理建立在全面质量管理(TQM)原则基础上。全面质量管理的概念覆盖了整个机构的所有质量方面,除产品质量外,