统计学课程设计
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、问题背景
参数估计是在已知系统模型结构时,用系统的输入和输出数据计算系统模型参数的过程。18世纪末德国数学家C.F.高斯首先提出参数估计的方法,他用最小二乘法计算天体运行的轨道。20世纪60年代,随着电子计算机的普及,参数估计有了飞速的发展。参数估计有多种方法,有最小二乘法、极大似然法、极大验后法、最小风险法和极小化极大熵法等。
基本介绍:参数估计(parameter estimation)是根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。它是统计推断的一种基本形式,是数理统计学的一个重要分支,分为点估计和区间估计两部分。
标准特点:(1)无偏性(2)一致性(3)有效性(4)充分性
方法:矩估计法用样本矩估计总体矩,如用样本均值估计总体均值。
最小二乘法为了选出使得模型输出与系统输出yt尽可能接近的数估计值,可用模型与系统输出的误差的平方和来度量接近程度。使误差平方和最小的参数值即为所求的估计值。
极大似然法选择参数θ,使已知数据Y在某种意义下最可能出现。某种意义是指似然函数P(Y│θ)最大,这里P(Y│θ)是数据Y的概率分布函数。与最小二乘法不同的是,极大似然法需要已知这个概率分布函数P(Y│θ)。在实践中这是困难的,一般可假设P (Y│θ)是正态分布函数,这时极大似然估计与最小二乘估计相同。
性质:当估计值的数学期望等于参数真值时,参数估计就是无偏估计。当估计值是数据的线性函数时,参数估计就是线性估计。当估计值的均方差最小时,参数估计为一致最小均方误差估计。若线性估计又是一致最小均方误差估计,则称为最优线性无偏估计。如果无偏估计值的方差达到克拉默-尧不等式的下界,则称为有效估计值。若,则称为一致性估计值。在一定条件下,最小二乘估计是最优线性无偏估计,它的估计值是有效估计,而且是一致性估计。极大似然估计在一定条件下渐近有效,而且是一致的。
点估计:点估计是依据样本估计总体分布中所含的未知参数或未知参数的函数。通常它们是总体的某个特征值,如数学期望、方差和相关系数等。点估计问题就是要构造一个只依赖于样本的量,作为未知参数或未知参数的函数的估计值。例如,设一批产品的废品率为θ。为估计θ,从这批产品中随机地抽出n个作检查,以X记其中的废品个数,用X/n估计θ,这就是一个点估计。构造点估计常用的方法是:①矩估计法。用样本矩估计总体矩,如用样本均值估计总体均值。②最大似然估计法。于1912年由英国统计学家R.A.费希尔提出,利用样本分布密度构造似然函数来求出参数的最大似然估计。③最小二乘法。主要用于线性统计模型中的参数估计问题。④贝叶斯估计法。基于贝叶斯学派(见贝叶斯统计)的观点而提出的估计法。可以用来估计未知参数的估计
量很多,于是产生了怎样选择一个优良估计量的问题。首先必须对优良性定出准则,这种准则是不唯一的,可以根据实际问题和理论研究的方便进行选择。优良性准则有两大类:一类是小样本准则,即在样本大小固定时的优良性准则;另一类是大样本准则,即在样本大小趋于无穷时的优良性准则。最重要的小样本优良性准则是无偏性及与此相关的一致最小方差无偏估计,其次有容许性准则,最小化最大准则,最优同变准则等。大样本优良性准则有相合性、最优渐近正态估计和渐近有效估计等。
区间估计:区间估计是依据抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,作为总体分布的未知参数或参数的函数的真值所在范围的估计。例如人们常说的有百分之多少的把握保证某值在某个范围内,即是区间估计的最简单的应用。1934年统计学家J.奈曼创立了一种严格的区间估计理论。求置信区间常用的三种方法:①利用已知的抽样分布。②利用区间估计与假设检验的联系。③利用大样本理论。
方差系数:反映标志变动程度的相对指标。总体标准差系数的计算公式为Vσ= σ/ x 式中:Vσ为标准差系数;σ为标准差;x 为平均数。当以样本标准差系数(称变异系数/离散系数)估计总体标准差系数时,VS= 式中:VS为变异系数;S为样本标准差。对于不同水平的总体不宜直接用标准差指标进行对比,标准差系数能更好的反映不同水平总体的标志变动度。
标准差变动系数为标志变异系数的一种。标志变异系数指用标志变异指标与其相应的平均指标对比,来反应总体各单位标志值之间离散程度的相对指标,一般用v表示。标志变异指标有全距、平均差和标准差,相对应的,便有全距系数、平均差系数和标准差系数3种。计算方法为:标志变异系数=标志变异值/相对应的平均值标准差系数是将标准差与相应的平均数对比的结果。标准差和其他变异指标一样,是反映标志变动度得绝对指标。它的大小,不仅取决于标准值的离差程度,还决定于数列平均水平的高低。因而对于具有不同水平的数列或总体,就不宜直接用标准差来比较其标志变动度的大小,而需要将标准差与其相应的平均数对比,计算标准差系数,即采用相对数才能进行比较。
二、建立模型
(一)数据取得:
①参数的区间估计
如果把这批出厂钢筋的全部作为总体,根据抽样数据预测,如果对这批钢筋进行普查,这批钢筋总体的"直径"、
"抗拉强度"和"屈服点"各自的平均值μ1,μ2,μ3的置信系数1-α=0.99,0.95,
0.90介于哪段区间?
②不同的掺料(A、B)对钢筋的"直径"大小上是否不同?在"抗拉强度"上是否不同?在"屈服点"上是否不同?
(二)方法选择:
○1本体总体方差未知,样本的容量为50>30,即为大样本,可用正态分布近似地作为t分布,因此无论方差是否可知,在实际中仅当大样本时才应用t分布。根据中心极限定理,只要抽样的样本足够大,抽样分布就会服从正态分布。因此在方差未知且为大样本下,仿照小样本下的区间估计,同样可采用标准正态分布代替t分布的总体均值µ的区间估计:
采用标准正态分布替换t分布后还有另一个好处,替换后将可以利用CNFIDENCE函数来求总体均值的置信区间。
○2由于A、B掺料的均值和标准差都不相同,其都具为含有量纲的值,因此会受到计量单位不同或者改变而变得缺乏可比性,而方差系数则是从相对的角度,通过比值来