同济大学多元统计学复习总概要

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《多元统计》复习概要

1 考试范围

本次考试共分作9个考点,其中有4个考点:抽样分布、方差分析、卡方检验以及回归分析是老师课件上的内容,多元正态分布、均值向量、协方差矩阵、聚类分析、主成分分析以及因子分析5个考点均为书本上的内容。看上去内容很多,实质上除了最后两个考点计算涉及到矩阵和行列式的运算外,其他的都基本只是将数值代入公式进行计算,掌握其原理就行了。

2 题型:

A卷:1道简答题,7道计算题

B卷:3道简答题,5道计算题

根据本校生透露,同济考试一般来说都采用A卷

3 预备知识

数理统计:

(1)假设检验:z检验、t检验都可以针对均值的检验,卡方(χ2)检验是针对方差的检验,z检验是针对样本比例的检验。

(2)点估计以及区间估计:与参数的假设检验是一个问题的两个方面。

线性代数:

(1)矩阵的基本运算法则

(2)矩阵的相关性质,如(正交矩阵、对称矩阵、逆矩阵、相似矩阵等性质)

(3)行列式的基本运算法则及基本变换

(4)齐次方程的求解方法

4 考试内容:

1、抽样分布

a)

比例的区间估计、精度、样本容量的确定

说明:1)比例的区间估计。这是本科学的数理统计的内容,有时间的同学可以对照任一本数理统计的书中“参数检验”章节进行学习,区间估计与单总体的参数检验其实是一个问题的两个方面,前者是以一定的把握(如95%)估计理想的总体参数(未知)存在于以我们所得的样本参数(如平均值、方差、比例)什么样的允许误差范围内;后者则是已知理想的总体参数,以一定的把握检验所得的样本参数是否在此把握对应的误差范围内。

2)精度。即d ,估计区间的误差大小

3)样本容量。即n ,即需要抽样的个数,越大越能达到精度的要求。 公式:n p p Z d /)1(2/-=α 其中,Z 为标准正态分布的分位点,p 为样本比例,n 为样本容量,d 为误差大小

例题:“抽样分布和参数估计”课件p60~61页、p70 2、多元正态分布

a )数字特征、性质

b )马氏距离、欧氏距离

c )均值向量和协方差阵的估计

说明:a)因为随机抽样的样本是随机的,只能由不同的统计数字表示,所以我们可用统计的参数来代表所有的统计样本,称作数字特征。一般来说,有三个参数最重要,平均值、方差以及样本比例。从概率论的理想角度来说,对应分别就是均值、方差、总体比例。样本向量指的是有许多个变量的样本,于是就成为了向量。对应这个向量X ,于是它的数字特征也成为了向量,分别对应为均值向量、协方差矩阵(无论及样本比例向量了)。性质是不必死记的,考试也不会直接考,但可通过概率论的基础知识类

比得出(参看书本P45)。

b)欧氏距离就是n维空间里的距离,没有考虑到统计样本的概率分布情况,马氏距离相当于是空间距离与概率单位距离的比值。不理解不要紧,直接代入公式计算就行了。但在这里还要记清楚二元正态方差的逆矩阵表达式以及矩阵的相关运算。

c)对应一元统计的参数估计,对于均值向量用平均值的矩阵估计,对于协方差均值则用离差阵估计,不过貌似都不考

公式:马氏距离 p9;二正态分布的协方差逆矩阵p11

例题:课本p63

3、均值向量和协方差阵的检验

说明:其实原理与一元参数检验的方法是一致的,只是所用到的检验函数不一样(如t检验变成了T检验)。但考试应该只考p26的均值检验步骤。

4、方差分析 1

a)方差分析的目的、原理

b)单因素方差分析表

c)双因素方差分析表

说明:a)本章节十分重要,是对那些具有多种影响水平的因素对实际试验的影响,简而言之,前面的章节着眼与对单个正态总体的数字特征的研究;而本章节则涉及到因变量以及统计变量(即具有不同水平的因素)之间的关系,确定因素变量对因变量的影响显著性。但是,方差分析并不能得出因变量与自变量的具体线性关系,只能基于对统计数据总偏差平方和的分解而进行方差分析,进而确定其对试验影响的显著性。而回归分析则补充了单纯的方差分析所带来的缺陷,能够得出具体的回归方程。因此,有些教材(概率论与数理统计,刘次华,高等教育出版社)将方差分析与回归分析合在一起作为一个章节。

b)单因素分析是指仅对一种影响因素的影响显著性进行分析,目标是为了清楚到底试验的总体偏差是由于不同水平效应差异(组间平均和)引起的还是由随机误差(组内平均和)引起的,于是我们将两者相除得出F值,看F值是否能通过F检验,

如果能则说明该因素对试验影响十分显著。

c)双因素分析与单因素分析的原理是一样的,只是多了一个因素,公式上有所调整。而考虑到因素与因素之间的交互作用的双因素分析是我们的考试内容。的确,在这个分析里,因素与因素之间的交互作用是最值得我们注意的地方,但是课件上已经没有将这种交互作用的量化公式给出,证明这题的计算过程在考试中是不必考的。对统计学有兴趣的同学可以随便借一本统计学的教材看交互作用效应差异是如何用统计数据表示的(统计学,贾俊平,清华大学出版社,p270)但是,我们起码应该将方差分析表中各个字母代表的含义记住,分别是a、b、n;以及记住自由度和F值的计算公式。

公式或表格:

其中,a为A因素的样本的影响水平,b为B因素的样本的影响水平,n为每个交互作用的试验结果的样本容量

例题:“方差分析”课件:p35~38

5、回归分析 1

a)回归分析的主要内容和分析步骤

b)一元部分:β0,β1

c)回归方程的显著性检验、方差分析表

d)预测区间的近似计算、精度控制、回归方程的标准误差

e)控制:以案例1为例。

f)曲线回归的分析步骤、线性化

说明:回归分析是统计学里三大分析之首(主成分分析、判别分析),因为既简单又实用。过程和原理我就不必多说了,因为大家都学了这么久了。β0,β1是不必我们手算的。只是增加了方程的检验、预测和控制,也是考试的重点所在。

c)方程的显著性检验其实就是上一章单因素分析的一个特例,其中参数的个数就是因素的水平个数。此时,我们可以注意到,对于一元回归分析:方差分析表中对应2(对应两个参数β0,β1);对于多元回归分析,1,p为解释变量的个数。同样地,我们需要知道方差分析表的各项指标需要我们知道是怎么得来的。

d)方程的预测区间估计比样本的区间估计要来的复杂,有比较多繁琐的证明,所以同学们只要记住公式就行了。在运用公式的时候,记得所查t函数的自由度为2,又因为我们所要做的双边区间估计(即±d),所以用到对应的分位点为α/2.这在我们查表时是需要注意到的。至于,即我们所说的残差平方和,是很容易通过统计数据计算出来的(见“一元回归”课件p21)

e)预测与控制是回归分析里的同一个问题的两个方面。前者是已知解释变量求因变量的区间;后者是预设了因变量的区间反求解释变量的控制区间。控制的计算方法是建立在区间预测的基础上的(此时假定每一点的区间估计值都是常量d),然后将预设因变量y代入控制的不等式来求x。我们需要注意的是分位点选取问题以及不等式的建立问题,当双侧控制需要用Z检验的1/2分位点,当单侧控制是用单侧分位点;建立控制不等式时,y的可能最小值()应大于控制值下界;最大值()应小于控制值上界。

相关文档
最新文档