《现代统计分析方法及应用》试题及答案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
学号:20135035028 姓名:杨栋珂班级:2013级统计班
一、简要概述统计分析方法的步骤及流程。
答:1.统计分析方法的步骤:
(1)根据实际问题提炼具体问题,然后确定欲达目标;
(2)根据定性理论设置指标变量;
(3)收集整理统计数据;
(4)根据目标和数据选择统计方法,构造理论模型;
(5)进行统计计算,估计模型参数;
(6)进行统计检验,修改;
(7)统计模型的具体应用。
2.统计分析方法的流程:
二、试述P 值的意义。
答:(1)人们在阅读一些专业文献,尤其是化学实验、医学研究报告、社会调查研究报告时,通常会见到一个被称为P 值的量作为他们研究结果的一部分。国际通用的几种统计软件如SPSS 、SAS 、TSP 等在某种计算的结果中也都有一个P 值。P 值实际上是一个与统计假设检验相关联的概率。
(2)P 值就是在零假设成立的情况下,检验统计量的取值等于或超过所观察到的值的概率,从而P 值即为否定的最低显著性水平。
(3)P 值的统计学意义是结果真实程度(能够代表总体)的一种估计方法。P 值为结果可信程度的一个递减指标,P 值越大,我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标。P 值是将观察结果认为有效即具有总体代表性的犯错概率。在许多研究领域,0.05的P 值通常被认为是可接受错误的边界水平,P 值的结果小于等于0.05被认为是统计学意义的边界线。但是这种显著性水平还包含了相当高的犯错可能性。
三、简述多项分布与二项分布的联系与区别。
答:1.二项分布即重复n 次独立的伯努利试验,这一系列试验被称为n 重伯努利实验。当试验次数为1时,二项分布服从0-1分布。
2.多项分布是二项分布的推广,把二项分布公式推广至多种状态,就得到了多项分布,多项分布可以看成是多项实验得到的分布。
3.多项实验有如下性质:
(1)多项实验由n 个相同的试验所组成。
(2)某个试验的结果落在某一特定组,比如说组i 中的概率为p i (i =1,2,…k )且在试验之间保持不变,且有∑p i =1k i=1,且试验是独立的。
(3)试验者关心n 1,n 2,…,n k ,这里n i (i =1,2,…k )等于试验结果落在组i 中的数目。注意
n 1+n 2+⋯+n k =n
在多项实验中,当k=2时,就得到二项试验。
四、写出多元线性回归模型的矩阵表示形式,并给出多元线性回归模型的基本
假定。
答:1.多元回归模型的矩阵表示:
对于一个实际问题,如果我们获得n组观测数据(x i1,x i2,…,x ip;y i)i=
1,2,…,n则多元线性回归模型式可表示为:
{y1=β
+β
1
x11+β
2
x12+⋯+β
p
x1p+ε1
y2=β
+β
1
x21+β
2
x22+⋯+β
p
x2p+ε1
……
y n=β
+β
1
x n1+β
2
x n2+⋯+β
p
x np+ε1
写成矩阵形式为:
y=Xβ+ε其中,
y=(y1
y2
…
y n
) X=(
1 X11 (1)
1 X21 (2)
⋮ ⋮ ⋮
1 X n1… X np
)
β=
(
β
β
1
⋮
β
p)
ε=(
ε1
ε2
⋮
εn
)
2.多元线性回归模型的基本假定:
(1)解释变量x1,x2,…,x p是确定性变量,不是随机变量,且要求rk(X)= p+1 (2)随机误差项具有0均值和等方差,即 {E(εi)=0, i=1,2,…,n cov(εi,εj)={σ 2,i=j 0 ,i≠j (i,j=1,2,…,n) 这个假定常称为Gauss−Markov 条件。E(εi)=0,即假设观测值没有系统误差,随机误差εi的平均值为零。随机误差项εi的协方差假定表明随机误差项在不同的样本点之间是不相关的(在正态假定下即为独立的),不存在序列相关,并且有相同的精度。 (3)正态分布的假定条件为: {εi~N(0,σ2),i=1,2,…,n ε1,ε2,…,εn相互独立 对于多元线性回归的矩阵形式式便可表示为: ε~N(O,σ2I n) 有上述假定和多元正态分布的性质可知,随机向量y遵从n维正态分布,回归模型式的期望向量 E(y)=Xβ var(y)=σ2I n 因此, y~N(Xβ,σ2I n) 五、数据标准化在回归分析中的意义是什么? 答:(1)用多元线性回归方程描述某种现象时,由于自变量X1,X2,…,X P 所用的单位大都不相同,数据的大小差异往往也很大,这就不利于放在同 一标准上进行比较。这时候在中心化的基础之上,可进一步给出变量也就 是数据的标准化。 (2)为了消除量纲不同和数量级的差异所带来的影响,就需要将样本数据标准化处理,然后用最小二乘法估计未知参数,求得标准化回归系数。