多元统计分析考试 (2)

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

判断:

1对2对3对4对5错

6对应分析是否可降维(对)

7 数据的计量尺度:定类尺度,定序尺度,定距尺度,定比尺度

1.应用统计学中的数据可以不是数值。(×)

2.相关系数等于零,表明变量之间不存在任何关系。(√ )

3.双因素方差分析主要用于检验两个总体方差是否相等。(√ )

4.环比增长速度的连乘积等于相应时期的定基增长速度。(×)

5.线性回归分析中,可决系数R2是对回归模型拟合程度的评价。(√ )

6.加权平均数指数是加权综合指数的一种变形,它们具有相同的权数。(√ )

7.在假设检验中,给定的显著性水平α是在原假设为真的条件下,拒绝原假设的概率。(×)

8.在抽样调查中,允许误差也称极限误差,是抽样误差的最大值。(×)

9.若样本容量确定,则假设检验中的两类错误不能同时减少。(√ )

10.如果一组数据的众数大于中位数,且中位数又大于算术平均数,则这组数据的偏态系数小于0。(√ )

简答:

一、数据的清洗技术:

答案一:

(1)解决缺失值:均值替换法、个案剔除法、多重替换法、热卡填充法、回归替换法。

(2)错误值:偏差分析,识别不遵守分布或回归方程的值。

(3)重复记录:合半、清除

(4)不一致:可定义完整性约束用于检测不一致性,也可通过分析数据发现联系,使数据保持一致。

答案二:主要为下一步数据分析做进一步的准备,最终将数据清洗为满足分析需求的具体数据集。期间主要内容包括:

(1)数据集的预先分析:对数据进行必要的分析,如数据分组、排序、分布图、平均数、标准差描述等,以掌握数据的基本特点和基本情况,保证后续工作的有效性,也为确定应采用的统计检验方法提供依据

(2)相关变量缺失值的查补检查

(3)分析前相关的校正和转换工作.

(4)观测值的抽样筛选.

(5)其他数据清洗工作

二、如何处理数据缺失值:

答案一:1剔除数据,即删除数据。2替换方法,一般有三种:

均值替换法,即用其他个案中该变量观测值的平均数对缺失的数据进行替换,但这种方法会产生有偏估计,所以并不被推崇。

个别替换法,通常也被叫做回归替换法(regression imputation),在该个案的其他变量值都是通过回归估计得到的情况下,这种方法用缺失数据的条件期望值对它进行替换。这虽然是一个无偏估计,但是却倾向于低估标准差和其他未知性质的测量值,而且这一问题会随着缺失信息的增多而变得更加严重。

多重替代法,它从相似情况中或根据后来在可观测的数据上得到的缺省数据的分布情况给每个缺省数据赋予一个模拟值。结合这种方法,研究者可以比较容易地,在不舍弃任何数据的情况下对缺失数据的未知性质进行推断。

答案二:1.删除含有缺失值的个案

主要有简单删除法和权重法。简单删除法是对缺失值进行处理的最原始方法。它将存在缺失值的个案删除。如果数据缺失问题可以通过简单的删除小部分样本来达到目标,那么这个方法是最有效的。当缺失值的类型为非完全随机缺失的时候,可以通过对完整的数据加权来减小偏差。把数据不完全的个案标记后,将完整的数据个案赋予不同的权重,个案的权重可以通过logistic或probit回归求得。如果解释变量中存在对权重估计起决定行因素的变量,那么这种方法可以有效减小偏差。如果解释变量和权重并不相关,它并不能减小偏差。对于存在多个属性缺失的情况,就需要对不同属性的缺失组合赋不同的权重,这将大大增加计算的难度,降低预测的准确性,这时权重法并不理想。

2.可能值插补缺失值

它的思想来源是以最可能的值来插补缺失值比全部删除不完全样本所产生的信息丢失要少。在数据挖掘中,面对的通常是大型的数据库,它的属性有几十个甚至几百个,因为一个属性值的缺失而放弃大量的其他属性值,这种删除是对信息的极大浪费,所以产生了以可能值对缺失值进行插补的思想与方法。常用的有如下几种方法。

(1)均值插补。数据的属性分为定距型和非定距型。如果缺失值是定距型的,就以该属性存在值的平均值来插补缺失的值;如果缺失值是非定距型的,就根据统计学中的众数原理,用该属性的众数(即出现频率最高的值)来补齐缺失的值。

(2)利用同类均值插补。同均值插补的方法都属于单值插补,不同的是,它用层次聚类模型预测缺失变量的类型,再以该类型的均值插补。假设X=(X1,X2…Xp)为信息完全的变量,Y为存在缺失值的变量,那么首先对X或其子集行聚类,然后按缺失个案所属类来插补不同类的均值。如果在以后统计分析中还需以引入的解释变量和Y做分析,那么这种插补方法将在模型中引入自相关,给分析造成障碍。

(3)极大似然估计。在缺失类型为随机缺失的条件下,假设模型对于完整的样本是正确的,那么通过观测数据的边际分布可以对未知参数进行极大似然估计(Little and Rubin)。这种方法也被称为忽略缺失值的极大似然估计,对于极大似然的参数估计实际中常采用的计算方法是期望值最大化(Expectation Maximization,EM)。

(4)多重插补。多值插补的思想来源于贝叶斯估计,认为待插补的值是随机的,它的值来自于已观测到的值。具体实践上通常是估计出待插补的值,然后再加上不同的噪声,形成多组可选插补值。根据某种选择依据,选取最合适的插补值。

三、Logistic 回归模型

Logistic 模型:在逻辑回归中,可以直接预测观测量相对于某一事件的发生概率。包含

一个自变量的回归模型和多个自变量的回归模型公式: 其中: Z =0β+1β1X +…

p βp X (P 为自变量个数)。某一事件不发生的概率为Prob(no event)=1-Prob(event) 。因此最主要的是求0β,1β,…p β(常数和系数)。

数据要求:因变量应具有二分特点。自变量可以是分类变量和定距变量。如果自变量是分类变量应为二分变量或被重新编码为指示变量。指示变量有两种编码方式。

回归系数:几率和概率的区别。几率=发生的概率/不发生的概率。

根据回归系数表,可以写出回归模型公式中的Z 。然后根据回归模型公式Prob(event) 进行预测。

Logistic 回归分析的一般步骤:

1、选择自变量和因量变

2、将一部分样品用于估计LOGISTIC 函数,另一部分样品用于检验模型的判别精度

3、模型中假定自变量之间不存在高度相关,因变量发生概率的模型服从LOG 模型

4、估计模型参数、评定拟合程度

5、解决所得到的模型结果

6、通过保留样品来验证模型的判别精度。

一、变量的编码

1.变量的编码要易于识别

2.注意编码的等级关系

3.改变分类变量的编码,其分析的意义并不改变。

4.牢记编码 (1)使用变量数值标识(value labels ) (2)记录编码内容

二、哑变量的设置和引入

1.哑变量,又称指示变量或设计矩阵。

2.有利于检验等级变量各个等级间的变化是否相同,但主要适合于无序分类变量。

3.一个k 分类的分类变量,可以用k-1个哑变量来表示。

三、各个自变量的单因素分析

1.了解自变量与因变量的分布

2.检验是否符合建立模型的应用条件(偏离应用条件时,进行数据变换)

3.各个自变量两组间的比较(计数资料、计量资料)

4.双变量分析

四、变量的筛选

1.变量筛选的原则

专业上考虑

测量上考虑(共线性问题:计算相关矩阵,相关系数0.8-0.9,则选其一。缺失数据少、测量误差低的优先选择)

经验上考虑(双变量分析中有显著性的自变量(P ≤0.15)选择那些改变主效应的自变量)

2.变量筛选的可用方法

逐步logistic 回归:自动选择有显著性的自变量,不仅用于自变量的剔选,也用于交互作用项是否显著的判断。

前进法:逐个引入模型外的变量

后退法:放入所有变量,再逐个筛选

理论上看,前进法选择变量的经验公式缺乏总体概念,当用于因素分析时,建议用后退法。当变量间有完全相关性时,后退法无法使用,可用前进法。

相关文档
最新文档