(整理)数据分析总结

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

回归分析

1线性回归模型:

Y 为随机变量(可观测),受p-1个因素X1,X2,…X p-1的影响。随机误差ε的均值为0,方差δ2>0(即正态分布ε~N(0,δ2)),不可观测。

Y=Xβ+ε X为设计矩阵,且rank(X)=p;ε为误差项。

前提条件:ε的平方和尽量小:∑εi2=εTε=(Y-Xβ)T(Y-Xβ)偏导为0。

求得正规方程X T Xβ=X T Y

得到β的最小二乘估计值β^=(X T X)-1X T Y,易知E(β^)=β

拟合值Y^=Xβ^

残差向量e=Y-Y^=(I-H)Y

标准化残差(在0-1间取值)e i/

残差平方和e T e=εT(I-H) ε期望E(e T e)=δ2(n-p)

δ2的无偏估计δ^2= e T e/(n-p)

2线性回归方程的使用

2.1前提条件:

回归关系的显著性检验:

检验统计量F=MSR/MSE

F0≤Fα(p-1,n-p),接受H0;则拒绝H0,认为y与x线性相关。其中α为显著性

水平,可以取0.8.

若检验P值,则P≤0.0001,线性相关。

2.2剔除对y影响小的X i

由Cov(β^)==δ2(X T X)-1

得S(β^)=δ^2(X T X)-1

t=k=0,1,…,p-1

其中为S(β^)在主对角线上的第k个元素的平方和。

若|t0|≤t a/2(n-p),接受H0;否则拒绝,X i有交大影响。其中1-α为置信区间,一般取0.95.

2.3逐步回归法

用于一个个筛选自变量X i,直至得到所有对y有显著影响的X i。因为预报值的方差会随着自变量数目的增加而增大,且计算量大。

偏F检验统计量:F=A为现有自变量x集合

SSR(X k|A)=SSE(A)-SSE(A,X k) 为额外回归平方和,描述了引入一个X k到A中后,SSE

的相对减小量。

步骤:

1)先选取显著性水平αE(选取自变量),αD(剔除自变量)。(默认均为0.15)

2)假设每个X k自成一个A,分别计算它们的 k=1,2,…,P-1

找到最大的F,若F k1>FαE(1,n-1-1),(n后第一个1是A中元素个数)接受自

变量,对应X就是A中的第一个元素。

3)其余p-2个元素在现有A基础上计算)

找到最大值,若F k2>FαE(1,n-2-1),接受自变量。

判断是否剔除X k1:

)(即把X

k2放入A,看此时加入X k1时。F增大还是减小)。若≤FαD(1,n-2-1),则剔除X k1,否则保留。

4)接下来对其余p-3个元素计算,取最大值比较F k3>FαE(1,n-3-1),判

断是否接受X k3。

分别从A中取出X k1,X k2,计算F(2),判断是否剔除X k1,X k2.

5)软件会自动标准化,转化成P值,可以直接与α比较

主成分分析

1原理

变量间有一定的相关性,即信息有重叠。主成分之间线性无关,没有重叠。原变量重新进行正交分解,分解到各个主成分上。这些主成分就是新的变量,它们互不相关,便于单独

分析每个变量对y 的影响。

设线性组合:Y =l T X l=(l ij )p*p

其中Y 为p 个主成分组成的向量,两位p 个常数向量组成的矩阵,X 为p 个原始变量组成的向量。

Y 构成主成分的条件是:Var(Y i ) = 达到最大(该值表示了Y 反映的X 的信息量,

离散程度越大,说明Y 随X 变化越剧烈,说明越能反映X)

Cov(Y i , Y j ) = =0 (说明Y i , Y j 不相关) i ≠j

i=1,2,….,p

2

总体主成分求法

2.1 求标准化的l (即 =1)

已知Σ是X 的协方差矩阵。

求得其特征值为λ1≥λ2≥…λp ≥0,对应的单位正交特征向量为e 1 ,e 2 ,…,e p

可证明:Var(Y i ) = =λi

=λi

Cov(Y i , Y j ) = =0 则Y i = i=1,2,….,p 即l=e

2.2 求标准化变量的主成分

由于X 的量纲不同,各变量的分散程度差异可能很大,用∑求主成分会优先照顾方差大的变量,这时主成分Y 的贡献率和和其与各X i 的相关系数都会有偏差。所以先将原始变量标准化,使其在0~1之间。 步骤:

1) 令

i=1,2,…,p

其中μi=E(X i ), =Var(X i )

2) 此时X *的协方差矩阵便是X 的相关矩阵ρ=(ρij )p*p ,其中 ρij =E ( )=Cov(X i , X j )/ 3) =( X * 4) 此时

=p

2.3

评估主成分

2.3.1 主成分的协方差矩阵和总方差:

Cov(Y )=Cov(P T X )=P T ∑P =Diag(λ1,……,λp ) 其中P =( e 1 ,e 2 ,…,e p )

=

即主成分分析是把p 个原始变量X 1,X 2,……X p 的总方差分解成p 个不相关变量Y 1,Y 2,……Yp 的方差之和。 2.3.2 评估参数:

贡献率:λ

λ

描述了第k 个主成分提取的信息占总信息的份额。

累计贡献率: λ

λ

前m 个Y 的贡献率之和。

通常选择m

Y i,X j的相关系数:ρYi,Xj ==λ

它给出了主成分Y i与原

λ

始变量X j的关联性的度量。

3样本主成分求法

在实际问题中,∑(或ρ)未知,需要通过样本估计。

样本协方差矩阵:S=(s ij)p*p= 作为对∑的估计。

R= (r ij)p*p =作为对ρ的估计。

标准化的=(,,……,)T i=1,2,……,n

因子分析

1原理

1.1适用范围

因子分析是主成分分析的推广,是多元分析中降维的一种方法。它研究相关矩阵ρ或协方差矩阵∑的内部依赖关系。

主成分分析是探索性因子分析,而因子分析是验证性因子分析。首先要构建模型,先确定公共因子,可通过参数估计确定。

1.2因子分析模型:

多个变量综合成少数因子,用因子表达原始变量(这点与主成分刚好相反,主成分是用原始变量表达主成分)。

x=AF+ε

其中,x=(x1,x2,…,x p)T 为原始变量;

F=(F1,F2,…,F m)T为公共因子;

A为一个m行p列的矩阵,为载荷矩阵,其中元素为因子载荷;

ε为变量x的特殊因子。

1.3正交因子模型:

X-μ=AF+ε

相关文档
最新文档