多元统计
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多元统计分析:多个因素,有差异、在一起
变量、常量、随机变量;随机变量的取值程度随取值不同而改变;样本的是随机变量,总体的是常量
参数:未知的总体的指标
最小二乘法:一组样本的残差平方和最小,估计误差最小
平方(比绝对值)好:1、初等函数,求导没有间断点
随机干扰项ε/ui:误差项的随机变量,它反映了除自变量和因变量之间的线性关系之外的随机因素对因变量的影响,是不能由自变量和因变量之间的线性关系所解释的变异性。误差性是一个服从正态分布的随机变量,且相互独立,即N(0,方差)。
残差ei在数理统计中是指实际观察值与估计值(拟合值)之间的差。
优良估计量:估计优良准则评价参数估计优良性的标准.对于同一个总体参数B的估计,用不同的统计量(不同的统计方法)去估计它,所确定的估计量和置信区间是不同的.如何来衡量它们的优劣呢?由于统计量取值的随机性,所以不能以一次取值定其优劣,而必须从概率和统计的观点出发,建立一些衡量的准则,称这些准则为估计优良准则.常用以衡量点估计的优良准则有无偏性准则、一致性准则、有效性准则等
1、无偏性:估计量的平均值是被估计参数,估计量(β^)围绕参数(β)波动
无偏性是有效性的前提
2、有效性:V(β^)——估计量的方差最小,估计量围绕参数波动的幅度小
方差的作用:1、提现这组数据的分散程度,方差大则分散
3、样本容量越大越好
为什么样本方差是除以n-1:
自由度df:相互独立的变量个数
标准化的好处:1、同一量纲2、不再有水平和分散程度的不同(均值0方差1)
分析-描述统计-描述-将标准化得分另存为变量z
标准化回归:线性回归中-选项-把在等式中包含常量的√去掉
(随机)向量(x,y):把独立(随机)变量x、y放在一起形成一个整体
行向量*列向量=一个数列向量*行向量=一个矩阵
假设检验:假设的是总体,假设是具体的
总检验:F统计量
线性回归结果-方差分析表ANOVA
有n个样本,i个解释变量,最小二乘法有n-(i+1)个方程,i+1是因为除了参数还有截距项。失去i+1个自由度,残差平方和RSS的自由度是n-(i+1)。
为什么引入调整R²?:随着解释变量i的增加,自由度n-(i+1)减小,相互独立的信息变量个数减少,RSS(残差平方和)减小,无论解释变量是否真的与被解释变量相关,R²都会提高。引入调整后的R²,则可以度量“真正的相关性”,它不会随着无关解释变量的引入而显著提高。
置信区间估计:利用估计的回归方程,对于自变量x 的一个给定值x0 ,求出因变量y 的平均值的估计区间。
预测区间估计:利用估计的回归方程,对于自变量x 的一个给定值x0 ,求出因变量y 的一个个别值的估计区间。
改变主成分个数:因子分析-抽取-因子的固定数量因子分析:
因子旋转:因子分析-旋转-最大方差法