2017人民大学多元统计附答案.doc
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
则服从大数定律:即对任意的
£>0,有公式三: 多元统计
1. 大数定律:切比雪夫大数定理,伯努利大数定理,辛钦大数定理(最常用) a )辛钦大数定律:设{⑷‘》1}为独立同分布的随机变量序列,若丐的数学期望存在,
2.
中心极限定理:从均值为u,方差为sigma 方的总体中任意抽取样本量为n 的样本,当 样本量充分大的时候,样本均值X-bar 服从均值为u,方差为n 分之sigma 方的正态分 布; 3.
格力文科定理:当n 相当大时经验分布函数是总体分布函数的一个良好近似 4.
变量值:从一次观察到另一次观察呈现差别或者发生变化的某种特征(变量) 5.
随机变量:随机试验结果数量化;变量按照随机规律所取的值? 6.
分布:统计学的核心概念 7.
随机变量的分布:随机变量的所有取值,以及其对应的概率的一揽子表示;包含两个意 思,第一,随机变量的每个取值都包含在内,第二,取值对应的概率都包含在内; 8. 随机变量的分布:
a ) 总体分布:? ?
b ) 样本分布:? ?
c ) 抽样分布:? ?
9. 参数:总体的某种特征,是我们所关心的感兴趣的,或者要研究的总体的某个或者某些 方
面的数量表现;
10. 总体:所有个体的集合称为总体,个体规模N
11. 样本:被抽中的个体称为样本,对应的规模是样本量n 12•总体均值
a ) 问题:凭什么用样本均值估计总体
b ) 回答:因为总体均值是变量,但不是随机变量,它由随机变量来确定,也就是有样
本均值会服从以总体均值为期望的分布(就是中心极限定理)
13. 为什么服从t 分布? ?
14. d 和alpha 和n 和N 的关系:公式见书上
15. 1-f : n 和N 的关系
16. 刀与s 的关系
a )问题:为什么不用小工,用s
b )回答:因为刀未知
17. 均方误和其估计的异同?
18. R"2相当于y-hat 和y 的相关系数?
19. P (AB )-P (A )*P (B )=距离? ?
20. Spearman 和pearson 相关系数的等价性?
21. 施密特变换和主成分变换的异同? ?
22. 随机抽样:抽取样本的时候,总体中每个个体都有同等机会选入样本中
23. 随机样本:从总体中随机抽样得到的样本;
24. 随机试验:?
25. 随机试验:
a )条件
i. 试验可以重复进行;
ii.试验的所有可能结果事先是知道的;
iii.每一次试验之前无法预知结果(这是随机的本质性质)
b)所有的试验结果用一个变量表示,每一种试验结果都对应一个变量值;
C)一个变量值只是一种试验结果的记号或代码;
26.“随机试验二随机抽样”的原因:由于变量值只有在抽样后的调查才能获得,所以显然
不能认为试验的所有可能结果已知,不能满足设计实验三个条件中的第二个;因此随机试验结果只能理解为样本(受查客体的集合),于是实验只能理解为随机抽样尤其是简单随机抽样;
27.简单随机抽样:就是一个典型的随机试验,N中抽取n,依不放回抽样方式一举从中抽取n
个个体构成一个样本,若将其看成实验,则完全满足随机试验的三个条件;其中,
“可重复”这个条件是在理想进行,所有条件环境均可严格控制;
28.随机试验之结论
a)变量值不是试验的直接结果,而是随机抽样的连带结果;正因此变量值才可以合理的被当作是随机实验结果。而所有实验结果才能可以用随机变量来概括反映;
b)变量值是随机变量,一定是因为变量值是从随机抽样调查中取得的;随机性仅仅来源于随机抽样;
29.实体与属性:
a)概念:
1. 实体:人们能清晰感知其边界范围的客观存在
ii. 属性:是实体的组成构建或者附在其上的性质,可以区分此实体与不同类的实体,也可以区分与同类的其他实体;
b)关系:
i.属性不能离开实体,不同实体的区分借助属性实现;
ii.多个属性组合在一起的组合体就是实体
iii. 描述实体的特征称为属性
c)意义:一个属性值对应一个个体,而属性值可以对个体分类或者作为个体的一种标识,所以随机试验结果可以用随机变量表示;??
30.概率
a)个体承载试验结果,不同个体对应相同试验结果;
b)存在两种概率解释:
i.个体是等概率的;
ii.变量值可能等概率可能不等概率;
c)变量值的概率二对应该变量值的个体数/总体全部个数
d)某一变量值的频率=对应该变量值的个体数/样本全部个体数
31.估计:根据取自总体的样本的统计量来推断或评价总体参数的过程
32.描述统计学:
a)分布+分布特征
b)样本分布+样本分布特征
c)总体分布+总体分布特征
33.推断统计学:
a)样本分布特征T总体分布特征
b)样本分布~>总体分布
c)样本分布特征T总体分布特征T总体分布
34.多元统计核心:降维,描述,推断
35.分布的表不方法:
a)文示法:以文字表述,简单
b)表示法:以表格陈列,较复杂
c)图示法:以图形展示,复杂
36.分布特征:
a)几何特征:?集中趋势,离散程度
b)代数特征:?数字特征?均值,方差等
37.抽样误差??
38.误:相对真值而言,总体分布特征而言
39.差:相对均值而言
40.联合分布
41.边缘分布
42.条件分布
a)条件
b)条件概率
c)条件期望
43.多元统计的框架:
a)自变量分类+因变量分类:列联分析、对应分析b)自变量分类+因变量数值:方差分析、联合分析c)自变量数值+因变量分类:判别分析,逻辑回归d)自变量数值+因变量数值:回归分析,结构方程44.列联分析:
a)公式
列联分析
p(AB) = p(A)p(8)
P产眄
P
A
\2丿
Az(:s(用- = 异 *
b)最终类类相关系数:
i.Pearson列联系数
ii.Cramer关联系数
iii.Cramer修正关联系数
45.方差分析:公式
a)分类对数值的相关关系:
A二组间差/ (组内差+组间差)
总平方和二组间平方和+组内平方和
b)公式: