社会统计学复习资料
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《社会统计学》复习资料
一、概念辨析(3×8') 1.参数估计与假设检验
参数估计是通过样本对总体的未知参数进行估计,假设检验指通过样本对总体的某种假设进行检验。参数估计是先看样本的情况,再看总体的情况。假设检验是先假设总体的情况,再以一个随机样本的统计值来检验这个假设是否正确。换言之,要先构思总体情况,才进行抽样和分析样本的资料。 2.点估计与区间估计
点估计指根据样本资料以一个最适当的样本统计值来代表总体的参数值,简单明确,但不能说明估计结果的抽样误差和把握程度;区间估计指以两个数值之间的间距来估计参数值。点估计是区间估计的基础。 3.置信度和置信度水平
置信度又称置信概率或置信系数,表示用置信区间估计的可靠性,即置信区间内包含参
数Q 的概率。置信度水平表示用置信区间估计不可靠的概率。置信度与置信度水平之和为1。
4.虚无假设与研究假设
虚无假设0H 又称原假设、零假设。是一种无差别假设,是一种已有的,具有稳定性的经验看法,没有充分根据,是不会被轻易否定的。研究假设1H 又称备择假设,是研究者所需证实的假设。否定0H 后可以认为1H 是对的。 5.甲种误差与乙种误差
甲种误差又称第一类错误,是指0H 为真,但小概率事件发生了,拒绝了0H ,即把真的当成假的,它是在拒绝原假设时出现的错误。犯甲种误差的概率是显著性水平α。乙种误差即纳伪的错误,又称第二类错误,是指0H 为假,但小概率事件没有发生,接受即把假的当成真的,它是在接受原假设时出现的错误。犯乙种误差的概率为β,β的值随着真值μ与原假设中0μ的偏离程度而变化,0μμμ-=∆越小,β的数值就越大。
α大β就小,α小β就大。
6.独立样本和配对样本
独立样本指从二个总体中,分别独立地各抽取一个随机样本进行比较和研究。配对样本指它只有一个样本,但样本中每个个体要先后观测两次,这样所有个体先观测的值看作是来自第一个总体的样本值,所有个体后观测的值,看作是来自另一个个体的样本值,以此来比较两总体之间的不同。 二、单项选择(10×1.5') 三、多项选择(5×2') 四、判断题(10')
五、计算题(41') 1.标准差与四分位差 2. 区间估计 3.假设检验
主要知识点归纳
一、四种测量尺度
二、单变量描述 1. 定类层次
⑴次数:每一值原始资料出现次数。 ⑵比例:N f P =
⑶比率:比例的百分数。)50(≥n ⑷对比值:两数目A 、B 的对比值。 ⑸条形图、圆形图。 ⑹众值:次数最多之值。 ⑺离异比率:N
f N V m 0
-=
(0m f 为众值次数) ⑻统计表要求:①表要编号;②表名称;③上下粗线条;④注明资料来源。 2. 定序层次
⑴累加次数:把次数逐级累加,分为向上累加(↑cf )和向下累加(↓cf ) ⑵累加百分率:将各级百分率数值逐渐相加。 ⑶中位值:在一个序列的中央位置之值。
分组资料:f
W cf N L Md )2(-+= (L 为中位值组的真实下限,f 为中位值组频数,cf 为低于中位值组真实下限之累加次数,W 为中位值组组距,N 为全部个案数目) ⑷四分位差
①原资料: 1Q 位置41+=
n ;3Q 位置4
)
1(3+=n ;13Q Q Q -=
②分组资料:1Q 位置4n =
;3Q 位置4
3n =; 111114w f cf n L Q ⎪⎪⎭⎪⎪⎬⎫⎪⎪⎩⎪⎪⎨⎧-+=;3333
343w f cf n L Q ⎪⎪⎭
⎪
⎪⎬⎫⎪⎪⎩⎪⎪⎨⎧-+= 注:1L 、3L 为1Q 、3Q 组真实下限;1f 、3f 为1Q 、3Q 组次数;1cf 、3cf 为低于1Q 、
3Q 组累加次数;1w 、3w 为1Q 、3Q 组距。
3. 定距层次
⑴间距:上、下限之差。 ⑵组距:真实上、下限之差。
⑶直方图:又称矩形图,以一个矩形的面积表示每组数值的次数或百分率的多少。 ⑷均值:两种情况下不用均值:①开放间距;②存在极端个案。 ⑸极差:最大值与最小值之差。
⑹平均差:各记分数偏离均值的绝对差的算术平均数。N x
x D A ∑-=.
⑺标准差
①未分组资料:∑∑∑-=
-=
222
2
)(1x x N N
x N
x
S (f 为次数,x 为均值)
②分组资料:∑∑∑-=
-=22
2
2)(1m m m
fx fx N N
x N
fx
S (m x 为每组的组中点,f
为次数)
4. 正态曲线
⑴特点:①中间高,两边低;②对称轴为x x =;③以横轴为渐近线。 ⑵标准正态分布的均值是0,标准差是1。
⑶标准分:以均值为基点,以标准差为度量单位的数值。x x Z )(-= ⑷任意两点1Z 、2Z 之间面积为)(12Z Z -ϕ 三、双变量测量
1. 消减误差比例(PRE )
⑴定义:用一种现象)(x 来解释另一种现象)(y 时,减少百分之几的误差。
⑵121E E E PRE -=(1E 表示在不知道x 的情况下,预测y 值所产生的全部误差;2
E 表示在知道x 的情况下,根据x 的每个值来预测y 值时产生的误差)
⑶02=E 时,1=PRE ,x 与y 全相关;21E E =,0=PRE ,x 与y 无相关。 2. 定类变项
⑴ϕ系数:))()()((d b c a d c b a bc
ad ++++-=
ϕ []1,1-∈ϕ
⑵Q 系数: bc
ad bc
ad Q +-=
[]1,1-∈Q
⑶Lambda 相关测量法
)
(2)
(y x y x y
x
M M n M M m m +-+-+=
∑∑λ(对称); y
y
y
y
M n M m --=
∑λ(不对称)
注:x M 、y M 为变项x 、y 的众值次数,x m 、y m 分别为y 、x 变项每个值下x 、y 的众值次数。λ、∈y λ[0,1]
⑷y tau -相关测量法(适用于不对称关系)
∑
-=n
F F n E y
y )(1;∑-=
x
x F
f f F E )(2;112
E E E y tau -=-∈[0,1] f 为某条件次数,x
F 、y F 分别为x 、y 变项的某个边缘次数。
3. 定序变项
⑴Gamma 系数(适用于对称关系,不考虑同分对) d
s d
s N N N N G +-=
∈[-1,1] (x N 为同序对数,y N 为异序对数)
⑵yx d 相关测量法(适用于不对称关系) y
d s d
s yx T N N N N d ++-=
;∈++-=
x d s d s xy T N N N N d [-1,1](y T 为只在y 上同分的对数) 4. 定距变项
⑴简单线性回归
a bx y +=;2
2)()())(()(∑∑∑∑∑--=
x x n y x xy n b ;n
x b y a ∑∑-=)(
⑵协方差:1
))((),cov(---=
∑n y y x x
y x i i
⑶积距相关系数:∈---=
∑∑∑∑∑∑∑2
2
2
2
)
()
())((y y n x x n y x xy n r [-1,1]
5. 定类变项与定距变项
⑴相关比率(eta 平方系数,适用于不对称关系):