(完整版)社会统计学简答题与计算题复习资料
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
社会统计学复习材料
简答题
1、统计数据的质量要求:
1、精度:最低的抽样误差或随机误差;
2、准确性:最小的非抽样误差或偏差;
3、关联性:满足用户决策、管理和研究的需要;
4、及时性:在最短的时间里取得并公布数据;
5、一致性:保持时间序列的可比性;
6、最低成本:以最经济的方式取得数据。
2、抽样误差及其影响因素:
1、由于抽样的随机性所带来的误差;
2、所有样本可能的结果与总体真值之间的平均性差异;
3、影响抽样误差的大小的因素:样本量的大小,总体的变异性。
3、判断计量优劣的评判标准:
用样本的估计量直接作为总体参数的估计值,
无偏性:估计量抽样分布的数学期望等于被估计的总体参数;
有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效;一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数。4、假设检验的一般步骤:
(1)陈述原假设和备择假设;
(2)从所研究的总体中抽出一个随机样本;
(3)确定一个适当的检验统计量,并利用样本数据算出其具体数值;
(4)确定一个适当的显著性水平,并计算出其临界值,指定拒绝域;
(5)将统计量的值与临界值进行比较,作出决策;
(6)统计量的值落在拒绝域,拒绝H0,否则不拒绝H0。
5、假设检验中的两类错误及其之间的关系
错误:
1、第Ⅰ类错误(弃真错误)原假设为真时拒绝原假设,第Ⅰ类错误的概率记为a ,即显著性
水平;
2、第Ⅱ类错误(取伪错误)原假设为假时未拒绝原假设,第Ⅱ类错误的概率记为b 。
a 和
b 的关系就像翘翘板,a 小b 就大,a 大b 就小。因此,在样本容量n 固定情况下,
不能同时减少两类错误!一般采用增加样本容量的办法来解决。
关系:当显著性水平a 减小时,由于拒绝域的减小,弃真的错误会减小,但由此而来的是
接受域增大了,因此纳伪的概率b 要增大。反之亦然(P235)。也就是说如果要减小b ,就
增大显著性水平a 。
6、置信区间与置信度的关系表达式:
()αεθθεθ
-=+≤≤-1ˆˆP []εθεθ+-ˆ,ˆ称作置信区间。α-1称作置信度,可信度,或置信水平。α称置信水平。在样本容量一定的情况下,置信区间和置信度是相互制约的。置
信度愈大,则相应的置信区间也域宽。当把区间估计得小一些,估计的精确程度提高了,但换取的代价将是估错的可能性增加了,也就是可靠性或置信度
α-1下降了。(P201)
7、正态分布曲线的特征:
(1)一个高峰:曲线是单峰,有一个最高点。
(2)一个对称轴。曲线的高峰处有一个对称轴,在轴的左右两边是对称的。
(3)一个渐近线。曲线无论向左或向右延伸,都愈来愈接近横轴,但不会和横轴相交,以
横轴为渐近线。
4.正态分布一般用()2,σμN 表示。(P139)
8、方差分析的基本假定:
2222121m
i m y A A A σσσΛΛ=:
的分布具有相同的方差对应因变量,,变量的每一个取值:
等方差性要求总体中自(一)等方差性
体等方差性的标准。
的二三倍,作为检验总最小值
的最大值不应超过一般情况下,技术员勤杂工技术工人对样本而言,要求
2223322221122221252
.3902
.1408
.2i i m
S S S A S A S A S S S =======Λ
(二)e 的分布为正态分布
要求每一个Ai 所对应yi 的分布都呈正态。
总结起来,进行方差分析,要求总体中每一个自变量的取值对应的因变量yi 满足正态分布
()2,σμN
关系的。
明两者是有
没有关系,否则,则表与因变量自变量相等,则说明
,是否相等。如果,就是研究
量与因变量是否有关,方差分析所研究的自变y x m m μμμμμμΛΛ2121
9、方差分析的基本原理和逻辑:
基本原理:变异的可加性。
根据这一原理,将数据的总变异分解为不同来源的变异(组间、组内),根据不同来源的变
异在总变异中所占的比重对造成数据变异的原因作出解释。
10、非参数检验的优缺点:
优点:没有严格的前提假设,对总体分布无需加以限制,计算量也比较少。
缺点:在同等情况下,检验的效率较差。未能充分利用资料的全部信息,目前还不能处理交互作用。(整理人:燕梅我会整理小组工作,其他科目有同学整理的请大家一起分享下哈这样大家备考都会更有效)。
其他知识点
◆随机现象:事先无法确定会出现那种结果的现象
总体:所研究的全部元素的集合,其中的每一个元素称为个体,分为有限总体和无限总体。
样本:从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本容量。
参数:研究者想要了解的总体的某种特征值。
统计量:根据样本数据计算出来的一个量。
◆变量:说明现象某种特征的概念。
分类变量:说明事物类别的一个名称。
顺序变量:说明事物有序类别的一个名称。
数值型变量:说明事物数字特征的一个名称。
离散变量:取有限个值;连续变量:可以去无穷多个值。
◆普查:为特定目的专门组织的非经常性全面调查。
典型调查:从调查对象的全部单位中选择少数典型单位进行调查。
重点调查:从调查对象的全部单位中选择少数重点单位进行调查。
◆数据质量的要求
误差:测量值与真实值之间的差异。
随机误差:在同一条件下,对同一量值进行多次测量时,其数值和符号以不可预见的方式而变化的那部分误差。
系统误差:在一定的测量条件下,对同一被测物进行多次重复测量时,误差值的大小和符号保持不变,或者在条件变化时,按一定规律变化的误差。
抽样误差:由于抽样的随机性所带来的误差。
非抽样误差:除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异。
◆分类数据的整理(指标)与图形
频数:落在各类别中的数据个数。
比例:某一类别数据占全部数据的比值,可以比较不同样本。
百分比:将对比的基数作为100而计算的比值。
比率:把计算比例时所用的基数变大,如100、1000、10000等,最常用的是百分比率。
对比值:不同类别数值的比值。
顺序数据的整理与显示:累积频数、累积频率
数值型数据的整理组限