2007年中国人民大学805统计学考研真题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2007年人大统计学专业课初试题参考
解答
一、(1)①需假定总体是正态总体。
②不能用数据证明。数据至多只能检验该数据的分布是否接近正态分
布,而不能从理论上证明或肯定它一定就来自正态分布总体,即正态
性检验不能提供不拒绝正态性原假设的结论。
③不是。该区间是确定的区间,要么覆盖真实总体均值,要么不覆盖,
没有概率可言。它是置信度为95%的随机置信区间的一个样本实现,
后者才是以95%的概率覆盖真实总体均值。
(2)①需假定:总体服从正态分布;总体方差未知;样本量较小(一般 30)。
②不能。“接受零假设”的说法是不妥的,否则就得负责任的给出犯第
二类错误的概率,而该检验的备选假设是“总体均值>4.8克”,据此
是无法算出此概率的。所以只能说,在显著水平为0.05时利用该数
据进行检验不足以拒绝零假设,不拒绝不等同于接受。
二、(1)不是。因为只有员工看到并愿意答复电子邮件时才有机会进入样本,所
以每个员工入样的概率并不一样,这其实是一种非概率抽样。
(2)①不对。不说实话只是产生响应误差的原因之一,而被调查者与调查者两方面的因素,都有可能导致响应误差。调查者不当的引导或者问卷
设计不科学或者被调查者知识的局限性,都可能使被调查者对要回答
的问题的理解产生偏差,这时候即使他(她)说了“实话”,也会产
生响应误差,因为这不是我们想要的“实话”。另外,拒绝回答也是
一种重要原因。
②随机误差是不可以避免的,因为它是由抽样的随机性造成的,是客观
的。
(3)整体来说是不独立的。因为同一个网络公司员工加班时间一般是不独立的,而不同网络公司员工加班时间一般是独立的。
三、(1)令自驾车上班人数比例为π,由于不能轻易否定原结论,则检验假设为:
01
:30%
:30%H H ππ≥⎧⎨
<⎩ (2)①令样本量为n ,其中驾车上班人数为X ,假定X 服从二项分布
(,0.3)B n ,X 的样本值为0x ,则
00{}{0}{1}{}p P X x P X P X P X x =≤==+=++=L 值
②检验统计量0
~(0,1)H Z N =。
假定:大样本(5, 5X n X >->);每人驾车上班与否相互独立且服
从同参数0-1分布。
(3)统计上显著并不意味着实际上显著,要具体问题具体分析。比如,某箱
牛奶经统计检验,含三聚氰胺的概率显著低于5%,但人们未必敢要这箱牛奶;统计上0.1与0.01有显著差异的时候,实际中未必有多大意义。不过统计显著与实际显著很多时候是一致的。
四、不负责。一个负责任的调查报告应该给出较详尽的内容,主要如下: ①主题; ②调查时间与地点; ③调查主题、客体、对象; ④数据搜集方法、抽样框、抽样单元、样本量、抽样方法、估计方法; ⑤结论描述; ⑥精度、质量评估; ⑦责任; ⑧参考文献。
五、①无道理。如果进行第二次主成分分析,那么它处理的变量是第一次主成分
分析得到的互不相关的主成分,这样得到的“新”的主成分其实跟第一次得到的主成分是完全一样的,这可以通过矩阵运算进行验证,所以做的是无用功。
②变量之间相关系数多数较小(一般指<0.3)的数据不宜进行主成分分析。 ③不总是适用。要具体问题具体分析,不能拘泥于某些固有的准则,有时候还要根据问题的实际意义或专业理论知识来分析。
六、①不一定。只有当所有对因变量产生影响的自变量都考虑进来了而且不存在
自相关、异方差等情况时,ε才是随机误差。
②不需要。如果要研究最小二乘估计量性质的话,就得假定ε满足Guass-Markov 条件;若还要进行回归系数区间估计和有关假设检验,则要进一步假定2~(0,)n N I εσ。
七、(1)需要选择度量样品或指标相似性的统计量,通常是距离(欧式距离、马
氏距离等)或相似系数(夹角余弦、相关系数等)。然后还要定义样品间、类与类间的距离或相似系数。
(2)①计算n 个样品两两间的距离;
②构造n 个类,每个类只包含1个样品; ③合并距离最近的两类为1新类; ④计算新类与其它类之间的距离;
⑤判断类的个数是否为1,是则进入第⑥步,否则返回第③步; ⑥画谱系聚类图;
⑦决定分类个数和各类成员。
(3)①把样品粗略分成K 类;
②以上述K 类的均值为种子,按照到它们距离的远近把所有点分成新的
K 类;
③反复进行第②步,直至收敛,得到最终的K 类。
八、(1)可能是前进法或逐步回归法。由表可知,选元进行了两步,第一步选了
自变量Beginning Salary ,第二步增加了另一自变量Employment Category 。前进法显然解释得通。至于逐步回归法,因为只进行了两步,而它的第二步不考虑剔除,故可以得到与前进法完全一样的结果。 (2).Sig 就是通常所说的p 值,其计算公式为
0.{}Sig P F F =≥
这里的F 是原假设成立时服从F 分布的检验统计量,0F 是F 的样本值,
即表中的1622.118和997.312。
.Sig 的意义就是,原假设为真时,F 统计量取其样本实现值以及更极端
值的概率,是检验的真实显著性水平。
(3)假定:①2~(0,)n N I εσ;②原假设012:0H ββ==成立。 证
明
:
可
知
/ ()/(1)
SSR p
F SSR SSE SSE n p =
--指回归平方和,指残差平方和。
由数理统计知识,在假定①成立时,有
22/~(1)SSE n p σχ--
在假定①②成立时,有
22/~()SSR p σχ
且SSE 与SSR 是相互独立的,故
/~(,1)/(1)
SSR p
F F p n p SSE n p =
----
证毕。
2006年人大统计专业课初试题及答案
试题
一、(20分)某银行为缩短到银行办理业务等待的时间,准备采用两种排队方式进行试验:一种是所有顾客都进入一个等待队列;另一种是顾客在三个业务窗口处列队三排等待。为比较那种排列方式使顾客等待的时间更短,两种排队方式各随机抽取9名顾客,得到第一种排队方式的平均等待时间为7.2分钟,标准差为1.97分钟,第二种排队方式的等待时间(单位:分钟)如下:
5.5
6.6 6.7 6.8
7.1 7.3 7.4 7.8 7.8 (1)画出第二种排队方式等待时间的茎叶图;