2007年中国人民大学805统计学考研真题

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2007年人大统计学专业课初试题参考

解答

一、(1)①需假定总体是正态总体。

②不能用数据证明。数据至多只能检验该数据的分布是否接近正态分

布,而不能从理论上证明或肯定它一定就来自正态分布总体,即正态

性检验不能提供不拒绝正态性原假设的结论。

③不是。该区间是确定的区间,要么覆盖真实总体均值,要么不覆盖,

没有概率可言。它是置信度为95%的随机置信区间的一个样本实现,

后者才是以95%的概率覆盖真实总体均值。

(2)①需假定:总体服从正态分布;总体方差未知;样本量较小(一般 30)。

②不能。“接受零假设”的说法是不妥的,否则就得负责任的给出犯第

二类错误的概率,而该检验的备选假设是“总体均值>4.8克”,据此

是无法算出此概率的。所以只能说,在显著水平为0.05时利用该数

据进行检验不足以拒绝零假设,不拒绝不等同于接受。

二、(1)不是。因为只有员工看到并愿意答复电子邮件时才有机会进入样本,所

以每个员工入样的概率并不一样,这其实是一种非概率抽样。

(2)①不对。不说实话只是产生响应误差的原因之一,而被调查者与调查者两方面的因素,都有可能导致响应误差。调查者不当的引导或者问卷

设计不科学或者被调查者知识的局限性,都可能使被调查者对要回答

的问题的理解产生偏差,这时候即使他(她)说了“实话”,也会产

生响应误差,因为这不是我们想要的“实话”。另外,拒绝回答也是

一种重要原因。

②随机误差是不可以避免的,因为它是由抽样的随机性造成的,是客观

的。

(3)整体来说是不独立的。因为同一个网络公司员工加班时间一般是不独立的,而不同网络公司员工加班时间一般是独立的。

三、(1)令自驾车上班人数比例为π,由于不能轻易否定原结论,则检验假设为:

01

:30%

:30%H H ππ≥⎧⎨

<⎩ (2)①令样本量为n ,其中驾车上班人数为X ,假定X 服从二项分布

(,0.3)B n ,X 的样本值为0x ,则

00{}{0}{1}{}p P X x P X P X P X x =≤==+=++=L 值

②检验统计量0

~(0,1)H Z N =。

假定:大样本(5, 5X n X >->);每人驾车上班与否相互独立且服

从同参数0-1分布。

(3)统计上显著并不意味着实际上显著,要具体问题具体分析。比如,某箱

牛奶经统计检验,含三聚氰胺的概率显著低于5%,但人们未必敢要这箱牛奶;统计上0.1与0.01有显著差异的时候,实际中未必有多大意义。不过统计显著与实际显著很多时候是一致的。

四、不负责。一个负责任的调查报告应该给出较详尽的内容,主要如下: ①主题; ②调查时间与地点; ③调查主题、客体、对象; ④数据搜集方法、抽样框、抽样单元、样本量、抽样方法、估计方法; ⑤结论描述; ⑥精度、质量评估; ⑦责任; ⑧参考文献。

五、①无道理。如果进行第二次主成分分析,那么它处理的变量是第一次主成分

分析得到的互不相关的主成分,这样得到的“新”的主成分其实跟第一次得到的主成分是完全一样的,这可以通过矩阵运算进行验证,所以做的是无用功。

②变量之间相关系数多数较小(一般指<0.3)的数据不宜进行主成分分析。 ③不总是适用。要具体问题具体分析,不能拘泥于某些固有的准则,有时候还要根据问题的实际意义或专业理论知识来分析。

六、①不一定。只有当所有对因变量产生影响的自变量都考虑进来了而且不存在

自相关、异方差等情况时,ε才是随机误差。

②不需要。如果要研究最小二乘估计量性质的话,就得假定ε满足Guass-Markov 条件;若还要进行回归系数区间估计和有关假设检验,则要进一步假定2~(0,)n N I εσ。

七、(1)需要选择度量样品或指标相似性的统计量,通常是距离(欧式距离、马

氏距离等)或相似系数(夹角余弦、相关系数等)。然后还要定义样品间、类与类间的距离或相似系数。

(2)①计算n 个样品两两间的距离;

②构造n 个类,每个类只包含1个样品; ③合并距离最近的两类为1新类; ④计算新类与其它类之间的距离;

⑤判断类的个数是否为1,是则进入第⑥步,否则返回第③步; ⑥画谱系聚类图;

⑦决定分类个数和各类成员。

(3)①把样品粗略分成K 类;

②以上述K 类的均值为种子,按照到它们距离的远近把所有点分成新的

K 类;

③反复进行第②步,直至收敛,得到最终的K 类。

八、(1)可能是前进法或逐步回归法。由表可知,选元进行了两步,第一步选了

自变量Beginning Salary ,第二步增加了另一自变量Employment Category 。前进法显然解释得通。至于逐步回归法,因为只进行了两步,而它的第二步不考虑剔除,故可以得到与前进法完全一样的结果。 (2).Sig 就是通常所说的p 值,其计算公式为

0.{}Sig P F F =≥

这里的F 是原假设成立时服从F 分布的检验统计量,0F 是F 的样本值,

即表中的1622.118和997.312。

.Sig 的意义就是,原假设为真时,F 统计量取其样本实现值以及更极端

值的概率,是检验的真实显著性水平。

(3)假定:①2~(0,)n N I εσ;②原假设012:0H ββ==成立。 证

/ ()/(1)

SSR p

F SSR SSE SSE n p =

--指回归平方和,指残差平方和。

由数理统计知识,在假定①成立时,有

22/~(1)SSE n p σχ--

在假定①②成立时,有

22/~()SSR p σχ

且SSE 与SSR 是相互独立的,故

/~(,1)/(1)

SSR p

F F p n p SSE n p =

----

证毕。

2006年人大统计专业课初试题及答案

试题

一、(20分)某银行为缩短到银行办理业务等待的时间,准备采用两种排队方式进行试验:一种是所有顾客都进入一个等待队列;另一种是顾客在三个业务窗口处列队三排等待。为比较那种排列方式使顾客等待的时间更短,两种排队方式各随机抽取9名顾客,得到第一种排队方式的平均等待时间为7.2分钟,标准差为1.97分钟,第二种排队方式的等待时间(单位:分钟)如下:

5.5

6.6 6.7 6.8

7.1 7.3 7.4 7.8 7.8 (1)画出第二种排队方式等待时间的茎叶图;

相关文档
最新文档