人大统计学真题07-09
2003-2016年中国人民大学统计学805考研真题集
人大统计学考研历年真题精华版(03- 16)2016年人大学统计学考研真题(完整版)1,构造几何分布,标准化的样本空间,取值空间,事件空间。
2,X、Y为随机变量,给出条件分布,对于任意y,E(X|Y<=y) = E(X|Y>y),那么X与Y是否独立?写出详细论证过程。
3,给出联合分布,求条件分布,和条件概率。
4,X与Y是相互独立的随机变量,请给出一个充分条件,当X和Y各自服从什么分布时X-Y与X+Y相互独立,如果不存在请说明理由。
写出详细论证过程。
5,求一个密度函数的方差的极大似然估计,并求它的Fisher信息量。
6,异方差性和自相关是什么,检测方法,加权最小二乘法原理与实际步骤。
7,证明多元回归系数的估计量是无偏估计,是最小方差线性无偏估计。
8,多元线性回归,因变量均值与每个自变量间为二次函数关系,根据相互独立的n个样本预测因变量值。
2013年人大805统计学真题一、证明题:(20分)每题10分1.袋子里有两种颜色的球红球a个白球b个第一步从袋子里取出一个球观察其颜色然后丢掉第二步从袋子里再取出一个球,若和上一次取出的球颜色不同,则放回,回到第一步;若和上一次取出的球颜色相同,则丢掉,重复第二步。
证明取出的最后一个球是红球的概率是1/2。
2.证明n维正态随机向量的各分量相互独立的充要条件是互不相关。
二、简述:(30分)每题10分1.设昆虫在树叶上产卵数X服从参数为的泊松分布,而只有树叶上有卵时才能判断是否有昆虫。
在又设观察到的虫卵数Y,P(Y=i)=P(X+i|X>0),求P(Y为偶数)和E(Y)。
2. 2n+1个独立同分布样本,分布函数是F(x) 求中位数x(n+1)的分布3.设走进某商店的顾客数是均值为50的随机变量。
又设这些顾客所花的钱数是相互独立、均值为100元的随机变量。
再设任一顾客所花的钱数和进入该商店的总人数相互独立。
试问该商店一天的平均营业额是多少?三、已知Y1,……,Y n是相互独立的随机变量,且均服从。
统计学考试题及答案(中国人民大学第六版)
统计学一、单选1、从某高校随机抽出100名学生,调查他们每月的生活费支出,这研究的统计量是A 该校学生的总人数B 该校学生的月月平均生活费支出C 该校学生的生活费总支出D 100名学生的月平均生活费支出2、下列变量中,顺序变量是A职工人数 B产量 C产品等级 D利润总额3、将总体中所有单位按某种变量划分为若干层,再从各层中随机抽出一些单位组成一个样本。
这种抽样方式是A 简单随机抽样B 分层抽样C 整群抽样D 系统抽样4、指出下面陈述中错误的是A 抽样误差只存在于概率抽样中B 非抽样误差只存在于非概率抽样中。
C概率抽样和非概率抽样都存在非抽样误差。
D在普查中存在非抽样误差。
5、展示广告费支出与商品销售量之间是否有某种数量关系,最适合的图形是 A柱形图 B饼图 C线图 D散点图6、当样本量一定时,置信区间的宽度A 随置信水平的增大而减小B随置信水平的增大而增大C与置信水平的大小无关D与置信水平的平方根成反比7、在检验一个正态总体方差时,使用的分布是A z分布B t分布C X 分布D F分布8、指出下面陈述中的错误的是A 抽样误差可以避免B 抽样误差不可避免C 非抽样误差可以避免D 抽样误差可以控制9、假设检验中,如果计算出的P值越小,说明检验的结果越A 真实B 不真实C 显著D 不真实10、双因素方差分析涉及 自变量A 一个分类型B 一个数值型C 两个分类型D 两个数值型二、填空题1、当一组数据对称分布时,经验法则表明,大约有68%的数据分析在( 平均数±一个标准差 )的范围之内2、对于一组具有单峰分布的数据而言,当数据的m m >时,可判断数据是(左偏)分布3、连续变量在编制组距式变量数列时,其相邻两组的上下限必须重叠。
为解决不重的问题,应按照( 上组限不在内 )的规定确定数据所在的组4、单因素方差分析中,组间平方和SSA 对应的自由度为( k-1 ),组内平方和SSE 对应的自由度( n-k )5、数值型变量根据其取值的不同,可分为( 连续 )型变量和(离散 )型变量。
人大统计学考博试题汇总10-12
为了了解总体特征,通过对总体抽样得到代表总体的样本,信息是分散在每个样本上的,就需要对样本进行加工,把样本的信息浓缩到不包含未知量的样本函数中,这个函数称为统计量。
统计量的分布称为抽样分布。
10年统计理论与应用一、名词解释典型相关,脸谱图,多元正态分布的密度函数二、二元条件分布四、抽样:列举复杂样本的方差计算方法,第二问是事后分层抽样五、总体比例的区间估计与假设检验六、Logistic回归:好似是S-PLUS软件或者SAS跑出来结果让根据结果写方程及分析七、企业经济统计:列举很多统计指标,让你根据这些指标写出你想分析什么问题,采用什么方法,能得出什么结论。
统计学一、X服从参数为a的泊松分布,a服从参数为b的伽马分布,问X的混合分布是什么?二、先验分布和后验分布的关系三、写出常用的三种非参数统计方法四、当因变量不服从正态分布时,如何建模?A对数正态分布B二项分布C二点分布D泊松分布五、以前考过的原题:关于抽样中整群抽样和随机抽样调查家庭电脑拥有量的一个案例1.有一组数据,考虑建立伽马函数和正态分布函数,如何判断所建立的函数能够更好地反映原始数据的信息2.区间估计和假设检验的区别和联系3.矩估计和极大似然估计的特点、以及据估计在什么情况下不适用4.是一道方差分析的题,具体不记得了,根据题意要求写出如何判断是否存在显著性差异,〔个人感觉不是很难〕5.显著性检验中,利用统计量检验和利用p至检验有什么不同6.谈谈对bayes方法的理解统计理论:总共是8道,前几年统计理论分A.B卷,现在不分了,前面60分必做,后面选做题100分,从中选择40分就可以了。
1.〔1〕什么是抽样分布,抽样分布与假设检验的关系〔2〕什么是多重共线性,如何识别多重共线性2.是高等数理统计中的一道题,本人做的不好,后来听其他同学说不是很难。
大致是给出一个密度函数和两个统计量T1 和T2〔具体形式不记得了,不是很难〕〔1〕证明T1 和T2 无偏〔2〕如何判断T1 和T2 的有效性〔3〕假设T=cmax(….)〔括号里面的东西不记得了〕,如何确定常数c,使得T的方差到达最小。
统计学广东省自考历年试题及答案(2007、2008、2009、2011年)
2007年7月广东省高等教育自学考试统计学原理 试卷及答案(课程代码 00974)本试卷共10页,满分100分;考试时间150分钟一、单项选择题(本大题共15小题,每小题1分,共15分)在每小题列出的四个备选项中只有一个是符合题目要求的,请将其代码填写在题后的括号内。
错选、多选或未选均无分。
1、统计是对事物数量特征进行分析的方法体系,统计的基本方法有大量观察法、综合分析法和( B ) A 、数量对比法 B 、归纳推新法 C 、逻辑推理法 D 、全面观察法2、统计学的早期发展中,政治算术学派的主要代表人物是( B ) A 、格朗特 B 、配第 C 、康令 D 、阿亨瓦尔3、次数分布中各组频率的总和应该( D )A 、大于100%B 、小于100%C 、不等于100%D 、等于100%4、为了获得重要的统计资料,为常规调查提供重要数据或背景数据,需要采用的调查方式是( B ) A 、抽样调查 B 、重点调查 C 、典型调查 D 、普查5、次数分布可以形成一些典型的类型,并用曲线表示。
其中,“中间大,两头小”的分布曲线是( B ) A 、正态分布曲线 B 、钟型分布曲线 C 、U 型分布曲线 D 、J 型分布曲线6、反映现象在一段时间变化总量的统计指标是( B )A 、时点指标B 、时期指标C 、动态指标D 、绝对指标 7、确定中位数的近似公式是( A )A 、d f S fL mm ⨯-+-∑12B 、d L ⨯∆+∆∆+211C 、∑∑∙ff x D 、∑-)(x x 8、进行抽样调查时必须遵循随机的规则,其目的是( A )A 、每一个单位都有相同的被抽中的机会B 、人为地控制如何抽取样本单位总不可靠C 、了解样本单位的情况D 、选出典型的单位9、在抽样调查中,由于偶然的因素的影响,使样本指标与总体指标之间出现绝对离差,它是( A ) A 、抽样误差 B 、抽样平均误差 C 、标准差 D 、平均差 10、如果相关系数的数值为-0.78,这种相关关系属于( A )A 、正向显著线性相关B 、正向高度线性相关C 、负向显著线性相关D 、负向高度线性相关 11、在回归直线y=a+bx 中,b 表示当x 增加一个单位时( C )A 、y 增加aB 、x 增加bC 、y 的平均增加量D 、x 的平均增加量 12、计算平均发展速度应采用( A )A 、几何平均法B 、最小平方法C 、加权平均法D 、算术平均法 13、较常用的时间数列分析模型是( D )A 、Y=T+C+S+IB 、Y+T+(C ·S ·I ) C 、Y=T ·C ·S+ID 、Y=T ·C ·S ·I 14、“指数”有不同的涵义,反映复杂总体数量变动的相对数是( B )A 、广义指数B 、狭义指数C 、通用指数D 、抽象指数15、某厂生产费用比上年增长50%,产量比上年增长25%,则单位成本上升( C ) A 、37.5% B 、25% C 、20% D 、12.5%二.多项选择题(本大题共7小题,每小题2分,共14分)在每小题列出的五个备选项中至少有两个是符合题目要求的,请将其代码填写在题后的括号内。
人大《统计学》第四版复习
人大《统计学》第四版P783.1为评价家电电行业售后服务的质量,随机抽取了由100个家庭构成的一个样本。
服务质量的等级分别表示为:A. 好;B.较好;C.一般;D.较差;E.差.调查结果如下:B EC C AD C B A ED A C B C DE C E EA DBC C A ED C BB ACDE A B D D CC B C ED B C C B CD A C B C DE C E BB EC C AD C B A EB ACDE A B D D CA DBC C A ED C BC B C ED B C C B C要求:⑴指出上面的数据属于什么类型.⑵制作一张频数分布表.⑶绘制一张条形图,反映评价等级的分布.⑷绘制评价等级的帕累托图.答:⑴属于顺序数据.⑶条形图(略).⑷帕累托图(略).3.2某行业管理局所属40个企业2002年的产品销售收入数据如下(单位:万元):152 124 129 116 100 103 92 95 127 104105 119 114 115 87 103 118 142 135 125117 108 105 110 107 137 120 136 117 10897 88 123 115 119 138 112 146 113 126要求:⑴根据上面的数据进行适当的分组,编制频数分布,并计算出累计频数和累计频率。
⑵按规定,销售收入在125万元以上的为先进企业,115万元—125万元为良好企业,105万元—115万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。
解: ⑴频数分布表如下:40个企业按产品销售收入分组表3.3某百货公司连续40天的商品销售额如下:单位:万元要求:根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。
解:频数分布表如下:直方图(略)。
4.2 随机抽取25个网络用户,得到他们的年龄数据如下:要求:(1)计算众数、中位数.(2)根据定义公式计算四分位数. (3)计算平均数和标准差.(4)计算偏态系数和峰态系数. (5)对网民年龄的分布特征进行综合分析. 解: (1)众数19、23 中位数23(2)下四分位数19 上四分位数26.5 (3)平均数nx x ∑==24 标准差S= ()12--∑n x x =6.6521(4)(5)根据以上计算结果可知,网民年龄的分布特征正偏分布,年龄主要集中在19岁左右. P110 4.5 甲乙两个企业生产三种产品的单位成本和总成本资料如下:比较哪个企业的总平均成本高,并分析其原因。
人民大学《统计学》题库及答案
1中国人民大学接受同等学历人员申请硕士学位考试试题招生专业:统计学考试科目:统计思想综述课程代码:123201 考题卷号:1一、(20分)随机抽取20块手机电池,测得其使用寿命数据如下(单位:小时):10089939981007101110021013999100899598399510009771015101099810051011996列出描述上述数据所适用的统计图形,并说明这些图形的用途。
直方图:直观的展示一组数据(电池使用寿命)的分布情况。
箱线图:直观反映原始数据(电池寿命)的数据分布的特征,如偏态,是否有离群点。
二、(20分)方差分析中有哪些基本假定?这些假定中对哪个假定的要求比较严格?1、方差分析有3个基本假定:(1)正态性:每个总体都应服从正态分布,即对于因子的每一个水平,其观测值是来自正态分布总体的简单随机样本;(2)方差齐性:各个总体的方差必须相同;(3)独立性:每个样本数据是来自因子各水平的独立样本2、对独立性要求比较严格,独立性得不到满足会对方差分析结果有较大影响,对正态性和方差齐性的要求相对比较宽松。
三、(20分)某种食品每袋的标准重量是100克,从该批食品中抽取一个随机样本,检验假设100:0H ,1001H 。
(1)如果拒绝0H ,你的结论是什么?,如果不拒绝0H ,你的结论是什么?(2)能否得到一个样本能够证明该食品的平均重量是100克?请说明理由。
(3)如果由该样本得到的检验的03.0P ,你的结论是什么?0.03这个值是犯第Ⅰ类错误的概率,是实际算出来的显著性水平,你怎样解释这个P 值?(1)拒绝0H :该种食品每袋的平均重量不是100g不拒绝0H :提供的样本不能证明该种食品每袋的平均重量不是100g(2)不能,样本得出的结论只能是拒绝或不拒绝原假设,并不能直接确定原假设为真(3)结论:若给定显著性水平为0.05,则可以拒绝原假设,认为该食品每袋的平均重量不是100克;但若给定显著性水平为0.01,则不能拒绝原假设P 值:如果该种食品每袋的平均重量是100g ,样本结果会像实际观测那样极端或更极端的概率仅为0.03四、(20分)在建立多元线性回归模型时,通常需要对自变量进行筛选。
人民大学应用统计历届试题
A、0.0001 C、0.001
(2000 年) 评价参数点估计量优劣的 常用标准有哪些?请写出其中一个 标准的定义。
(2000 年) 某企业抽查两组产品的使用寿命, A 组抽查 10 个产品的寿命为
360,345,350,355,350,355,350,345,360,355;
(2002年) 描述对总体参数进行矩估计的方 法。
(2002年) 作为公司原材料采购员,你非 常想知道应该提前多少天订货,才能最 少地占用资源。如果订得太早,货物滞 留在货场,不仅占用大量资金,也要花 费场地费;如果订得太晚,缺少原材料, 就会耽误生产。为了更好地了解订货规 律,你从过去的订货记录中随机地抽取 了 10 次(每一次,你的供货商都承诺 2 周之内到货),得到数据如下(天):
Φ(1.645)=0.95)
(1999 年) 火柴销售量及各影响因素的关系初 步估计如下: ˆ y =17.40+0.05 x1+0.26 x2-0.01 x3-0.24 x4 标准差(6.21)(0.02)(0.02)(0.03)(0.01)
R2=0.92 n=15
ˆ 式中:是火柴销售量(万盒);x1是煤气用户 y 数 (万户);x2是卷烟销量 (万箱);x3是蚊 香销量 (万箱);x4是打火机销量 (百万个)。
B 组抽查的结果为
350,355,350,360,340,345,350,360,370,345。
试用矩估计法估计这两组产品的平均寿 命及标准差,并做比较分析。
(2000 年) 用近 26 年的数据,建立某地区货 运周转量 y (亿吨公里) 和工农业总产值 x1 (亿元)、基建总投资 x2(亿元)之间的二元 线性回归方程: ˆ y =0.643+0.536x1+0.744x2 标准差(0.04) (0.45)
《统计学》人民大学出版社答案
一、思考题8.7 假设检验依据的基本原理是什么?答:假设检验的基本思想可以用小概率原理来解释。
所谓小概率原理,就是认为小概率事件在一次试验中是几乎不可能发生的。
也就是说,对总体的某个假设是真实的,那么不利于或不能支持这一假设的事件A在一次试验中是几乎不可能发生的;要是在一次试验中事件A竟然发生了,我们就有理由怀疑这一假设的真实性,拒绝这一假设。
二、练习题8.7某种电元件的寿命x(单位:小时)服从正态分布。
现测得16只元件的寿命如下:159 280 101 212 224 379 179 264222 362 168 250 149 260 485 170问是否有理由认为元件的平均寿命显著的大于225小时(α=0.05)?解:16件元件的平均寿命测得为241.5小时。
标准差为98.7小时。
H0:μ≤225H1:μ>225t=(241.5-225)/(98.7/√16)=0.67当α=0.05时,自由度n-1=11,很容易可以知道拒绝域在右侧,查表得tα(15)=-1.7531由此可以证明,t的值在非拒绝域内,所以不拒绝原假设,没有理由认为元件的平均寿命显著大于225小时。
8.14 某工厂制造螺栓,规定螺栓口径为7.0cm,方差为0.03cm.今从一批螺栓中抽取80个测量其口径,得平均值为6.97cm,方差为0.0375cm。
假定螺栓口径为正态分布,问这批螺栓是否达到规定的要求(α=0.05)?解:σ=√0.03=0.1732H0:μ=7H1:μ≠7Z=(6.97-7)/(0.1732/√80)=-1.5492当α=0.05时,容易得知拒绝域在两侧,查表得临界值Zα/2=±1.96 |Z|<|Zα/2|由此可以证明,Z的值在非拒绝域内,所以不拒绝原假设,这批螺丝达到了规定的要求。
2007年中国人民大学805统计学考研真题
2007年人大统计学专业课初试题参考解答一、(1)①需假定总体是正态总体。
②不能用数据证明。
数据至多只能检验该数据的分布是否接近正态分布,而不能从理论上证明或肯定它一定就来自正态分布总体,即正态性检验不能提供不拒绝正态性原假设的结论。
③不是。
该区间是确定的区间,要么覆盖真实总体均值,要么不覆盖,没有概率可言。
它是置信度为95%的随机置信区间的一个样本实现,后者才是以95%的概率覆盖真实总体均值。
(2)①需假定:总体服从正态分布;总体方差未知;样本量较小(一般 30)。
②不能。
“接受零假设”的说法是不妥的,否则就得负责任的给出犯第二类错误的概率,而该检验的备选假设是“总体均值>4.8克”,据此是无法算出此概率的。
所以只能说,在显著水平为0.05时利用该数据进行检验不足以拒绝零假设,不拒绝不等同于接受。
二、(1)不是。
因为只有员工看到并愿意答复电子邮件时才有机会进入样本,所以每个员工入样的概率并不一样,这其实是一种非概率抽样。
(2)①不对。
不说实话只是产生响应误差的原因之一,而被调查者与调查者两方面的因素,都有可能导致响应误差。
调查者不当的引导或者问卷设计不科学或者被调查者知识的局限性,都可能使被调查者对要回答的问题的理解产生偏差,这时候即使他(她)说了“实话”,也会产生响应误差,因为这不是我们想要的“实话”。
另外,拒绝回答也是一种重要原因。
②随机误差是不可以避免的,因为它是由抽样的随机性造成的,是客观的。
(3)整体来说是不独立的。
因为同一个网络公司员工加班时间一般是不独立的,而不同网络公司员工加班时间一般是独立的。
三、(1)令自驾车上班人数比例为π,由于不能轻易否定原结论,则检验假设为:01:30%:30%H H ππ≥⎧⎨<⎩ (2)①令样本量为n ,其中驾车上班人数为X ,假定X 服从二项分布(,0.3)B n ,X 的样本值为0x ,则00{}{0}{1}{}p P X x P X P X P X x =≤==+=++=L 值②检验统计量0~(0,1)H Z N =。
高等统计学考题-人大精简版
一、多项选择题(每题4分,一共20分,每题要求:选择正确答案,对选择或未选答案进行简要而清晰的原因解释。
将答案填写在答题纸上,填写在试题上无效。
得分规则:选对并对答案解释合理,得4分;没有对未选答案解释最多得2分;漏选得1分,选错可参考解释酌情给分;不选得0分)1.有关样本的分布,以下陈述正确的是:ABCA. 如果样本X 1,…,X n 独立同分布来自Gamma 分布,∑==ni i X n X 11在大样本下有近似的正态分布;【对。
满足中央极限定理条件】B.如果样本X 1,…,X n 独立同分布来自N (2,σμ),∑==ni i X n X 11在大样本情况下有精确分布N (n /,2σμ);【对。
独立同分布正态随机变量的均值仍是正态分布,方差值符合中央极限定理】C.如果样本X 1,…,X n 独立同分布来自N (2,σμ),即使样本量不大,∑==ni i X n X 11也服从正态分布;【对。
独立同分布正态随机变量的均值仍是正态分布】D.如果样本X 1,…,X n 来自任意分布,在大样本情况下,由X 1,…,X n 组成的数据有近似的正态分布;【错。
如果X 1,…,X n 强相关,则不成立;即使i.i.d 情况下也不是任意的数据组成方式都是正态分布】2.有关检验的p 值,下面说法正确的是:CA. 一般为[0,0.1]之间的一个很小的概率;【错。
p 值是计算得出的概率,取值0-1之间】 B. 接受备择假设的最小显著性水平; 【错。
接受备择假设说法不准确】C. 如果p 值小于显著性水平,则拒绝零假设; 【对。
符合假设检验规则】D. 样本统计量的分布函数。
【错。
p 值根据检验统计量分布函数计算得出】(卷3)5.有关检验的p值,下面说法正确的是:CDA.一般为[0,0.1]之间一个较小的概率;【错。
检验结果不拒绝原假设的情况下,p值较大】B.接受备择假设的最小显著性水平;【错。
接受备择假设说法不准确】C.如果p值小于显著性水平,则拒绝零假设;【对。
人大统计学作业答案(供参考)
13、【104177】(单项选择题)下列哪一项不是数据的直接来源()。
A.普查
B.二手数据
C.统计报表
D.抽样调查
【答案】B
14、【104178】(单项选择题)数据的间接来源有()。
A.普查
B.实验数据
C.二手数据
D.抽样调查
【答案】C
15、【104180】(填空题)数据的误差包括:_____、_____、_____。
【答案】在统计分组中的“互斥”原则,就是指各组中不应相互包含。所谓“不重”就是指一项数据只能归入其中的一组,而不能同时归入两个或两个以上的组。所谓“不漏”就是指各组别能够穷尽,即在所分的全部组别中,每项数据都能分在其中的一组而没有遗漏。为了解决“不重”问题,在统计分组中习惯上规定,对于越大越好的数值,采用“上组限不在组内”的原则,即当采用重叠组限时,某一变量值恰与组限同值,应将其归入下限组,而不是上限组;对于越小越好的数值,则采用“下限不包括在内”的原则,即当采用重叠组限时,某一变量值恰与组限同值,则应将其归入上限组,而不是下限组。为了解决“不漏”的问题,在分组时可以采用开口组,这样可以将极端值包括在分组中,不被遗漏。
【答案】B
20、【104187】(单项选择题)直方图相比,茎叶图()原始数据的信息。
A.没保留
B.保留了
C.掩盖了
D.浪费了
【答案】B
21、【104188】(单项选择题) 家公司在电视广告上的花费如下(百万元): , , , , , , , , , 。下列图示法不宜用于描述这些数据的是()。
A.茎叶图
【答案】A
4、【104147】(单项选择题)一家研究机构从IT从业者中随机抽取 人作为样本进行调查,其中 回答他们的月收入在 元以上,则月收入是()。
2019年人大统计学考研题目(回忆版)
2010年考研题目(p.s试题来自于网上,如有错误恳请包涵)(一)五道问答题(50分)1.两地区的什么比例(好像是收入的均值吧),运用t检验得出p值为0.132,据此能否得出这两个地区的均值相等的结论?【分析】首先从前提假设来看,题目中没有给出假设条件,如果用t检验的话,需要的假设条件有 1、两个总体正态分布2、总体方差未知3、两个总体的样本独立抽取(否则为匹配样本)4、小样本(n<30)5、每一个总体样本内部也相互独立(否则为有限总体情况)题目中除了假设条件没有以外,还缺少为判断标准的显著水平a,如果a>0.132则还是要拒绝原假设的。
如果还要写可以加上原假设未写明。
2.在参数统计中,卡方分布有哪些应用,并举例说明【分析】在参数统计中,卡方分布有时序:检验白噪声的lb统计量、q统计量检验异方差相关性的Q统计量、lm统计量GARCH模型六部最后一步检验正态性的偏度峰度服从自由度为2的开放分布;多元:wills 统计量(就是多元中的F统计量)当不满足n、p的情况时就为卡方分布。
典型相关分析中检验典型相关系数的卡方分布。
多元中两个总体均值的假设检验,只要两个总体中最小的总体的数目趋于无穷则也服从卡方分布。
统计学:单个总体的方差假设检验或者是参数估计也服从卡方分布。
(有人说还有列联分析中拟合优度和独立性检验,不过我认为列联分析根本就不属于参数统计,列联分析是非参数统计的内容,所以这两个不能写入,其实多元中还有一个和马氏距离非常相似的公式也服从卡方分布,但是这台机子上没法打出符号,就请各位童鞋自己注意一下) 3.贝叶斯统计与经典统计的区别【分析】贝叶斯统计的思想是假如对某一个总体有一定的了解,那么用先验分布来描述这种认识,然后从总体中抽取样本,用样本来修正这种认识得到后验分布,以后的推断通过都通过后验分布进行。
经典统计分描述统计和推断统计,其中描述统计是将数据通过图表进行分析,而推断统计则是直接通过样本来描述总体,并未涉及先验分布。
中国人民大学统计学试题库(2011年7月更新)
)
A、是连续不断的
B、是以整数断开的 C、用测量或计算方法取得
D、相邻两值之间可取无限数值
E、相邻两值之间不可能有小数
10、总体、总体单位、标志、指标间的相互关系表现为:(
)
A、没有总体单位就没有总体,总体单位不能离开总体而存在
B、总体单位是标志的承担者
C、统计指标的数值来源于标志
D、指标是说明总体特征的,标志是说明总体单位特征的
入该组。
9、次数分布有两种表现方法,一种是用表格表示,另一种是用图表示。
10、统计整理就是对统计资料进行汇总、加工处理。
11、能够对总体进行分组,是由于统计总体中各单位所具有的差异性决定的。
三、单项选择题
3、在分布数列中,各组单位数与总体单位数的比率称为
,又称为比重或百分比。
4、变量值中最大值与最小值的差额称为
;在组距数列中,各组上限与下限的差额
称为
。
5、统计汇总技术主要有
和
两种形式。
6、统计表从形式上看,由
、
、
和
四部分构成;从内
容上看,由
和
两部分构成。
7、统计表按主词是否分组和分组程度可分为
、
和
。
)
A、标志 B、指标 C、变异 D、变量
10、一个统计总体(
)
A、只能有一个标志 B、只能有一个指标
C、可以有多个标志 D、可以有多个指标
11、统计对总体数量的认识是(
)
A、从总体到单位 B、从单位到总体
C、从定量到定性 D、以上都对
12、变量是可变的(
)
A、品质标志 B、数量标志 C、数量标志和指标 D、质量指标
于(
人大统计学真题07-09
2009年人大统计学专业课初试题一、有两个正态总体,均值和方差未知,但已知方差相等。
从第一个总体中抽取n=16的随机样本,均值为24,方差为64;从第二个总体中抽取n=36的随机样本,均值为20,方差为49。
如何检验第一个总体的均值是否大于第二个总体的均值?二、在何种情形下,回归系数的最小二乘估计不具有无偏性?说出原因并指出解决办法。
三、周期过程人=Acos(、•,其中频率••和振幅A都是常数,而相位是一个在区间卜n , n ]上服从均匀分布的随机变量。
问{XJ是否平稳?说明原因。
四、把一个总体分为三层,各层的权重和预估的比例见下表。
待估计的参数为总体比例。
如采用奈曼分层抽样,请说明需要多大的样本容量才能与样本容量为600的无放回简单随机抽样有相同的估计量方差。
(假设各层总体单位数量N h 都充分大,忽略“有限总体校正系数”)五、与人大出版社21世纪统计学系列教材之《统计学》(第二版)第四章习题第10题是一样的。
六、若有线性回归模型%「°「1人• ;t (t =1,2,…,n),其中EG戸0,EG2)-*,E(;「s) " (t^s),则(1)该模型是否违背古典线性回归模型的假定?请简要说明。
(2)如果对该模型进行估计,你会采用什么方法?请说明理由。
七、测试某种安眠药效果,随机选40只白鼠,将其随机分为20对,再随机分为两组。
第一组10对白鼠中每一对的两只分别关在不同的笼中喂养;第二组10对白鼠中每一对的两只关在同一个笼中喂养。
每对白鼠中随机抽取一只喂以实验的安眠药,在三个不同的时间点记录每只白鼠的活动情况:吃药后立即记录,吃药后一小时记录,吃药后两小时记录。
对于不吃药的白鼠,记录时间与同一对中另外一只白鼠的记录时间相同。
假定40只白鼠的初始活动状态相同。
请详细阐述你用何种方法分析安眠药的效果?八、某大学从教师中抽取一个随机样本进行满意度调查。
1分表示非常不满意,100分表示非常满意。
2007年中国人民大学统计学院统计学专业复试笔试题和部分面试题
2007年中国人民大学统计学院统计学专业复试面试题
1、谈谈对假设检验中原假设和备择假设的看法?
2、在回归分析中为什么要设立随机误差项?
3、谈谈你对平稳序列和非平稳序列的看法?
4、在国民经济核算中怎么判定关键部门?
5、请举例说明独立样本和匹配样本?
说明:以上面试题只是我所知道的几个题,面试的时候有很多题,大概有三四十道,老师让我们随机抽两道题回答。
2007年中国人民大学统计学院统计学专业复试笔试题
总共五大题,每题20分
1、阐述假设检验中统计显著性和实际显著性的联系。
2、阐述t分布的应用场合和假定条件。
3、谈谈你对多重共线性的看法。
4、简述国民经济核算的对象。
5、试推导核算恒等式“经常账户差额=总储蓄-资本形成”,并阐述其涵义。
请不要用于任何商业用途!谢谢合作!。
统计学基础(第五版)各章练习题答案人大版
附录一:各章练习题答案第1章统计和数据1.1 (1)数值变量。
(2)分类变量。
(3)数值变量。
(4)顺序变量。
(5)分类变量。
1.2 (1)总体是“所有IT从业者”;样本是“所抽取的1000名IT从业者”;样本量是1000。
(2)数值变量。
(3)分类变量。
1.3 (1)总体是“所有的网上购物者”。
(2)分类变量。
第2章数据的收集(略)第3章数据的整理与展示3.1(1)属于顺序数据。
(2)频数分布表如下:服务质量等级评价的频数分布服务质量等级家庭数(频率)频率%A1414B2121C3232D1818E1515合计100100(3)条形图如下:3.2(1)频数分布表如下:(2)某管理局下属40个企分组表按销售收入分组(万元)企业数(个)频率(%)先进企业良好企业一般企业落后企业11119927.527.522.522.5合计40 100.0 3.3(1)频数分布表如下:100只灯泡使用寿命的频数分布按使用寿命分组(小时)灯泡个数(只)频率(%)650~660 2 2660~670 5 5670~680 6 6680~690 14 14690~700 26 26700~710 18 18710~720 13 13720~730 10 10730~740 3 3740~750 3 3合计100 100 直方图如下:从直方图可以看出,灯泡使用寿命的分布基本上是对称的。
茎叶图与直方图所反映的数据分布是一致的,不同的是茎叶图中保留了原始数据。
3.4(1)属于数值型数据。
(2)分组结果如下:分组天数(天)-25~-20 6-20~-15 8-15~-10 10-10~-5 13-5~0 120~5 55~10 6合计60(3)直方图如下:从直方图可以看出,该城市1~2月份气温的分布基本上是对称的,温度在-10~-5度之间的天数最多。
3.5(1)直方图如下:(2)自学考试人员年龄的分布为右偏。
即大多数人员的年龄在20岁~30岁之间,而年龄偏大的人则越来越少。
人大统计学作业答案解析
★统计学(第二版)(ZK007B)第一章总论1、【104134】(单项选择题)某市分行下属三个支行的职工人数分别为2200人、3000人、1800人,这三个数字是( )。
A。
标志B。
指标C.变量D。
变量值【答案】D2、【104137】(单项选择题)统计一词的三种涵义是()。
A。
统计活动、统计资料、统计学B。
统计活动、统计调查、统计学C.统计调查、统计整理、统计分析D.统计指标、统计资料、统计学【答案】A3、【104143】(单项选择题)一项调查表明,北京市大学生每学期在网上购物的平均花费是500元,他们选择在网上购物的主要原因是“价格实惠”,则“大学生在网上购物的原因"是()。
A.分类型变量B。
顺序型变量C.数值型变量D.定距变量【答案】A4、【104147】(单项选择题)一家研究机构从IT从业者中随机抽取800人作为样本进行调查,70回答他们的月收入在5000元以上,则月收入是( ).其中%A。
分类型变量B.顺序型变量C。
数值型变量D.定距变量【答案】C5、【104149】(单项选择题)一家研究机构从IT从业者中随机抽取800人作为样本进行调40的人回答他们的消费支付方式是信用卡,则消费支付方式是().查,其中%A。
分类型变量B.顺序型变量C。
数值型变量D。
定距变量【答案】A6、【104156】(单项选择题)绝对不可能发生的事件发生的概率是( )。
A。
0B.1.0C。
5.0D.1【答案】A7、【104160】(单项选择题)必然会发生的事件发生的概率是( )。
A。
0B。
1.0C。
5.0D.1【答案】D8、【104161】(单项选择题)抛掷一枚均匀的硬币,出现正面的概率是( )。
A。
0B。
1.0C。
5.0D.1【答案】C9、【104176】(简答题)统计数据可以划分为哪几种类型?分别举例说明。
【答案】统计数据按照所采用计量尺度的不同可划分为三种类型。
一种是数值型数据,是指用数字尺度测量的观察值。
盛世清北-人大统计学考研历年真题参考解答
人大统计学考研历年真题参考解答精华版(03-09)2009年人大统计学专业课初试题参考解答一、设第一、二个总体均值分别为1μ与2μ,样本均值分别为1X 与2X ,样本方差分别为21S 与22S 。
1.构造原假设和备择假设012112:0:0H H μμμμ-≤↔->2.构造统计量。
由于两总体方差相等,且均为正态总体,则可以构造如下检验统计量:t =其中222112212(1)(1)1564354953.521535pn S n S S n n -+-⨯+⨯===+-+则4461.82017.31447.2111t ⨯⨯===⨯ 3.计算临界值。
给定显著性水平α,如0.05α=,计算临界值120.05(2)(50)t n n t α+-=,由于50>30,则0.050.05(50) 1.645t z ≈=。
4.做出决策。
由于 1.8201 1.645t =>,故拒绝原假设,即认为12μμ>。
二、1.对于回归模型Y X βε=+,β的最小二乘估计为:'1'()X X X y β-=。
现在来看它的期望'1''1''1''1''1'()[()]()() ()() ()(()) ()()E E X X X y X X X E y X X X E X X X X X E X X X E ββεβεβε-----===+=+=+从上面可以看出,要使β为无偏估计,则必须满足()0E ε=,所以只有当()0E ε≠时,β才为有偏估计。
2.使()0E ε≠的原因:①遗漏了关键自变量,即全模型正确时,而我们误用了选模型。
用选模型建模时,使得误差项中含有遗漏自变量的信息,从而期望不为零。
证明过程如下证明:假设正确模型为Y X βε=+,令(,)p t X X X =,p t βββ⎛⎫= ⎪⎝⎭。
而我们选用了模型p p Y X βε=+来估计β,得到'1'()p p p p X X X y β-=,则'1''1''1''1''1'()[()]()() () ()(,) ()p p p p p p p p p p p p p p p t t p p p p t t E E X X X y X X X E y X X X X X X X X X X X X X ββββββ-----===⎛⎫= ⎪⎝⎭=+从上式可以看出p β是p β的有偏估计。
中国人民大学统计专业课初试题
2007年人大统计专业课初试题一、(20分)下面是一种零件误差的数据(单位:克):6.1 4.7 6.5 6.27.76.4 5.57.1 6.1 5.35.76.1 5.3 4.0 4.83.2 3.9 1.94.9 3.85.3 2.6 5.3 5.5 5.82.7 6.8 7.4 5.63.3(1)根据涉及t分布的计算,该数据所代表的总体均值的95%置信区间为(4.637785,5.728882)。
请问,若使该置信区间有意义,需要对总体进行何等假定?这种假定能不能用数据证明?是不是该区间以0.95的概率覆盖真实总体均值?如果不是,说出理由及合适的说法。
(2)对于该数据所代表的总体的均值进行检验:零假设为总体均值等于4.8克,备选假设为总体均值大于4.8克。
如果进行t检验,需要假定哪些条件?t检验结果为p值等于0.0807。
能不能说“在显著性水平为0.05时,接受零假设”?为什么?你的结论是什么?统计学:假设检验答:(1)在对总体均值进行区间估计时,需要考虑总体是否为正态分布、总体方差是否已知、用于构造估计量的样本是大样本(30n<)等几种情况。
n≥)还是小样本(30当总体是正态总体,方差已知或非正态总体,大样本时,样本均值x的抽样分布为正态分布。
当总体是正态总体,但总体方差未知,而且是小样本时,则需要用样本方差代替总体方差,此时需要用t分布来建立总体均值μ的置信区间。
该题目中所涉及的正是第二种情况,因此若使该置信区间有意义,需要对总体进行正态分布的假定。
这种假定是可以用数据证明的。
例如可以通过Q-Q图来大致验证这批数据是否来自正态分布的总体。
总体均值95%置信区间,不代表区间(4.637785,5.728882)以0.95的概率覆盖真实总体均值。
样本确定,置信区间亦随之确定,就不再是一个随机区间,而是一个确定的区间,这个确定的区间要么包含总体真值,要么不包含总体真值,不存在以某种概率覆盖真实总体均值,所以“该区间以0.95的概率覆盖真实总体均值”这种说法是不对的。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2009年人大统计学专业课初试题
一、有两个正态总体,均值和方差未知,但已知方差相等。
从第一个总体中抽取
n=16的随机样本,均值为24,方差为64;从第二个总体中抽取n=36的随机样本,均值为20,方差为49。
如何检验第一个总体的均值是否大于第二个总体的均值? 二、在何种情形下,回归系数的最小二乘估计不具有无偏性?说出原因并指出解决办法。
三、周期过程cos()t t X A ωϕ=+,其中频率ω和振幅A 都是常数,而相位ϕ是一
个在区间[-π,π]上服从均匀分布的随机变量。
问{t X }是否平稳?说明原因。
四、把一个总体分为三层,各层的权重和预估的比例见下表。
待估计的参数为总
体比例。
如采用奈曼分层抽样,请说明需要多大的样本容量才能与样本容量为600的无放回简单随机抽样有相同的估计量方差。
(假设各层总体单位数
量h N 都充分大,忽略“有限总体校正系数”)
五、与人大出版社21世纪统计学系列教材之《统计学》(第二版)第四章习题第
10题是一样的。
六、若有线性回归模型01 (1,2,
,)t t t y x t n ββε=++=,其中()0t E ε=,
222()t t E x εδ=,()0 ()t s E t s εε=≠,则
(1)该模型是否违背古典线性回归模型的假定?请简要说明。
(2)如果对该模型进行估计,你会采用什么方法?请说明理由。
七、测试某种安眠药效果,随机选40只白鼠,将其随机分为20对,再随机分为
两组。
第一组10对白鼠中每一对的两只分别关在不同的笼中喂养;第二组10对白鼠中每一对的两只关在同一个笼中喂养。
每对白鼠中随机抽取一只
喂以实验的安眠药,在三个不同的时间点记录每只白鼠的活动情况:吃药后立即记录,吃药后一小时记录,吃药后两小时记录。
对于不吃药的白鼠,记录时间与同一对中另外一只白鼠的记录时间相同。
假定40只白鼠的初始活动状态相同。
请详细阐述你用何种方法分析安眠药的效果?
八、某大学从教师中抽取一个随机样本进行满意度调查。
1分表示非常不满意,
100分表示非常满意。
数据汇总如下表,欲分析教师职称和性别对满意度有无显著性影响,则
(1)你会选择什么分析方法?简述你的分析思路(可用公式说明,不需计算结果)。
(2)要采用该分析方法,数据必须满足哪些几本假定?请加以说明。
2008年人大统计学专业课初试题
一、(10分)07年香港一则报道说:“随着经济的增长,香港低收入家庭的比例
在增长,其中低收入的家庭是指低于中位数的家庭。
”请你从统计的角度对该报道做简要评论。
二、(10分)经常有人说方差分析是比较多个总体的均值是否相同,但为什么叫
方差分析呢?请谈谈你对方差分析的理解,并说明方差分析解决问题的基本思路。
三、(10分)如果时间序列在随时间变化的过程中既有趋势又有季节变动,你认
为可以建立什么样的预测模型?请你写出模型形式并加以简要说明。
四、(30分)食品厂家说:净含量是每袋不低于250g。
但有消费者向消协反映不
是250g,消协据此要求厂家自检,同时消协也从中随机抽取20袋检验。
(1)如果厂家自己检验,你认为提出什么样的原假设和备择假设?并说明理由;
(2)如果从消费者利益出发,你认为应该提出什么样的原假设和备择假设?并说明理由;
(3)消协抽取20袋,数据如下(略),得p值为0.4297,在α=0.5的显著水平下,检验假设意味着什么?p值的含义是什么?
(4)据样本数据得该食品每袋平均重量95%置信区间(241.1,257.5),你认为这种食品实际平均重量是否在该区间?为什么?
五、(15分)在经典的多元线性回归模型里,针对自变量事实上是有许多假设的。
(1)请具体指明这些假设有哪些?
(2)说明这些假设所发挥的主要作用;
(3)请讨论这些假设最终产生的影响。
六、(15分)在有关统计知识方面内容的中学课本里编者认为基本的抽样方式只
有三种,并不包括整群抽样,请说明你赞同与否并详列理由。
七、(30分)叙述贝叶斯判别分析的原理(包括完整的假设)并说明:
(1)与聚类分析相比,贝叶斯判别分析赖以进行的数据结构有何特点?
(2)与其他判别分析相比,贝叶斯判别分析结果的表现形式有何不同?
八、(30分)在诸如大坝、码头等工程设计中,坝高和码头高度的确定十分关键,
要考虑许多因素。
(1)以大坝为例,概略说明需考虑的主要因素;
(2)大坝高度通常利用长期洪水历史记录数据,依据几十年一遇的标准确定,请写出计算坝高详细的具体步骤。
(画出框图,并尽量避免过多使用文
字)
2007年人大统计学专业课初试题
一、(20分)下面是一种零件误差的数据(单位:克):
6.1 4.7 6.5 6.2
7.7
6.4 5.5
7.1 6.1 5.3
5.7
6.1 5.3 4.0 4.8
3.2 3.9 1.9
4.9 3.8
5.3 2.6 5.3 5.5 5.8
2.7 6.8 7.4 5.6
3.3
(1)根据涉及t分布的计算,该数据所代表的总体均值的95%置信区间为
(4.637785,5.728882)。
请问,若使该置信区间有意义,需要对总体进
行何等假定?这种假定能不能用数据证明?是不是该区间以0.95的概率
覆盖真实总体均值?如果不是,说出理由及合适的说法;
(2)对于该数据所代表的总体的均值进行检验:零假设为总体均值等于4.8克,备选假设为总体均值大于4.8克。
如果进行t检验,需要假定哪些条
件?t检验结果为p值等于0.0807。
能不能说“在显著性水平为0.05时,接受零假设”?为什么?你的结论是什么?
二、(20分)一家研究机构想估计在30个网络公司工作的员工每周加班的平均
时间,为此进行抽样调查。
请回答以下问题:
(1)如果对这些员工进行随机电子邮件调查,由答复的邮件所得到的数据是不是简单随机样本?为什么?
(2)抽样调查中,说“响应误差总是人们不说实话导致的”对不对?为什么?
随机误差是不是可以避免的?
(3)这些员工的加班时间是否独立?如果不是,原因可能是什么?
三、(20分)某城市交通管理部门的一项调查表明,该城市中驾车上班的人数超
过30%。
但一家研究机构则认为自驾车上班的人数比例达不到这一水平。
为证明自己的这一看法,该研究机构准备抽取一个简单的随机样本进行检验。
(1)请写出检验的原假设和备择假设;
(2)请对小样本情况写出计算p值的公式,并论述你所依赖的分布。
对大样本情况,写出检验统计量的公式以及使该统计量有意义所需要的假定的
条件;
(3)对于一般检验来说,如果结果表明“统计上显著”,是不是实际上也显著?
四、(10分)在对某项产品的认可的抽样调查报告中,如果报告仅仅说,“对该
产品认可的有90%”,那么该报告是否负责?一个负责任的调查报告应该给什么有关信息?
五、(10分)对于主成分分析,有人在进行了主成分分析之后,对得到的主成分
又进行了第二次主成分分析,以得到更加精确的结果。
请问,这样做是否有道理?请加以说明。
什么样的数据不适宜于主成分分析?选择那些主成分累计方差贡献率为70-80%之类的准则是不是总是适用?为什么?
(20分)回归模型y=β0+β1x1+β2x2+…+βp x p+ε中的ε一定是随机误差吗?六、
如果回答是否定的,讨论在何种情况下,答案是肯定的?此外,最小二乘回归是不是需要对误差项作出假定?如果不是,那么在什么情况下需要对误差项作出假定?作什么假定?
七、(25分)对于聚类分析,请回答以下问题:
(1)分层聚类前,需要对什么进行选择?
(2)描述分层聚类分析的详细步骤;
(3)描述K均值(快速)聚类分析的详细步骤。
八、(25分)应用多元线性回归模型y=β0+β1x1+β2x2+…+βp x p+ε,如果一个
SPSS回归分析的结果如下表所示:
a. Predictor s:(Constant),Beginning Salary
b. Predictor s:(Constant),Beginning Salary,Employment Category
则:
(1)表中所用选择自变量的方法可能是什么?
(2)表中的最后一个Sig.如何求得?意义是什么?
(3)请给出该表最后一个F所表示的统计量服从F分布所需要的假定条件,并对该统计量服从F分布予以证明。
P。