人大统计学真题
人大统计学考研真题
人大统计学考研历年真题精华版(03-09)2009年人大统计学专业课初试题一、有两个正态总体,均值和方差未知,但已知方差相等。
从第一个总体中抽取n=16的随机样本,均值为24,方差为64;从第二个总体中抽取n=36的随机样本,均值为20,方差为49。
如何检验第一个总体的均值是否大于第二个总体的均值?二、在何种情形下,回归系数的最小二乘估计不具有无偏性?说出原因并指出解决办法。
三、周期过程cos()t t X A ωϕ=+,其中频率ω和振幅A 都是常数,而相位ϕ是一个在区间[-π,π]上服从均匀分布的随机变量。
问{t X }是否平稳?说明原因。
四、把一个总体分为三层,各层的权重和预估的比例见下表。
待估计的参数为总体比例。
如采用奈曼分层抽样,请说明需要多大的样本容量才能与样本容量为600的无放回简单随机抽样有相同的估计量方差。
(假设各层总体单位数量h N 都充分大,忽略“有限总体校正系数”)五、与人大出版社21世纪统计学系列教材之《统计学》(第二版)第四章习题第10题是一样的。
六、若有线性回归模型01 (1,2,,)t t t y x t n ββε=++= ,其中()0t E ε=,222()t t E x εδ=,()0 ()t s E t s εε=≠,则(1)该模型是否违背古典线性回归模型的假定?请简要说明。
(2)如果对该模型进行估计,你会采用什么方法?请说明理由。
七、测试某种安眠药效果,随机选40只白鼠,将其随机分为20对,再随机分为两组。
第一组10对白鼠中每一对的两只分别关在不同的笼中喂养;第二组10对白鼠中每一对的两只关在同一个笼中喂养。
每对白鼠中随机抽取一只喂以实验的安眠药,在三个不同的时间点记录每只白鼠的活动情况:吃药后立即记录,吃药后一小时记录,吃药后两小时记录。
对于不吃药的白鼠,记录时间与同一对中另外一只白鼠的记录时间相同。
假定40只白鼠的初始活动状态相同。
请详细阐述你用何种方法分析安眠药的效果?八、某大学从教师中抽取一个随机样本进行满意度调查。
2003-2016年中国人民大学统计学805考研真题集
人大统计学考研历年真题精华版(03- 16)2016年人大学统计学考研真题(完整版)1,构造几何分布,标准化的样本空间,取值空间,事件空间。
2,X、Y为随机变量,给出条件分布,对于任意y,E(X|Y<=y) = E(X|Y>y),那么X与Y是否独立?写出详细论证过程。
3,给出联合分布,求条件分布,和条件概率。
4,X与Y是相互独立的随机变量,请给出一个充分条件,当X和Y各自服从什么分布时X-Y与X+Y相互独立,如果不存在请说明理由。
写出详细论证过程。
5,求一个密度函数的方差的极大似然估计,并求它的Fisher信息量。
6,异方差性和自相关是什么,检测方法,加权最小二乘法原理与实际步骤。
7,证明多元回归系数的估计量是无偏估计,是最小方差线性无偏估计。
8,多元线性回归,因变量均值与每个自变量间为二次函数关系,根据相互独立的n个样本预测因变量值。
2013年人大805统计学真题一、证明题:(20分)每题10分1.袋子里有两种颜色的球红球a个白球b个第一步从袋子里取出一个球观察其颜色然后丢掉第二步从袋子里再取出一个球,若和上一次取出的球颜色不同,则放回,回到第一步;若和上一次取出的球颜色相同,则丢掉,重复第二步。
证明取出的最后一个球是红球的概率是1/2。
2.证明n维正态随机向量的各分量相互独立的充要条件是互不相关。
二、简述:(30分)每题10分1.设昆虫在树叶上产卵数X服从参数为的泊松分布,而只有树叶上有卵时才能判断是否有昆虫。
在又设观察到的虫卵数Y,P(Y=i)=P(X+i|X>0),求P(Y为偶数)和E(Y)。
2. 2n+1个独立同分布样本,分布函数是F(x) 求中位数x(n+1)的分布3.设走进某商店的顾客数是均值为50的随机变量。
又设这些顾客所花的钱数是相互独立、均值为100元的随机变量。
再设任一顾客所花的钱数和进入该商店的总人数相互独立。
试问该商店一天的平均营业额是多少?三、已知Y1,……,Y n是相互独立的随机变量,且均服从。
统计学考试题及答案(中国人民大学第六版)
统计学一、单选1、从某高校随机抽出100名学生,调查他们每月的生活费支出,这研究的统计量是A 该校学生的总人数B 该校学生的月月平均生活费支出C 该校学生的生活费总支出D 100名学生的月平均生活费支出2、下列变量中,顺序变量是A职工人数 B产量 C产品等级 D利润总额3、将总体中所有单位按某种变量划分为若干层,再从各层中随机抽出一些单位组成一个样本。
这种抽样方式是A 简单随机抽样B 分层抽样C 整群抽样D 系统抽样4、指出下面陈述中错误的是A 抽样误差只存在于概率抽样中B 非抽样误差只存在于非概率抽样中。
C概率抽样和非概率抽样都存在非抽样误差。
D在普查中存在非抽样误差。
5、展示广告费支出与商品销售量之间是否有某种数量关系,最适合的图形是 A柱形图 B饼图 C线图 D散点图6、当样本量一定时,置信区间的宽度A 随置信水平的增大而减小B随置信水平的增大而增大C与置信水平的大小无关D与置信水平的平方根成反比7、在检验一个正态总体方差时,使用的分布是A z分布B t分布C X 分布D F分布8、指出下面陈述中的错误的是A 抽样误差可以避免B 抽样误差不可避免C 非抽样误差可以避免D 抽样误差可以控制9、假设检验中,如果计算出的P值越小,说明检验的结果越A 真实B 不真实C 显著D 不真实10、双因素方差分析涉及 自变量A 一个分类型B 一个数值型C 两个分类型D 两个数值型二、填空题1、当一组数据对称分布时,经验法则表明,大约有68%的数据分析在( 平均数±一个标准差 )的范围之内2、对于一组具有单峰分布的数据而言,当数据的m m >时,可判断数据是(左偏)分布3、连续变量在编制组距式变量数列时,其相邻两组的上下限必须重叠。
为解决不重的问题,应按照( 上组限不在内 )的规定确定数据所在的组4、单因素方差分析中,组间平方和SSA 对应的自由度为( k-1 ),组内平方和SSE 对应的自由度( n-k )5、数值型变量根据其取值的不同,可分为( 连续 )型变量和(离散 )型变量。
高等统计学--New答案1
中国人民大学接收同等学历人员申请硕士学位考试试题招生专业:统计学考试科目:高等统计学(数理统计学)X,并且与总n当抽样方式为无放回的情况时,下一次抽样是受前一次抽样的结果的影响的。
此时,,X,n(0,1)N ,从而(0,1)N的置信区间为ˆˆˆˆ(1)(1pp pp --25分)研究者想了解某种电子设备产品在一年的各个季节里被购买的情况是否存在不同。
如中国人民大学接收同等学历人员申请硕士学位考试试题招生专业:统计学考试科目:高等统计学(数理统计学),n X ,并且与总体同分布,当抽样方式为无放回的情况时,下一次抽样是受前一次抽样的结果的影响的。
此时,2,,n X X ,)j X(0,1) N ,从而(0,1)N和床位量(BEDN),调查了家医院数据,分为甲级II II II II II II518 389 535 273 426 505 322103 110 127 111 130 137 142一、多项选择题(每题4分,一共20分,每题要求:选择正确答案,对选择或未选答案进行简要而清晰的原因解释。
将答案填写在答题纸上,填写在试题上无效。
得分规则:选对并对答案解释合理,得4分;没有对未选答案解释最多得2分;漏选得1分,选错可参考解释酌情给分;不选得0分)1.某调查公司接受委托满意度调查,满意度分数在0~20之间,随机抽取36名消费者,平均满意分12,标准差3,在大样本的假设下,根据调查结果对总体平均满意情况的95%的置信区间,结果是:BA.9~15分B. 11~13分C. 12~14分D. 6~18分2.置信水平为α,下列说法正确的是(BD),A 在置信水平一定的条件下,提高置信估计精度需要缩小样本量;B 在置信水平一定的条件下,提高置信估计精度需要增加样本量;C 在样本量一定的条件下,提高置信估计精度,需要降低置信水平;D 在样本量一定的条件下,提高置信估计精度,需要增大置信水平。
3.研究人员对有糖尿病的老鼠和正常老鼠血液中某种矿物质的含量进行研究,经验表明有糖尿病的老鼠和正常老鼠血液中某种矿物质的含量测量方差相等,测得如下试验数据:糖尿病老鼠:9只,样本均值64.26,样本方差1.40正常老鼠:7只,样本均值75.66,样本方差1.32在置信水平为0.10之下,有糖尿病的老鼠和正常老鼠血液中Fe的含量之差的置信区间为(t(0.95,14)=1.76):([-12.43,-10.36])A. [5.68,15.56]B. [8.02,19.47]C.[10.36,12.43]D.[6.53,16.32]4. 请问以下哪些方法可以用来判断数据可能背离正态分布:BA. Q-Q图上,如果数据和基线之间几乎吻合;B. Kolmogrov-Smirnov正态检验中的统计量所对应的p值=0.001;C.对数据直方图做了光滑后没有发现数据有很大的发散趋势;拟合优度检验,统计量的值偏小。
2011、2013、2014年人民大学应用统计真题
2011人大应用统计专硕432真题1、(5*2=10分)给出若干数据:32 34 32 39 44 45 38 ……(共30个数值型数据)(1)这些数据可以用哪些图表来表示?(2)这些数据可以用哪些统计量描述?2、(20)t分布,卡方分布,F分布在统计学中有哪些应用?三种分布的假设条件是什么?3、(5*4=20)给出一些数据和背景:(数据不重要)(1)写出原假设和备择假设(2)95%置信区间的含义(3)p值的含义(这题共四问,有一问忘了,剩下三问的顺序是乱的)4、(5*4=20)对影响试验数据的一个因子进行单因素方差分析,给出:(1)简述模型中各参数的含义(2)简述该模型的假设条件(3)写出原假设和备择假设?(4)问好像是要写出检验统计量,我也记不大清了。
5、(5*4=20)给出了一个二元回归分析的EXCEL表格。
(1)简述各个回归系数的含义(2)计算,并解释其含义(3)计算,并解释其含义(4)通过给出的EXCEL结果,对这个回归模型进行评价6、(15)一个含有各种要素时间序列的预测步骤。
7、(5*3=15)总体数量为1000,总体均值32,总体方差5,从中抽出样本量为100的样本:(1)样本平均值的期望和标准差(2)样本平均值的分布(3)以上结果的得出,依靠那条定理?简述这条定理8、(20)有人认为人口密度与国民收入有关系,依据的数据给出了一个表,表中随着人口密度的减小,人均国民收入呈现递增趋势,接着题目又给了一个表,表中给出的是高收入国家的人口密度和人均国民收入的数据,可以看到高收入国家中也有几个国家的人口密度也是很大的,比如新加坡、日本。
题目第一问,从国土面积的角度去解释。
(我表述的貌似有点问题)第二问是对题目的分析过程进行改进,写出你认为比较合适的方法来分析人口密度与国民收入的关系。
2013人大应用统计专硕432真题1.调查三类企业对股价的关注度(20分)上表中包含哪些变量,这些变量的类型是什么?可用哪些图形,这些图形的用途是什么?可用哪些数据分析方法,这些方法的用途是什么?2.(20分)有两个盒子,一个盒子里有8个红球,2个黑球;另一个盒子里有2个红球,8个黑球。
人大统计学考博试题汇总10-12
为了了解总体特征,通过对总体抽样得到代表总体的样本,信息是分散在每个样本上的,就需要对样本进行加工,把样本的信息浓缩到不包含未知量的样本函数中,这个函数称为统计量。
统计量的分布称为抽样分布。
10年统计理论与应用一、名词解释典型相关,脸谱图,多元正态分布的密度函数二、二元条件分布四、抽样:列举复杂样本的方差计算方法,第二问是事后分层抽样五、总体比例的区间估计与假设检验六、Logistic回归:好似是S-PLUS软件或者SAS跑出来结果让根据结果写方程及分析七、企业经济统计:列举很多统计指标,让你根据这些指标写出你想分析什么问题,采用什么方法,能得出什么结论。
统计学一、X服从参数为a的泊松分布,a服从参数为b的伽马分布,问X的混合分布是什么?二、先验分布和后验分布的关系三、写出常用的三种非参数统计方法四、当因变量不服从正态分布时,如何建模?A对数正态分布B二项分布C二点分布D泊松分布五、以前考过的原题:关于抽样中整群抽样和随机抽样调查家庭电脑拥有量的一个案例1.有一组数据,考虑建立伽马函数和正态分布函数,如何判断所建立的函数能够更好地反映原始数据的信息2.区间估计和假设检验的区别和联系3.矩估计和极大似然估计的特点、以及据估计在什么情况下不适用4.是一道方差分析的题,具体不记得了,根据题意要求写出如何判断是否存在显著性差异,〔个人感觉不是很难〕5.显著性检验中,利用统计量检验和利用p至检验有什么不同6.谈谈对bayes方法的理解统计理论:总共是8道,前几年统计理论分A.B卷,现在不分了,前面60分必做,后面选做题100分,从中选择40分就可以了。
1.〔1〕什么是抽样分布,抽样分布与假设检验的关系〔2〕什么是多重共线性,如何识别多重共线性2.是高等数理统计中的一道题,本人做的不好,后来听其他同学说不是很难。
大致是给出一个密度函数和两个统计量T1 和T2〔具体形式不记得了,不是很难〕〔1〕证明T1 和T2 无偏〔2〕如何判断T1 和T2 的有效性〔3〕假设T=cmax(….)〔括号里面的东西不记得了〕,如何确定常数c,使得T的方差到达最小。
人民大学《统计学》题库及答案
1中国人民大学接受同等学历人员申请硕士学位考试试题招生专业:统计学考试科目:统计思想综述课程代码:123201 考题卷号:1一、(20分)随机抽取20块手机电池,测得其使用寿命数据如下(单位:小时):10089939981007101110021013999100899598399510009771015101099810051011996列出描述上述数据所适用的统计图形,并说明这些图形的用途。
直方图:直观的展示一组数据(电池使用寿命)的分布情况。
箱线图:直观反映原始数据(电池寿命)的数据分布的特征,如偏态,是否有离群点。
二、(20分)方差分析中有哪些基本假定?这些假定中对哪个假定的要求比较严格?1、方差分析有3个基本假定:(1)正态性:每个总体都应服从正态分布,即对于因子的每一个水平,其观测值是来自正态分布总体的简单随机样本;(2)方差齐性:各个总体的方差必须相同;(3)独立性:每个样本数据是来自因子各水平的独立样本2、对独立性要求比较严格,独立性得不到满足会对方差分析结果有较大影响,对正态性和方差齐性的要求相对比较宽松。
三、(20分)某种食品每袋的标准重量是100克,从该批食品中抽取一个随机样本,检验假设100:0H ,1001H 。
(1)如果拒绝0H ,你的结论是什么?,如果不拒绝0H ,你的结论是什么?(2)能否得到一个样本能够证明该食品的平均重量是100克?请说明理由。
(3)如果由该样本得到的检验的03.0P ,你的结论是什么?0.03这个值是犯第Ⅰ类错误的概率,是实际算出来的显著性水平,你怎样解释这个P 值?(1)拒绝0H :该种食品每袋的平均重量不是100g不拒绝0H :提供的样本不能证明该种食品每袋的平均重量不是100g(2)不能,样本得出的结论只能是拒绝或不拒绝原假设,并不能直接确定原假设为真(3)结论:若给定显著性水平为0.05,则可以拒绝原假设,认为该食品每袋的平均重量不是100克;但若给定显著性水平为0.01,则不能拒绝原假设P 值:如果该种食品每袋的平均重量是100g ,样本结果会像实际观测那样极端或更极端的概率仅为0.03四、(20分)在建立多元线性回归模型时,通常需要对自变量进行筛选。
人民大学应用统计历届试题
A、0.0001 C、0.001
(2000 年) 评价参数点估计量优劣的 常用标准有哪些?请写出其中一个 标准的定义。
(2000 年) 某企业抽查两组产品的使用寿命, A 组抽查 10 个产品的寿命为
360,345,350,355,350,355,350,345,360,355;
(2002年) 描述对总体参数进行矩估计的方 法。
(2002年) 作为公司原材料采购员,你非 常想知道应该提前多少天订货,才能最 少地占用资源。如果订得太早,货物滞 留在货场,不仅占用大量资金,也要花 费场地费;如果订得太晚,缺少原材料, 就会耽误生产。为了更好地了解订货规 律,你从过去的订货记录中随机地抽取 了 10 次(每一次,你的供货商都承诺 2 周之内到货),得到数据如下(天):
Φ(1.645)=0.95)
(1999 年) 火柴销售量及各影响因素的关系初 步估计如下: ˆ y =17.40+0.05 x1+0.26 x2-0.01 x3-0.24 x4 标准差(6.21)(0.02)(0.02)(0.03)(0.01)
R2=0.92 n=15
ˆ 式中:是火柴销售量(万盒);x1是煤气用户 y 数 (万户);x2是卷烟销量 (万箱);x3是蚊 香销量 (万箱);x4是打火机销量 (百万个)。
B 组抽查的结果为
350,355,350,360,340,345,350,360,370,345。
试用矩估计法估计这两组产品的平均寿 命及标准差,并做比较分析。
(2000 年) 用近 26 年的数据,建立某地区货 运周转量 y (亿吨公里) 和工农业总产值 x1 (亿元)、基建总投资 x2(亿元)之间的二元 线性回归方程: ˆ y =0.643+0.536x1+0.744x2 标准差(0.04) (0.45)
人大统计学作业答案解析
★统计学(第二版)(ZK007B)第一章总论1、【104134】(单项选择题)某市分行下属三个支行得职工人数分别为人、人、人,这三个数字就是( )、A.标志B。
指标C。
变量D.变量值【答案】D2、【104137】(单项选择题)统计一词得三种涵义就是( )、A、统计活动、统计资料、统计学B.统计活动、统计调查、统计学C.统计调查、统计整理、统计分析D、统计指标、统计资料、统计学【答案】A3、【104143】(单项选择题)一项调查表明,北京市大学生每学期在网上购物得平均花费就是元,她们选择在网上购物得主要原因就是“价格实惠”,则“大学生在网上购物得原因”就是( )。
A、分类型变量B.顺序型变量C、数值型变量D.定距变量【答案】A4、【104147】(单项选择题)一家研究机构从IT从业者中随机抽取人作为样本进行调查,其中回答她们得月收入在元以上,则月收入就是( )。
A.分类型变量B、顺序型变量C。
数值型变量D.定距变量【答案】C5、【104149】(单项选择题)一家研究机构从IT从业者中随机抽取人作为样本进行调查,其中得人回答她们得消费支付方式就是信用卡,则消费支付方式就是( )、A.分类型变量B。
顺序型变量C、数值型变量D、定距变量【答案】A6、【104156】(单项选择题)绝对不可能发生得事件发生得概率就是( )。
A.B、C.D.【答案】A7、【104160】(单项选择题)必然会发生得事件发生得概率就是( )、A。
B.C。
D.【答案】D8、【104161】(单项选择题)抛掷一枚均匀得硬币,出现正面得概率就是( )、A.B。
C。
D.【答案】C9、【104176】(简答题)统计数据可以划分为哪几种类型?分别举例说明。
【答案】统计数据按照所采用计量尺度得不同可划分为三种类型。
一种就是数值型数据,就是指用数字尺度测量得观察值。
例如,每天进出海关得旅游人数,某地流动人口得数量等。
数值型数据得表现就就是具体得数值,统计处理中得大多数都就是数值型数据;另一种就是分类型数据,就是指对数字进行分类得结果,例如人口按性别分为男、女两类,受教育程度也可以按不同类别来区分;再一种就是顺序型数据,就是指数据不仅就是分类得,而且类别就是有序得,例如满意度调查中得选项有“非常满意”,“比较满意”,“比较不满意”,“非常不满意",等。
中国人民大学统计学试题库(2011年7月更新)
)
A、是连续不断的
B、是以整数断开的 C、用测量或计算方法取得
D、相邻两值之间可取无限数值
E、相邻两值之间不可能有小数
10、总体、总体单位、标志、指标间的相互关系表现为:(
)
A、没有总体单位就没有总体,总体单位不能离开总体而存在
B、总体单位是标志的承担者
C、统计指标的数值来源于标志
D、指标是说明总体特征的,标志是说明总体单位特征的
入该组。
9、次数分布有两种表现方法,一种是用表格表示,另一种是用图表示。
10、统计整理就是对统计资料进行汇总、加工处理。
11、能够对总体进行分组,是由于统计总体中各单位所具有的差异性决定的。
三、单项选择题
3、在分布数列中,各组单位数与总体单位数的比率称为
,又称为比重或百分比。
4、变量值中最大值与最小值的差额称为
;在组距数列中,各组上限与下限的差额
称为
。
5、统计汇总技术主要有
和
两种形式。
6、统计表从形式上看,由
、
、
和
四部分构成;从内
容上看,由
和
两部分构成。
7、统计表按主词是否分组和分组程度可分为
、
和
。
)
A、标志 B、指标 C、变异 D、变量
10、一个统计总体(
)
A、只能有一个标志 B、只能有一个指标
C、可以有多个标志 D、可以有多个指标
11、统计对总体数量的认识是(
)
A、从总体到单位 B、从单位到总体
C、从定量到定性 D、以上都对
12、变量是可变的(
)
A、品质标志 B、数量标志 C、数量标志和指标 D、质量指标
于(
中国人民大学统计专业课初试题
2007年人大统计专业课初试题一、(20分)下面是一种零件误差的数据(单位:克):6.14.7 6.5 6.27.76.45.57.16.1 5.35.76.1 5.3 4.0 4.83.23.9 1.94.9 3.85.32.6 5.3 5.5 5.82.7 6.87.4 5.63.3(1)根据涉及t 分布的计算,该数据所代表的总体均值的95%置信区间为(4.637785,5.728882)。
请问,若使该置信区间有意义,需要对总体进行何等假定?这种假定能不能用数据证明?是不是该区间以0.95的概率覆盖真实总体均值?如果不是,说出理由及合适的说法。
(2)对于该数据所代表的总体的均值进行检验:零假设为总体均值等于4.8克,备选假设为总体均值大于4.8克。
如果进行t 检验,需要假定哪些条件?t 检验结果为p 值等于0.0807。
能不能说“在显著性水平为0.05时,接受零假设”?为什么?你的结论是什么?统计学:假设检验答:(1)在对总体均值进行区间估计时,需要考虑总体是否为正态分布、总体方差是否已知、用于构造估计量的样本是大样本(30n ≥)还是小样本(30n <)等几种情况。
当总体是正态总体,方差已知或非正态总体,大样本时,样本均值x 的抽样分布为正态分布。
当总体是正态总体,但总体方差未知,而且是小样本时,则需要用样本方差代替总体方差,此时需要用t 分布来建立总体均值μ的置信区间。
该题目中所涉及的正是第二种情况,因此若使该置信区间有意义,需要对总体进行正态分布的假定。
这种假定是可以用数据证明的。
例如可以通过Q-Q 图来大致验证这批数据是否来自正态分布的总体。
总体均值95%置信区间,不代表区间(4.637785,5.728882)以0.95的概率覆盖真实总体均值。
样本确定,置信区间亦随之确定,就不再是一个随机区间,而是一个确定的区间,这个确定的区间要么包含总体真值,要么不包含总体真值,不存在以某种概率覆盖真实总体均值,所以“该区间以0.95的概率覆盖真实总体均值”这种说法是不对的。
人大统计学真题07-09
2009年人大统计学专业课初试题一、有两个正态总体,均值和方差未知,但已知方差相等。
从第一个总体中抽取n=16的随机样本,均值为24,方差为64;从第二个总体中抽取n=36的随机样本,均值为20,方差为49。
如何检验第一个总体的均值是否大于第二个总体的均值?二、在何种情形下,回归系数的最小二乘估计不具有无偏性?说出原因并指出解决办法。
三、周期过程人=Acos(、•,其中频率••和振幅A都是常数,而相位是一个在区间卜n , n ]上服从均匀分布的随机变量。
问{XJ是否平稳?说明原因。
四、把一个总体分为三层,各层的权重和预估的比例见下表。
待估计的参数为总体比例。
如采用奈曼分层抽样,请说明需要多大的样本容量才能与样本容量为600的无放回简单随机抽样有相同的估计量方差。
(假设各层总体单位数量N h 都充分大,忽略“有限总体校正系数”)五、与人大出版社21世纪统计学系列教材之《统计学》(第二版)第四章习题第10题是一样的。
六、若有线性回归模型%「°「1人• ;t (t =1,2,…,n),其中EG戸0,EG2)-*,E(;「s) " (t^s),则(1)该模型是否违背古典线性回归模型的假定?请简要说明。
(2)如果对该模型进行估计,你会采用什么方法?请说明理由。
七、测试某种安眠药效果,随机选40只白鼠,将其随机分为20对,再随机分为两组。
第一组10对白鼠中每一对的两只分别关在不同的笼中喂养;第二组10对白鼠中每一对的两只关在同一个笼中喂养。
每对白鼠中随机抽取一只喂以实验的安眠药,在三个不同的时间点记录每只白鼠的活动情况:吃药后立即记录,吃药后一小时记录,吃药后两小时记录。
对于不吃药的白鼠,记录时间与同一对中另外一只白鼠的记录时间相同。
假定40只白鼠的初始活动状态相同。
请详细阐述你用何种方法分析安眠药的效果?八、某大学从教师中抽取一个随机样本进行满意度调查。
1分表示非常不满意,100分表示非常满意。
人大统计学作业答案解析
★统计学(第二版)(ZK007B)第一章总论1、【104134】(单项选择题)某市分行下属三个支行的职工人数分别为2200人、3000人、1800人,这三个数字是( )。
A。
标志B。
指标C.变量D。
变量值【答案】D2、【104137】(单项选择题)统计一词的三种涵义是()。
A。
统计活动、统计资料、统计学B。
统计活动、统计调查、统计学C.统计调查、统计整理、统计分析D.统计指标、统计资料、统计学【答案】A3、【104143】(单项选择题)一项调查表明,北京市大学生每学期在网上购物的平均花费是500元,他们选择在网上购物的主要原因是“价格实惠”,则“大学生在网上购物的原因"是()。
A.分类型变量B。
顺序型变量C.数值型变量D.定距变量【答案】A4、【104147】(单项选择题)一家研究机构从IT从业者中随机抽取800人作为样本进行调查,70回答他们的月收入在5000元以上,则月收入是( ).其中%A。
分类型变量B.顺序型变量C。
数值型变量D.定距变量【答案】C5、【104149】(单项选择题)一家研究机构从IT从业者中随机抽取800人作为样本进行调40的人回答他们的消费支付方式是信用卡,则消费支付方式是().查,其中%A。
分类型变量B.顺序型变量C。
数值型变量D。
定距变量【答案】A6、【104156】(单项选择题)绝对不可能发生的事件发生的概率是( )。
A。
0B.1.0C。
5.0D.1【答案】A7、【104160】(单项选择题)必然会发生的事件发生的概率是( )。
A。
0B。
1.0C。
5.0D.1【答案】D8、【104161】(单项选择题)抛掷一枚均匀的硬币,出现正面的概率是( )。
A。
0B。
1.0C。
5.0D.1【答案】C9、【104176】(简答题)统计数据可以划分为哪几种类型?分别举例说明。
【答案】统计数据按照所采用计量尺度的不同可划分为三种类型。
一种是数值型数据,是指用数字尺度测量的观察值。
人大统计学考研历年真题(03-09)参考答案解读
人大统计学考研历年真题参考解答精华版(03-09)2009年人大统计学专业课初试题参考解答一、设第一、二个总体均值分别为1μ与2μ,样本均值分别为1X 与2X ,样本方差分别为21S 与22S 。
1.构造原假设和备择假设012112:0:0H H μμμμ-≤↔->2.构造统计量。
由于两总体方差相等,且均为正态总体,则可以构造如下检验统计量:t =其中222112212(1)(1)1564354953.521535pn S n S S n n -+-⨯+⨯===+-+ 则446 1.82017.31447.2111t ⨯⨯===⨯ 3.计算临界值。
给定显著性水平α,如0.05α=,计算临界值120.05(2)(50)t n n t α+-=,由于50>30,则0.050.05(50) 1.645t z ≈=。
4.做出决策。
由于 1.8201 1.645t =>,故拒绝原假设,即认为12μμ>。
二、1.对于回归模型Y X βε=+,β的最小二乘估计为:'1'()X X X y β-=。
现在来看它的期望'1''1''1''1''1'()[()]()()()()()(())()()E E X X X y X X X E y X X X E X X X X X E X X X E ββεβεβε-----===+=+=+ 从上面可以看出,要使β为无偏估计,则必须满足()0E ε=,所以只有当()0E ε≠时,β才为有偏估计。
2.使()0E ε≠的原因:①遗漏了关键自变量,即全模型正确时,而我们误用了选模型。
用选模型建模时,使得误差项中含有遗漏自变量的信息,从而期望不为零。
证明过程如下证明:假设正确模型为Y X βε=+,令(,)p t X X X =,p t βββ⎛⎫= ⎪⎝⎭。
而我们选用了模型p p Y X βε=+来估计β,得到'1'()p p p p X X X y β-=,则'1''1''1''1''1'()[()]()()() ()(,) ()p p p p p p p p p p p p p p p t t p p p p t t E E X X X y X X X E y X X X X X X X X X X X X X ββββββ-----===⎛⎫= ⎪⎝⎭=+从上式可以看出p β是p β的有偏估计。
中国人民大学805统计学历年真题-图文
中国人民大学805统计学历年真题-图文2022年人大805统计学真题一、证明题:(20分)每题10分1.袋子里有两种颜色的球红球a个白球b个第一步从袋子里取出一个球观察其颜色然后丢掉第二步从袋子里再取出一个球,若和上一次取出的球颜色不同,则放回,回到第一步;若和上一次取出的球颜色相同,则丢掉,重复第二步。
证明取出的最后一个球是红球的概率是1/2。
2.证明n维正态随机向量的各分量相互独立的充要条件是互不相关。
二、简述:(30分)每题10分1.设昆虫在树叶上产卵数某服从参数为的泊松分布,而只有树叶上有卵时才能判断是否有昆虫。
在又设观察到的虫卵数Y,P(Y=i)=P(某+i|某>0),求P(Y为偶数)和E(Y)。
2.2n+1个独立同分布样本,分布函数是F(某)求中位数某(n+1)的分布3.设走进某商店的顾客数是均值为50的随机变量。
又设这些顾客所花的钱数是相互独立、均值为100元的随机变量。
再设任一顾客所花的钱数和进入该商店的总人数相互独立。
试问该商店一天的平均营业额是多少?三、已知Y1,……,Yn是相互独立的随机变量,且均服从大似然估计,并求他们的均方误差四、某和Y是两个相关的随机变量:求证var(Y)=E(var(Y|某))+var(E(Y|某))并谈谈你对它的理解和应用。
(25分)五、谈谈你对双因素方差分析的理解和认识。
(25分)六、一元线性回归中有三个检验:线性相关检验,回归方程显著性检验以及某的回归系数的检验,谈谈你对它们的理解和它们之间的关系。
(25分)。
(25分)求的矩估计和最2022年人大805统计学真题一、为研究不同地区与购买汽车的消费价格之间的相关关系,调查得到如下的数据:10~20万20~30万30~40万40~50万东部地区60203010西部地区40303020中部地区50305040对于以上的数据可以用什么统计图表分析,并说明这些图表的用途。
对于以上的数据可以用什么统计方法分析,并说明这些方法的用途。
《统计学基础》(第二版)中国人民大学出版社练习册选择题
《统计学基础》(第二版)中国人民大学出版社练习册选择题第一章导论1.指出下面的数据哪一个属于分类数据A.年龄:18岁,20岁,21岁……B.工资:1500元,1800元,3600元……C.汽车产量:35万辆,80万辆,150万辆……D.购买商品时的支付方式:现金,信用卡,支票……2. 指出下面的数据哪一个属于顺序数据A.年龄:18岁,20岁,21岁……B.工资:1500元,1800元,3600元……C.汽车产量:35万辆,80万辆,150万辆……D.员工对企业某项改革措施的态度:赞成,中立,反对……3.某研究部门准备在全市200万个家庭中抽取2000个家庭,推断该城市所有职工家庭的年人均收入。
这项研究的总体是A.2000个家庭 B.200万个家庭C. 2000个家庭的人均收入 D.200万个家庭的人均收入4. 某研究部门准备在全市200万个家庭中抽取2000个家庭,推断该城市所有职工家庭的年人均收入。
这项研究的样本是A.2000个家庭 B.200万个家庭C. 2000个家庭的人均收入 D.200万个家庭的人均收入5. 某研究部门准备在全市200万个家庭中抽取2000个家庭,推断该城市所有职工家庭的年人均收入。
这项研究的参数是A.2000个家庭 B.200万个家庭C. 2000个家庭的人均收入 D.200万个家庭的人均收入6. 某研究部门准备在全市200万个家庭中抽取2000个家庭,推断该城市所有职工家庭的年人均收入。
这项研究的统计量是A.2000个家庭 B.200万个家庭C. 2000个家庭的人均收入 D.200万个家庭的人均收入7.一家研究机构从IT从业者中随机抽取500人作为样本进行调查,其中60%回答他们的月收入在5000元以上,50%的人回答他们的消费支付方式是信用卡。
这里的“消费支付方式”是A.分类变量 B.顺序变量C.数值型变量 D.离散变量8. 一家研究机构从IT从业者中随机抽取500人作为样本进行调查,其中60%回答他们的月收入在5000元以上,50%的人回答他们的消费支付方式是信用卡。
高等统计学考题-人大精简版
一、多项选择题(每题4分,一共20分,每题要求:选择正确答案,对选择或未选答案进行简要而清晰的原因解释。
将答案填写在答题纸上,填写在试题上无效。
得分规则:选对并对答案解释合理,得4分;没有对未选答案解释最多得2分;漏选得1分,选错可参考解释酌情给分;不选得0分)1.有关样本的分布,以下陈述正确的是:ABCA. 如果样本X 1,…,X n 独立同分布来自Gamma 分布,∑==ni i X n X 11在大样本下有近似的正态分布;【对。
满足中央极限定理条件】B.如果样本X 1,…,X n 独立同分布来自N (2,σμ),∑==ni i X n X 11在大样本情况下有精确分布N (n /,2σμ);【对。
独立同分布正态随机变量的均值仍是正态分布,方差值符合中央极限定理】C.如果样本X 1,…,X n 独立同分布来自N (2,σμ),即使样本量不大,∑==ni i X n X 11也服从正态分布;【对。
独立同分布正态随机变量的均值仍是正态分布】D.如果样本X 1,…,X n 来自任意分布,在大样本情况下,由X 1,…,X n 组成的数据有近似的正态分布;【错。
如果X 1,…,X n 强相关,则不成立;即使i.i.d 情况下也不是任意的数据组成方式都是正态分布】2.有关检验的p 值,下面说法正确的是:CA. 一般为[0,0.1]之间的一个很小的概率;【错。
p 值是计算得出的概率,取值0-1之间】 B. 接受备择假设的最小显著性水平; 【错。
接受备择假设说法不准确】C. 如果p 值小于显著性水平,则拒绝零假设; 【对。
符合假设检验规则】D. 样本统计量的分布函数。
【错。
p 值根据检验统计量分布函数计算得出】(卷3)5.有关检验的p值,下面说法正确的是:CDA.一般为[0,0.1]之间一个较小的概率;【错。
检验结果不拒绝原假设的情况下,p值较大】B.接受备择假设的最小显著性水平;【错。
接受备择假设说法不准确】C.如果p值小于显著性水平,则拒绝零假设;【对。
人大统计学真题03-06
2006年人大统计专业课初试题一、(20分)某银行为缩短到银行办理业务等待的时间,准备采用两种排队方式进行试验:一种是所有顾客都进入一个等待队列;另一种是顾客在三个业务窗口处列队三排等待。
为比较那种排列方式使顾客等待的时间更短,两种排队方式各随机抽取9名顾客,得到第一种排队方式的平均等待时间为7.2分钟,标准差为1.97分钟,第二种排队方式的等待时间(单位:分钟)如下:5.56.6 6.7 6.87.1 7.3 7.4 7.8 7.8(1)画出第二种排队方式等待时间的茎叶图;(2)比较两种排队方式等待时间的离散程度;(3)如果让你选择一种排队方式,你会选择哪一种?试说明理由。
二、(20分)某企业生产的袋装食品采用自动打包机包装,每袋标准重量为100克。
现从某天生产的一批产品中按重量重复抽样方式随机抽取50包进行检查,测得每包重量(单位:克)如下:已知食品包重量服从正态分布,要求:(1)确定该种食品平均重量95%的置信区间;(2)如果厂家认为每袋食品重量不低于100克,请写出检验的原假设和备择假设;(3)利用P值进行检验和利用统计量进行检验有什么不同?(z0.05=1.645,z0.025=1.96,t0.05=1.69,t0.025=2.03)三、(20分)一家汽车制造商准备购进一批轮胎,考虑的因素主要有轮胎供应商牌和耐磨程度。
为了对耐磨程度进行测试,分别在低速(40公里/小时),中速(80公里/小时),高速(120公里/小时)下进行测试。
根据对5家供应商抽取的轮胎随机样本对轮胎在行驶1000公里后磨损程度进行试验,在显著水平α=0.01下得到的有关结果如下:差异源SS df MS F P-value F crit行 列 误差 总计1.55 3.48 0.14 5.174 2 8 140.39 1.74 0.0221.72 97.680.000236 0.0000027.01 8.65(1)不同的车速对磨损程度是否有显著影响?(2)不同供应商的轮胎之间磨损程度是否显著差异? (3)在上面的分析中,你都做了哪些假设?四、(15分)说明什么条件下适合采取简单随机抽样? 五、(25分)说明回归模型的假设以及当这些假设不成立时的应对方法。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
人大统计学考研历年真题精华版(03-09)—By fan(声明:这是由fan整理编辑,仅供参考。
)2009年人大统计学专业课初试题一、有两个正态总体,均值和方差未知,但已知方差相等。
从第一个总体中抽取n=16的随机样本,均值为24,方差为64;从第二个总体中抽取n=36的随机样本,均值为20,方差为49。
如何检验第一个总体的均值是否大于第二个总体的均值?二、在何种情形下,回归系数的最小二乘估计不具有无偏性?说出原因并指出解决办法。
三、周期过程cos()t t X A ωϕ=+,其中频率ω和振幅A 都是常数,而相位ϕ是一个在区间[-π,π]上服从均匀分布的随机变量。
问{t X }是否平稳?说明原因。
四、把一个总体分为三层,各层的权重和预估的比例见下表。
待估计的参数为总体比例。
如采用奈曼分层抽样,请说明需要多大的样本容量才能与样本容量为600的无放回简单随机抽样有相同的估计量方差。
(假设各层总体单位数量h N 都充分大,忽略“有限总体校正系数”)五、与人大出版社21世纪统计学系列教材之《统计学》(第二版)第四章习题第10题是一样的。
六、若有线性回归模型01 (1,2,,)t t t y x t n ββε=++=,其中()0t E ε=,222()t t E x εδ=,()0 ()t s E t s εε=≠,则(1)该模型是否违背古典线性回归模型的假定?请简要说明。
(2)如果对该模型进行估计,你会采用什么方法?请说明理由。
七、测试某种安眠药效果,随机选40只白鼠,将其随机分为20对,再随机分为两组。
第一组10对白鼠中每一对的两只分别关在不同的笼中喂养;第二组10对白鼠中每一对的两只关在同一个笼中喂养。
每对白鼠中随机抽取一只喂以实验的安眠药,在三个不同的时间点记录每只白鼠的活动情况:吃药后立即记录,吃药后一小时记录,吃药后两小时记录。
对于不吃药的白鼠,记录时间与同一对中另外一只白鼠的记录时间相同。
假定40只白鼠的初始活动状态相同。
请详细阐述你用何种方法分析安眠药的效果?八、某大学从教师中抽取一个随机样本进行满意度调查。
1分表示非常不满意,100分表示非常满意。
数据汇总如下表,欲分析教师职称和性别对满意度有无显著性影响,则(1)你会选择什么分析方法?简述你的分析思路(可用公式说明,不需计算结果)。
(2)要采用该分析方法,数据必须满足哪些几本假定?请加以说明。
2008年人大统计学专业课初试题一、(10分)07年香港一则报道说:“随着经济的增长,香港低收入家庭的比例在增长,其中低收入的家庭是指低于中位数的家庭。
”请你从统计的角度对该报道做简要评论。
二、(10分)经常有人说方差分析是比较多个总体的均值是否相同,但为什么叫方差分析呢?请谈谈你对方差分析的理解,并说明方差分析解决问题的基本思路。
三、(10分)如果时间序列在随时间变化的过程中既有趋势又有季节变动,你认为可以建立什么样的预测模型?请你写出模型形式并加以简要说明。
四、(30分)食品厂家说:净含量是每袋不低于250g。
但有消费者向消协反映不是250g,消协据此要求厂家自检,同时消协也从中随机抽取20袋检验。
(1)如果厂家自己检验,你认为提出什么样的原假设和备择假设?并说明理由;(2)如果从消费者利益出发,你认为应该提出什么样的原假设和备择假设?并说明理由;(3)消协抽取20袋,数据如下(略),得p值为0.4297,在α=0.5的显著水平下,检验假设意味着什么?p值的含义是什么?(4)据样本数据得该食品每袋平均重量95%置信区间(241.1,257.5),你认为这种食品实际平均重量是否在该区间?为什么?五、(15分)在经典的多元线性回归模型里,针对自变量事实上是有许多假设的。
(1)请具体指明这些假设有哪些?(2)说明这些假设所发挥的主要作用;(3)请讨论这些假设最终产生的影响。
六、(15分)在有关统计知识方面内容的中学课本里编者认为基本的抽样方式只有三种,并不包括整群抽样,请说明你赞同与否并详列理由。
七、(30分)叙述贝叶斯判别分析的原理(包括完整的假设)并说明:(1)与聚类分析相比,贝叶斯判别分析赖以进行的数据结构有何特点?(2)与其他判别分析相比,贝叶斯判别分析结果的表现形式有何不同?八、(30分)在诸如大坝、码头等工程设计中,坝高和码头高度的确定十分关键,要考虑许多因素。
(1)以大坝为例,概略说明需考虑的主要因素;(2)大坝高度通常利用长期洪水历史记录数据,依据几十年一遇的标准确定,请写出计算坝高详细的具体步骤。
(画出框图,并尽量避免过多使用文字)2007年人大统计学专业课初试题一、(20分)下面是一种零件误差的数据(单位:克):6.1 4.7 6.5 6.27.76.4 5.57.1 6.1 5.35.76.1 5.3 4.0 4.83.2 3.9 1.94.9 3.85.3 2.6 5.3 5.5 5.82.7 6.8 7.4 5.63.3(1)根据涉及t分布的计算,该数据所代表的总体均值的95%置信区间为(4.637785,5.728882)。
请问,若使该置信区间有意义,需要对总体进行何等假定?这种假定能不能用数据证明?是不是该区间以0.95的概率覆盖真实总体均值?如果不是,说出理由及合适的说法;(2)对于该数据所代表的总体的均值进行检验:零假设为总体均值等于4.8克,备选假设为总体均值大于4.8克。
如果进行t检验,需要假定哪些条件?t检验结果为p值等于0.0807。
能不能说“在显著性水平为0.05时,接受零假设”?为什么?你的结论是什么?二、(20分)一家研究机构想估计在30个网络公司工作的员工每周加班的平均时间,为此进行抽样调查。
请回答以下问题:(1)如果对这些员工进行随机电子邮件调查,由答复的邮件所得到的数据是不是简单随机样本?为什么?(2)抽样调查中,说“响应误差总是人们不说实话导致的”对不对?为什么?随机误差是不是可以避免的?(3)这些员工的加班时间是否独立?如果不是,原因可能是什么?三、(20分)某城市交通管理部门的一项调查表明,该城市中驾车上班的人数超过30%。
但一家研究机构则认为自驾车上班的人数比例达不到这一水平。
为证明自己的这一看法,该研究机构准备抽取一个简单的随机样本进行检验。
(1)请写出检验的原假设和备择假设;(2)请对小样本情况写出计算p值的公式,并论述你所依赖的分布。
对大样本情况,写出检验统计量的公式以及使该统计量有意义所需要的假定的条件;(3)对于一般检验来说,如果结果表明“统计上显著”,是不是实际上也显著?四、(10分)在对某项产品的认可的抽样调查报告中,如果报告仅仅说,“对该产品认可的有90%”,那么该报告是否负责?一个负责任的调查报告应该给什么有关信息?五、(10分)对于主成分分析,有人在进行了主成分分析之后,对得到的主成分又进行了第二次主成分分析,以得到更加精确的结果。
请问,这样做是否有道理?请加以说明。
什么样的数据不适宜于主成分分析?选择那些主成分累计方差贡献率为70-80%之类的准则是不是总是适用?为什么?六、(20分)回归模型y=β0+β1x1+β2x2+…+βp x p+ε中的ε一定是随机误差吗?如果回答是否定的,讨论在何种情况下,答案是肯定的?此外,最小二乘回归是不是需要对误差项作出假定?如果不是,那么在什么情况下需要对误差项作出假定?作什么假定?七、(25分)对于聚类分析,请回答以下问题:(1)分层聚类前,需要对什么进行选择?(2)描述分层聚类分析的详细步骤;(3)描述K均值(快速)聚类分析的详细步骤。
八、(25分)应用多元线性回归模型y=β0+β1x1+β2x2+…+βp x p+ε,如果一个SPSS回归分析的结果如下表所示:a. Predictor s:(Constant),Beginning Salaryb. Predictor s:(Constant),Beginning Salary,Employment Category则:(1)表中所用选择自变量的方法可能是什么?(2)表中的最后一个Sig.如何求得?意义是什么?(3)请给出该表最后一个F所表示的统计量服从F分布所需要的假定条件,并对该统计量服从F分布予以证明。
2006年人大统计学专业课初试题一、(20分)某银行为缩短到银行办理业务等待的时间,准备采用两种排队方式进行试验:一种是所有顾客都进入一个等待队列;另一种是顾客在三个业务窗口处列队三排等待。
为比较那种排列方式使顾客等待的时间更短,两种排队方式各随机抽取9名顾客,得到第一种排队方式的平均等待时间为7.2分钟,标准差为1.97分钟,第二种排队方式的等待时间(单位:分钟)如下:5.56.6 6.7 6.87.1 7.3 7.4 7.8 7.8(1)画出第二种排队方式等待时间的茎叶图;(2)比较两种排队方式等待时间的离散程度;(3)如果让你选择一种排队方式,你会选择哪一种?试说明理由。
二、(20分)某企业生产的袋装食品采用自动打包机包装,每袋标准重量为100克。
现从某天生产的一批产品中按重量重复抽样方式随机抽取50包进行检查,测得每包重量(单位:克)如下:已知食品包重量服从正态分布,要求:(1)确定该种食品平均重量95%的置信区间;(2)如果厂家认为每袋食品重量不低于100克,请写出检验的原假设和备择假设;(3)利用P值进行检验和利用统计量进行检验有什么不同?(z0.05=1.645,z0.025=1.96,t0.05=1.69,t0.025=2.03)三、(20分)一家汽车制造商准备购进一批轮胎,考虑的因素主要有轮胎供应商牌和耐磨程度。
为了对耐磨程度进行测试,分别在低速(40公里/小时),中速(80公里/小时),高速(120公里/小时)下进行测试。
根据对5家供应商抽取的轮胎随机样本对轮胎在行驶1000公里后磨损程度进行试验,在显著水平α=0.01下得到的有关结果如下:差异源SS df MS F P-value F crit行列误差总计1.553.480.145.17428140.391.740.0221.7297.680.0002360.0000027.018.65(1)不同的车速对磨损程度是否有显著影响?(2)不同供应商的轮胎之间磨损程度是否显著差异?(3)在上面的分析中,你都做了哪些假设?四、(15分)说明什么条件下适合采取简单随机抽样?五、(25分)说明回归模型的假设以及当这些假设不成立时的应对方法。
六、(20分)解释因子模型X=AF+ε的意义并写出模型的假设。
七、(15分)以下是从《中国统计年鉴-2005》摘引的资料,要求:(1)根据国民经济收入分配核算原理,说明居民人均收入低于人均GDP水平的原因;(2)计算各指标的动态变动率(不考虑价格变化),对其结果予以简要分析。