数理统计大作业
西南大学2020年春季数理统计【0348】大作业课程考试参考答案
学期: 2020年春季
课程名称【编号】:数理统计【0348】A卷
考试类别:大作业 满分:100 分
一、叙述判断题(任选一题)
1、设总体X服从正态分布 ,其中
(1)写出样本 的联合密度函数;
(2)指出 之中哪些是统计量,哪些不是统计量,并说明理由。
, ,
(1)指出T1,T2,T3哪几个是θ的无偏估计量;
(2)在上述θ的无偏估计中指出哪一个较为有效。(20分)
解:(1)由于Xi服从均值为θ的指数分布,所以
E(Xi)=θ,D(Xi)=θ2,i=1,2,3,4
由数学期望的性质2°,3°有
即T1,T2是θ的无偏估计量
(2)由方差的性质2°,3°并注意到X1,X2,X3,X4独立,知
解:(1) ,置信度0.9,即α=0.1,查正态分布数值表,知 ,即 ,从而 , ,所以总体均值 的0.9的置信区间为.
(2)σ未知
,置信度0.9,即α=0.1,自由度n-1=15,查t-分布的临界值表
所以置信度为0。9的μ的置信区间是
4、根据某地环境保护法规定,倾入河流的废水中某种有毒化学物质含量不得超过3ppm。该地区环保组织对沿河各厂进行检查,测定每日倾入河流的废水中该物质的含量。某厂连日的记录为
3.1 3.2 3.3 2.9 3.5 3.4 2.5 4.3 2.9 3.6 3.2 3.0 2.7 3.5 2.9
试在显著性水平α=0.05上判断该厂是否符合环保规定(假定废水中有毒物质含量X服从正态分布 )。( )(15分)
解(1)H0:H1:
(2)H0的拒绝域为:
(3)计算,,=1.77667.
因为σ是未知参数。
2、设总体X服从二项分布B(n,p),其中p是未知参数, 是来自总体的简单随机样本。(15分)
最新数理统计大作业题目和答案--0348资料
1、设总体X 服从正态分布),(2σμN ,其中μ已知,2σ未知,n X X X ,,,21 为其样本,2≥n ,则下列说法中正确的是( )。
(A )∑=-ni iXn122)(μσ是统计量 (B )∑=ni iXn122σ是统计量(C )∑=--ni i X n 122)(1μσ是统计量 (D )∑=ni i X n12μ是统计量2、设两独立随机变量)1,0(~N X ,)9(~2χY ,则YX 3服从( )。
)(A )1,0(N )(B )3(t )(C )9(t )(D )9,1(F3、设两独立随机变量)1,0(~N X ,2~(16)Y χ)。
)(A )1,0(N )(B (4)t )(C (16)t )(D (1,4)F4、设n X X ,,1 是来自总体X 的样本,且μ=EX ,则下列是μ的无偏估计的是( ).)(A ∑-=-1111n i i X n )(B ∑=-ni i X n 111 )(C ∑=n i i X n 21 )(D ∑-=111n i i X n 5、设4321,,,X X X X 是总体2(0,)N σ的样本,2σ未知,则下列随机变量是统计量的是( ).(A )3/X σ; (B )414ii X=∑; (C )σ-1X ; (D )4221/ii Xσ=∑6、设总体),(~2σμN X ,1,,n X X L 为样本,S X ,分别为样本均值和标准差,则下列正确的是( ).2() ~(,)A X N μσ 2() ~(,)B n X N μσ 22211()()~()ni i C X n μχσ=-∑()~()D t n7、设总体X 服从两点分布B (1,p ),其中p 是未知参数,15,,X X ⋅⋅⋅是来自总体的简单随机样本,则下列随机变量不是统计量为( )( A ) . 12X X +( B ){}max ,15i X i ≤≤( C ) 52X p +( D )()251X X -8、设1,,n X X ⋅⋅⋅为来自正态总体2(,)N μσ的一个样本,μ,2σ未知。
应用数理统计大作业
应用数理统计大作业In statistics, the central limit theorem plays a crucial role in understanding the distribution of sample means. By stating that, regardless of the shape of the underlying population distribution, the distribution of sample means approaches a normal distribution as the sample size increases, the central limit theorem provides a powerful tool for making inferences about population parameters based on sample data. 统计学中,中心极限定理在理解样本均值的分布方面扮演着关键角色。
通过表明,无论底层人群分布的形状如何,随着样本量的增加,样本均值的分布会逼近正态分布,中心极限定理为根据样本数据对人群参数进行推断提供了一个强大的工具。
Another important concept in statistical inference is confidence intervals, which provide a range within which the true population parameter is estimated to lie with a certain level of confidence. Confidence intervals are essential in interpreting the results of hypothesis tests, as they indicate the precision of the estimate and allow for an assessment of the uncertainty associated with the sample data. 统计推断中的另一个重要概念是置信区间,它提供了一个范围,真实人群参数被估计在其中的概率。
数理统计习题(汇总)
150 162 175 165
(1) 求 Y 对 X 的线性回归方程; (2) 检验回归方程的显著性; (3) 求回归系数 b 的 95%的置信区间; (4) 取 x 0 =90,求 y 0 的预测值及 95%的预测区间。 8. 为了考察影响某种化工产品转化率的因素 , 选择了三个有关因素: 反应温度 (A)、反应时 间( B)、用碱量(C),而每个因素取三种水平,列表如下: 水平 因子 温度(A) 时间(B) 用碱量(C) 1 80℃( A1 ) 90 分( B1 ) 5%( C1 ) 2 90℃( A2 ) 120 分( B2 ) 6%( C2 ) 3 90℃( A3 ) 150 分( B3 ) 7%( C3 )
X ________, E ( X ) ______, D( X ) ______ .
3. 设 X 1 , X 2 , , X n 相互独立,且 X i N (0,1).(i 1, 2, , n) 则 的________分布。
2 4. 设 X N (0,1).Y ( n). X 与 Y 独 立 ,则 随 机 变 量 T
2
9. 某厂生产一种乐器用的合金弦线,按以往的资料知其抗拉强度(单位: kg cm 2 )服从 正态分布 N (10560,802 ) ,今用新配方生产了一批弦线,欲考察这批弦线的抗拉强度是 否有提高,为此随机抽取 10 根弦线做抗拉试验,测得其抗拉强度均值为 x 10631.4 , 均方差 s 81.00 。 (检验水平 0.05 ) 。 10. 某厂生产一种保险丝,规定保险丝熔化时间的方差不能超过 400。今从一批产品中
2 2 2 sB 1024( h2 ) ,取置信水平为 0.99 ,试求:
(1)
2 1 的区间估计。 2 2
数理统计大作业要求
大作业要求前言 ............................................................ 页码一、采集样本、数据整理及SPSS 统计软件的实现 ..................... 页码 0、掌握采集样本及数据整理的方法;1、学会SPSS 统计软件安装与启动;2、利用SPSS 建立数据文件、并利用数据库导入数据;3、利用SPSS 对数据进行合并与拆分;4、利用SPSS 对数据进行描述性统计分析:给出频数、频率分布表及偏度和峰度,并画出直方图和折线图;5、写出经验分布函数并利用SPSS 画出图形;6、查找藏于文著里的已知的各种概率分布(力求全),并描述其背景,给出 其期望和方差,利用SPSS 或其他软件画出密度函数的图形;注:SPSS 软件版本为SPSS19.0 (中文版或英文版均可),从百度可以下载.二、给出总体分布的参数估计(用SPSS 软件完成) .............................................. 页码1、矩估计;2、最大似然估计;3、若总体是未知分布,应探求其参数的点估计,并写出方案;4、参数区间估计(假设总体是正态分布); .......................... 页码1)、方差2σ未知,求数学期望μ的置信区间; ........................ 页码2)、数学期望μ,2σ均未知,求方差2σ的置信区间; ......................................... 页码 (要求有步骤,有计算结果)三、 参数的假设检验(用SPSS 完成) .............................. 页码1、 样本统计数据的t 检验........................................ 页码2、 样本统计数据的-2χ检验...................................................................................... 页码 注:可先假设总体是正态情况讨论,总体若不是正态的要给出探求方案四、非参数假设检验(2χ拟合优度检验)(用SPSS 完成) .............. 页码1、2χ拟合优度检验2、当上述检验被接受或被拒绝时,请结合实际问题给出说明五、结论 ........................................................ 页码总结、评述和体会参考文献 ..........................................................................................................................................要求:1、大作业内容按上述过程要求完成,不得缺漏;2、由本人认真独立完成,不得抄袭他人;3、样本数据限在本专业范围内寻找,样本容量原则上100个以上;4、大作业格式应参考本科毕业设计格式(如,页面设置,字号小四,插图等)5、字数要求为A4纸20页左右;6、结束课程后一周内提交,上交纸质版和电子版两种;7、大作业成绩占期末总成绩30% 。
李楠 数理统计大作业
自然语言中困惑度问题的统计分析姓名:李楠学号:20120102015专业方向:计算机应用技术2012年11月2日摘要数理统计学是研究随机现象统计规律性的一门数学学科,它以概率论为基础,研究如何收集、整理和分析带有误差的随机数据,建立适当的随机数学模型,并在此基础上对随机现象的本质规律性给出推断和预测,为决策提供科学依据。
本文依据数理统计学的知识,通过测试一百多篇语料的困惑度,得出110个样本数据,通过对困惑度样本数据加工处理和汇总后,给出矩估计和极大似然估计、给出参数估计区间、给出参数的t检验和2 检验,进行非参数拟合优度检验,从而得出相应的结论,即判断一个语言模型的好坏。
关键词:困惑度;数理统计;参数估计;假设检验目录前言 ............................................................... 3 一、采集样本及数据整理 (4)1、数据的搜集方法及说明2、数据整理:给出频数、频率分布表及说明3、画出直方图和折线图并给出说明4、画出经验分布函数二、假定总体服从正态分布,给出μ,2σ的估计 (10)1、矩估计法2、极大似然估计3、若总体不是正态分布请探求其参数估计,并写出方案三、参数区间估计 (12)1、方差2σ未知,求数学期望μ的置信区间 ......................... 12 2、数学期望μ,2σ均未知,求方差2σ的置信区间 . (13)注:可先假设总体是正态时进行讨论,若总体不是正态的要给出探求方案四、 参数的假设检验 (14)1. 样本统计数据的t 检验 ....................................... 14 2. 样本统计数据的-2χ检验 .................................................................................... 15 五、非参数假设检验(2χ拟合优度检验或K —S 检验) . (17)1、2χ拟合优度检验或K —S 检验检验2、当上述检验被接受或被拒绝时,请结合实际问题给出说明六、结论 .......................................................... 20 总结、评述和体会参考文献 (21)前言自然语言处理是一项十分庞大而繁复的工程,它是自然科学和社会科学交叉的学科。
概率论与数理统计课外大作业2参考答案
《概率论与数理统计》作业(参考答案)班级 学号 姓名 得分 注意:书写清楚、整洁;并有主要的解题过程.1. 设1021,,,X X X 是来自总体)3.0,0(2N 的样本,求统计量∑=10129100i i X 的分布(需说明理由).解:因)1,0(~3.0/N X i ,)1(~)3.0(22χi X ,由可加性)10(~910010122=∑χi i X 2. 设总体),3(~2σN X ,有n=9的样本,样本方差42=s ,求统计量2/)93(-X 的分布(需说明理由).)8(~293t X - 3. 设总体)9,(~,)4,(~μμN Y N X ,有16,1121==n n 的两个独立样本,求统计量222149S S 的分布(需说明理由). )1510~492221,F (S S 4. 4. 设总体X 的概率密度函数为⎩⎨⎧<<+=其他,010,)1(),;(x x x f θθθ,),,,(21n X X X 是来自该总体的一个样本,),,,(21n x x x 是相应的样本值,求(1)未知参数θ的矩估计量;(2)最大似然估计量.((1)XX --=∧112θ;(2) 1ln 1--=∑=∧ni iXnθ班级 学号 姓名 得分 注意:书写清楚、整洁;并有主要的解题过程.5. 设),,(321X X X 是来自总体X 的样本,(1)证明:3211213161X X X ++=μ;3212525251X X X ++=μ;3213313131X X X ++=μ 是总体均值μ的无偏估计量;(2)说明哪一个估计较有效?(需说明理由)提示:(1)求)(1μE =++=)213161(321X X X E μ=++)(21)(31)(61321X E X E X E同理求另外两个……………………….. (2)求)(1μD =++=)213161(321X X X D )(187)(41)(91)(361321X D X D X D X D =++ 同理求另外两个的方差,比较大小,小的较有效6. 设有一批胡椒粉,每袋净重X (单位:g )服从正态分布,从中任取9袋,计算得样本均值21.12=x ,样本方差09.02=s ,求总体均值μ的置信度为0.95的置信区间.(306.2)8(025.0=t ,2622.2)9(025.0=t ) 参考答案()44.12,98.11())1(2/=-±n t ns x α7. 设高速公路上汽车的速度服从正态分布,现对汽车的速度独立地做了6次测试,求得这6次测试的方差22)/(08.0s m s=,求汽车速度的方差2σ的置信度为0.9的置信区间.(488.9)5(205.0=χ,145.1)5(295.0=χ)参考答案()3493.0,0422.0())1()1(,)1()1(22/1222/2≈-----n s n n s n ααχχ班级 学号 姓名 得分 注意:书写清楚、整洁;并有主要的解题过程.8. 甲、乙两位化验员各自独立地用相同的方法对某种聚合物的含氯量各作了10次测量,分别求得测定值的样本方差为6065.0,5419.02221==s s ,设测定值总体服从正态分布),(,),(222211σμσμN N ,试求方差比2221σσ的置信度为0.95的置信区间.(03.4)9,9(025.0=F )参考答案()6007.3,2217.0())1,1(,)1(1122/222112/2221≈---n n F s s n F s s αα9. 某糖厂用自动打包机打包,每包标准重量为50公斤,每天开工后需检验一次打包机是否正常工作,某日开工后,测得9包重量,计算得样本均值82.49=x,样本方差44.12=s ,假设每包的重量服从正态分布.在显著性水平为05.0=α下,打包机工作是否正常? (即检验假设:50:,50:10≠=μμH H ,306.2)8(025.0=t ,2622.2)9(025.0=t )解:由题意,需检验假设:50:,50:10≠=μμH H ;9=n拒绝域为:)1(/2/0->-n t ns x αμ;计算:)8(306.245.03/2.15082.49/025.00t ns x t =<=-=-=μ,不在拒绝域内,即可以认为打包机工作是正常的。
数理统计试题及答案[5篇范文]
数理统计试题及答案[5篇范文]第一篇:数理统计试题及答案数理统计考试试卷一、填空题(本题15分,每题3分)1、总体的容量分别为10,15的两独立样本均值差________;2、设为取自总体的一个样本,若已知,则=________;3、设总体,若和均未知,为样本容量,总体均值的置信水平为的置信区间为,则的值为________;4、设为取自总体的一个样本,对于给定的显著性水平,已知关于检验的拒绝域为2≤,则相应的备择假设为________;5、设总体,已知,在显著性水平0.05下,检验假设,,拒绝域是________。
1、;2、0.01;3、;4、;5、。
二、选择题(本题15分,每题3分)1、设是取自总体的一个样本,是未知参数,以下函数是统计量的为()。
(A)(B)(C)(D)2、设为取自总体的样本,为样本均值,则服从自由度为的分布的统计量为()。
(A)(B)(C)(D)3、设是来自总体的样本,存在,, 则()。
(A)是的矩估计(B)是的极大似然估计(C)是的无偏估计和相合估计(D)作为的估计其优良性与分布有关 4、设总体相互独立,样本容量分别为,样本方差分别为,在显著性水平下,检验的拒绝域为()。
(A)(B)(C)(D)5、设总体,已知,未知,是来自总体的样本观察值,已知的置信水平为0.95的置信区间为(4.71,5.69),则取显著性水平时,检验假设的结果是()。
(A)不能确定(B)接受(C)拒绝(D)条件不足无法检验 1、B;2、D;3、C;4、A;5、B.三、(本题14分)设随机变量X的概率密度为:,其中未知参数,是来自的样本,求(1)的矩估计;(2)的极大似然估计。
解:(1),令,得为参数的矩估计量。
(2)似然函数为:,而是的单调减少函数,所以的极大似然估计量为。
四、(本题14分)设总体,且是样本观察值,样本方差,(1)求的置信水平为0.95的置信区间;(2)已知,求的置信水平为0.95的置信区间;(,)。
数理统计大作业题目和答案0348
1、设总体X 服从正态分布),(2σμN ,其中μ已知,2σ未知,n X X X ,,,21 为其样本,2≥n ,则下列说法中正确的是( )。
(A )∑=-ni iXn122)(μσ是统计量 (B )∑=ni iXn122σ是统计量(C )∑=--ni i X n 122)(1μσ是统计量 (D )∑=ni i X n12μ是统计量2、设两独立随机变量)1,0(~N X ,)9(~2χY ,则YX 3服从( )。
)(A )1,0(N )(B )3(t )(C )9(t )(D )9,1(F3、设两独立随机变量)1,0(~N X ,2~(16)Y χ)。
)(A )1,0(N )(B (4)t )(C (16)t )(D (1,4)F4、设n X X ,,1 是来自总体X 的样本,且μ=EX ,则下列是μ的无偏估计的是( ).)(A ∑-=-1111n i i X n )(B ∑=-n i i X n 111 )(C ∑=n i i X n 21 )(D ∑-=111n i i X n 5、设4321,,,X X X X 是总体2(0,)N σ的样本,2σ未知,则下列随机变量是统计量的是( ).(A )3/X σ; (B )414ii X=∑; (C )σ-1X ; (D )4221/ii Xσ=∑6、设总体),(~2σμN X ,1,,n X X L 为样本,S X ,分别为样本均值和标准差,则下列正确的是( ).2() ~(,)A X N μσ 2()~(,)B n X N μσ 22211()()~()ni i C X n μχσ=-∑(~()D t n7、设总体X 服从两点分布B (1,p ),其中p 是未知参数,15,,X X ⋅⋅⋅是来自总体的简单随机样本,则下列随机变量不是统计量为( )( A ) . 12X X +( B ){}max ,15i X i ≤≤( C ) 52X p +( D )()251X X -8、设1,,n X X ⋅⋅⋅为来自正态总体2(,)N μσ的一个样本,μ,2σ未知。
(完整word版)数理统计大作业1
研究生课程考核试卷科目:数理统计教师: 李寒宇姓名: 蔡亚楠学号:20131102015t 专业:高电压与绝缘技术类别:学术型上课时间: 2014年3月至2014年5月考生成绩:卷面成绩平时成绩课程综合成绩阅卷评语:阅卷教师(签名)相对地过电压数据的统计分析摘要:过电压是指超过正常运行电压并可使电力系统绝缘或保护设备损坏的电压升高。
电力系统的过电压分布情况决定了电气设备的绝缘水平。
变电站过电压由于影响因素的随机性,使得过电压数据复杂且具有随机性。
本文结合电气工程专业的背景,分析了相对地过电压数据的分布规律。
首先对三相的过电压数据分别进行双样本同分布检验,采用两总体分布比较的假设检验方法。
检验结果显示三相的样本具有相同的分布规律,因此将三相的过电压数据合并进行总体的分布规律检验。
文中运用拟合优度2 检验法检验总体分布是否福才能够正态分布。
检验结果表明样本总体分布不服从正态分布,而是服从切断正态分布.针对相对地过电压数据的统计分析有助于确定设备的绝缘水平,具有一定的研究价值.关键词:过电压;假设检验;统计分布一、问题提出过电压是指超过正常运行电压并可使电力系统绝缘或保护设备损坏的电压升高。
电力系统的过电压分布情况决定了电气设备的绝缘水平.由于过电压数据出现的随机性较大,且有明显的统计特征,因此在对单次过电压数据进行统计分析的同时,还可以用数理统计的方法对系统采集的多次样本进行统计分析研究,并预测过电压的概率分布规律,以便将所得结论用于确定设备及线路的绝缘水平,合理解决绝缘配合问题,使设备绝缘故障率或停电故障率降低到经济上和安全运行上可以接受的水平.二、数据描述本次研究以TR2000过电压在线监测装置在某变电站实地运行所采集的过电压数据进行分析。
该变电站的等级为110kV/38.5kV/10。
5kV,以往的运行经验发现,35kV侧事故频繁,属第一、二类等级符合用户较集中,故在35kV侧安装了一台TR2000过电压在线监测装置.通过对监测装置中导出的数据进行进制转换、图形显示、统计分析等手段,分析变电战过电压的规律,由此可以对电力系统设计、改造和故障分析等工作提供可靠的依据.根据现场情况,将暂态过电压记录倍率设定为1。
概率论与数理统计大作业二
班级:姓名:学号:分数:
《概率论与数理统计》大作业二(100分)
1、设二维随机变量(,)X Y 的联合概率密度为20112,(,)0,
y x y f x y ≤≤≤⎧=⎨⎩其他,求(1)(),(),()E X E Y E XY ;
(2)(),()D X D Y ;(3)判断,X Y 是否相关.(20分)
2、设随机变量(,)X Y 联合分布律为
讨论(1)Y X ,是否独立?
(2)Y X ,是否相关?(15分)3、设1210,,,X X X 是来自正态总体2
(0,0.3)X N 的一个简答随机样本。
求(1)(0)P X ≥;(2)求10
21( 1.44)i i P X =>∑.(已知20.1(10)16χ=)(10分)
班级:姓名:学号:
4、计算机在进行加法时,每个加数取整数(四舍五入),设所有取整误差是相互独立的,且它们都在[-0.5,0.5]上服从均匀分布。
(1)若将1500个数相加,问误差总和的绝对值超过15的概率是多少?(2)最少几个数相加在一起可使得误差总和的绝对值小于10的概率不超过90%?(15分)
5、设总体X 的概率密度函数1,0(),0,0x e x f x x θθ-⎧>⎪=⎨⎪≤⎩
12,,,n X X X 是取自总体X 的简单随机样本。
(1)求θ的矩估计量ˆθ
;(2)求θ的极大似然估计量ˆθ.(20分)6、设总体X 的概率分布为:其中θ是未知参数.
总X 有如下的样本值:3,1,3,1,3,1,2,3,求θ的矩估计值和极大似然估计值.(20
分)。
概率论与数理统计大作业
概率论与数理统计大作业一、选题背景概率论与数理统计是现代科学中的重要分支,具有广泛的应用领域。
在实际问题中,我们经常需要通过数据分析来了解事物的规律性和趋势,而概率论与数理统计正是提供了一种科学的方法来处理这些数据。
因此,在学习概率论与数理统计时进行一次大作业,不仅能够加深对知识点的理解,还能够提高自己的数据分析能力和实际问题解决能力。
二、选题内容本次概率论与数理统计大作业选题为“某超市销售数据分析”。
主要内容包括以下几个方面:1. 数据收集首先需要收集某超市近两年来各种商品的销售数据,并将其整理成表格形式。
表格中应包含商品名称、销售量、销售额等信息。
2. 数据处理在收集到数据后,需要对其进行初步处理。
可以使用Excel等工具进行数据清洗、去重、排序等操作,并计算出每种商品的年销售量、年销售额以及平均单价等指标。
3. 数据分析在完成数据处理后,可以开始进行数据分析。
可以从以下几个方面入手:(1)商品销售情况分析通过统计每种商品的销售量、销售额等指标,分析各种商品的销售情况,找出畅销商品和滞销商品,并探究其原因。
(2)季节性分析通过比较不同季节或不同月份的销售数据,分析商品在不同季节或月份的销售情况,找出季节性规律。
(3)地域性分析通过比较不同门店或不同城市的销售数据,分析商品在不同地域的销售情况,找出地域性规律。
(4)用户行为分析通过统计用户购买行为数据,如购买时间、购买频率、购买金额等指标,分析用户行为特点,并提出相应的营销策略。
4. 数据可视化为了更直观地展示数据分析结果,可以使用图表等工具进行数据可视化。
例如可以绘制柱状图、折线图、饼图等来展示各种商品的年销售量和年销售额;也可以使用热力图来展示不同城市或门店的销售情况。
三、选题意义本次概率论与数理统计大作业选题有以下几个意义:1. 提高数据处理能力在进行本次大作业时,需要进行数据收集、处理和分析等操作,这将有助于提高自己的数据处理能力和实际问题解决能力。
(完整word版)北航数理统计大作业1-线性回归分析
应用数理统计作业一学号:姓名:电话:二〇一四年十二月国内生产总值的多元线性回归模型摘要:本文首先选取了选取我国自1978至2012年间的国内生产总值为因变量,并选取了7个主要影响因素,进一步利用统计软件SPSS对以上数据进行了多元逐步线性回归。
从而找到了能反映国内生产总值与各因素之间关系的“最优”回归方程.然后利用多重线性的诊断找出存在共线性的自变量,剔除缺失值较多的因子.再次进行主成份线性回归分析,找出最优回归方程。
所得结论与我国当前形势相印证。
关键词:多元线性回归,逐步回归法,多重共线性诊断,主成份分析目录0符号说明 (1)1 介绍 (2)2 统计分析步骤 (3)2。
1 数据的采集和整理 (3)2。
2采用多重逐步回归分析 (7)2.3进行共线性诊断 (17)2。
4进行主成分分析确定所需主成份 (24)2。
5进行主成分逐步回归分析 (27)3 结论 (30)参考文献 (31)致谢 (32)0符号说明1 介绍文中主要应用逐步回归的主成份分析方法,对数据进行分析处理,最终得出能够反映各个因素对国内生产总值影响的最“优”模型及线性回归方程.国内生产总值是指在一定时期内(一个季度或一年),一个国家或地区的经济中所生产出的全部最终产品和劳务的价值,常被公认为衡量国家经济状况的最佳指标.它不但可反映一个国家的经济表现,还可以反映一国的国力与财富。
2012年1月,国家统计局公布2011年重要经济数据,其中GDP增长9.2%,基本符合预期。
2012年10月18日,统计显示,2012年前三季度国内生产总值353480亿元,同比增长7.7%;其中,一季度增长8.1%,二季度增长7。
6%,三季度增长7.4%,三季度增幅创下2009年二季度以来14个季度新低。
中国的GDP核算历史不长,上世纪90年代之前通常用“社会总产值”来衡量经济发展情况。
上世纪80年代初中国开始研究联合国国民经济核算体系的国内生产总值(GDP)指标。
概率论与数理统计(西安电子科技大学大作业)
学习中心/函授站_____________________________________________ 姓名__________________________ 学号__________________________ 西安电子科技大学网络与继续教育学院2018学年上学期《概率论与数理统计》期末考试试题(综合大作业)考试说明:1、大作业于2018年4月19日下发,2018年5月5日交回,此页须在答卷中保留2、考试必须独立完成,如发现抄袭、雷同均按零分计;3、答案须手写完成,要求字迹工整、卷面干净。
一、选择题(每题3分,共30分)1•设A、B、C是随机事件,且AB C,则()。
A • C AUB B • A C且B CC• C AB D • A C或B C2 •设一盒子中有5件产品,其中3件正品,2件次品。
从盒子中任取2件,则取出的2 件产品中至少有1件次品的概率为()。
3 _5 7 1A B C. D •-10 10 10 53•设F(x)是随机变量X 的分布函数,则()°A•F (x)一定连续 B •F(x)- 疋右连续C •F(x)是单调不增的D•F(x)- 疋左连续f(x)a 0,bx, 0 x 1其他又 EX 0.5,则 DX()。
111 1A.-B.-C. -D.234129•设随机变量 X 与Y 满足D (XY) D(XY ),则()。
A. X 与Y 相互独立B. cov(X,Y) 0C. DY 0D. DX DY 010•设X 1, X 2,, X n 为来自总体X 的一个样本,且EX,DX 2, X - X i ,n i 12则下列估计量是 的无偏估计的是()。
金额的数学期望为( )。
A . 6 B . 12C . 7.8D . 98.设连续型随机变量X 的概率密度为7•有10张奖券,其中 8张2元,2张5元,今某人从中随机地抽取 4.设连续型随机变量 X 的概率密度为 (x ),且(x ) (x),F (x )是X 的分布函数,则对任何的实数 a ,有( )。
北航-数理统计大作业
对中国各地财政收入情况的聚类分析和判别分析应用数理统计第二次大作业学院名称学号学生姓名摘要我国幅员辽阔,由于人才、地理位置、自然资源等条件的不同,各地区的财政收入类型各自呈现出不一样的发展趋势,通过准确定位中国各地区财政收入情况对于正确认识我国财政收入具有重要的意义。
本文以中国各地财政收入情况为研究对象,从《中国统计年鉴》中选取2011年期间中国各地财政收入情况为因变量,选取国内增值税、营业税、企业所得税、个人所得税、城市维护建设税、土地增值税、契税、专项收入、行政事业性收费收入、国有资本经营收入和国有资源(资产)有偿使用收入11个可能影响中国各地财政收入的因素为自变量,利用统计软件SPSS,对27个地区的财政收入进行了聚类分析,并对另外4个地区的财政收入进行了判别分析,并最终确定了中国各地区根据财政收入类型的分类情况。
关键词:聚类分析,判别分析,SPSS,中国各地财政收入类型1、引言财政收入,是指政府为履行其职能、实施公共政策和提供公共物品与服务需要而筹集的一切资金的总和。
财政收入表现为政府部门在一定时期内(一般为一个财政年度)所取得的货币收入。
财政收入是衡量一国政府财力的重要指标,政府在社会经济活动中提供公共物品和服务的范围和数量,在很大程度上决定于财政收入的充裕状况。
通过准确定位中国各地区财政收入情况对于正确认识我国财政收入具有重要的意义。
本文利用统计软件SPSS,根据各地区的财政收入情况,对北京、天津、河北等27个地区进行聚类分析,并对青海、重庆、四川、贵州4个省市进行判别分析,判断属于聚类分析结果中的哪种财政收入类型。
1.1 聚类分析聚类分析是根据研究对象的特征对研究对象进行分类的多元统计分析技术的总称,它直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类。
本文采用的是系统聚类分析,它又称集群分析,是聚类分析中应用最广的一种方法,其基本思想是:首先将每个聚类对象看作一类,然后根据对象间的相似程度,将相似程度最高的两类进行合并,并计算合并后的类与其他类之间的距离,再选择相近者进行合并,每合并一次减少一类,直至所有的对象都并为一类为止。
应用数理统计大作业
一、非参数假设检验数据来自《2009中国卫生统计年鉴》8-1-2各地区人口出生率和死亡率:北京市的人口出生率服从正态分布。
检验假设H由上表可知,假设不成立,即北京市的人口出生率不符合正态分布,应用同种方法可以得到北京市的人口死亡率同样不符合正态分布。
二、多元线性回归分析改革开放以来,我国城乡居民收入分配制度发生了很大的变化。
随着城乡居民收入水平的不断提高,其差距也在逐渐扩大,如果不采取相应的经济政策,任其发展,有可能会影响社会生产力的发展和社会的稳定,因此,需要分析影响城乡居民收入差距的主要因素。
以城乡居民收入比(Y )作为被解释变量,而第一产业增加值占GDP 的比重(X 1)、国家财政对农业支出的增长率(X 2)、乡镇企业职工增长率(X 3)、城镇居民人均年生活费收入增长率(X 4)、第一产业增加值指数(X 5)作为解释变量。
本模型采用时间序列数据,数据来自《中国统计年鉴》(1982—1998)。
模型的理论方程为:Y=0β+1βX 1+2βX 2+3βX 3+4βX 4+5βX 5 城乡居民收入比模型样本观测值数据obs 城乡居民收入比Y 第一产业增加值占GDP 的比重X1 国家财政对农业支出的增长率X2 乡镇企业职工增长率X3 城镇居民人均年生活费收入增长率X4 第一产业增加值指数X51981 2.05 31.73 -26.50 -1.00 4.33 7.00 1982 1.83 33.31 9.33 4.83 8.08 11.50 1983 1.70 32.90 10.27 3.91 6.26 8.30 1984 1.71 32.47 6.34 61.01 15.59 12.90 1985 1.72 28.35 8.73 34.00 12.66 1.80 1986 1.95 27.09 19.91 13.73 20.88 3.30 1987 1.98 26.79 6.25 10.94 10.63 4.70 1988 2.05 25.66 9.38 8.41 22.16 2.50 1989 2.09 25.00 24.23 -1.87 12.69 3.10 1990 2.02 27.05 15.76 -1.09 9.99 7.30 1991 2.18 24.46 12.91 3.72 11.32 2.40 1992 2.33 21.77 8.19 10.12 18.26 4.70 1993 2.53 19.87 17.13 16.67 27.98 4.70 1994 2.60 20.23 21.01 -2.65 36.03 4.00 1995 2.47 20.51 7.93 7.02 22.46 5.00 1996 2.27 20.45 21.83 5.02 12.43 5.10 19972.2318.6810.01-3.396.633.50(以上内容是从网上找的资料)用SPSS进行线性回归分析,结果如下:上表说明了因变量和自变量进入方程的情况。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数理统计学大作业学院航空航天工程学部专业飞行器设计班级航宇二班学号142103130228 姓名张立指导教师姜永负责教师沈阳航空航天大学2014年12月目录 (2)前言 (3)一、采集样本数据整理及SPSS统计软件的实现 (4)1.1、数据的收集方法及说明 (4)1.2、数据整理:给出频数、频率分布表及偏度和峰度 (4)1.3、画出直方图和折线图 (6)1.4、经验分布函数和图形 (6)1.5、各种概率分布 (7)二、给出总体分布的参数估计 (12)2.1、矩估计法 (12)2.2、最大似然估计 (12)2.3、参数区间估计 (13)三、参数的假设检验 (16)3.1. 样本统计数据的t检验 (16)3.2样本统计数据的2χ检验 (17)四、非参数假设检验(2χ拟合优度检验) (18)4.1、2χ拟合优度检验 (18)五、结论 (20)参考文献 (21)数理统计学是研究有效地运用数据收集与数据处理、多种模型与技术分析、社会调查与统计分析等,对科技前沿和国民经济重大问题和复杂问题,以及社会和政府中的大量问题,如何对数据进行推理,以便对问题进行推断或预测,从而对决策和行动提供依据和建议的应用广泛的基础性学科。
随着科学技术的发展,数理统计的作用在国民生活中越来越重要,特别是现在随着大数据的时代来临,迫切的需要我们对大量数据的处理能力,当然这些大量的数据不可能用人工计算,有很多可以实际应用的数理统计软件,这次大作业我使用的是SPSS软件。
由于数理统计是一门实用性极强的学科,在学习中要紧扣它的实际背景,理解统计方法的直观含义。
了解数理统计能解决那些实际问题。
对如何处理抽样数据,并根据处理的结果作出合理的统计推断,该结论的可靠性有多少要有一个总体的思维框架,这样,学起来就不会枯燥而且容易记忆。
例如估计未知分布的数学期望,就要考虑到:1.如何寻求合适的估计量的途径,2.如何比较多个估计量的优劣。
这样,针对1按不同的统计思想可推出矩估计和极大似然估计,而针对2又可分为无偏估计、有效估计、相合估计,因为不同的估计名称有着不同的含义,一个具体估计量可以满足上面的每一个,也可能不满足。
掌握了寻求估计的统计思想,具体寻求估计的步骤往往是“套路子”的,并不困难,然而如果没有从根本上理解,仅死背套路子往往会出现各种错误.一、采集样本数据整理及SPSS 统计软件的实现1.1、数据的收集方法及说明我的这次作业采取的数据是机械加工零件中,车床C6140其中一个传动轴的长度,由于这零件是大批量生产,数据很多,我选取了其中的100个数据进行计算,数据具体如下:84 69 73 77 88 83 65 74 79 67 67 89 74 85 92 80 87 71 80 67 77 76 77 73 53 68 79 81 67 76 59 88 70 80 92 79 75 88 48 72 74 73 83 68 65 78 88 84 58 74 70 78 70 69 80 79 76 75 73 70 65 81 81 80 76 52 66 69 77 76 73 65 75 75 79 89 74 88 81 73 77 82 74 88 84 82 81 88 90 65 84 90 78 89 93 81 85 83 61 701.2、数据整理:给出频数、频率分布表及偏度和峰度 其中,样本传动轴长度数据最小值为48,最大值为93,取a =40,b=100, 全距L =100-40=60,把数据分布的区间(40,100]等分为6个子区间,等组距为 Δt i =(100-40)/6=10,i =1,2,3,4,5,6。
通过计数要求落在子区间的个数,则得样本传动轴长度的频数i n 和频率i f 分布,序号 区间 频数n i 频率f i1 (40,50] 1 0.012 (50,60]3 0.033 (60,70] 24 0.244 (70,80] 43 0.435 (80,90] 23 0.236 (90,100] 6 0.06偏度是对样本观察值分布的偏斜方向和程度的度量,通过样本数据计算的偏度为:3471.2)1()(3131=--=∑=S n X X V ni iV 1 0,分布呈右偏态。
峰度是描述样本观察值分布集中趋势高峰的程度,通过样本数据计算的峰度为:6328.4)1()(4142=--=∑=S n X X V ni iV 2 3,分布为尖峰分布。
1.3、画出直方图和折线图图一、数据段的直方图图二、数据分段的折线图1.4、经验分布函数和图形设X1,X2,...,X n 是来自总体X 的样本,样本的顺序统计量为X(1)≤X(2)≤...≤X(n),当固定的一组顺序统计量的观察值x(1)≤x(2)≤...≤x(n)时,对于任何实数x 称下式:⎪⎪⎩⎪⎪⎨⎧≥-+<≤<+)(1)1(,11,......,2,1,,,0)(n k k n x x n k x x x nk x x x F为总体X 的经验分布函数。
图3经验分布函数图像1.5、各种概率分布概率分布类型主要分为离散型概率分布和连续型概率分布,我查阅了图书馆还有专业参考资料搜集到以下的概率分布,个别分布还画出了密度函数图像,还对各种概率密度的背景做了简单的介绍。
1.指数分布:⎩⎨⎧<>=-0,00,)(x x e x f x λλ 指数函数的一个重要特征是无记忆性(又称遗失记忆性)。
这表示如果一个随机变量呈指数分布,当s,t ≥0时有P(T>s+t|T>t)=P(T>s)。
即,如果T 是某一元件的寿命,已知元件使用了t 小时,它总共使用至少s+t 小时的条件概率,与从开始使用时算起它使用至少s 小时的概率相等。
21)(1)(λλ==X D X E ,2.威布尔分布:⎪⎩⎪⎨⎧<≥=-0,00,)(),,()(x x e x k k x f k x λλλλ 威布尔分布又称韦伯,是可靠性分析和寿命检验的理论基础。
在可靠性工程中被广泛应用,尤其适用于机电类产品的磨损累计失效的分布形式。
由于它可以利用概率值很容易地推断出它的分布参数,被广泛应用与各种寿命试验的数据处理。
22)21()(),11()(μλλ-+Γ=+Γ=kX D k X E3.正态分布222)(21)(σμπ--=x e x f正态分布是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。
若随机变量X 服从一个数学期望为μ、方差为2σ的正态分布,记为N(μ,2σ)。
正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。
因其曲线呈钟形,因此人们又经常称之为钟形曲线。
我们通常所说的标准正态分布是μ = 0,σ = 1的正态分布。
2)()(σμ==X D X E ,4.t 分布 R x n x f n n xn n ∈+ΓΓ=+-+,)1()()()(212221π t 分布曲线形态与n (确切地说与自由度v )大小有关。
与标准正态分布曲线相比,自由度v 越小,t 分布曲线愈平坦,曲线中间愈低,曲线双侧尾部翘得愈高;自由度v 愈大,t 分布曲线愈接近正态分布曲线,当自由度v=∞时,t 分布曲线为标准正态分布曲线。
)3()(),1(0)(2≥=>=-n X D n X E n n5.柯西分布R x x x f ∈-+=,)(1)(22μλλπ柯西分布是一个数学期望不存在的连续型分布函数,它同样具有自己的分布密度6.均匀分布⎪⎩⎪⎨⎧∉∈-=),(,0),(,1)(b a x b a x a b x f 这表明X 落在[a,b]的子区间内的概率只与子区间长度有关,而与子区间位置无关,因此X 落在[a,b]的长度相等的子区间内的可能性是相等的,所谓的均匀指的就是这种等可能性。
12)()(,2)(2a b X D b a X E -=+=7.伽马分布⎪⎩⎪⎨⎧≤>Γ=--0,00,)()(1x x e x x f x βαααβ伽玛分布是统计学的一种连续概率函数。
伽玛分布中的参数α,称为形状参数,β称为尺度参数。
12)()(,2)(2a b X D b a X E -=+=二、给出总体分布的参数估计2.1、矩估计法矩估计法是一种相对简单的估计方法,其理论依据是辛钦大数定律:设随机变量序列X1,X2,…,n X ,…独立同分布,且数学期望E(Xi)=µ存在.则对任意的є>0,有1)1(lim =<-∑∞→εμXi nP n 即当n →∞时,错误!未找到引用源。
Xi n∑1依概率收敛到μ。
因此当样本很大时(因为采集的样本大于等于100,因此可以看作是大样本) 又因为从数据分布图可以看出样本服从正态分布, X 的概率密度函数为:R x e x f u x ∈=--,21),,(222)(2σπσμμ=)(X E ,22)(μσ+=X E ,所以令⎩⎨⎧==2)()(A X E XX E 经过计算可得到X =μ,222X A -=σ 样本均值3.21001,5.8411221====∑∑==n i i n i i X nA X n X 。
所以 a 与 b 的矩估计量 分别为3.2100,5.842==∧∧σμ,。
2.2、最大似然估计因为最大似然估计法有较强的直观性,又能获得参数θ的合理的估计量,特别是在大样本时,最大似然估计有极好的性质。
所以他广泛应用于估计理论中。
最大似然估计的解题原理如下: X 的概率密度函数为:Rx e x f u x ∈=--,21),,(222)(2σπσμ所以μ,2σ的似然函数为:∏=--=ni x e L 12)(22221),(σμπσσμ取对数得:∑=---=ni i x L 12222]2)(ln 2121[ln ),(ln σμσπσμ 令 ⎪⎪⎩⎪⎪⎨⎧=∂∂∂=∂∂0),(ln 0),(ln 222σμμσμL L解得:⎪⎩⎪⎨⎧-==∑=212)(1ni i X X n xσμ所以,2σμ,的极大似然估计量为:5.3185.61==∧∧σμ,2.3、参数区间估计假设样本总体服从正态分布进行计算。
(1)方差2σ未知,求数学期望μ的置信区间: 1)由于2σ未知,用样本的标准差21)(11∑=--=ni i X X n S 代替此时nS X μ-不再服从标准正态分布。
而是服从自由度为n-1的t 函数,其分布记为:)1(~--=n t n S X t μ2)查分位数给定置信水平1-α=0.90,使:90.01)1(2=-=⎪⎪⎭⎫⎝⎛-<-αμαn t n S X P 根据自由度n-1和1-α,从t-分布表查出分位数为)1(2-n t α式等价于90.01))1()1((22=-=-+<<--αμααn t n SX n t n S X P 3)μ的随机置信区间μ的置信水平为0.90 的置信区间为:())1(),1(22-+--n t nS X n t nS Xαα4)μ的确定置信区间由X =74.4,方差S=9.49,47.420=,则3277.1)19(05.0=t 带入值可得: 置信水平为0.9的区间为(71.6,77.2)。