《探索性数据分析》测验试卷参考答案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
《探索性数据分析》测验试卷
班级: 姓名: 学号:
1.(15分)你所知道的数据类型有哪些?请至少举出四种,并说明这 些数据类型的特点。
2.(共15分)(1). 请叙述矩估计和极大似然估计的定义。
(2). 设总体X ~),(2σμN ,n X X ⋅⋅⋅,1为来总体的样本,求使
05.0)(=>t X P 的点t 的极大似然估计。
解: 假设)(⋅Φ为标准正态分布的分布函数,则,
)(1)(1)(σμ
-Φ-=≤-=>t t X P t X P 由已知可得,95.0)(
=-Φσμt . 令05.0t 为标准正态分布的上侧0.05分位数,则05.0t t =-σμ. 于是,由极大似然估计的不变性可知,t 的极大似然估计为,n S t X t ˆˆ05.0+=,其中∑==n i i X n X 11, ∑=-=n i i n X X n S 1
2)(1ˆ. (3). 矩估计唯一吗?是,请证明;否,请举反例。
答: 矩估计不唯一,例如泊松分布均值的估计。具体的说,假设总体X 服从参数为λ的泊松(Poisson )分布,由于λ==)()(X Var X E ,故由
矩估计法知: X =1ˆλ,∑=-=n i i X X n 1
22)(1ˆλ都可作为参数λ的矩估计量, 然而样本均值是总体均值的无偏估计,且比样本二阶中心矩的阶数低,故优先选取样本均值作为参数的矩估计.
3. (10分)设X 和Y的方差都存在,证明 2|cov(,)|()()X Y Var X Var Y ≤⋅. 解:(该题是证明相关系数介于-1,1之间的理论依据,所以其实严格来讲由相关系数的取值范围来推得这个命题的做法是错误的)。令X EX μ=,Y EY μ=,t 为任一实数,则0)]()[(2≥-+-Y X Y t X μμ,由积分
的性质可知
0)]()[(2≥-+-Y X Y t X E μμ,另一方面, VarY
t Y X tCov VarX Y E t Y X tE X E Y t X E Y Y X X Y X 22222),(2)()])([(2)()]()[(++=-+--+-=-+-μμμμμμ 上式为t 的二次函数,故
0)()(4)],([42≤-Y Var X Var Y X Cov ,得证.
4. (20分)已知T与C独立,且,X T C =∧()I T C δ=≤,设T 与C 的分布函数分别为F 和G ,已知{(,)}0E m T θ=,其中m(.)为已知函数,假设观察样本为11,,,,n n X X δδ⋅⋅⋅,⋅⋅⋅,试证明:
(1){(,)}01()E m T G T δ
θ=-
(2)请用观察样本给出θ的一个合适估计。
(1)证明: 利用条件期望的性质可得:
0)],([]|[)(1),(]|),()(1[)},()(1{==⎭
⎬⎫⎩⎨⎧-=⎭⎬⎫⎩⎨⎧-=-θδθθδθδT m E T E T G T m E T T m T G E E T m T G E (2)解: 由(1)可知
0),()(1=⎭
⎬⎫⎩⎨⎧-θδX m X G E <1> 于是,我们可以用估计方程方法给出θ的一个估计。上式的样本类似为
∑=-n
i i i i X m X G n 1),()
(11θδ <2> 令0),()
(111=-∑=n i i i i X m X G n θδ,由该方程解出来的估计θˆ称为估计方程估
计,且在一些正则条件下,该估计是相合和渐近正态的.
5. (15分,请附程序,否则不予评分)某航空公司为了解旅客对公司服务态度的满意程度,对50名旅客作调查,要求他们写出对乘机服务、机上服务和到达机场服务的满意程度。满意程度的评分从0到100,分数越大满意程度越高,收集到的数据如下表,要求:
(1)对50名旅客关于乘机服务的满意程度数据作描述性统计分析;(2)对50名旅客关于机上服务的满意程度数据作描述性统计分析;(3)对50名旅客关于到达机场服务的满意程度数据作描述性统计分析;
(4)对50名旅客关于这三方面服务的满意程度数据作一个综合比较的描述性统计分析。
表:50名旅客对乘机服务、机上服务和到达机场服务的满意程度的评分
乘机服务机上服务到达机场服务乘机服务机上服务达到机场服务
71 49 58 72 76 37
84 53 63 71 25 74
84 74 37 69 47 16
87 66 49 90 56 23
72 59 79 84 28 62
72 37 86 86 37 59
72 57 40 70 38 54
63 48 78 86 72 72
84 60 29 87 51 57
90 62 66 77 90 51
72 56 55 71 36 55
94 60 52 75 53 92
84 42 66 74 59 82
85 56 64 76 51 54
88 55 52 95 66 52
74 70 51 89 66 62
71 45 68 85 57 67
88 49 42 65 42 68
90 27 67 82 37 54
85 89 46 82 60 56
79 59 41 89 80 64
72 60 45 74 47 63
88 36 47 82 49 91
77 60 75 90 76 70
6443 61 78 52 72
解:所谓描述性统计分析是指:对有关数据做统计性描述,可以包括对数据的频数分析,数据的集中趋势分析(例如:均值,分位数,众数等),离散程度分析(例如:离差,方差等),数据的分布(例如:偏度,峰度,是否正态等),以及一些基本的统计图形(例如:直方图,茎叶图,箱线图等)。具体R语句请参考相关书籍。
6.(15分,请附程序,否则不予评分)为检验两种燃料添加剂对客
车每加仑汽油行驶里程数的影响是否不同,随机挑选12辆车,让每一辆车都先后使用这两种添加剂,12辆车使用这两种添加剂每加仑汽油行驶里程数的检测结果如下:
车辆添加剂车辆添加剂
1 2 1 2
1 22.3
2 21.25 7 18.36 19.40
2 25.76 23.97 8 20.75 17.18
3 24.23 24.77 9 24.07 22.23
4 21.3
5 19.2
6 10 26.43 23.35
5 23.43 23.12 11 25.41 24.98 626.97 26.00 12 27.22 25.90