应用统计学练习题1-6章
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一、统计的涵义是什么?
二、什么是统计学?
三、历史上统计学的流派有哪些?各自的作用是什么?
四、搜集资料并思考(任选其中之一):
1.数据挖掘(Data mining)与统计学之间有什么关系?
2.客户关系管理(CRM)与统计学之间有什么关系?
五、什么是描述统计?什么是推断统计?
第二章
一、什么是变量?什么是数据?
二、统计数据测度的层次有哪些?
三、统计数据的来源有哪些?有什么不同之处?
四、统计数据的误差有哪些?
五、对统计数据的质量要求有哪些?
六、统计调查方式有哪些?各自有何特点?
七、数据搜集的方法有哪些?各自有哪些特点?
八、利用间接数据来源,搜集下列数据(任选其中之一)
1.世界各国移动电话普及率
2.我国各省移动电话普及率
第三章
一、数据描述的步骤是什么?
二、对数量数据进行分组有哪些方法?这些方法分别对应哪种数据?
三、适合描述品质数据分布有哪些图?适合描述数量数据分布有哪些图?
四、下表为2005年各省移动电话用户数(万户)
北京1333.3 河北1560.5 广西887.5 天津446.4 山西775.1 重庆832.6 辽宁1199.9 吉林768.2 四川1556.6 上海1327.2 黑龙江1032.7 贵州461.6 江苏2279.9 安徽916.6 云南760.1 浙江2383.8 江西712.1 西藏39 福建1163.7 河南1450.3 陕西810.2 山东1962 湖北1179.4 甘肃360.5 广东5580.7 湖南1071.4 青海120.6 海南170.1 内蒙古612.4 宁夏166.7
新疆486.2
1.编制频数分布表,并计算出累积频数和累积频率,并绘制直方图;
2.制作茎叶图,并与直方图进行比较。
一、反映品质数据的集中趋势的测度值有哪些?反映数量数据的集中趋势的测度值有
哪些?它们各自有哪些特点?
二、反映品质数据的离散程度的测度值有哪些?反映数量数据的离散程度的测度值有哪
些?它们各自有哪些特点?
三、数据集中趋势的测度值有哪些?它们分别适用于哪类数据?
四、均值、中位数和众数之间有什么关系?它们对不同分布的数据的代表性如何?
五、数据离散程度的测度值有哪些?它们分别适用于哪类数据?
六、极差、平均差、标准差、标准差系数(离散系数)有什么优缺点?
七、偏态和峰度是如何测度的?不同的偏态系数和峰度系数对应什么形态的数据分
布?
八、下表是2007年全国各省移动电话用户数和固定电话用户数,试分别计算移动电话
用户数和固定电话用户数的均值、中位数、众数、极差、平均差、标准差、标准差系数(离散系数),利用这些测度值说明两组数据的分布特征,并进行比较。
省份移动电话
用户数
固定电话用
户数省份
移动电话
用户数
固定电话
用户数省份
移动电话
用户数
固定电话
用户数
北京1598.3 914.6浙江3528.22417.1海南323.8239.9天津738.3 398.0安徽1410.01494.3重庆1176.9723.1河北2814.8 1526.7福建1808.71482.5四川2400.41738.0山西1420.4 823.1江西1182.4884.8贵州834.0520.0内蒙古1046.9 503.2山东3738.12493.9云南1346.4627.2辽宁1958.9 1667.1河南2914.51854.6西藏73.768.9吉林1311.1 729.8湖北1940.61278.9陕西1612.7926.3黑龙江1449.2 1081.2湖南1798.01321.2甘肃686.4585.3上海1776.5 1021.1广东7842.13743.1青海221.7123.2江苏3313.2 3225.8广西1384.3892.1宁夏269.8140.2
新疆808.3677.4
第五、六章
一、统计推断包括什么内容?
二、什么是总体分布?什么是抽样分布?概念的区别是什么?
三、均值、比例和方差的抽样误差的大小由什么决定的?
四、总体参数的估计有哪两类方法?
五、什么是中心极限定理?涉及的统计量是什么?
六、某移动公司大客户的标准为ARPU值200元以上。现从公司去年大客户名单中随
机抽取50户进行检查,当月话费如下:
当月话费(元)客户数(户)
180-190 2
190-200 3
200-210 34
210-220 7
220以上 4
合计50
假定大客户话费服从正态分布,要求:
1.确定该公司大客户平均月话费95%的置信区间。
2.确定该公司去年大客户中没达到大客户标准的比例95%的置信区间。
3.该公司去年大客户的当月话费平均为200元以上的可能性有多大?
4.若以90%的置信水平估计,该公司所有去年大客户的平均当月话费至少为多少?
七、从忙时通话中抽取200次通话作为样本。
1.估计忙时平均通话时长时采用的分布是什么?请说明理由。
2.估计忙时通话时长大于5分钟的比例时采用的分布是什么?
3.估计忙时通话时长的方差时采用的分布是什么?
4.上述三种估计的假定条件是什么?
八、假如你管理2个移动分公司甲和乙,为研究2个公司用户的移动数据业务消费行
为,你从两个公司各随机抽取了60个客户的随机样本,他们使用Mo手机上网业务流量经分组后如下:
Mo手机上网业务流量(MB)甲公司(户)乙公司(户)
0-5 12 4
5-10 14 34
10-15 24 19
15以上10 3
合计60 60
1.请用直方图直观地比较这两个样本,你能得到什么结论?
2.你认为应当采用哪一种统计量来分别描述甲公司和乙公司Mo手机上网流量的一般
水平?请简要说明理由;
3.哪个公司的用户使用Mo手机上网流量更多?试以95%的置信水平进行差异估计;
4.哪个公司的用户在Mo手机上网业务消费行为上差异更大?试以95%的置信水平进
行差异估计。
九、为估计互联网用户每天上网的平均时间是多少,随机抽取了225个互联网用户的
简单随机样本,得样本均值为4小时,样本标准差为2小时。
1.试以95%的置信水平,建立互联网用户每天平均上网时间的区间估计。
2.在所调查的225个网络用户中,年龄在20岁以下的用户为90个。以95%的置信水
平,建立年龄在20岁以下的网络用户比例的置信区间。
(注:,)