河南工业大学数量分析考试重点
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、统计学:搜集、分析、表述和解释数据的科学与艺术
2、下列数据分别对应哪些测量尺度? A. 客服电话对应的按键号码 (名义尺度) B. 汇率
(比率尺度) C. 班级评优排名 (顺序尺度)
D. 郑州大学 河南工大 和河南财大的学生人数 (间隔尺度)
3、品质型数据是用于反映每一个体属性的标签或名称,可以用名义尺度也可以用顺序尺度度量,既可以是数值型的也可以是非数值型的。
数量型数据是表示大小或多少的数值,既可以用间隔尺度也可以用比率尺度度量。
4、频数分布与相对频数分布(百分数频数) 品质型:
表2-2 软饮料购买次数的频数分布
数量型:
表2-6 审计时间数据的频数分布 表 2-7 审计时间数据的相对和百分数频数分布
5、茎叶图
对于超过三位数的数据,可以使用近似值的方法构建茎叶图。
1565 1852 1644 1766 1888 1912 2044 1812 1790 1679 2008 1852 1967 1954 1733
Brand Purchased frequency Coke Classic 19 Pepsi-Cola 13 Diet Coke 8 Dr. Pepper 5 Sprite 5 total 50
软饮料 相对频数 百分数频数
Coke Classic
0.38 38 Pepsi-Cola 0.26 26 Diet Coke 0.16 16 Dr. Pepper 0.10 10 Sprite 0.10 10 total
1.00
100
审计时间/天 频数
10-14 4 15-19 8 20-24 5 25-29 2 30-34 1 总计 20 审计时间/天 相对频数 百分数频数 10-14 0.20 20 15-19 0.40 40 20-24 0.25 25 25-29 0.10 10 30-34 0.05 5 总计 1.00 100
6、平均数、中位数、众数、极差、四分位数间距、方差、标准差、百分位数
平均数:总体平均数:
中位数:将所有数据按升序排列时,位于中间的数值即为中位数。
众数:众数是数据集中出现频率最高的数据值。
百分位数:百分位数提供了关于数据如何在最小值与最大值之间分布的信息。
(举例:假设某个考生考了74分,对应着第70百分位数,那么就约有70%学生的成绩比他低,大约有30%的学生成绩比他高。
)
极差:
四分位数间距:是第三四分位数Q3与第一四分位数Q1的差值,也就是说,四分位数间距是在中间的50%的数据的极差。
IQR=Q3-Q1
方差:标准差:
7、五数概括法:
例:12个商学院毕业生的起始月薪
2710 2755 2850 | 2880 2880 2890 | 2920 2940 2950 | 3050 3130 3325
Q1=2865 Q2=2905 Q3=3000
(中位数)
起薪数据五数概括为:2710,2865,2905,3000,3325。
大约有1/4或25%的观察值在五数概括法的相邻两个数之间。
习题:
考虑一个含有数据值53, 55, 70, 58, 64, 57, 53, 69, 57, 68和53 的样本,计算其平均数、中位数和众数。
平均数=59.73 中位数=57 众数=53
考虑含有数据10,20,12,17和16的样本,计算方差和标准差. 方差:16 标准差:4
加权平均数:
8、切比雪夫定理: 与平均数的距离在z个标准差之内的数据项所占比例至少为(1-1/z2),式中的z是大于1的任意实数。
习题:
(1)对1154个成年美国人进行的调查显示,他们在工作日中每天平均睡眠时间6.9小时。
假设标准差为1.2小时。
a. 利用切比雪夫定理计算每天睡眠时间在4.5-9.3小时之间的人数百分比;
b. 利用切比雪夫定理计算每天睡眠时间在3.9-9.9小时之间的人数百分比。
答案:a. z=(6.9-4.5)/1.2=(9.3-6.9)/1.2=2
1-1/z2=1-1/22=0.75
b. z=(6.9-3.9)/1.2=(9.9-6.9)/1.2=2.5
1-1/z2=1-1/2.52=0.84
(2)美国人平均每月外出就餐费用65.88美元。
一个由年轻成年人组成的样本提供了过去几个月他们外出就餐费用的数据如下:
253 101 245 467 131 0 225
80 113 29 198 95 129 124
11 178 104 161 0 118 151
55 152 134 169
a. 计算平均数、中位数和众数;
b. 计算第一和第三四分位数;
c. 计算极差和四分位数间距; e. 计算方差;
g. 数据中是否有异常值。
平均数= 138.52
中位= 12.5
中位数(第13位)= 129
第一四分位= 6.25
第一四分位数(第7位)= 95
第三四分位= 18.75
第三四分位数(第19位)= 169
四分位间距= 74
1.5四分位间距= 111
极差=467
方差=9271.01
标准差= 96.28608415
9、事件的概率——事件的概率等于事件中所有的样本点概率之和。
例子:计算KP&L公司在10个月或10个月以内完成工程的概率。
样本点包括:
事件的概率:
10、加法公式:
假设我们有一个样本空间,它包含有5个等可能发生的试验结果:E1,E2,E3,E4,E5。
令A={E1,E2},B={E3,E4},C={E2,E3,E5}。
答案:
11、随机变量的期望方差:
12、标准正态分布:
(1)计算z值在-1.00和1.00的概率
P(0≤z ≤1)=0.3414 P(-1≤z ≤1)=0.3413*2=0.6826
(2)计算z值至少为1.58的概率
P(0≤z ≤1.58)=0.4429 P(z≥1.58)=0.5-0.4429=0.0571
13、均值抽样和比率抽样:
抽样分布的形态(中心极限定理)
(1)总体分布为正态分布: 抽样分布在任何样本容量下都是正态分布。
(2)总体分布为非正态分布: 需要借助中心极限定理。
中心极限定理(样本n ≥30):
(看6、7章习题课课件)
均值抽样:
根据100名EAI 管理组成的简单随机样本得到的样本均值在总体均值左右500美元以内的概率多大? 解决思路:
1)样本数量n ≥30,可以利用中心极限定理将抽样分布转化为一种正态分布 2)抽样分布的期望 =
总体均值μ(得到抽样概率分布的中位数μ) 3)计算抽样分布的方差 4)转化为标准分布,计算z=(x-μ)/σ 5) 查表计算概率值
比率抽样:
n
x
/_σσ=
六七章习题课:
一、标准普尔公司股票的平均价格为30美元,标准差是8.2美元。
假定股票的价格服从正态分布。
a. 某公司股票价格至少为40美元的概率是多少? b. 某公司股票价格不超过20美元的概率是多少? c. 若公司股票价格排名位于全部股票价格的前10%,则公司的股票价格至少应达到多少?
解: 1. 当x=40时,z=(40-30)/8.2≈1.22
P(0≤z ≤1.22)=0.3888 (查表) P(x ≥40)=0.5-0.3888=0.1112 2. 当x=20时,z=(20-40)/8.2 ≈- 1.22 P(-1.22 ≤z ≤0)=0.3888
P(x ≤20)=0.5-0.3888=0.1112 3. 0.4对应的z=1.28. x=30*8.2+30=40.50
股票价格等于或高于40.50美元的的公司进入前10%
二、 在芝加哥,一个人用于工作途中的时间的均值为31.5分钟。
假定总体均值μ=31.5分钟,总体标准差σ=12分钟,选择50名芝加哥居民组成的样本。
1. 给出 的抽样分布,其中 是50名芝加哥居民用与工作途中的时间的样本均值。
2. 样本均值在总体均值μ左右正负1分钟以内的概率为多少?
3. 样本均值在总体均值μ左右正负3分钟以内的概率为多少?
解:1. 服从正态概率分布,E ( )=31.5 和 =12/sqrt(50)≈1.70 2. z=1/1.70=0.59 P=0.2224*2=0.4448 3. z=3/1.70=1.76 P=0.4608*2=0.9216
三、印第安纳州联邦正负雇员的平均年薪为41979美元。
将该数据作为总体均值,并假设总体标准差σ=5000美元。
假定从总体中选取50名联邦雇员组成一个随机样本。
试问: 1. 均值标准误差的值是多少?
2. 样本均值大于41979美元的概率为多少?
3. 样本均值在总体均值μ左右正负1000美元以内的概率为多少?
4.当样本容量增加到100时,(3)中概率如何变化?
解:1. 样本足够大,符合中心极限定律,满足正态分布 =5000/sqrt(50)=707.10
2. 符合正态分布,大于均值概率为0.5。
3. z=1000/707.10=1.41 P=0.4207*2=0.8414
4. = 5000/sqrt(100)=500 z=1000/500=2 P=0.4772*20.9544
四、2000年6月13日,个人投资者中30.5%对短期股票市场持有消极态度。
假设选取200名个人投资者组成一个样本,回答下列问题。
1. 求 的抽样分布,其中 为个人投资者中对短期股票市场持消极态度的人的样本比率。
2. 样本比率落在总体比率 P 左右正负0.4的概率为多大? 3. 样本比率落在总体比率P 左右正负0.02的概率为多大?
_x _
x
解:1. 服从E( )=0.305 和= 0.0326的正态分布
=sqrt(0.305*(1-0.305)/200)=0.0326
2. z=0.04/0.0326=1.23 P=0.3907*2=0.7814
3. z=0.02/0.0326=0.61 P=0.2291*2=0.4582
五、ORC international称,在因特网使用者中有71%是通过普通的电话线将计算机与因特网连接起来的。
假设总体比率p=0.71.
1. 对一个由350名因特网使用者组成的简单随机样本中,样本比率落在总体比率p左右正负0.05的概率为多少?
2. 对一个由350名因特网使用者组成的简单随机样本中,样本比率大于等于0.75的概率为多少。
解: 1. 抽样方差(比率的标准误差)
==sqrt(0.71*(1-0.71)/350)=0.0243
z=0.05/0.0243=2.06
P=0.4803*2=0.9606
2. z=(0.75-0.71)/0.0243=1.65
P(0≤z ≤1.65)=0.4505
P(x≥0.75)=0.5-0.4505=0.0495
第八章:
区间估计:
总体均值的。
标准差已知:
1. 一个简单随机样本由50项组成,样本均值为32,总体标准差为6.
a. 求总体均值的90%置信区间;
b. 求总体均值的95%置信区间;
c. 求总体均值的99%置信区间;
解: a. 32 ±1.645*6/sqrt(50)=32 ±1.4 (30.6, 33.4)
b. 32 ±1.960*6/sqrt(50)=32 ±1.66 (30.34, 33.66)
c. 32 ±2.576*6 /sqrt(50)=32 ±2.19 (29.81, 34.19)
2. 已知某一总体均值的95% 置信区间为(152, 160)。
如果σ=15,则研究中应选用的样本容量是多大?边际误差=(160-152)/2=4
1.960*15/sqrt(n)=4
n=(1.96*15/4)≈54
标准差未知与小样本:
例:已知某种灯泡的寿命服从正态分布,现从一批灯泡中抽取16个,测得其实用寿命(单位:h)如下:1510 1450 1480 1460 1520 1480 1490 1460
1480 1510 1530 1470 1500 1520 1510 1470
试建立该批灯泡使用寿命95%的置信区间。
置信区间:(1476.8, 1503.2)
查表练习1:
自由度为12,上侧面积为0.025;
自由度为50,下侧面积为0.05;
自由度为30,上侧面积为0.01;
自由度为25,两个t值之间的面积为90%。
2.179 -1.676 2.457 (-1.708,1.708)
练习2:一个简单随机样本由n=54组成,其样本均值为22.5,样本标准差为4.4.
a. 求总体均值的90%置信区间
b. 求总体均值的95%置信区间
c. 求总体均值的99%置信区间
d. 当置信度增大时,边际误差和置信区间如何变化?
解:a. t0.05(53)=1.674 边际误差=1.674*4.4/sqrt(54)=1.00
90%置信区间为(21.5,23.5)
b. t0.025(53)=2.006 边际误差=2.006*4.4/sqrt(54)=1.20
95%置信区间为(21.3, 23.7)
c. t0.005(53)=2.672 边际误差=2.672*4.4/sqrt(54)=1.60
99%置信区间为(20.9,24.1)
d. 当置信度增大时,边际误差和置信区间变大。
3、对美国汽车租赁成本的已有研究发现,租赁一辆中型汽车的成本的均值大约为每天55美元。
假设该项研究的组织者想要进行一项新的调查,对在美国租赁一辆中型汽车的每天成本的总体均值进行估计。
在新的研究的设计中,项目负责人设定置信水平为95%,估计每天租赁成本的总体均值时的边际误差为2美元,问至少选取多少样本?(根据先前研究的结果,每天租赁成本的标准差为9.65美元)。
解:边际误差E=2 95%置信水平=> zα/2 =z0.025=1.96
估计总体标准差σ=9.65
样本数n=(zα/2 )2* σ2/E2= (1.96 )2* 9.652/22=89.43≈90
因此,至少应选取90个中型汽车的租赁样本。
练习1: 估计一组数据的极差为36,求:a. 总体标准差的计划值。
b. 在95%的置信度下,当边际误差为3时,应采用多大的样本?
c. 在95%的置信度下,当边际误差为2时,应采用多大的样本?
解:1. σ的计划值=极差/4=36/4=9
2. n=(z0.025)2* σ2/E2=(1.96)2* 92/32=34.57≈35
至少选取35个样本
3. n=(z0.025)2* σ2/E2=(1.96)2* 92/22=77.79≈78
至少选取78个样本
同一置信区间下,边际误差越小,要求的样本数量越多!
总体比率的。
例:调查900名女子高尔夫运动员,396名对使用T形球座感到满意。
求95%置信水平的总体比率区间估计。
解:总体比率的点估计=396/900=0.44
区间估计为:
边际误差=0.0324,总体比率的95%置信水平的区间估计为:
(0.4076,0.4724)
练习1:在一个由400人组成的简单随机样本中,有100人的答复为“是”。
A、求总体中回答是的项所占比率的点估计
B、求比率的标准差
C、求总体比率95%置信区间
解:
置信区间:(0.2076,0.2924)
练习2:对611名办公室工作人员就电话接听问题进行一项调查,共有281名办公室工作人员表示他们从来不必使用语音留言。
a. 求所有办公室工作人员中可以接听每一个打入电话的人的总体比率的点估计。
b. 在95%置信水平下,边际误差为多少。
c. 求所有办公室工作人员中可以接听每一个打入电话的人总体比率的90%置信区间。
解:
习题1:对首次购房者的一项调查发现,家庭收入的年均值为50000美元。
假定调查中的样本由400名首次购房者组成,并假定总体的标准差为20500美元。
a. 当置信区间为95%时,研究中的边际误差为多大?
b. 求家庭年收入的总体均值的95%置信区间。
解:a. 边际误差E =1.96* 20500/sqrt(400)=2009 ; b. 下限= 50000-2009=47991 上限= 50000+2009=52009 置信区间(47991,52009)
练习:
解:E=100 σ=675 n=(1.96)2*6752*/1002=175.03≈176
答:要确保95%置信度,应至少选取176名行政人员。
解:样本均值=(8+10+10+12+15+17)/6=12
样本标准差=sqrt((16+4+4+0+9+25)/5)=3.41
边际误差=t0.025(5)*3.41/sqrt(6)=2.571*3.41/sqrt(6)=3.58
答:置信区间(8.42,15.58)
解:比率点估计=200/369=0.542
边际误差=1.96*sqrt(0.542*(1-0.542)/369)=0.0508
置信区间=0.542 ±0.0508(0.4912,0.5928)
解 a. 比率点估计=618/1993=0.3101
b. 边际误差=1.96*sqrt(0.3101*(1-0.3101)/1993) =0.0203
置信区间:(0.2898, 0.3304)
c. n=(1.96)2* 0.3101*(1-0.3101)/0.012≈8219
样本容量至少需要8219 不需要,此样本没有这么大。