安德森-商务与经济统计公式汇总
大数据时代还需要分析确定样本规模吗(再看经典统计中的样本规模确定)?
本文系作者原创,如需转载或引用请注明作者为lukesran,其中转载还需事后发邮箱*****************(按上述方式即不视为侵权)经典统计学中的样本规模确定尽管现在是大数据时代,动辄数个G的数据。
因为根本不需要样本,都是对总体或接近总体进行分析,于是乎经典的抽样统计似乎已经老掉牙、不中用了。
但今天这里还是要总结一下经典统计学(频率学派)关于样本规模确定的一些说法。
虽然大数据的方法没怎么学,但无论如何,要理解大数据方法,显然要知道经典统计学是怎么考虑的。
而经典统计学都是建立在样本规模有限基础上的,故样本规模的讨论很重要。
只有样本规模不够,才需要大数据!还是那句话,本文即是学习小结,也供需要的人参考。
一、什么时候要确定样本规模这句话简直就是废话,肯定是在调查之前。
但如果细读有关统计学的教材,会发现在多个章节出现确定样本规模的方法,而且还不一样。
有些教材甚至没讲全,这样就更加云里雾里。
因此究竟在什么时候确定就需要详细分析下了。
其实,样本规模的确定并不是一次成型的,多数情况下要分好几个阶段分别确定,然后选择最大的必要样本规模。
二、究竟哪些阶段需要确定样本规模经典统计大致就是估计及假设检验两大基础方法。
回归、结构方程、因子分析等,估计是上述两方面为基础的(除回归外,其它具体还没考证,哈哈)。
上述两大基础方法,都是以正态分布的总体为前提,这样均值等统计量的分布就为正态分布。
若总体并非正态分布,这时候就需要开始考虑样本规模了。
因为按中心极限定理,只要样本规模足够大,非正态分布总体的样本的统计量(如均值)的分布为正态分布,统计量与样本方差S2的分布为t分布。
一旦样本的统计量为正态分布或t分布,那上述基础方法就可以使用了。
但问题就来了,究竟多少样本规模算是足够大?由于此必要样本规模与具体的统计方法有关,故以下一并介绍。
(一)估计1.总体正态分布情形1.1点估计以正态分布总体为前提,估计中的点估计根本就不需要确定样本规模,因为它主要强调无偏、有效、一致即可。
商务与经济统计——数据与统计学(1)
STAT
1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 人均GDP 人均 GDP
CPI(%)
20 0 0
19 91
19 92
19 93
19 94
19 95
19 96
19 97
19 98
19 99
第一章 数据与统计学
第一章 数据与统计学
二、数据的类型 质量数据和数量数据,截面数据和时间序列数据 (一)质量变量和质量数据 1、质量变量(qualitative variable)⇒“属性特征” 2、质量数据(qualitative data) 变量 数据 性别 所有制形式 产品等级 受教育水平
STAT
男(01)、女(02) 01)、女 02) )、 国有(101)、集体(102)、私营(103) )、集体 )、私营 国有(101)、集体(102)、私营(103) 一等品、二等品、三等品、 一等品、二等品、三等品、等外品 小学、初中、高中、 小学、初中、高中、大学及以上
第三节 描述统计学和统计推断
一、描述统计学(descriptive statistics) 一、描述统计学(descriptive statistics) 1、定义:收集、整理、描述数据资料的统计方法。 25家公司交易方式资料 25家公司交易方式资料 公司 交易所 交易所 公司数 纽约证券交易 所 美国证券交易 所 柜台交易 合计 5(20%) 20%) 3(12%) 12%) 17(68%) 17(68%) 25(100%) 25(100%) 埃沃德软件 切萨皮克能源 克雷格 埃迪斯图 富兰克林电气 詹歇尔软件 巨人集团公司
STAT
时间序列分析
第四章时间序列分析【案例导入】1在同行业中,路口煤矿自2000年以来的生产经营状况一直不错,尤其自2005年以来正经历着快速的发展。
然而,2007年5月,煤矿出现了渗水和倒塌事故,尽管没有造成人员伤亡,却导致生产停顿,一直到同年8月份才恢复正常生产。
幸运的是该煤矿办理了相关保险,然而与固定资产索赔不同的是,停业期间的收入损失很难确定,致使保险索赔工作陷入僵持状态。
此时,煤矿收入的历史资料为解决这一问题提供了依据,即根据表4-1的时序资料,煤矿确定了收入增长的长期趋势,并测算出5~7月可能实现的收入,最终为保险索赔奠定了基础,也为保险公司所接受。
单位:万元些历史资料,可以发现收入的变动趋势,即收入随时间增长或下降的趋势。
对这些资料的进一步观察,可以显示出收入的长期趋势,进而做出较好的推断。
从某种角度上看,这种方法就是观察现象发展的历史“足迹”,即过去是这样“走”的,则今后也许仍然会这样“走”。
通过上述方法有利于我们判断现象的未来发展,显然是一种预测思路。
通过本章学习,要明确时间序列的概念、作用、种类和编制原理,掌握各种动态分析指标的涵义、计算方法和应用条件;掌握动态趋势分析中长期趋势的测定与季节变动规律的计算和分析方法,以便在今后的实际工作中,运用这些方法进行统计分析。
本章的重点是时间序列的水平指标和速度指标,以及这些指标的计算和运用;难点是时间序列的各种趋势分析方法和预测模型。
第一节时间序列的概念和种类一、时间序列的概念社会经济现象总是随着时间的推移而变动的。
任何一个企业管理部门或研究机构或国家机关,要掌握社会活动或经济活动的变化过程及其发展趋势,就必须及时掌握和分析有关的时间序列资料。
所谓时间序列,亦称时间数列或动态数列,是社会经济指标的数值按时间顺序排列而形成的一种数列。
它反映社会经济现象发展变化的过程和特点,是研究现象发展变化的趋势和规律以及对未来状态进行科学预测的重要依据。
表4-2是某市社会劳动者、国内生产总值、第三产业比重和社会劳动生产率依时间顺序排列形成的数列,即为时间序列。
安德森《商务与经济统计》(第10版)(上册)课后习题详解(连续型概率分布)
圣才电子书
d.计算 E(x)。
十万种考研考证电子书、题库视频学习平台
e.计算Var (x)。
解:a.绘制概率密度函数图,如图 6-2 所示。
图 6-2 概率密度函数图 b.P(x<15)=0.10×(15-10)=0.50 c.P(12≤x≤18)=0.10×(18-12)=0.60 d. E(x) 10 20 15
a.一瓶清洁剂的重量在 12 和 12.05 盎司之间的概率是多少?
5 / 35
圣才电子书 十万种考研考证电子书、题库视频学习平台
d.P(
x
)= 1 ×(305-290)=0.5790
25.9
e.由于 P(x
)= 1 ×(310.6-290)=0.7954,所以这 100 名高尔夫运动员 25.9
中击球距离至少为 290 码的人数为:100×0.7954=80(名)。
6.液体清洁剂瓶上的标签表明每瓶装有 12 盎司。清洁剂的重量服从如下概率密度函 数
e.这些运动员中有多少人击球距离至少为 290 码?
解:a.区间长度=310.6-284.7=25.9(码),所以击球距离的概率密度函数为:
1
f
(
x)
25.9
0
284.7 x 310.6 其他
b.P(x<290)= 1 ×(290-284.7)=0.2046
25.9
c.P(x
)= 1 ×(310.6-300)=0.4092 25.9
2 e.Var(x) (20 10)2 8.33
12
3.德尔塔(Delta)航空公司宣称其从辛辛那提到坦帕的航班的飞行时间为 125 分钟。 假定我们认为实际飞行时间服从区间 120 到 140 分钟上的均匀分布。
最新版商务与经济学完整版商数公式
第四章--微分Rules of Differentiation1.基本求导公式(1)(C)'=0 p252(2)(x n)’=nx n-1 p245(3)P333 与复合函数求导结合(e x)’=e x(e mx)=e mx*mlnmx=1/mx*m(4)(lnx)'=1/x p334(5)h(x)=cf(x) then h’(x)=cf’(x) p2512.导数的四则运算加法和减法法则h(x)=f(x)+g(x) then h’(x)=f’(x)+g’(x) P252乘法法则(uv)’=u’v+uv' P278(u、v为可导函数)商法则(u/v)'=(u'v-uv')/v2 △ P2813.The chain rule链式法则p276(复合函数求导)如果y是一个关于u的函数,u本身是关于x的函数,则:dy/dx=dy/du * du/dx4.反函数求导法则设函数y=f(x)在某一区间单调、连续,又在该区间内一点x处导数f'(x)存在且不为零,则反函数x=u(y)在对应点y处存在导数u'(x),且有u'(x)=1/f'(x)4.1和4.2高中学过导数的跳过~4.3边际函数Marginal Functions主要任务:三个领域中的应用1.收益和成本--计算边际收益MR(marginal revenue)和边际成本MC(marginal cost)主用公式:2.2:p129/p131/p132*P与Q的关系式(题目中会给出)若P(price价格)为常数,P与Q(quantity 数量)无关,则为完全竞争市场;若P为关于Q的表达式,则为垄断市场,P 随Q的增加而下降。
1*TR=PQ(TR总收益-total revenue,P-price,Q-sales of Q goods)2*π=TR-TC(π利润profit,因以用p表示price,所以此处用π表示profit)3*TC=FC+(VC)Q(TC总成本-total cost,FC固定成本-fixed cost,VC可变成本-variable cost)4*AC=TR/Q(AC平均成本-average cost)4.3公式1* MR=TR'边际收益是总收益对需求量的导数 p262同理,MC=TC'边际成本是总成本对产出的微分p267(一定将TR、TC写成关于Q的表达式而非关于P的表达式,求导后才是MR、MC)2*Δ(TR)≈MR×ΔQ p264 ΔTR的近似计算公式2. 生产--计算劳动边际产出MP L(marginal product of labour);证明边际产出递减规律MP L=dQ/dL边际产出是产出对劳动的微分(Q关于L的函数)(Q产量-output,L劳动力-labour)若证明边际产出递减规律,则再对MP L求导,证明其恒<0)3. 消费和储蓄--计算边际消费倾向MPC(marginal propensity to consume)和边际储蓄倾向MPS(marginal propensity to save)用到1.6内容Y国民收入-national income,C消费-consumption,S储蓄-savingsC=aY+b(0<a<1,a为边际消费倾向即MPC)Y=C+SMPC+MPS=1MPC=C'(Y) MPS=1-MPC4.5弹性Elasticity主要任务:1.计算弧弹性和点弹性;需求函数的价格弹性Price elasticity of Demand(经济学中一般用来衡量需求的数量随商品的价格的变动而变动的情况)☆因需求函数中P上升(价格)时,Q(需求数量)下降,即ΔP>0时,ΔQ<0,为使E符号位正,求时需加负号E= -需求变化的百分数/价格变化的百分数☆弧弹性Elasticity averaged along an arc(题目给出两点,两点平均,不用求导)E=-ΔQ/ΔP * P/QΔQ=Q2-Q1,ΔP=P2-P1 , P=(P1+P2)/2 ,Q=(Q1+Q2)/2☆点弹性Elasticity at a point(在一点的弹性,需求此点的导数)E=-Q’P *P/QQ’P=1/P’Q供给函数的价格弹性Price Elasticity of Supply除了应去掉负号外与需求函数价格弹性公式都相同因供给中P(价格)上升时,Q(企业产出数量)上升,即ΔP>0时,ΔQ>0,E为正,故前不用加负号△此节特别注意正负号问题,不能漏加,也不能少加,Demand有负号,Supply 没有(供给与需求中,P、Q关系,涉及1.3内容p53)2.求出E后,判断供给和需求函数是缺乏弹性、单位弹性还是富有弹性E<1 inelasricE=1unit elasticE>1 elastic3.公式变形,求出E后,由价格变化ΔP/P*100%求需求或供给ΔQ/Q*100%,或P、Q反过来求也一样4.6经济函数的最优化1.求驻点stationary pointf '(x)=02.求局部最大maximumf ''(x)<03.求局部最小minimumf ''(x)>04.拐点f ''(x)=o5.计算并证明在劳动平均产出的最大点处MP L=AP L6.计算并证明在利润π最大点处MR=MC(π'=0,π'=MR-MC , π''=MR'-MC'<0,MR'<MC')(p312的例题,和第一章的收税问题结合,比较好~很值得一看!参考1.2 p55例题用到公式市场均衡时,Q S=Q D=Q*对企业单位商品征税t:需求函数不变,供给函数由P=cQ s+d,变为P=cQ s+d+t △重要,注意t加在等式的右边政府总税收T=tQ*)求极值就求导,一阶导数为0,→stationary point,然后再求二阶导数,证明其是max或min4.7经济函数的进一步优化主要任务:1.没有价格歧视price discrimination时,函数都用Q表示,用已证明的在利润π最大点处MR=MC,且MR'<MC'解题,计算利益最大时,两种商品的价格2.有价格歧视时,为了方便,可以TR、TC、π都用P表示,用π'=0,计算两种商品的价格(黄万阳老师就这么做的,跟课本上不同,但其实原理都一样)4.8AP L=Q/LAP L’=0AP L’’<0,max,AP L’’>0,min仍为求极值问题,只不过求导用了乘法、除法和链式法则而已,若考了,知道怎么求导,注意一下求导的时候仔细点就ok,此节不做重点,看p338例题第三章--金融数学Mathematics of Finance3.1百分数percentages主要任务:1.使用百分数表示各种东西,初中内容而已,果断跳过2.求指数时,被选择的基期年份的值为100,指数=相对基期的比例因子*100,求出然后进行各年间的比较index number=scale factor form base year*100(P187也有个小公式,不写了,不一定能出大题,有兴趣的童鞋看一下)3.Inflation通货膨胀△annual rate of inflation年通货膨胀率(上一年所选定的商品和劳务价格在本年度平均变化的百分比)nominal data名义值(最初的原始数据)real data真值(又叫实际值,是考虑到通货膨胀后调整过的数据)比较名义价格与实际价格的上涨p189例题3.2 Compound interest 复利公式1.S=P(1+r/100)nP-本金principal,S-终值future value,r-年复利,t-时间△注意题目所给interest一般就是以年为单位的年复利r%,一般r%<0.有一年复利,半年复利,季度复利,每月复利,每周复利,即根据年利率将其分成2份、4份、12份、52份。
商务与经济统计学习笔记整理安德森第13版
商务与经济统计学习笔记整理安德森第13版2018/12/11开始阅读,2019/1⽉14⽇完成
正常页3min/per_page,有难度页5min/per_page
正常每天1-1.5⼩时阅读。
共计耗时36⼩时。
同期开始学习Python(⽬前⾄递归函数)
学习笔记⼤纲:
第20章指数
第19章质量管理的统计⽅法
第18章⾮参数⽅法
第17章时间序列分析及预测
第16章回归分析:建⽴模型
第15章多元回归
第14章简单线性回归
第13章实验设计与⽅差分析
第12章多个⽐率的⽐较、独⽴性及拟合优度检验
第11章总体⽅差的统计推断
第10章两总体均值和⽐例的推断
第9章假设检验
第8章区间估计
第7章抽样和抽样分布
第6章连续型概率分布
第5章离散型概率分布。
安德森《商务与经济统计》(第10版)(上册)课后习题详解(离散型概率分布)
a.所有的试验结果为:(H,H),(H,T),(T,H),(T,T)。
b.令 x=两次抛掷中出现正面的次数
c.随机变量 x 的取值如表 5-1 所示。
表 5-1
结果
x
(H,H)
2
(H,T)
1
(T,H取值,分别为 0,1,2。所以是离散的。
2.考虑工人组装产品的试验,记录工人组装产品所需的时间。
表 5-4
3 / 51
圣才电子书 十万种考研考证电子书、题库视频学习平台
解:a.回答正确的问题数的取值为:0,1,2,….,20。所以随机变量是离散的。 b.到达收费站的汽车数的取值为:0,1,2,….。所以随机变量是离散的。 c.出现错误的报告数的取值为:0,1,2,….,50。所以随机变量是离散的。
表 5-2 试(Y,Y,Y)(Y,Y,N)(Y,N,Y)(Y,N,N)(N,Y,Y)(N,Y,N)(N,N,Y)(N,N,N) 验 结 果
2 / 51
圣才电子书 十万种考研考证电子书、题库视频学习平台
N3
2
2
1
2
1
1
0
4.已知佛罗里达州的 12 个租借机构的房屋抵押率。令随机变量表示这些租借机构中 提供 30 年固定利率为 8.5%或更少的机构的个数。试问,这个随机变量可以取什么值?
4 / 51
圣才电子书 十万种考研考证电子书、题库视频学习平台
d.当 x>30 时,f(35)=0.40,即 x>30 的概率是 0.40。
8.以下是坦帕总医院(Tampa General Hospital)20 天内手术室的使用情况:有 3 天只使用 1 间,有 5 天使用 2 间,有 8 天使用 3 间,有 4 天医院的 4 问手术室都被使用。
商业统计学公式大全
商业统计学公式大全1.中心趋势测量-平均值公式:平均值=总和/观测数量-中位数公式:将所有观测值按顺序排列,取中间的值作为中位数-众数公式:出现频率最高的观测值-加权平均值公式:加权平均值=∑(观测值×权重)/∑权重2.离散程度测量-方差公式:方差=(∑(观测值-平均值)^2)/观测数量-标准差公式:标准差=√方差-平均绝对离差公式:平均绝对离差=(∑,观测值-平均值,)/观测数量-变异系数公式:变异系数=(标准差/平均值)×100%3.概率与概率分布-概率公式:概率=事件发生次数/总次数-累计概率公式:累计概率=当前事件之前所有事件的概率之和-正态分布公式:Z=(观测值-平均值)/标准差4.假设检验-单样本t检验公式:t=(样本均值-总体均值)/(标准差/√样本数量)-双样本t检验公式:t=(样本均值差-总体均值差)/(标准差/√((样本1数量-1)+(样本2数量-1)))5.回归分析- 简单线性回归方程公式:y = a + bx- 多元线性回归方程公式:y = a + b1x1 + b2x2 + ... + bnxn- 线性相关系数公式:r = (n∑xy - (∑x)(∑y)) / √((n∑x^2 - (∑x)^2)(n∑y^2 - (∑y)^2))-判定系数公式:判定系数=相关系数^26.预测与趋势分析-移动平均法公式:移动平均=(∑数据点)/观测数量-指数平滑法公式:本期预测值=上期预测值+α(本期观测值-上期预测值)7.抽样与抽样误差-简单随机抽样公式:每个个体被选中的概率相等-抽样误差公式:抽样误差=总体标准差/√样本数量这些公式是商业统计学中的基础,可以用于描述、分析和预测商业数据,从而帮助企业做出合理的决策。
在实际应用中,还需要根据具体情况选择适合的公式和方法,并结合实际数据进行计算和分析。
商务与经济统计学
集中趋势(Central tendency)
一组数据向其中心值靠拢的倾向和程度 测度集中趋势就是寻找数据一般水平的代表值或中心值 不同类型的数据用不同的集中趋势测度值 低层次数据的集中趋势测度值适用于高层次的测量数据, 反过来,高层次数据的集中趋势测度值并不适用于低层 次的测量数据 选用哪一个测度值来反映数据的集中趋势,要根据所掌 握的数据的类型来确定
表3-3 某车间50名工人日加工零件数分组表
按零件数分组 105~109 110~114 115~119 120~124 125~129 130~134 135~139
合计
N Sm1 2 Me ; L i fm
N: 数据总数 L: 中位数所在组区间下限 Sm-1: 中位数以前的累积频数 i: 中位数所在组的组距 fm: 中位数所在组的频数
案例----SMALL FRY DESIGN公司
在最近对应收账款的总结中,使用了下列描述性统计两来衡 量未付款发票的帐龄: 均值--------------------------40天 中位数------------------------35天 众数--------------------------31天 对这些统计量的解释表明,一张发票的平均帐龄是40天; 而中位数显示一半的发票已经超过35天没有付账;31天的 众数表示最高频率的发票帐龄,即一张未付款发票的最普通 时间长度是31天。统计汇总还显示出应收账款总价值中只 有3%超过了60天。基于这些统计信息,管理者可以感到满 意,因为应收账款和收入现金流都处于控制之下。
36900 0.769 (元) 48000
48000
HM
几何平均数(概念要点)
商务与经济统计关键术语与重要公式
关键术语统计学(Statistics)收收集、分析、表述和解释数据的艺术和科学。
数据( Data)收被收集、分析和解释的事实与数字。
数据集(Data set)一特定研究中所有收集的数据。
个体( Elements )从中收集数据的实体。
变量( Variable)个体的某种令人感兴趣的属性。
观测值( Observation )为单个个体获取的度量集。
品质数据(Qualitative data)为一个体的性质提供标记或名称的数据。
品质数据可能是非数值或数值型的。
品质变量(Qualitative variable)有关品质数据的变量。
数量数据(Quantitative data)表明某事多少的数据。
数量数据总是数值型的。
数量变量(Quantitative variable)有关数量数据的变量。
截面数据(Cross-sectional data)在同时或近似相同时点收集的数据。
时间序列数据( Time series data)在几个连续期间收集的数据。
描述统计学(Descriptive statistics)用于汇总数据的表、图和数值方法。
总体(Population )一特定研究中所有感兴趣个体的集合。
样本( Sample )总体的一个子集。
统计推断(Statistical inference)利用从一个样本获得的数据对总体性质进行估计或假设检验的过程。
频数分布(Frequency distribution) 对一数据集的表格汇总法,显示若干无重叠组别中每一组的项目频数(或个数)。
相对频数分布(Relative frequency distribution) 一数据集的表格汇总法,显示在若干无重叠组别中每一组的项目总数的相对频数,即分数或比例。
百分数频数分布(Percent frequency distribution) 一数据集的表格汇总法,显示几个无重叠组别中每一组的项目总数的百分率。
条形图(Bar graph) 一种图形方法,描述在品质数据的频数分布、相对频数据分布或百分数频数分布中表示的信息。
欲研究不同收入群体对某种特定商品是否有相同的购买习惯
欲研究不同收入群体对某种特定商品是否有相同的购买习惯统计学课后作业答案篇一:欲研究不同收入群体对某种特定商品是否有相同的购买习惯19 23 30 23 4115 21 20 27 20要求;(1)计算众数、中位数:1、排序形成单变量分值的频数分布和累计频数分布:网络用户的年龄29 38 19 22 3125 22 19 34 1724 18 16 24 23从频数看出,众数Mo有两个:19、23;从累计频数看,中位数Me=23。
(2)根据定义公式计算四分位数。
Q1位置=25/4=6.25,因此Q1=19,Q3位置=3×25/4=18.75,因此Q3=27,或者,由于25和27都只有一个,因此Q3也可等于25+0.75×2=26.5。
(3)计算平均数和标准差;Mean=24.00;Std. Deviation=6.652 (4)计算偏态系数和峰态系数:Skewness=1.080;Kurtosis=0.773(5)对网民年龄的分布特征进行综合分析:分布,均值=24、标准差=6.652、呈右偏分布。
如需看清楚分布形态,需要进行分组。
为分组情况下的直方图:为分组情况下的概率密度曲线:分组:1、确定组数:K1lg25lg(n)1.398 1 15.64,取k=6lg(2)lg20.301032、确定组距:组距=( 最大值- 最小值)÷组数=(41-15)÷6=4.3,取53、分组频数表网络用户的年龄(Binned)分组后的均值与方差:分组后的直方图:要求:(1)如果比较成年组和幼儿组的身高差异,你会采用什么样的统计量?为什么? 均值不相等,用离散系数衡量身高差异。
(2)比较分析哪一组的身高差异大?幼儿组的身高差异大。
7.6利用下面的信息,构建总体均值µ的置信区间:=8900,置信1)总体服从正态分布,且已知σ= 500,n = 15水平为95%。
解:N=15,为小样本正态分布,但σ已知。
安德森《商务与经济统计》(第10版)(上册)课后习题详解(描述统计Ⅰ:表格法和图形法)
6 / 90
圣才电子书 十万种考研考证电子书、题库视频学习平台
构建下列项目汇总数据:
a.相对频数分布和百分数频数分布。
b.构建条形图。
c.构建饼形图。
d.根据这些数据,最常见的 3 个姓氏是哪些?
解:a.制作频数分布表,如表 2-7 所示。
表 2-7 频数分布表
8 / 90
圣才电子书 十万种考研考证电子书、题库视频学习平台
前 50 名的单个节目的名单(The New York Times Almanac,2006)。表 2-8 是制作这些 收视率前 50 名的电视节目的电视网的数据。
pA =60/120=0.5, pB =24/120=0.2, pC =36/120=0.3
制作频数分布和相对频数分布,如表2-1所示。
表2-1 频数、相对频数分布表
组别
频数
相对频数
A
60
0.5
B
24
0.2
C
36
0.3
合计
120
1
2.表 2-2 给出了一部分相对频数分布。
表 2-2 部分相对频数分布表
b.若样本容量为 200,则组别 D 的频数为:200×0.20=40。
c.若样本容量为 200,则组别 A、B、C 的频数分别为:200×0.22=44,200×0.18=36,
200×0.40=80。制作频数分布表,如表 2-3 第 2 列所示。
d.组别 A、B、C、D 的百分数频数分别为:100×0.22=22,100×0.18=18,100×0.40=40,
表 2-4 50 名电视观众偏爱数据
a.这些数据是品质型的还是数值型的? b.给出这些数据的频数分布和百分数频数分布。 c.画出这些数据的条形图和饼形图。
戴维安德森《商务统计学》复习题
3. 下列数据属于顺序尺度数据的是( )。
A.性别
B. 年龄 C. 体重
D. 信用评级
4. 下列数据属于分类数据(categorical data)的是( )。
A.民族 B. 年龄 C. 身高 D.体重
5. 若一组样本数据的均值为 500,标准差为 100。那么 520 的 z-分数(z-score)为( )。
B. 若 z-分数大于 0,则变量值大于平均数
C. 若 z-分数等于 0,则变量值等于平均数
D. 若 z-分数等于 0,则变量值等于 0
8. 下列选项中,不受异常值影响的是( )。
A. 算术平均数 B. 全距 C. 中位数 D. 变异系数
9.下列选项中,不属于变异指标(measure of variability)的是( )。
A. 1 B. 2 C. 0 D.不确定
15. 在数据 32、45、48、42、50 中,中位数(median)是( )。
A.48
B.45
C.42
D.32
16. 若一组数据是对称分布,则偏度(skewness)为( )。
A. 1
B. 0
C. -1
D. 2
17. 若偏度=0.85,则该组数据的分布形态为( )。
22. 方差(variance)的单位与原始数据的单位是一致的。( ) 23. 标准差(Standard deviation)的单位与原始数据的单位是一致的。( ) 24. 经验法则(empirical rule)是切比雪夫定理(Chebyshev’s theorem)的一种特殊情况。 25.一般而言,如果观测值的 Z-分数大于-3,则可以认为该数值为异常值。( ) 26.相关系数与协方差的正负号一定gufe@。
2022年第 章 统计和统计数据
第 1 章 统计和统计数据
1.2 怎样获得统计数据
1.2.1 变量与数据 1.2.2 数据的来源
1.2 怎样获得统计数据 1.2.1 变量与数据
数据的来源
1.寻找二手数据 2.抽取样本
总体(population):包含所研究的全部个体 (数据)的集合
样本(sample):从总体中抽取的一部分元素 的集合
样本量(sample size):构成样本的元素的数 目
3.概率抽样方法
概率抽样
(probability sampling)
1. 根据一个已知的概率来抽取样本单位,也 称随机抽样
而且,如果需要还要进行必要的修正
所有在网上购物的消费者的网上购物的平均花费金额
不同的层,然后从不同的层中独立 D.
指出下面的数据哪一个属于分类数据( )
、随机
地抽取样本 A.
失事前一天晚上,Thiokol公司的经理们和国家航空航天局就如期发射还是推迟发射产生了争执。
因此,人类奋斗的很多领域,如果没有统计学,虽然不会死亡,但一定会变得很弱
高
第 1 章 统计和统计数据
1.1 统计及其应用领域
1.1.1 统计学研究什么? 1.1.2 统计的应用
1.1 统计及其应用领域 1.1.1 统计学研究什么?
什么是统计学?
(statistics)
收集、处理、分析、解释数据并从数据中得出结论的科学
1. 收集数据:取得数据 2. 处理数据:图表展示 3.分析数据:利用统计方法分析 数据 4.数据解释:结果的说明 5.得到结论:从数据分析中得出 客观结论
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
d d (自由度n-1) sd n 双侧检验x2 t=
(n 1) s 2
02
自由度(n-1)
多项总体方差 1、拟合优度 H 0 : PA 0.3, PB 0.5, PC 0.2 ( fi ei ) 2 X = ei i 1
2 k
多项总体方差 3、方差分析 完全随机化单因子(随机无重复)
t
2 s12 s2 + n1 n2
2 1
n1 t
+
2Байду номын сангаас2
n2
p1 -p2
1和 2未知
( x1 -x2 ) D0
2 s12 s2 + n1 n2
已知 z =
d d n sd x 0 n 未知 t (自由度n-1) s 自由度n 1 n
单个样本总体比例 单个样本总体比例 两个匹配总体均值 1、区间估计 1、区间估计 1、区间估计 p (1 p ) p z /2 n 2、假设检验 H 0 : p p0 Ha : Z= p p0 p0 (1 p0 ) n
j 1 k
ei =总观察频数 各项假设比例 2、独立性 H 0 : 偏好与性别独立 H p : 偏好与性别不独立 X =
2 i
SSTR b (x j -x)
j 1
2
SST = ( xij x )
j 1 i 1 k
k
nj
2
SSBL k (xi -x)
i 1
b
2
两个独立总体比例 1、区间估计 p1 -p2 z /2 p1 (1 p1 ) p2 (1 p2 ) n1 n2
已知 x z /2 未知 x t /2
1和 2已知
x1 -x2 z /2
1 -2的假设检验的检验统计量 H 0 : x
2 1
多项总体方差 4、随机化区组 k个处理(方法)b个区组(人) SST = ( xij x )
j 1 i 1 k k nj 2
H p : 总体比例不是PA 0.3, PB 0.5, PC 0.2 H : 0 1 2 1
k
2
H a : 总体的均值不完全相等 SSTR = n j ( x j x )
1 1 p (1 p ) + n1 n2 n p +n p p= 1 1 2 2 n1 +n2
(自由度nT -k) 双侧检验x2
单个总体方差 1、区间估计 (n 1) s 2 (n 1) s 2 2 2 2 X X (1 /2) /2 自由度(n-1) 2、假设检验: H0 : 2 4 Ha : 2 4 X
j
( fij eij ) 2 eij
SSE = (n j 1)s2j
j 1
SSE SST SSTR SSBL 平方和
均方 SSTR MSTR k 1 SSE MSE nt k F MSTR MSE
第i行之和 第j列之和 eij 样本容量
s 是各组数据的方差 平方和 自由度 SSTR SSE SST k 1 nt k nt k
总体均值 一、单个总体均值 1、区间估计:
总体均值 两个匹配样本 区间估计: s n d t /2 d n s (自由度n-1) n 假设检验: H 0 : 1 2 0 H a : 1 2 0 t=
总体均值 二、两个独立总体均值 1、区间估计
总体均值 二、两个独立总体均值 2、假设检验:
2
线性回归标--准化残差 ˆ yi y ; S yi y ˆ S (1 hi ) S yi y ˆ ( xi x ) 2 1 hi n ( xi x ) 2
2
b0 y b1 x
( xi yi ) SSR b12 ( xi x ) S xy = xi y i n 线性回归相关系数 2 ( xi ) S xx xi 2 ( xi x )( yi y ) r n 2 2 ( x x ) ( y y ) i i S xy b1 S xy S xx 或r r 2 S xx S yy xi -对于第i次观测, 自变量的观测值 yi -对于第i次观测, 应变量的观测值 x -自变量的样本平均值 y -应变量的样本平均值 线性回归方程 y b0 b1 x
^
1 SST yi ( yi ) S xy n
b1 b1 S xx Sb1 S S
Sb1
(x x )
i
2
自由度n 2 t上侧为 / 2 拒绝法则: 若 t t /2则拒绝H 0 拒绝表示x与y 存在显著关系 MSR MSE 分子自由度1,分母自由度n 1 F 上侧为 ————————————— 区间估计
b1的符号 r 2 若相关系数的值等于+1, 表示x与y完全正相关, 反之负相关 为0表示不存在相关性
1的置信区间b1 t /2 Sb
自由度n 2
1
2 j
SSTR SSBL SSE SST
均方 SSTR k 1 MSTR k 1 SSBL b 1 MSBL b 1 SSE (k 1)(b 1) MSE (k 1)(b 1) nt 1
自由度
F MSTR F MSE
线性回归 估计的回归方程的 斜率和y轴截距 b1
线性回归--判断系数
线性回归--系数1
0 1
总平方和中能被估计的回归方程 假设检验: 解释的比例=r 2,也是拟合优度 H : 0 r2 SSR SST
( xi x )( yi y ) ( xi x )2
( y y) ( y y)
i i 2 2
2
H a : 1 0 t
n1
+
2 2
Ha :
2、假设检验 H 0 : p1 p2 0 H a : p1 p2 0 z
(自由度df)
1和 2已知
z= ( x1 -x2 ) D0
n2
2、假设检验: H 0 : =2,H a : 2
1和 2未知
x1 -x2 t /2 xi -x j LSD LSD t /2 1 1 MSE ( ) ni n j
p (1 p ) n 2、假设检验 H 0 : p p0 p z /2 Ha : Z= p p0 p0 (1 p0 ) n
sd n 2、假设检验: H 0 : 1 2 0 d t /2 H a : 1 2 0
x 0
xi -x j 1 1 MSE ( ) ni n j