统计学公式 贾俊平 精华版
统计学复习概念重点贾俊平
1. 描述统计:研究数据收集处理汇总图表描述概括与分析等统计方法。
2. 推断统计:研究如何利用样本数据来推断总体特征的统计方法。
3. 分类数据:只能归于某一类别的非数字型数据。
4. 顺序数据:只能归于某一有序类别的非数字型数据。
5. 数值型数据:按数字尺度测量的观察值。
6. 观测数据:通过调查或观测而收集到的数据。
7. 实验数据:在实验中控制实验对象而收集到的数据。
8. 截面数据:在相同或近似相同的时间点上收集的数据。
9. 时间序列数据:在不同时间上收集到的数据,这类数据按时间顺序收集到的。
10. 抽样调查:从总体中随机抽取一部分单位作为样本进行调查,根据样本调查结果来推断总体特征的数据收集方法。
11. 普查:为特定目的而专门组织的全面调查。
12. 总体:包含所研究的全部个体(数据)的集合。
13. 样本:从总体中抽取的一部分元素的集合。
14. 样本容量:也称样本量,是构成样本的元素数目。
15. 参数:用来描述总体特征的概括性数字度量。
16. 统计量:用来描述样本特征的概括性数字度量。
17. 变量:说明现象某种特征的概念。
18. 分类变量:说明事物类别的一个名称。
19. 顺序变量:说明事物有序类别的一个名称。
20. 数值型变量:说明事物数字特征的一个名称。
21. 离散型变量:只能取可数值的变量。
23. 调查数据:通过调查方法获得的数据24. 实验数据:通过实验方法获得的数据25. 概率抽样:随机抽样,遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。
26. 非概率抽样:不随机,根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。
27. 简单随机抽样:从包括总体的N个单位的抽样框中随机,一个个抽取n个单位作为样本,每单位等概论。
28. 抽样框:用于抽选样本的总体单位信息,是概率抽样中所不可缺29. 分层抽样:将抽样单位按某种特征或某种规则划分为不同的层,然后从不同层中独立、随机地抽取样本。
统计学贾俊平重要公式
方差未知 :Z = X − μ S/ n
38.小 样 本 总 体 均 值 的 检 验 统 计 量 : t = X − μ , df = n − 1
S/ n
39.总 体 比 率 检 验 统 计 量 : Z =
p) − p0
p0 (1 − p0 )
n
40.总 体 均 值 的 单 侧 检 验 中 所 需 样 本 容 量 :
32.估计μ时的抽样误差: X − μ
E(X ) = μ,
33.总体均值的区间估计
有限总体时σ = X
N −n⎛ σ ⎞ N −1 ⎜⎝ n ⎟⎠
无限总体时σ = σ 31.比例P)的数学X 期望n和标准差 : E( p)) = p,
(1)大样本且方差已知: X ± Zα 2
σ, n
(2)大样本且方差未知: X ± Zα 2
X
)2
=
n
∑ i=1
X
2 i
−
∑ ⎛ n
⎜⎝ i = 1 X n
⎞2 i ⎟⎠
,
L XY
=
( n
∑ Xi− i=1
X
) (Y i − Y ) =
n
∑ i=1
X iY i −
∑ ⎛ n
⎜⎝ i = 1
∑ ⎞ ⎛ n
⎞
X i ⎟⎠ ⎜⎝ i = 1 Y i ⎟⎠ ,
n
L YY=Βιβλιοθήκη ( ) n∑2
Yi − Y
=
i=1
n
∑ Y i2 − i=1
∑ ⎛ n
⎞2
⎜⎝ i = 1 Y i ⎟⎠
,
n
n
n
∑ Xi
∑ Yi
X = i=1
统计学(第三版课后习题答案) 贾俊平版
区分指标与标志,总量指标分类、分配数列、上限不在内原则、各种平均数之间的关系、平均发展指标!计算可能考的公式有:计划完成情况相对指标、结构(比例/比较/强度/动态)相对指标、各种平均数算法、众数、中位数、四分位数、平均差、标准差、标准差系数、偏态和峰度、发展速度和增长速度、总指数(很重要)、平均指标指数、重要经济指数的编制(上证指数、工业产品产量总指数、农副产品收购价格指数)统计学(第三版课后习题答案) 贾俊平版2.1 (1)属于顺序数据。
(2)频数分布表如下:服务质量等级评价的频数分布服务质量等级家庭数(频率)频率%A1414B2121C3232D1818E1515合计100100(3)条形图(略)2.2 (1)频数分布表如下:(2)某管理局下属40个企分组表按销售收入分组(万元)企业数(个)频率(%)先进企业良好企业一般企业落后企业11119927.527.522.522.5合计40 100.0 2.3 频数分布表如下:某百货公司日商品销售额分组表按销售额分组(万元)频数(天)频率(%)25~30 30~35 35~40 40~45 45~5046159610.015.037.522.515.0合计40 100.0 直方图(略)。
2.4 (1)排序略。
(2)频数分布表如下:100只灯泡使用寿命非频数分布按使用寿命分组(小时)灯泡个数(只)频率(%)650~660 2 2660~670 5 5670~680 6 6680~690 14 14690~700 26 26700~710 18 18710~720 13 13720~730 10 10730~740 3 3740~750 3 3合计100 100 直方图(略)。
2.5 (1)属于数值型数据。
(2)分组结果如下:分组天数(天)-25~-20 6-20~-15 8-15~-10 10-10~-5 13-5~0 120~5 45~10 7合计60(3)直方图(略)。
(完整版)统计学贾俊平考研知识点总结
统计学重点笔记第一章导论一、比较描述统计和推断统计:数据分析是通过统计方法研究数据,其所用的方法可分为描述统计和推断统计。
(1)描述性统计:研究一组数据的组织、整理和描述的统计学分支,是社会科学实证研究中最常用的方法,也是统计分析中必不可少的一步。
内容包括取得研究所需要的数据、用图表形式对数据进行加工处理和显示,进而通过综合、概括与分析,得出反映所研究现象的一般性特征。
(2)推断统计学:是研究如何利用样本数据对总体的数量特征进行推断的统计学分支。
研究者所关心的是总体的某些特征,但许多总体太大,无法对每个个体进行测量,有时我们得到的数据往往需要破坏性试验,这就需要抽取部分个体即样本进行测量,然后根据样本数据对所研究的总体特征进行推断,这就是推断统计所要解决的问题。
其内容包括抽样分布理论,参数估计,假设检验,方差分析,回归分析,时间序列分析等等。
(3)两者的关系:描述统计是基础,推断统计是主体二、比较分类数据、顺序数据和数值型数据:根据所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。
(1)分类数据是只能归于某一类别的非数字型数据。
它是对事物进行分类的结果,数据表现为类别,是用文字来表达的,它是由分类尺度计量形成的。
(2)顺序数量是只能归于某一有序类别的非数字型数据。
也是对事物进行分类的结果,但这些类别是有顺序的,它是由顺序尺度计量形成的。
(3)数值型数据是按数字尺度测量的观察值。
其结果表现为具体的数值,现实中我们所处理的大多数都是数值型数据。
总之,分类数据和顺序数据说明的是事物的本质特征,通常是用文字来表达的,其结果均表现为类别,因而也统称为定型数据或品质数据;数值型数据说明的是现象的数量特征,通常是用数值来表现的,因此可称为定量数据或数量数据。
三、比较总体、样本、参数、统计量和变量:(1)总体是包含所研究的全部个体的集合。
通常是我们所关心的一些个体组成,如由多个企业所构成的集合,多个居民户所构成的集合。
统计学(贾俊平)第五版课后习题答案(完整版)
统计学(第五版)贾俊平课后习题答案(完整版)第一章思考题1.1什么是统计学统计学是关于数据的一门学科,它收集,处理,分析,解释来自各个领域的数据并从中得出结论。
1.2解释描述统计和推断统计描述统计;它研究的是数据收集,处理,汇总,图表描述,概括与分析等统计方法。
推断统计;它是研究如何利用样本数据来推断总体特征的统计方法。
1.3统计学的类型和不同类型的特点统计数据;按所采用的计量尺度不同分;(定性数据)分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述;(定性数据)顺序数据:只能归于某一有序类别的非数字型数据。
它也是有类别的,但这些类别是有序的。
(定量数据)数值型数据:按数字尺度测量的观察值,其结果表现为具体的数值。
统计数据;按统计数据都收集方法分;观测数据:是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的。
实验数据:在实验中控制实验对象而收集到的数据。
统计数据;按被描述的现象与实践的关系分;截面数据:在相同或相似的时间点收集到的数据,也叫静态数据。
时间序列数据:按时间顺序收集到的,用于描述现象随时间变化的情况,也叫动态数据。
1.4解释分类数据,顺序数据和数值型数据答案同1.31.5举例说明总体,样本,参数,统计量,变量这几个概念对一千灯泡进行寿命测试,那么这千个灯泡就是总体,从中抽取一百个进行检测,这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数,这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量,变量就是说明现象某种特征的概念,比如说灯泡的寿命。
1.6变量的分类变量可以分为分类变量,顺序变量,数值型变量。
变量也可以分为随机变量和非随机变量。
经验变量和理论变量。
1.7举例说明离散型变量和连续性变量离散型变量,只能取有限个值,取值以整数位断开,比如“企业数”连续型变量,取之连续不断,不能一一列举,比如“温度”。
统计学(第六版)贾俊平 公式整理
E ( X ) x1 p1 x 2 p 2 x n p n xi pi
2 D( X ) [ xi E ( X )]2 pi
PX x C p x q n x E ( X ) np E ( X ) npq
x n i 1
P( X )
n n
( z 2 ) 2 2 E2 ( z 2 ) 2 (1 ) E2
假设检验
名称 总体均值检验的统计量(正态总体, 已知) z 总体均值检验的统计量( 未知,大样本) 公式
x 0
z
/ n x 0
s/ n x 0 p 0
总体均值检验的统计量(正态总体, 未知, t 小样本) s/ n 总体比例检验的统计量
z
0 (1 0 )
n (n 1) s 2
总体方差检验的统计量 两个总体均值之差检验的统计量( 1 , 2 已 知)
2 2
2
z
02
12
n1
2 2
( x1 x2 ) ( 1 2 ) n2
两个总体均值之差检验的统计量( 1 , 2 未 知但相等,小样本)
x e
x!
E ( X ) xf ( x)d ( x) D ( X ) [ x E ( X ) ]2 f ( x ) d ( x ) 2
2 ( x )2 1 f ( x) e 2 2 1
标准正态分布的概率密度函数
1 x2 ( x) e 2
n 个两两互斥事件 A1 , A2 ,… An 之和
的概率 事件 A 与其逆事件 A 之和的概率 两个任意事件之和的概率 概率的乘法公式 两个独立事件之积的概率
统计学贾俊平课后习题答案完整版
统计学贾俊平课后习题答案HEN system office room 【HEN16H-HENS2AHENS8Q8-HENH1688】附录:教材各章习题答案第1章统计与统计数据1.1(1)数值型数据;(2)分类数据;(3)数值型数据;(4)顺序数据;(5)分类数据。
1.2(1)总体是“该城市所有的职工家庭”,样本是“抽取的2000个职工家庭”;(2)城市所有职工家庭的年人均收入,抽取的“2000个家庭计算出的年人均收入。
1.3(1)所有IT从业者;(2)数值型变量;(3)分类变量;(4)观察数据。
1.4(1)总体是“所有的网上购物者”;(2)分类变量;(3)所有的网上购物者的月平均花费;(4)统计量;(5)推断统计方法。
1.5(略)。
1.6(略)。
第2章数据的图表展示2.1(1)属于顺序数据。
(2)频数分布表如下(4)帕累托图(略)。
2.2(1)频数分布表如下2.3频数分布表如下2.5(1)排序略。
(2)频数分布表如下2.6(3)食品重量的分布基本上是对称的。
2.72.8(1)属于数值型数据。
2.9(1)直方图(略)。
(2)自学考试人员年龄的分布为右偏。
2.10A 班分散,且平均成绩较A 班低。
2.11 (略)。
2.12 (略)。
2.13 (略)。
2.14 (略)。
2.15 箱线图如下:(特征请读者自己分析) 第3章 数据的概括性度量3.1(1)100=M ;10=e M ;6.9=x 。
(2)5.5=L Q ;12=U Q 。
(3)2.4=s 。
(4)左偏分布。
3.2(1)190=M ;23=e M 。
(2)5.5=L Q ;12=U Q 。
(3)24=x ;65.6=s 。
(4)08.1=SK ;77.0=K 。
(5)略。
3.3 (1)略。
(2)7=x ;71.0=s 。
(3)102.01=v ;274.02=v 。
(4)选方法一,因为离散程度小。
3.4 (1)x =(万元);M e= 。
统计学(贾俊平版)重点【精选文档】
第一章统计:收集、处理、分析、解释数据并从数据中得出结论的科学。
数据1. 分类数据对事物进行分类的结果数据,表现为类别,用文字来表述。
例如,人口按性别分为男、女两类2。
顺序数据对事物类别顺序的测度,数据表现为类别,用文字来表述例如,产品分为一等品、二等品、三等品、次品等3. 数值型数据对事物的精确测度,结果表现为具体的数值.例如:身高为175cm ,168cm,183cm总体–所研究的全部元素的集合,其中的每一个元素称为个体–分为有限总体和无限总体.有限总体的范围能够明确确定,且元素的数目是有限的。
无限总体所包括的元素是无限的,不可数的样本–从总体中抽取的一部分元素的集合–构成样本的元素数目称为样本容量参数:描述总体特征。
有总体均值( )、标准差(σ)总体比例(π)统计量:描述样本特征。
样本标准差(s),样本比例(p)变量:说明现象某种特征,分类,顺序,数值型:离散型,连续型。
经验,理论变量描述统计研究的是数据收集,处理,汇总,图表描述,概括与分析等统计方法.推断统计是研究如何利用样本数据进行推断总体特征第二章间接数据(查询的)与直接数据:调查(通常是对社会现象而言的)普查信息全面完整。
再一个是实验。
概率抽样:也称随机抽样。
按一定的概率以随机原则抽取样本,抽取样本时使每个单位都有一定的机会被抽中–每个单位被抽中的概率是已知的,或是可以计算出来的–当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率简单随机抽样:从总体N个单位中随机地抽取n个单位作为样本,每个单位入抽样本的概率是相等的分层抽样:优点:保证样本的结构与总体的结构比较相近将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本,从而提高估计的精度–组织实施调查方便–既可以对总体参数进行估计,也可以对各层的目标量进行估计整群抽样:将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查优点:抽样时只需群的抽样框,可简化工作量–调查的地点相对集中,节省调查费用,方便调查的实施–缺点是统计的精度较差系统抽样:将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其它样本单位–先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位操作简便,可提高估计的精度多阶段抽样:先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干个单位进行调查–群是初级抽样单位,第二阶段抽取的是最终抽样单位.将该方法推广,使抽样的段数增多,就称为多阶段抽样非概率抽样:方便抽样(自行确定入抽样本单位),判断抽样(根据经验判断),自愿样本(被调查者自愿参加),滚雪球抽样(对稀少群体的调查),配额抽样(先将体中的所有单位按一定的标志(变量)分为若干类,然后在每个类中采用方便抽样或判断抽样的方式选取样本单位)。
统计学贾俊平
审核数据精确性旳措施
1. 逻辑检验
从定性角度,审核数据是否符合逻辑,内容是否 合理,各项目或数字之间有无相互矛盾旳现象
主要用于对分类和顺序据旳审核
2. 计算检验
检验调查表中旳各项数据在计算成果和计算措施 上有无错误
主要用于对数值型数据旳审核
3 -8
精品教材
统计学
数据旳审核—二手数据
(second hand data)
1. 按一定顺序将数据排列,以发觉某些明显 旳特征或趋势,找到处理问题旳线索
2. 排序有利于对数据检验纠错,以及为重新 归类或分组等提供根据
3. 在某些场合,排序本身就是分析旳目旳之 一
4. 排序可借助于计算机完毕
3 - 13
精品教材
统计学
数据排序
(措施)
1. 分类数据旳排序
▪ 字母型数据,排序有升序降序之分,但习惯上
3 - 21
精品教材 分类数据旳图示—条形图
统计学
(例题分析)
3 - 22
频数
16 15
12
11
9
9
8
6
4
0 可口 旭日升 百事 可乐 冰茶 可乐
汇源 果汁
露露
不同品牌饮料的频数分布
品牌
精品教材
统计学
分类数据旳图示—饼图
(pie Chart)
1. 也称圆形图,是用圆形及园内扇形旳面积 来表达数值大小旳图形
3 - 27
回答类别 户数 百分比 (户) (%)
非常不满意 24
8
甲城市
向上累积 户数 百分比 (户) (%)
24
8.0
向下累积 户数 百分比 (户) (%)
300 100.0
统计学第四版(贾俊平)重要公式
统计学第四版(贾俊平) 重要公式()()1S (2) 1 .4Q .3NX .2X .12222D --=-=-====∑∑∑∑n X NXQ Q IQR nX iiL U μμσμ样本方差:)总体方差:(方差:四分位差:总体平均数:样本平均数:()1S 分组数据样本方差.12X 分组数据样本平均数.11X 加权平均数.1022--===∑∑∑∑∑n X X F F X F W X W i i ii i ii inp p n p p N n N p p E P nn N n N X E PPX X )1()1(1,)(:.311 ,)(:X .30-=⎪⎪⎭⎫⎝⎛---===⎪⎭⎫⎝⎛--==σσσσσσμ无限总体时有限总体时的数学期望和标准差比例无限总体时有限总体时的数学期望和标准差2222222:.34,,)4(,,,)3(,:)2(,:)1(.33:.32∆=±±±±-σμσσμμαααααZ n nS t X n Z X nS Z X n Z X X 时所需的样本容量估计方差未知小样本总体正态方差已知小样本总体正态大样本且方差未知大样本且方差已知总体均值的区间估计时的抽样误差估计np p p p Z n df nS X t nS X Z n X Z p p Z n p np p Z p P )1(:.391,/:.38/:,/::.37)1(.36)1(.350002222--=-=-=-=-=∆-⋅=-±总体比率检验统计量统计量小样本总体均值的检验方差未知方差已知统计量大样本总体均值的检验本容量的区间估计时所需的样的区间估计总体比率μμσμαα()()()222121212121212102221,)(::,.41,:.40n n X X E X X X X Z Z Z Z n X X σσσμμμμσααβα+=-=-----=-的期望值与标准差估计量两个总体均值之差的点独立样本时即为双侧检验的公式代替用所需样本容量总体均值的单侧检验中()()()()()()()()()()21212121212122121222212121222122121222121212121,)3()11(, ,,)2(:,),30,()1(:.42X X X X X X X X X XS t X Xn n n n X X S Z X X n S n S S Z X Xn n ------±-+=+=-=±-+=±-≥ααασσσσσσσσσσσσ正态小样本的标准差时未知大样本的点估计量为已知大样本间估计两个总体均值之差的区()()()()()2221112221112221112121212121221212221212121)1()1(:)1()1()1()1(:.44)3(,11X )2(,X Z )1(.43212121n p p n p p S n p p n p p n p p n p p p p p p E p p p p nS d t n n S X t n n X p p p p p p d dp-+-=-+-=-+-=-=----=⎪⎪⎭⎫ ⎝⎛+---=+---=---的点估计量的期望值与标准差量两个比率之差的点估计相关样本小样本大样本设检验统计量两个总体均值之差的假σσμμμσσμμ()()()()()()⎪⎪⎭⎫⎝⎛+-==++=---=±-≥------212121221121212212222111111)1(:::.46,5)1(,),1(,:.4521212121n n p p S p p n n p n p n p p p p p Z S Z p p p n p n p n p n p p p p pp p p的点估计量时总体比率合并估计验统计量两个总体比率之差的检时大样本间估计两个总体比率之差的区σσα()()()22212222)2/1(2222/2:计量两个总体方差的检验统.491:计量一个总体方差的检验统.4811:计一个总体方差的区间估.47S S F S n S n S n=-=-≤≤--σχχσχαα()()()()xb y b nx xny x y x b y y xb b y xy E x y i iiii i i 102212101010,:min ::::.57-=--=-+=+=++=∑∑∑∑∑∑和截距估计的回归方程的斜率最小二乘法程估计的简单线性回归方简单线性回归方程简单线性回归模型ββεββ()()()()()()()()()2:2:)(::)(::::222112222222222222-==-======-⎥⎦⎤⎢⎣⎡-=⎥⎥⎦⎤⎢⎢⎣⎡-=-=-=-=-=+=∑∑∑∑∑∑∑∑∑∑∑∑n SSEMSE S n SSE MSE S r b b r SSTSSR r R n XX n Y X Y X n X X b y y SSR n y y y y SST y y SSE SSESSR SST xy ii i i i i iiiiiii i 估计量的标准误差的估计量均方误差的符号判定系数的符号样本相关系数决定系数判定系数回归平方和总平方和误差平方和平方和分解σ()()()ib ia i i pp p p S bt t MSE MSRF F p n SSEMSE p SSR MSR p n n R R SSTSSR R SSE SSR SST SSE SSR SST y y x x x y E x x x y ==--==---⋅--==+=-+⋅⋅⋅+++=++⋅⋅⋅+++=∑::1::1111:::,,min ::::.5822222211022110检验统计量检验统计量误差均方回归均方修正的多元决定系数多元决定系数之间的关系最小二乘法估计的多元回归方程多元回归方程多元线性回归模型 ββββεββββ。
统计学第六版贾俊平第7章无水印
1. 估计量:用于估计总体参数的随机变量
2. 如样本均值,样本比例、样本方差等
3. 例如: 样本均值就是总体均值 的一个估
计量
ˆ
4. 参数用 表示,估计量用 表示
5. 估计值:估计参数时计算出来的统计量的 详细值
6. 假如样本均值 计值
x =80,则80就是二点战估中计的的估
点估计与区间估计
参数估计的方法
P(1 P)
n 3. 总体比例 在1- 置信程度下的置信区间为
P z 2
(1 )
n
或
P
z
2
P(1- P) ( 未知时)
n
总体比例的区间估计
(例题分析)
【例】某城市想 要估计下岗职工 中女性所占的比 例,随机抽取了 100个下岗职工 ,其中65人为女 性职工。试以 95%的置信程度 估计该城市下岗 职工中女性比例 的置信区间
S1=5.8
x2 78
S2=57.2
两个总体均值之差的估计
(例题分析)
解: 两个总体均值之差在1-
为 (x1 x2 ) z 2
s12
s
2 2
3.
为是总体参数未在区间内的比例
4. 常用的置信程度值有 99%, 95%, 90%
5. 相应的 为,,
置信区间
(confidence interval)
1. 由样本统计量所构造的总体参数的估计区间称 为置信区间
2. 统计学家在某种程度上确信这个区间会包含真 正的总体参数,所以给它取名为置信区间
3. 用一个详细的样本所构造的区间是一个特定的 区间,我们无法知道这个样本所产生的区间是 否包含总体参数的真值
(例题分析)
【例】一家保险公司搜集到由36投保个人组成的随 机样本,得到每个投保人的年龄(周岁)数据如下表。 试建立投保人年龄90%的置信区间
贾俊平-统计学-总结
第一章导论概念:统计学:收集、处理、分析、解释数据井从数据中得出结论的科学。
统计的分类:描述统计:研究的是数据收集,处理,汇总,图表描述,文字概括与分析等统计方法。
推断统计:是研究如何利用样木数据进行推断总体特征。
数据:1.分类数据:对事物进行分类的结果数据,表现为类别,用文字来表述。
例如,人口按性别分为男、女两类2.顺序数据对事物类别顺序的测度,数据表现为类别,用文字来表述例如,产品分为一等品、二等品、三等品、次品等3.数值型数据对事物的精确测度,结果表现为具体的数值。
例如:身高为175cm,190cm,200cm 参数:描述总体特征。
有总体均值(μ)、标准差()总体比例(T)统计量:描述样本特征,样本标准差(s),样木比例(p)第二章 数据的搜集1. 数据来源包括直接来源(一手数据)和间接来源(二手数据)2. 抽样方式包括概率抽样与非概率抽样3. 概率抽样:也称随机抽样。
按一定的概率以随机原则抽取样本,抽取样本时使每个单位都有一定的机会被抽中。
4.5.抽样误差:是由抽样的随机性引起的样本结果与总体真值之间的误差。
抽样误差并不是针对某个样本的检测结果与总体真是结果的差异而言,抽样误差描述的是所有样本可能的结果与总体真值之间的平均差异。
统计数据的分类按计量层次分类的数据顺序的数据数值型数据 按时间状况截 面 的 数 据时序的数据按收集方法 观察的数据 实验的数据6.抽样误差的大小与样本量的大小和总体的变异程度有关。
第三章数据的图表展示计算机实训内容,要求:1.数据筛选,自动筛选2.高级筛选,3.数据排序4.分类汇总-利用数据透视表5.对比条形图6.环形图7.累计频数图8.散点图9.雷达图等等频数分布图两种方法:工具-数据分析-直方图数值型和顺序数据数据-数据透视表数据透视表第四章数据的概括性度量集中趋势:算数平均数:几何平均数:指n个观察值连乘积的n次方根,计算平均发展速度时复利下的平均年利率,最常用的一种计算公式为,几何平均数≤算术平均数。
统计学贾俊平考研知识点总结
统计学贾俊平考研知识点总结统计学重点笔记第一章导论一、比较描述统计和推断统计:数据分析是通过统计方法研究数据,其所用的方法可分为描述统计和推断统计,(I)描述性统计:研究一组数据的组织、整理和描述的统计学分支,是社会科学实证研究中最常用的方法,也是统计分析中必不可少的一步。
内容包括取得研究所需要的数据、用图表形式对数据进行加工处理和显示,进而通过综合、概括与分析,得出反映所研究现象的一般性特征。
(2)推断统计学:是研究如何利用样本数据对总体的数量特征进行推断的统计学分支。
研究者所关心的是总体的某些特征,但许多总体太大,无法对每个个体进行测量,有时我们得到的数据往往需要破坏性试验,这就需要抽取部分个体即样本进行测量,然后根据样本数据对所研究的总体特征进行推断,这就是推断统计所要解决的问题。
其内容包括抽样分布理论,参数估计,假设检验,方差分析, 回归分析,时间序列分析等等。
(3)两者的关系:描述统计是基础,推断统计是主体二、比较分类数据、顺序数据和数值型数据:根据所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。
(1)分类数据是只能归于某一类别的非数字型数据。
它是对事物进行分类的结果,数据表现为类别,是用文字来表达的,它是由分类尺度计量形成的。
(2)顺序数量是只能归于某一有序类别的非数字型数据。
也是对事物进行分类的结果,但这些类别是有顺序的,它是由顺序尺度计量形成的。
(3)数值型数据是按数字尺度测量的观察值。
其结果表现为具体的数值,现实中我们所处理的大多数都是数值型数据。
总之,分类数据和顺序数据说明的是事物的本质特征,通常是用文字来表达的,其结果均表现为类别,因而也统称为定型数据或品质数据;数值型数据说明的是现象的数量特征,通常是用数值来表现的,因此可称为定量数据或数量数据。
三、比较总体、样本、参数、统计量和变量:(1)总体是包含所研究的全部个体的集合。
通常是我们所关心的一些个体组成, 如由多个企业所构成的集合,多个居民户所构成的集合。
《统计学》贾俊平
概率论与数量统计一、连续型随机变量分布函数及其概率密度 1.概率密度与它的基本性质设对于随机变量ξ的分布函数F (x ),如果存在非负可积函数f (x ), 使得对任意的实数x ,都有⎰∞-=≤=xdtt f x P x F )(}{)(ξ成立,则称ξ为连续型随机变量,f (x )便是ξ的概率密度(或分布密度)。
概率密度具有如下基本性质:(1)0)(≥x f (非负性);(2)⎰∞∞-=1)(dx x f (规范性);(3)对任何实数c ,有0}{==c P ξ;对任意的实数a ,b (a <b ),有⎰=≤<badx x f b a P )(}{ξ。
且只要区间的端点不变,ξ取值于开区间或闭区间或半开半闭区间的概率都是相等的。
2.连续型随机变量的数学期望和方差P47 3.随机变量的矩与切比雪夫不等式 4.常用的连续型分布常用的连续型分布有均匀分布、指数分布、正态分布等。
(1)均匀分布若随机变量ξ取值在有限区间(a , b )上,其概率密度为⎪⎩⎪⎨⎧<<-=.其它,0,,1)(b x a ab x f其中b >a 为常数。
则称ξ服从区间(a , b )上的均匀分布,简记为],[~..b a U v r ξ。
均匀分布是等可能概型在连续情形下的推广。
(4)正态分布设随机变量ξ有概率密度+∞<<∞-=--x ex f x ,21)(222)(σμπσ其中μ,0>σ为常数。
则称ξ服从参数为μ,σ的正态分布,简记为 ),(..2σμξN v r ~。
特别,当μ=0,σ=1时,有+∞<<-∞=-x ex x ,21)(22πϕ。
此时称ξ服从标准正态分布。
简记为..v r ξ~N (0,1)。
5.概率密度与分布函数的互求当概率密度给定时,运用逐段积分可求得分布函数。
即⎰∞-=≤=xdt t f x P x F )(){)(ξ,如此得到的分布函数是定义在整个实数轴上的连续函数。
《统计学》课后答案(第二版_贾俊平版)
第1章统计与统计数据一、学习指导统计学是处理和分析数据的方法和技术,它几乎被应用到所有的学科检验领域。
本章首先介绍统计学的含义和应用领域,然后介绍统计数据的类型及其来源,最后介绍统计中常用的一些基本概念。
本章各节的主要内容和学习要点如下表所示。
二、主要术语1. 统计学:收集、处理、分析、解释数据并从数据中得出结论的科学。
2. 描述统计:研究数据收集、处理和描述的统计学分支。
3. 推断统计:研究如何利用样本数据来推断总体特征的统计学分支。
4. 分类数据:只能归于某一类别的非数字型数据.5. 顺序数据:只能归于某一有序类别的非数字型数据.6. 数值型数据:按数字尺度测量的观察值.7. 观测数据:通过调查或观测而收集到的数据.8. 实验数据:在实验中控制实验对象而收集到的数据.9. 截面数据:在相同或近似相同的时间点上收集的数据。
10. 时间序列数据:在不同时间上收集到的数据.11. 抽样调查:从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法.12. 普查:为特定目的而专门组织的全面调查。
13. 总体:包含所研究的全部个体(数据)的集合。
14. 样本:从总体中抽取的一部分元素的集合。
15. 样本容量:也称样本量,是构成样本的元素数目。
16. 参数:用来描述总体特征的概括性数字度量.17. 统计量:用来描述样本特征的概括性数字度量。
18. 变量:说明现象某种特征的概念。
19. 分类变量:说明事物类别的一个名称。
20. 顺序变量:说明事物有序类别的一个名称.21. 数值型变量:说明事物数字特征的一个名称。
22. 离散型变量:只能取可数值的变量。
23. 连续型变量:可以在一个或多个区间中取任何值的变量。
第2章数据的图表展示一、学习指导数据的图表展示是应用统计的基本技能。
本章首先介绍数据的预处理方法,然后介绍不同类型数据的整理与图示方法,最后介绍图表的合理使用问题.本章各节的主要内容和学习二、主要术语24. 频数:落在某一特定类别(或组)中的数据个数。
统计学复习精要(贾俊平版)
《统计学》复习精要(贾俊平 第五版 中国人大出版社)neijiangrui第4章 概率分布1.总体与样本:在统计学中称随机变量(或向量)X 为总体,并把随机变量(或向量)X 的分布称为总体的分布。
称)...,,(21n X X X 为总体X 的一个简单随机样本,若n X X X ...,,21是独立同分布的随机变量,且与总体X 同分布。
n 为样本容量。
2. 四个重要的分布(正态分布、2χ分布、F 分布、t 分布)①正态分布:设随机变量X 有概率密度+∞<<∞-=--x ex f x ,21)(22)(σμπσ其中μ,0>σ为常数。
则称X 服从参数为μ,σ的正态分布,简记为),(~2σμN X 。
特别当μ=0,σ=1时,称X 服从标准正态分布。
简记为X ~N (0,1)。
②2χ分布 设X 1,X 2,…,X n 是相互独立的随机变量,且X i ~N (0,1) (i =1,2,…,n ),则称随机变量22221...n X X X X +++=服从自由度为n 的2χ分布,简记为X ~2χ(n )。
③F 分布 设)(~2m X χ,)(~2n Y χ,且X ,Y 相互独立,则称随机变量nY m X F //=服从F 分布,简记为F ~F (m ,n )。
④t 分布 设)1,0(~N X ,)(~2n Y χ,且X ,Y 相互独立,则称随机变量nY XT /=服从自由度为n 的t 分布,记为)(~n t T 。
3.抽样分布①单总体:设)...,,(21n X X X 是容量为n 的一个样本,X 与2S 分别为此样本的样本均值与样本方差(212)(11X X n S ini --=∑=)则:②双总体:设(1,,1n X X )是取自总体X 的一个样本,(2,,1n Y Y )是取自总体Y 的一个样本,且这两个样本相互独立,即假定1,,1n X X ,2,,1n Y Y 是n 1+n 2个相互独立的随机变量。
统计学-贾俊平-考研-知识点总结精编版
统计学-贾俊平-考研-知识点总结精编版-CAL-FENGHAI.-(YICAI)-Company One1统计学重点笔记第一章导论一、比较描述统计和推断统计:数据分析是通过统计方法研究数据,其所用的方法可分为描述统计和推断统计。
(1)描述性统计:研究一组数据的组织、整理和描述的统计学分支,是社会科学实证研究中最常用的方法,也是统计分析中必不可少的一步。
内容包括取得研究所需要的数据、用图表形式对数据进行加工处理和显示,进而通过综合、概括与分析,得出反映所研究现象的一般性特征。
(2)推断统计学:是研究如何利用样本数据对总体的数量特征进行推断的统计学分支。
研究者所关心的是总体的某些特征,但许多总体太大,无法对每个个体进行测量,有时我们得到的数据往往需要破坏性试验,这就需要抽取部分个体即样本进行测量,然后根据样本数据对所研究的总体特征进行推断,这就是推断统计所要解决的问题。
其内容包括抽样分布理论,参数估计,假设检验,方差分析,回归分析,时间序列分析等等。
(3)两者的关系:描述统计是基础,推断统计是主体二、比较分类数据、顺序数据和数值型数据:根据所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据。
(1)分类数据是只能归于某一类别的非数字型数据。
它是对事物进行分类的结果,数据表现为类别,是用文字来表达的,它是由分类尺度计量形成的。
(2)顺序数量是只能归于某一有序类别的非数字型数据。
也是对事物进行分类的结果,但这些类别是有顺序的,它是由顺序尺度计量形成的。
(3)数值型数据是按数字尺度测量的观察值。
其结果表现为具体的数值,现实中我们所处理的大多数都是数值型数据。
总之,分类数据和顺序数据说明的是事物的本质特征,通常是用文字来表达的,其结果均表现为类别,因而也统称为定型数据或品质数据;数值型数据说明的是现象的数量特征,通常是用数值来表现的,因此可称为定量数据或数量数据。
三、比较总体、样本、参数、统计量和变量:(1)总体是包含所研究的全部个体的集合。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
()()()()()扁平尖峰分布;,3s *n 组数*X-分组峰态系数正值,右偏分布越大偏斜越大,,该组的中值;s*n 组数*X -SK 分组s*2-n 1-n X-n SK 未分组偏态系数04.%99/%95/%68个标准差3/2/1经验法则:.03,越大,离散系数越大X s小)离散系数(衡量差异大-离散程度标准差/数值型数据:方差顺序数据:四分位差总频数(众数频数)f -1V 分类数据:异众比率离散程度02.x几何平均X 加权平均数.01443333s mr n<>===±====∑∑∑∏∑∑ii i i iii M K SK M M X V G W X W PS :()0.3P x μ-≤=1919x P n σ⎛⎫-≤≤ ⎪⎝⎭双侧:H 0≠A无显著差异,同α/2比较左单侧:希望数值越大越好H 0 μ ≥A右单侧:希望数值越小越好 H 0 μ ≤A ;同α比较 P 值检验方法,求出Z ,若x >μ,计算P (Z>Z 值)值 双侧:P<α/2 拒绝原假设 单侧P<α 拒绝原假设 运用置信区上下限比较nZ σα2(边际误差)=∇(单侧为α)n总体标准差抽样标准误差=若∇>0-x μ,则拒绝H 若σ未知,用s 代替,使用t 分布()()遇小数点向前进一)()1(定估计比例时样本量的确.22(边际误差):定一个估计时样本量的确.211-n 自由度s )1n (s )1n (总体方差.13)1(总量)的区间估计(样本样本比率.12)1(方差未知,小样本,总体正态)2(置信区间为。
即,该样本平均或:未知/大样本且方差已知)1(计一个总体均值的区间估.1122222222222/12222/2222EP P Z n n Z E E Z n nP P Z P P nS n t X nSZ X -⋅=⎪⎪⎭⎫⎝⎛==-≤≤--±÷-±∂±-αααααααασσλλσλσ()()(),则不拒绝1-n 1-n 1总体方差的检验:.33)1(:总体比例检验统计量321自由度,/:未知小样本,,/已知小样本,,/或:大样本一个参数的假设检验.3122/222/1222ααλλλσλπππμσσμσσμ≤≤-=--=-=-=-=-=-S n nP Z n nS X t nX Z nS X Z()()()()()()()()()()()⎪⎪⎭⎫ ⎝⎛=≤≤-+-±--±±-⎪⎪⎭⎫ ⎝⎛+-⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛+=⎪⎪⎭⎫ ⎝⎛+±-≠≠⎪⎪⎭⎫ ⎝⎛+-+±-=≠-+-+-=⎪⎪⎭⎫⎝⎛+-+±-=+±-≥--212/212/12/1222122212/2221222111221d 2d22222212121222212122212122121212221212122121212122221122122122121222121212121n ,n 1n ,n s /s /s /s 两个总体方差比.13)1()1(:两个总体比例之差.12ns )1(d 小样本2ns d 大样本1的总平均数为每一组对应样本之差d 本)的估计,两个总体之差(匹配样).5(1s 1s s s v s s )v (,未知,正态,,小样本)4(s s )2(,未知,正态,,小样本)3(2s 1s 1s 11s )2(,未知正态,,小样本)2(s s 可以互换/未知/已知,),30,(大样本)1(:独立样本)的区间估计(两个总体均值之差.11ααααααααααασσσσσσσσσσσF F F F n p p n p p Z p pn t Z n n n n n n n n t X Xn n n n n n t X X n n n n n nn n n n t X Xn n Z X X S n n pp()()()()()()()()222121221122211121021212121222121212121212122121212221212121222112221222212221总体方差的相似性:.33)1()1(d)0(多设为d 、样本比例11)1(、:两个总体比率之差32)比较1n (t 同,n s ˆ匹配样本:计算)4(值自由度同左,s s X小样本,)3()2(自由度,11X小样本,)2(,XZ 大样本)1(两个参数的假设检验.31边际误差)1()1(p 5.0;21定估计比例时样本量的确.22n n :量的确定两个估计均值差时样本21ππππσμμσσμμσσσσμμσσαα=++=⎪⎪⎭⎫⎝⎛-+---==-⎪⎪⎭⎫⎝⎛+--==-=⎪⎪⎭⎫ ⎝⎛+---=≠-+⎪⎪⎭⎫⎝⎛+---==+---=-⋅-====+==S S F n n p n p n p n p p n p p p p Z B n n p p p p Z A V n n X t n n n n S X t n n X E Ep p p Z n p p n n EZ p连列分析连列表:条件频数/行百分数/列百分数/总百分数 期望值:行百分数x 条件总值方差分析:检验各个总体的均值是否相等,判断分类自变量对数值因变量的影响()()()()()()()()()()1-c ,1-r min *n 相关系数.5nc 列联相关系数.4越大,相关程度越大,cd ab排列:d b c a d c b a bc-ad n相关系数.3比较df 同)总数列总和行总和(依赖关系)独立性检验(是否存在.2,拒绝原假设df 比较,若df 同)1-)(列数1-(行数自由度:两数之间相关程度.1期望值频数)观察值频数(2222222222220λλλϕλϕλλλλλλααα=+=+++++==+=-=>=-=∑∑V CTRT f f f ff f f f f e e e e e e 1.单因素方差分析关系是比较每两组数据间的,拒绝,有显著差异-X ,k -n 自由度为11最小显著差异.3占总的自变量对因变量的影响,关系量强度.2,拒绝若,统计量.1k-n SSE组内均方_;1-k SSA 组间均方MSA 1-n 自由度;的误差)的平方的总和x :(每一个观测值与k-n 自由度的总和)的平方)的误差x 均值:(每组内频数与组平1-k 自由度和的误差)的平方))总x ((各组间平均值与*(组内频数:组的个数k 总数,n 个值,:其中第个条件;:第总平均数x 一个条件组的平均数;x ,组内误差,,组间误差总平方和(总误差)j i j i222LSD LSD X n n MSE t LSD R SSESSAR F F MSEMSAF MSE SST SSE SSA j j i i SSE SSA SST >⎪⎪⎭⎫⎝⎛+==>===αα2.双因素方差分析 A.独立双因素22i j 的影响占总的这两个自变量对因变量,关系量强度.2,拒绝,即差异显著若))1k )(1r (,1-r (~列因素显著性))1k )(1r (,1-k (~行因素显著性.1同理、,1)1k )(1r (;随机误差平方和)1-r ( df ,列因素误差和),1-k (df ,行因素误差和1-kr :df ,自由度总平方和(总误差)为总平均数x ;x ,每行平均i ,因素k 行数;x ,每列平均值j ,因素r 列数R SSTSSCSSR R F F F MSEMSCF F MSE MSRF MSE MSC K SSRMSR SSESSC SSR SST df SSE SSC SSR SST C R +=>--=--=-=++=--α B.交互作用双因素K,个行因素;m ,行因素数值的行数 R,个列因素;n ,观察值总数误差来源 平方和 自由度 均方 F 值 行因素 SSR K-1 MSR MSR/MSE 列因素 SSC R-1 MSC MSC/MSE 交互左右 SSRC (K-1)(R-1) MSRC/MSE 误差 SSE KR(M-1) 总和 SST N-1()()()()()()()()y预测y ˆ,y ˆ-y 标准化残差y ˆ-y e 残差.56x x x x n1**)1(y y 时,得到的置信区间估计,取值y .55n 1,t 回归系数1-k -n 自由度;自由度2-n ,1~线性关系线性关系显著性检验.54估计标准误差:越大拟合越好,拟合优度.53强度的线性关系r 拒绝,即存在,,t 若)2-n (~r-12-n rt2右偏分布r 较大,负值,左偏r 较大,正值,总体相关系数1的显著性检验,r ,无关0负线性相关;,0,正线性相关;0度,两个关系间的关系强r 相关系数.52,:和截距估计的回归方程的斜率:程估计的简单线性回归方一元线性回归模型.5100ei 002i20200022ˆˆ222122ee II ee iiiii S Z S n t X X X S S S AB SSE K SSR F MSEMSRF MSES SSTSSRR t t x b y A nx x ny x y x B Bx A y ==--+-±-=-====>==<>-=--=+=∑∑∑∑∑∑∑∑αββααρ()),拒绝,即存在1-k -n (若均数,各个自变量之间相关系多重共线性判定.64)1-k -n (~S t 回归系数:)1,(~)1/(/显著性检验:线性关系.63估计标准误差:k ,自变量数量n 样本数量1k 111修正的多重判定::多重判定系数拟合优度.62:之间的关系,,:多元回归方程:多元线性回归模型.612iii 22222110ααββεββββt t k n k F k n SSE KSSR F MSES n n R R SSTSSRR SSESSR SST SSE SSR SST x x x y e a p p >=----==---⋅--==+=++⋅⋅⋅+++=71.时间序列平稳序列非平稳序列(趋势T/季节性S/周期性C/随机性I )平均增长率=环比增长率的几何平均值-1()季节性顺序.75修正指数曲线指数曲线线性趋势趋势型预测.74-F 指数平滑:个值作为一期的平均数选择F 移动平均:Yt1F 简单平均法平稳序列的预测.73和求平均每一个误差平方后的总均方误差和求平均全部误差取绝对值后总平均绝对误差所有预测误差的平均数平均误差,预测值个观测值i 第预测方法评估.72t t t 1t 1t ti1t ii F Y F K MSE MAD ME F Y α+======+++∑回归分析的一些数据P1:MR :相关系数;RS 判定系数,ARS 调整的判定系数;标准误差s ,观测值nP2:df 自由度;总平方和SS ;均方MS ;线性关系F (Ps:回归R,残差E,总计T)P3,:INTER,截距;XV,斜率;t-stat 回归系数P值检验,P >α,不拒绝;<α,拒绝。