统计学(第六版)期末考试考点梳理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
统计学(第六版)期末考试考点梳理
统计学(第六版)期末考试考点梳理
第⼀章导论
1.1.1 什么是统计学
统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。
数据分析所⽤的⽅法分为描述统计⽅法和推断统计⽅法。
1.2 统计数据的类型
1.2.1 分类数据、顺序数据、数值型数据
按照所采⽤的计算尺度不同,可以将统计数据分为分类数据、顺序数据、数值型数据。
分类数据:只能归于某⼀类别的⾮数字型数据,它是对事物进⾏分类的结果,数据表现为类别,是⽤⽂字来表⽰。
例如:⽀付⽅式、性别、企业类型等。
顺序数据:只能归于某⼀有序类别的⾮数字型数据。
例如:员⼯对改⾰措施的态度、产品等级、受教育程度等。
数值型数据:按数字尺度测量的观测值,其结果表现为具体的数值。
例如:年龄、⼯资、产量等。
统计数据⼤体上可分为品质数据(定性数据)和数量数据(定量数据、数值型数据)。
1.2.2 观测数据和实验数据
按照统计数据的收集⽅法,可以分为观测数据和实验数据。
观测数据:通过调查或观测⽽收集的数据。
例如:降⾬量、GDP、家庭收⼊等。
实验数据:在实验中控制实验对象⽽收集到的数据。
例如:医药实验数据、化学实验数据等。
1.2.3 截⾯数据和时间序列数据
按照被描述的现象与时间的关系,可分类截⾯数据和时间序列数据。
截⾯数据:在相同或近似相同的时间点上收集的数据。
例如:2012年我国各省市的GDP。
时间序列数据:同⼀现象在不同的时间收集的数据。
例如:2000-2012年湖北省的GDP。
1.3.1 总体和样本
总体:包含所研究的全部个体(数据)的集合。
样本:从总体中抽取的⼀部分元素的集合。
1.3.2 参数和统计量
参数:⽤来描述总体特征的概括性数字度量。
统计量:⽤类描述样本特征的概括性数字度量。
例如:某研究机构准备从某乡镇5万个家庭中抽取1000个家庭⽤于推断该乡镇所有农村居民家庭的年⼈均纯收⼊。
这项研究的总体是5万个家庭;样本是1000个家庭;参数是5万个家庭的⼈均纯收⼊;统计量是1000个家庭的⼈均纯收⼊。
第⼆章数据的搜集
2.1 数据的来源
2.1.1 数据的间接来源
间接来源的数据:如果与研究内容有关的原信息已经存在,我们只是对这些原信息重新加⼯、整理,使之成为我们进⾏统计分析可以使⽤的数据。
例如:统计公报、统计年鉴、某机构或某团体提供的数据、期刊、报纸和图书提供的数据、会议交流的数据、互联⽹查阅的数据等。
⼆⼿数据的优缺点:
优点:搜集⽅便,采集成本低,数据采集快,作⽤⼴泛等。
缺点:针对性不够。
2.1.2 数据的直接来源
普查:调查针对总体中的所有个体单位进⾏。
普查数据的优缺点:
优点:调查范围⼴,被调查单位多,信息全⾯,完整。
缺点:调查费时,费⼒,费钱。
2.2 调查数据
2.2.1 概率抽样和⾮概率抽样
重复抽样:从总体中抽取⼀个元素后,把这个元素放回到总体中再抽取第⼆个元素,直⾄抽取n个元素为⽌的抽样⽅法。
简单随机抽样:从含有N个元素的总体中,抽取n个元素作为样本,使得总体中的每⼀个元素都有相同的概率被抽中的抽样⽅式。
分层抽样:在抽样时,将总体分成互不交叉的若⼲个层级,然后按⼀定的⽐例,从各层次独⽴地随机抽取⼀定数量的个体,将各层次取出的个体合在⼀起作为样本。
整群抽样:先将总体划分为若⼲群体,然后以群作为抽样单位从中抽取部分群,再对抽中的各个群中所包含的所有元素进⾏观察的抽样⽅式。
⽅便抽样:调查过程中由调查员依据⽅便原则,⾃⾏确定⼊样单位。
滚雪球抽样:调查时⾸先选择⼀组调查单位,对其实施调查后,再请他们提供另外⼀些属于研究总体的调查对象,调查⼈员根据所提供的线索,进⾏此后的调查的调查⽅式。
2.4.1 抽样误差
样本量与抽样误差成反⽐。
随着样本量的逐渐增⼤,抽样误差就越⼩。
2.4.3 误差的控制
通过样本量的⼤⼩控制可以改变误差⼤⼩,要求的抽样误差越⼩,所需要的样本量就越⼤。
第三章数据的图表展⽰
3.2.1 分类数据的整理与图⽰
(3)饼图
主要⽤于表⽰⼀个样本(或总体)中各组成部分的数据占全部数据的⽐例。
适合于描述结构性问题。
(4)环形图
显⽰多个样本各部分所占的相应⽐例。
适合于⽐较研究两个或多个样本或总体的结构性问题。
3.3.1 数据分组
为解决数据分组不重的问题,统计分组时习惯上规定“上组限不在内”即当相邻两组的上下限重叠时,恰好等于某⼀组上限的变量值不算在本组内,⽽计算在下⼀组。
(a≤x<b)
3.3.2 数值型数据的图⽰
1.分组数据:直⽅图
⽤于展⽰分组数据分布的⼀种图形。
直⽅图与条形图区别:
条形图:条形长度表⽰频数;宽度固定不变;矩形分开排列;展⽰分类数据直⽅图:⾯积表⽰频数;宽度表⽰组距;矩形连续排列;展⽰数值型数据3.时间序列数据:线图
主要⽤于反映现象随时间变化的特征,描述其变化趋势。
4.多变量数据的图⽰
(1)散点图
适合⽤于描述两变量之间是否存在某种关系。
数据图⽰的原则:适合于低层次数据的整理和显⽰⽅法也适合于⾼层次的数据;但适合于⾼层次数据的整理和显⽰⽅法并不适合于低层次的数据
第四章数据的概率性度量
4.1 集中趋势的度量
集中趋势:⼀组数据向其中⼼值靠拢的倾向和程度,它反映了⼀组数据中⼼点的位置所在。
原则:低层次数据的测度值适⽤于⾼层次的测量数据,但⾼层次数据的测度值并不适⽤于低层次的测量数据
4.1.1分类数据:众数
⼀组数据中出现次数最多的变量值。
适合于数据量较多时使⽤。
主要⽤于分类数据,也可⽤于顺序数据和数值型数据。
4.1.2 顺序数据:中位数和分位数
1.中位数
⼀组数据排序后处于中间位置上的变量值,⽤M e表⽰。
中位数将全部数据平分为两部分,各占50%数据。
适⽤范围:顺序数据、数值型数据的集中趋势测度,不适⽤于分类数据测量。
中位数计算步骤:
1.数据排序;
2.确定中位数位置;
3.确定具体值
中位数位置计算:(n+1)/2
中位数值的计算:奇数时,X(n+1)/2;偶数时,1/2{X(n/2)+X(n/2+1)}
2.四分位数
将⼀组数据数据排序后四等份(各占25%数据),处于25%位置点(下四分位)和75%位置点(上四分位)上的值。
四分位数计算步骤:
1.数据排序;
2.确定四分位数位置;
3.确定具体值
四分位数位置确定⽅法:(不同确定⽅法,不同四分位数值)
Q L=n/4;Q U=3n/4
整数位置:整数对应值
0.5的位置:两侧值得平均值
0.25或0.75的位置:下侧值+(上侧值—下侧值)*0.25或者0.75
4.1.3 数值型数据:平均数
⼀组数据相加之后除以数据个数得到的数值,是集中趋势的最主要测度值适⽤范围:数值型数据,不适⽤于顺序数据和分类数据。
4.1.4 众数、中位数和平均数的⽐较
1.众数、中位数和平均数的关系
众数:⼀组数据分布的最⾼峰
中位数:处于⼀组数据的中间位置的值
平均数:全部数据的算术平均
对称分布情况:众数=中位数=平均数
左偏分布情况:存在较⼩值,平均数<中位数<众数
右偏分布情况:存在极⼤值,众数<中位数<平均数
4.2 离散程度的度量
反映各变量值远离中⼼值的程度。
离散程度越⼤,集中趋势测度值的代表性
越差。
4.2.3 数值型数据:⽅差和标准差
1.极差(全距)
⼀组数据的最⼤值与最⼩值的差。
3.⽅差和标准差
⽅差是各变量值与平均数离差平⽅的平均数(通过平⽅消去正负号)。
标准差是⽅差的平⽅根。
⽅差和标准差能较好地反映出数据的离散程度,是实际中应⽤最⼴的离散程度测度值。
4.2.4 相对离散程度:离散系数
离散系数是⼀组数据的标准差与平均数的⽐值,是离散程度的相对统计量。
适⽤于⽐较不同样本数据的离散程度。
离散系数越⼤,离散程度越⼤(正⽐)。
练习题:4.1(P94)、4.2(P95)
第六章统计量及其抽样分布
6.4 样本均值的分布于中⼼极限定理
当总体服从正态分布N(µ,σ2)时,来⾃该总体的所有容量为n的样本的均值?x也服从正态分布,?x的数学期望为µ,⽅差为
σ2/n。
即?x~N(µ,σ2/n) 中⼼极限定理:从均值为µ,⽅差为σ 2的⼀个任意总体中抽取容量为n的样本,当n充分⼤时,样本均值的抽样分布近似服从均值为µ、⽅差为σ2/n的正态分布。
经验法则是n≥30时算是充分⼤,满⾜中⼼极限定理要求。
关于⼤样本和⼩样本:
理论⽽⾔,⼩样本:样本量固定,不论样本量多少;
⼤样本:样本量n→∞
经验做法,⼤样本:n≥30
⼩样本:n<30
第七章参数估计
7.1.2 点估计与区间估计
当置信⽔平固定时,置信区间的宽度随着样本量的增⼤⽽减⼩。
95%的置信⽔平是指在⽤同样⽅法构造的总体参数的多个区间中,包含该总体参
数的区间的⽐例为95%。
这个概率不是⽤来描述某个特定区间包含真值的可能性,⼀个特定的区间总是包含或者绝不包含真值,不存在⼀会包含,⼀会不包含的问题。
⽤概率可以知道在多次抽样得到的区间中⼤概有多少个包含了参数的真值。
7.1.3 评估估计量的标准
①⽆偏性
⽆偏性是指估计量抽样分布的数学期望等于被估计的总体参数。
②有效性
较⼩标准误差的点估计量⽐其他点估计量相对有效。
③⼀致性
⼀个⼤样本给出的估计量要⽐⼀个⼩样本给出的估计量更接近总体参数。
第⼋章假设检验
8.1 假设检验的基本问题
假设检验的基本思想:
假设检验推断过程所依据的基本思想是⼩概率反证法思想。
⼩概率思想是指发⽣概率很⼩的随机事件,在某⼀次特定的实验中是⼏乎不可能发⽣的。
若⼩概率事件在⼀次实验中发⽣了则假设可能错误。
反证法思想是⾸先对总体参数值提出假设,然后再利⽤样本提供的信息去验证先前提出的假设是否成⽴。
如果样本数据不能够充分证明和⽀持假设,则在⼀定概率条件下,应该拒绝该假设;相反,如果样本数据不能够充分证明和⽀持假设是不成⽴的,则不能推翻假设成⽴的合理性和真实性。
8.1.2 假设的表达式
原假设假定两个或多个事物之间是等同的或没有关系的,是变量之间⽆关的陈述。
原假设表⽰否定的意义。
备择假设假定变量间存在⼀定的关系。
零假设是变量之间⽆关的陈述,⽽研究假设是变量有关系的明确陈述。
在逻辑上与原假设内容完全对⽴的假设成为备择假设。
原假设与备择假设在逻辑上是互斥的,肯定原假设,则备择假设就必须放弃;否定原假设,则接受备择假设。
8.1.3 两类错误
根据所犯错误的类型,我们分为两种类型:(举例见教材P188)
第⼀类:原假设为真,拒绝真假设,犯此类错误的概率为α,称为α错误或弃真错误。
第⼆类:原假设为伪,接受伪假设,犯此类错误的概率为,称为错误或取伪错误。
对原假设为真的判断与概率:
(1)拒绝原真假设的概率为α,也称为显著性⽔平。
(2)接受原真假设,做出正确判断的概率为1-α。
在实践中,由进⾏假设检验的⼈设定显著性⽔平,⼀般取α为0.05和0.01.通过选择α,控制了犯第⼀类错误的概率。
在应⽤中,⼀般将只控制第⼀类错误的结社检验称为显著性检验。
许多假设检验的应⽤都属于这⼀种类型。
对原假设为伪的判断与概率:
(1)接受原伪假设的概率为
(2)拒绝原伪假设,做出正确判断的概率为1-
正确决策与犯错误决策的概率归纳表见表8-1。
我们希望犯这两类错误的概率越⼩越好。
但是对于特定样本量来说,不能同时做到犯这两类错误的概率都很⼩。
如果减⼩α错误(弃真),则犯错(取伪错误)的概率就增加。
弃真取伪如果减⼩错误(取伪),则犯α错误(弃真错误)的概率就增加。
取伪弃真
8.1.4 假设检验的流程
1.提出原始假设和备择假设
2.选择检验统计量
3.确定显著性⽔平
4.根据数据计算出检验统计量的值
5.得到检验是否显著的结论
假设检验决策的两种⽅法:
(1)临界值法是利⽤检验统计量与其临界值进⾏⽐较作出决策,根据检验统计量落⼊的区域作出是否拒绝原假设的决策。
若检验统计量⼤于临界值,落⼊拒绝域,则拒绝原假设,反之,则不能拒绝原假设。
以F检验为例。
若F>Fα,拒绝H0;若F
(2)P值法是根据检验统计量的概率P值与显著性⽔平α,进⾏⽐较,以要判定应拒绝原假设还是不应拒绝原假设。
如果P值⼩于显著性⽔平α,则拒绝原
假设;如果P值⼤于显著性⽔平α,则不能拒绝原假设。
8.1.5 利⽤P值进⾏决策
P值:当原假设为真是所得到的样本观察结果或更极端结果出现的概率。
P值决策原理:
得到检验统计量的概率P值后的决策就是要判定应拒绝原假设还是不应拒绝原假设。
如果检验统计量的概率P值⼩于显著性⽔平α,则拒绝原假设;P值越⼩,拒绝原假设的理由就越充分。
反之,如果检验统计量的概率P值⼤于显著性⽔平α,则不应拒绝原假设。
8.2.1 检验统计量的确定
检验统计量选择的影响因素:样本量n、总体标准差σ。
1.样本量
在⼤样本情况下,样本量都服从正态分布,我们使⽤z统计量。
2.总体标准差σ是否已知
(1)总体标准差σ已知
样本统计量服从正态分布,采⽤z统计量。
(2)总体标准差σ未知
使⽤样本标准差代替总体标准差,样本统计量服从t分布,采⽤t统计量。
当n<30且总体标准差σ未知时,采⽤t统计量;当n>30时,根据使⽤者偏好选择z统计量还是t统计量。
⼀个总体参数检验的检验统计量的确定归纳为图8-7,见教材p195。
8.4.1 关于检测结果的解释
通常统计学家建议我们在叙述中采⽤“不能拒绝H0”⽽不采⽤“接受H0”这种说法。
8.4.2 单侧检验中假设的建⽴
在实际应⽤中,我们通常把希望验证的命题放在备择假设,通过备择假设来确定原假设,即把原有的、传统的观点或结论放在
原假设上。
我们需要注意的是:如果没有拒绝原假设,并不意味着原假设是真实的、真理,也并不意味着备择假设就是错的,只是暂时没有充分的证据证明原假设不成⽴(如同⽆罪假设);接受备择假设则⼀定意味着原假设是错误的。
关于何谓“原有的、传统的”,原假设,即原有理论、看法、状况、历史经
验、以及被⼤多数⼈认可的事情,在没有充分证据的情况下,被假定为正确的事情。
关于何谓“新的、可能的”备择假设,即检验者感兴趣的那些新事物、可能的、猜测质疑的问题,希望⽤事实推翻原假设以得出新观点。
第⼗章⽅差分析
10.1.1 ⽅差分析及其有关术语
⽅差分析是⽐较多个总体的均值是否相等的统计⽅法,本质上主要是研究⼀个或多个分类⾃变量与⼀个数值型变量之间的关系(即分类⾃变量对数值型因变量的影响)。
10.1.2 ⽅差分析的基本思想和原理
2.误差分解
组内误差:来⾃⽔平内部的数据误差,反映了⼀个样本内部数据的离散程度。
组内误差只含有随机误差。
(见教材P238)
组间误差:来⾃不同⽔平之间的数据误差,是随机误差和系统误差的总和,反映了不同样本之间数据的离散程度。
在⽅差分析中,数据的误差是⽤平⽅和来表⽰的。
总平⽅和(SST):反映全部数据误差⼤⼩的平⽅和。
教材P239
误差平⽅和(SSE):反映组内误差⼤⼩的平⽅和。
教材P239
因素平⽅和(SSA):反映组间误差⼤⼩的平⽅和。
教材P239
SST=SSE+SSA
10.1.3 ⽅差分析中的基本假定
(1)每个总体应服从于正态分布。
(2)各总体的⽅差必须相同。
(3)观测值是独⽴的。
10.2.2 分析步骤
1.提出假设
2.构造检验的统计量
为构造检验的统计量,在⽅差分析中,需要计算三个误差平⽅和。
SSE:每个组的各样本数据与其组均值的误差平⽅和,反映了每个样本各观测值的离散程度(随机误差的⼤⼩)。
对随机误差⼤⼩的度量,反映了除⾃变量对因变量的影响之外,其他因素对因变量的总影响,也即残差变量。
残差变量所引起的误差成为残差效应。
SSA:各组均值与总均值的误差平⽅和,反映各样本均值之间的差异程度。
对随机误差和系统误差⼤⼩的测度,反映了⾃变量对因变量的影响,称为⾃变量效应或因⼦效应。
SST:全部观测值与总均值的误差平⽅和。
对全部数据总误差程度的度量,反映了⾃变量和残差变量的共同影响,等于⾃变量效应与残差效应之和。
总平⽅和(SST)=组间平⽅和(SSA)+组内平⽅和(SSE)
为了消除观测值多少对误差平⽅和⼤⼩的影响,需要将其平均,也就是⽤各平⽅和除以它们所对应的⾃由度。
计算结果成为均⽅或⽅差。
三个平⽅和所对应的⾃由度分别为:
SST的⾃由度为n-1,其中n为全部观测值的个数。
SSA的⾃由度为k-1,其中k为因素⽔平的个数。
SSE的⾃由度为n-k。
SSA的均⽅也称为组间均⽅或组间⽅差,记为MSA,其计算公式:MSA=SSA/(k-1) SSE的均⽅也称为组内均⽅或组内⽅差,记为MSE,其计算公式:MSE=SSE/(n-k) 将上述MSA与MSE进⾏对⽐(MSA/MSE),即得到所需要的检验统计量F。
3.统计决策
,则拒绝原假设,表明各⽔平的均值有显著差异,也即所检验的如果F>F
α
因素(⾏业)对观测值有显著影响。
,则不能拒绝原假设,没有证据表明各⽔平的均值有显著差异,如果F<F
α
也即不能认为所检验的因素(⾏业)对观测值有显著影响。
在进⾏决策时,除了使⽤以上⽅法进⾏判断之外,还可以直接利⽤⽅差分析表中的P值与显著性⽔平α的值进⾏⽐较。
如果P <α时,则拒绝原假设;如果P>α时,则不能拒绝原假设。
4.⽅差分析表
教材P246、P247,表10-4、表10-5,熟练掌握表中各字母及数值的代表意义、利⽤临界值或P值进⾏统计决策。
练习题:10.7(P263),熟练应⽤。
第⼗⼀章⼀元线性回归
11.1.1 变量间的关系
函数关系:因变量随着⾃变量⼀起变化,并完全依赖于⾃变量。
⼀⼀对应的确定关系。
例如:销售额与销售量
相关关系:⾮完全确定关系、⼀个变量的取值不能由另⼀个变量唯⼀确定。
(⽐如:家庭储蓄与家庭收⼊、⽗母⾝⾼与⼦⼥⾝⾼、教育程度与个⼈收⼊、产
量与施肥量)。
11.1.2 相关关系的描述与测度
相关分析就是对两个变量之间线性关系的描述与度量。
它要解决的问题包括:
(1)变量之间是否存在关系(YES/NO )
(2)存在什么样的关系(What )
(3)关系强度如何?
(4)样本能否代表总体关系
相关系数
相关系数:根据统计数据计算的度量两个变量之间线性关系强度的统计量。
相关系数的性质:
1.r 的取值范围是[-1,1]
若0<r ≤1,正线性相关;若-1≤r <0,负线性相关;
r=+1,完全正线性相关;r=-1,完全负线性相关;
r =1,y 的取值完全意外与x ,⼆者为函数关系;r=0,⽆线性相关
2.r 具有对称性。
xy yx r r =
3.r 的数值⼤⼩与x 和y 的原点及尺度⽆关。
4.r 仅仅是x 与y 之间线性关系的度量,不能⽤于描述⾮线性关系。
这意味着,当r=0时,只能表⽰两变量之间不存在线性相关关系,但并不表⽰变量之间没有任何关系,可能存在曲线相关关系。
5.r 是两变量之间线性关系的度量,但是不⼀定意味着x 与y ⼀定有因果关系。
了解相关系数的性质有助于对其实际意义的解释。
根据实际计算出的r 取值⼀般在-1与1之间;r 取值越接近于±1,则说明两变量之间的线性相关越强;r 取值越接近于0,则说明两变量之间的线性关系越弱。
经验法则:0.8r ≥时,可视为⾼度相关
0.5r ≤<0.8时,可视为中度相关 0.3r ≤<0.5时,可视为低度相关 r <0.3时,可视为不相关
11.2 ⼀元线性回归
回归分析主要解决以下⼏个⽅⾯的问题:
(1)从⼀组样本数据出发,确定变量之间的数学关系式。
(2)对这些关系式的可信程度进⾏各种统计检验,并从影响某⼀特定变量的诸多变量中找出哪些变量的影响是显著,哪些是不显著的。
(3)利⽤所求的关系式,根据⼀个或⼏个变量的取值来估计或预测另⼀个特定变量的取值,并给出这种估计或预测的可靠程度。
11.2.1 ⼀元线性回归模型
3.估计的回归⽅程
01
y x ββ=+
11.2.2 参数的最⼩⼆乘估计
最⼩⼆乘估计的思想原理
最⼩⼆乘法估计的基本出发点是:应使每个样本点(,)i i x y 与回归线上的对应点(,())i i x E y 在垂直⽅向上的利差平⽅和最⼩。
最⼩⼆乘法是利⽤样本数据,通
过使应变量的观测值y 与应变量的估计值?y
之间的离差平⽅和达到最⼩的⽅法求得0?β和1
β的值。
11.2.3 回归直线的拟合优度
1.判定系数
判定系数是对估计的回归⽅程拟合优度的度量。
SST 分解为两部分:SSR 和SSE 。
SST=SSR+SSE
回归直线拟合的好坏取决于SSR 及SSE 的⼤⼩,或者取决于SSR (回归平⽅和)占SST (总平⽅和)的⽐例(SSR/SST )的⼤⼩。
SSR/SST 越⼤,各观测点越靠近直线,回归直线拟合越好。
SSR/SST 被称为判定系数。
公式见P261 判定系数R 2测度了回归直线对观测数据的拟合程度。
若所有观测点都落在直线上,那么估计的回归⽅程将给出⼀个完全的拟合。
在这种情况下,SSE=0,SSR=SST ,则R 2=1。
若y 得变化与x 完全⽆关,x 完全⽆助于解释y 的变差,那么估计的回归⽅程的拟合最差。
在这种情况下,SSE=1,SSR=0,则R 2=0。
因此,R 2的取值范围是[0,1]。
R 2越接近于1,表明SSR 占SST 的⽐例越⼤,回归直线与各观测点越接近,⽤x 的变化来解释y 值变差的部分也就越多,回归直线的拟合程度就越好;反之亦然。
相关系数(r )与判定系数(R 2)的关系:r 2= R 2
根据这个结论,不仅可以由相关系数直接计算判定系数,⽽且可以进⼀步理解相关系数的意义。
1.相关系数与回归系数的正负号相同。
2.相关系数⼀定程度上说明回归直线的拟合优度。
|r|~1,表明回归直线对观测
数据的拟合优度就越⾼。
判定系数的实际意义:
在因变量变差中,有多少是由⾃变量与因变量之间的线性关系来解释,或在因变量变差中有多少是由⾃变量所决定的。
11.2.4 显著性检验
1.线性关系的检验
线性关系检验是检验⾃变量x和因变量y之间的线性关系是否显著,或者说。
它们之间能否⽤⼀个线性模型y=β0+β1x+ε来表⽰。
将回归均⽅(MSR)同残差均⽅(MSE)加以⽐较,应⽤F检验来分析⼆者之间的差别是否显著。
⽅差分析表中关于线性关系显著性检验的结果解释:
在⽅差分析表中给出了线性关系显著性检验的全部结果(教材P279)。
⽅差分析表中给出了⽤于检验的显著性F,即Significance F,它是⽤于检验的P值。
如果Sig. F<α,则拒绝原假设,表明⾃变量x与因变量y之间有显著性的线性关系;
如果Sig. F>α,则不能拒绝原假设,表明没有证据证实⾃变量x与因变量y 之间有显著性的线性关系。
2.回归系数的检验
检验x 与y 之间是否具有线性关系,或者说,检验⾃变量x 对因变量y 的影响是否显著。
构造⽤于检验回归系数β1的统计量t。
参数估计表中关于线性关系显著性检验的结果解释:
在参数估计表中给出了⽤于检验的P值,检验时可直接将P值与给定的显著性⽔平α进⾏⽐较。
若P<α,则拒绝原假设;若P>α,则不能拒绝原假设。
在⼀元线性回归中,等价于线性关系的显著性检验,即F检验和t检验是等价的。
也就是说,如果H0:β1 = 0被t检验拒绝,它也将被F检验拒绝。