应用统计方法课件 3-1
常用统计方法培训课件(PPT 39页)
目前人们在描述统计方法时,都将以上 3 种方法列入,统称为统计方 法。
在生产现场,描述性方法和思考性方法应用频率特别高,许
多生产中的问题均可以通过简单的描述性方法和思考性方法配合使用 ,分析问题,寻找真因,然后应用固有专业技术解决问题,实现持续 改进。
值得注意的是统计技术是一种管理技术,可以帮助你发现问题、发现 变异和寻找事物发展的规律,但并不能帮你解决问题,解决问题要依 靠固有专业技术去实现!
常用统计方法培训
绍兴信佳密封制品有限公司 技术开发部&品管部 张伟波
1
培训提纲
一、统计学应用介绍 二、常用统计图表制作及应用 1、箱线图 2、柏拉图 3、直方图 4、散布图 5、雷达图 6、折线趋势图、柱状图、饼图 7、过程能力分析 8、统计过程控制图
2
培训目标
• 学习常用统计方法的应用 • 学习使用EXCEL和Minitab制作统计图表 • 更方便的进行日常工作和提高工作质量,进
9
一、箱线图
箱线图是利用数据中的五个统计量(最小值(MIN)、上四分位
数(Q1)、中位数(Q2)、下四分位数(Q3)、最大值(MAX))以及异常 值来描述这批数据分布轮廓的一种图示方法,可以从中粗略地看出数 据是否具有对称性,分布的分散程度等信息。
LG-181403 B
3.0
2.5
散布层厚度/mm
15
二、柏拉图 柏拉图又称为排列图,由此图的发明者19世纪意大利经济学
家柏拉图(Pareto)的名字而得名。柏拉图最早用排列图分析社会财 富分布的状况,他发现当时意大利80%财富集中在20%的人手里,后 来人们发现很多场合都服从这一规律,于是称之为Pareto定律,也被
称为“二八原则”,主要用途是找出“重要的少数”。
公路工程质量控制与安全课件第三章质量控制技术及应用3-1工程质量管理数理统计
3-1
第三章 质量控制技术及应用
三、随机事件及其频率与概率
5.频率与概率的关系
频率是一个试验值,具有随机性,可能取多个数值
概率是一个理论值,它由事件的本质所决定的,只能是唯一值, 能精确地反映事件出现可能的大小
3-1
四、质量管理常用的统计量
第三章 质量控制技术及应用
x1,x2,,xn,那么样 本的平均值 u为:
n
u
x1 x2
... xn
xi
i 1
n
n
3-1
四、质量管理常用的统计量
第三章 质量控制技术及应用
2.极差值d
极差值是指几个样本数据(x1,x2,,xn)中最大值Xmax 与最小值Xmin之差,其计算公式为:
合后任意抽取。该方法简单易行,但它只适用总体个数N较小时 的情况。 (2)查随机数表法。现代计算机技术都有随机数表,根据此表确定 样本。此法理论比较密,但使用时比较麻烦。 (3)系统抽样法。它是在施工过程中取样,可每隔一定时间和空间 抽样一次,例如在沥青混凝土拌和厂每天定时取样。 (4)分层抽样法。用于松散的堆放物质,如碎石、砂砾、石灰等。
•而每根钢筋的强度则是一个个体。
•从这批钢筋总体中随机抽出10根做试验,则10根钢筋就是样本,又 称子样。
3-1
二、质量管理中的数据
第三章 质量控制技术及应用
2.全数检查和抽样检查及随机取样
判断工程质量一般采用全数检查与抽样检查两种方法。
全数检查就是对总体中每个组成部分逐个进行检查,例如,对预构件的 尺寸、钢筋根数等每个都要检查。
3-1
第三章 质量控制技术及应用
三、随机事件及其频率与概率
2.事件的频数
应用统计学PPT课件
2020/5/22
21
一名统计学家遇到一位数学家,统计学家调侃数学家, 说道:“你们不是说若X=Y且Y=Z,则X=Z吗, 那么想必你若是喜欢一个女孩, 那个女孩喜欢的男生你 也会喜欢了?”
数学家想了来你 也没事吧!因为它们平均不过是五十度而已! ”
1981年,首届国际《红楼梦》研讨会在美国召开,威 斯康星大学讲师陈炳藻独树一帜,宣读了题为《从词 汇上的统计论〈红楼梦〉作者的问题》的论文。他从 字、词出现频率入手,通过计算机进行统计、处理、 分析,对《红楼梦》后40回系高鹗所作这一流行看法 提出异议,认为120回均系曹雪芹所作。
2020/5/22
单项数列,组距数列 编制:全距,组距,组限,频数 类型:钟型,U型,J型
2020/5/22
37
某生产车间50名工人日加工零件数如下:
117 122 124 129 139 107 117 130 122 125 108 131 125 117 122 133 126 122 118 108 110 118 123 126 133 134 127 123 118 112 112 134 127 123 119 113 120 123 127 135 137 114 120 128 124 115 139 128 124 121
历经300多年的发展,统计学目前已经成为横跨社会科学和自 然科学领域的多科性的科学。
统计学是有关如何测定、收集和分析反映客观现象总体数量 的数据,以便给出正确认识的方法论科学。
从横向看,各种统计学都具有上述共同点,因而能够形成一 个学科“家族”。从纵向看,统计学方法应用于各种实质性 科学,同它们相结合,产生了一系列专门领域的统计学。
2020/5/22
在在在
应用统计学PPT课件
二项分布的应用
在统计学中广泛应用于计数数据,如成功率、故障率等。
二项分布
描述n次独立、相同、成功概率为p的伯努利试验的总成功次数的概率分布。
二项分布
正态分布曲线
呈钟形,对称分布于均值μ处,曲线下的面积为1。
数据质量评估
01
02
03
数据收集
数据清洗
对数据进行清洗,处理缺失值、异常值、错误值等问题,确保数据质量。
数据转换
对数据进行必要的转换,以满足统计分析的要求,如变量编码、类别转换等。
数据可视化
将数据以图表、图像等形式进行展示,帮助人们更好地理解数据和发现数据中的规律。
数据整理与展示
03
预测性分析
利用历史数据和算法模型对未来趋势进行预测,如时间序列分析、机器学习模型等。
实验设计
04
CHAPTER
统计学的基本概念
统计学中研究的全部数据,代表某一特定群体的所有个体。
总体
从总体中选取的一部分数据,用于推断总体的特征和规律。
样本
总体与样本
描述总体特性的数值,通常由总体数据计算得出。
描述样本特性的数值,通常由样本数据计算得出。
参数与统计量
统计量
参数
定量数据
可以量化的数据,如年龄、身高、体重等。
金融统计分析
对不同产业的经营数据进行分析,以评估产业发展和竞争态势,为企业决策提供依据。
产业统计分析
经济学
社会调查统计
通过问卷调查、访谈等方式收集数据,并运用统计分析方法研究社会现象和问题。
人口统计学
应用统计学英文课件 Business Statistics Ch03 Numerical Descriptive Measures
Chap 3-8
Measures of Central Tendency: Locating the Median
If the number of values is even, the median is the average of the two middle numbers
Note that n 1 is not the value of the median, 2
Chap 3-4
Measures of Central Tendency: The Mean
The arithmetic mean (often just called “mean”) is the most common measure of central tendency
Pronounced x-bar
7 8 9 10 11 12 Range = 12 - 7 = 5
7 8 9 10 11 12 Range = 12 - 7 = 5
▪ Sensitive to outliers
1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5
Range = 5 - 1 = 4
1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120
0 1 2 3 4 5 6 7 8 9 10
Mean = 4
123410 20 4
5
5
Chap 3-7
Measures of Central Tendency: Locating the Median
The location of the median when the values are in numerical order (smallest to largest):
统计学完整ppt课件完整版
假设检验中的两类错误:第一类错误 、第二类错误
假设检验的步骤:建立假设、选择检 验统计量、确定拒绝域、计算p值、 作出决策
假设检验的实例分析:单样本t检验 、双样本t检验等
方差分析(ANOVA)方法介绍
方差分析的基本原理:F分布与 方差分析的关系
多因素方差分析的实现方法: 析因设计、随机区组设计等
通过观察数据的峰度,判 断是否存在尖峰或平峰分 布
03
推论性统计方法
参数估计原理及应用
01
参数估计的基本概念: 点估计、区间估计
02
估计量的评价标准:无 偏性、有效性、一致性
03
参数估计的方法:矩估 计法、最大似然估计法
04
参数估计的应用:总体 均值的区间估计、总体 比例的区间估计等
假设检验流程与实例分析
ABCD
数据筛选与排序
介绍如何使用Excel进行数据筛选和排序,以便 更好地查看和分析数据。
函数与公式应用
分享一些常用的Excel函数和公式,以便更高效 地处理和分析数据。
案例分享:使用统计软件解决实际问题
案例一
使用SPSS进行市场调研数据分析,包 括描述性统计、交叉表分析、回归分析
等。
案例三
使用Python进行电商数据分析,包 括用户行为分析、销售预测、推荐系
据的科学。
统计学的作用
描述数据特征
推断总体参数 预测未来趋势
评估决策效果
数据类型与来源
数据类型 定量数据(连续型与离散型)
定性数据(分类数据与顺序数据)
数据类型与来源
01
数据来源
02
03
04
观察数据(实验数据与观测数 据)
《应用统计学》PPT课件
3.统计学与其他学科的关系
➢与数学的关系
以数学为基础,但不同于数学
数学:抽象 无量纲 演绎为主
统计学:具体 有量纲 归纳与演绎
➢与专业课程的关系
是专业课程的工具,通过使用可以帮助我们发现研究领域 所存在的规律,进一步结合专业知识对它进行阐释可以形 成新的理论
统计工作不是把数字随便填到几个格格里去,而应 当是用数字来说明所研究的现象在实际生活中已经 充分呈现出来和正在呈现出来的各种社会类型。
总结:统计学——数据的科学 设置科学的指标 获取真实的数据 运用科学的分析方法
第二章 统计数据的描述
学习内容
• 统计数据的来源 • 统计数据的整理 • 分布集中趋势的测度 • 分布离散程度的测度 • 统计图与统计表
学习目标
了解统计数据的来源和数据的质量要求 掌握数值型数据的整理方法 掌握数据集中趋势和离散程度的测度方
2. 标志和指标
标志: (变量) 说明总体单位属性和特征的名称
品质标志:总体单位质的特征 数量标志:总体单位量的特征 姓名 性别 年龄 学历 工龄 收入 王小二 男 56 研究生 28 30万
标志名称 标志值
企业名称 所属行业 员工人数 年销售额
指标:综合反应总体数量特征的概念和数值 具有可量性和综合性
极限定理等)
反映客观现象 的数据
样本数据 总体数据
描述统计
(统计数据的搜集、整理、 显示和分析等)
推断统计
(利用样本信息和概率论对 总体的数量特征进行估计和
检验等)
总体内在的数 量规律性
2.应用领域 理论统计学与应用统计学
➢ 理论统计 研究统计学的一般理论 研究统计方法的数学原理
➢ 应用统计 研究统计学在各领域的具体应用 国民经济统计学,人口统计学,管理统计学
现代统计分析方法与应用课件 第三章 定性数据的 检验
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
4
收集分类数据的目的是为了分析在各个类中数据 的分布。例如,我们为了估计消费者中喜欢三种 牙膏中每一种的比例,则统计购买这三种品牌牙 膏的顾客购买每一种的人数。在这里仅仅是根据 牙膏的种类来分类,我们称之为一维分类或一向 分类。而顾客的投资倾向与职业的关系中,分类 是按投资倾向和职业两个方向进行分类,我们称 之为二向分类或列联表。在本节,我们先分析一 向分类。下面通过例子来介绍一向分类数据的分 析。
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
6
多项分布是二项分布的推广,可以看成是多项试 验得到的分布。多项试验有如下一些性质: 1.多项试验由n个相同的试验所组成。 2.每个试验的结果落在k组的某一组中。
4.试验是独立的。
2019/1/30
中国人民大学六西格玛质量管理研究中心
第 3章
2 定性数据的 检验
2 §3.1 多项分布与 检验
§3.2 列联表分析 §3.3 一致性检验 §3.4 拟合优度检验
2019/1/30
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
1
第 3章
2 定性数据的 检验
• 随着市场经济在中国的深入发展,信息调 查产业日益火暴。在市场调查及社会、经 济和管理等领域的热点问题研究中,经常 会碰到不可计量的定性指标变量。如顾客 对某种商品的包装喜好、观众对电视节目 的喜好、产品的合格与不合格等,这些变 量因受多方面影响而呈现出多样性。
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
统计设计-应用统计学-课件完整版本
一、统计表的意义和构成
(一)统计表的意义 统计表是以纵横交叉的线条所绘制的表格
来表现统计资料的一种形式。广义的统 计表包括统计活动各个阶段中所用的一 些表格,在搜集资料、整理资料、积累 资料和分析资料时都要用到。
2 - 31
统计表是表现统计资料最常用的形式,其 显著优点是:
1、能使统计资料的排列条理化、系统化、 标准化,一目了然;
一般来说,统计表的主题栏列在横行标题 的位置,叙述栏列在纵栏标题的位置, 但有时为了合理安排或阅读方便,也可 以互换位置。
2 - 37
统计表的种类
(一)统计表按用途分为调查表、汇总表和分 析表
1、调查表 是指在统计调查中用于登记、搜集原
始统计资料的表格。调查表只记录调查 单位的特征,不能综合反映统计总体的 数量特征。
指标数值列在各横行标题和各纵栏标题的交叉处 ,具体反映其数字状况。
此外,有些统计表还增列补充资料、注解、资料 2 - 36来源、填表时间、填表单位等表脚。
统计表的基本结构
从内容上看,统计表由主体栏和叙述栏两 部分组成,主体栏是反映统计表所要说 明的单位、总体及其分组;叙述栏则是 说明主题栏的各种统计指标。
2、能科学的、合理地组织统计资料,便于 阅读、对照、比较和分析。
2 - 32
统计表的构成
从形式上看,统计表主要有总标题、横行 标题、纵栏标题和指标数值四部分组成 。(参看书上的统计表)
总标题是统计表的名称,一般位于表的上 端中央。用来概括说明统计表所反映的 统计资料的内容。
2 - 33
统计表的结构
意义(1)只有通过统计设计才能保证 统计工作协调、统一、顺利地进行 ,避免统计标准不统一;(2)只有 通过设计才能按需要与可能,分清 主次,采取各种统计方法,避免重 复和遗漏。
中南大学研究生应用统计课件
数理统计的基本概念与抽样分布§1.1 引言什么是数理统计学?它的研究内容有哪些?这是每位初学者所关心的问题。
我们先看一个这样的例子:某钢筋厂每天可以生产某型号钢筋10000根,钢筋厂每天需要对生产过程进行控制,对产品的质量进行检验。
如果把钢筋的强度作为钢筋质量的重有指标,于是质量管理人员需要做如下方面的工作第一,对生产出来的钢筋的强度进行检测,获得必要的数据。
这里有两种获得数据的方法,⑴对10000根钢筋的强度均进行检测,可得到10000个强度数据,这种检测方式称为全面试验,全面地进行试验一般是不可取的,它费时、费力、甚至于不可能。
⑵从10000根钢筋中抽取一部分钢筋进行检测,得到部分强度数据。
这里抽取部分钢筋进行检测的方式称为抽样。
抽取的方式也有很多种方法,它是数理统计的一个重要内容,形成了试验设计与抽样理论。
第二,对通过抽样获取的部分数据进行整理、分析并推断出这10000根钢筋的质量是否合乎要求。
由于抽取的数据不全面,并且检测过程中每个数据还有测量误差(我们称为随机误差)。
含有随机误差的数据会给我们带来一定影响,并且难以获得准确的结论。
概率论就是解决这些问题主要数学工具。
为解决这些问题所发展起来的理论和方法就构成了数理统计的内容。
一般说来,数理统计是以概率论为主要的数学工具,研究如何有效地收集、整理和分析受随机影响的数据,并对所考虑的问题作出推断和预测,为决策和行动提供依据和建议的一门数学学科。
数理统计方法的应用十分广泛,几乎在人类活动的一切领域都能不同程度地找到它的应用。
英国著名的统计学家费歇(R.A.Fisher)和皮尔逊(K.Pearson)是数理统计的奠基人,在20世纪初从事大量的数理统计方法的研究,就是出于在生物学、数量遗传学、优生学和农业科学的需要。
数理统计的内容十分丰富,一般可分为两大类:一类是抽样理论与试验设计;另一类是统计推断,其中包括估计理与假设检验等。
回归分析、方差分析、Bayes分析,聚类分析,主成分分析等是数理统计的应用分支。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第三章回归分析回归分析是研究变量间相关关系的一个统计分支,它主要解决以下面几个问题:(1)确定几个特定的变量之间是否存在相关关系,如果存在,找出它们之间合适的数学表达式;(2)根据一个或几个变量的值,预测或控制另一个变量的取值,并且要知道这种预测或控制可达到什么样的精确度;(3)进行因素分析,在共同影响一个变量的许多变量(因素)之间找出哪些因素重要,哪些因素次要,这些因素之间有什么关系等。
学习目的学习本章时,要密切联系实际,着重理解回归分析的基本思想,力求掌握利用回归分析解决实际问题的一般步骤和方法,提高分析问题、解决问题的能力.frist4基本要求1.理解一元线性回归分析的基本思想、掌握一元线性回归分析的方法及一般步骤.并能解决简单的实际问题;2.理解多元线性回归分析的基本思想、解决问题的方法和步骤;3.理解可线性化的非线性回归的基本思想、解决问题的方法和步骤;4.了解逐步回归的基本思想方法和实现步骤.回归分析一元线性回归多元线性回归逐步回归非线性回归与回归诊断一元线性回归建立模型参数估计显著性检验预测预报一.建立模型 引例1.一个作匀速直线运动的质点,在时刻t 的位置是S ,则S a bt =+,其中a 为质点在t =0时刻的初始位置,b 为平均速度。
观测到的数据是ε+=s y ,其中ε是随机误差(测量误差)。
于是我们有ε+=s y ε++=bt a (3-1) 其中t 是非随机的,ε是随机的,通常认为E ε=0,显然y 也是随机的。
modeling为了估计a 、b ,现在n 个不同时刻作观察,得n 组观察值)(i i y t ,n i ,21 ,,=。
即 y i =i i bt a ε++ (i n =12,,, )用向量矩阵形式表示如下:εβ+=X Y其中,⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=n y y y Y 21,⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=n εεεε 21,⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=n t t t X 21111,⎪⎭⎫ ⎝⎛=b a β。
问题:如何利用Y X 、的观测值来估计参数a 、b ,进一步预测未来时刻t 质点的位置。
引例2.在硝酸钠(3NaNO )的溶解度试验中,测得在不同温度C X 0下溶解于100份水中的硝酸钠份数y 数据见下表:x i 0 4 10 15 21 29 36 51 68 y i 66.7 71.0 76.3 80.6 85.7 92.9 99.4 113.6 125 试找出X 与Y 之间的关系。
y = ε +bx a +(3-2) Y X =+βε 问题:如何利用观测值来估计参数a 、b ,从而确定y 与x 的近似线性关系。
020406080100120140020406080图3-1设变量y 与x 有下述关系 y =++a bx ε (3-3) 其中ε是零均值的v r .,x 是可控制变量,a 、b 为未知参数,则称(3-3)为一元线性回归模型。
假设对x 、y 进行n 次观察,得n 组观察值()x y i i ,(i n =12,,, )。
即y i =a bx i i ++ε (n i ,,,21=) (3-4) 通常假定εεε12,,, n 独立同分布),0(2σN (记为i.i.d )0(2σ,N ).即一元线性回归模型Y X =+βε (3-5)Independent identical distributionLinear regression在(3-3)中若能用某种方法获得未知参数a 、b 的估计 ab 、,那么用 a bx +作为y 的估计,即y= a bx + (3-6) 称(3-6)为一元线性回归直线(或回归方程),对于任意的x x =0,称 y 0= a bx +0为回归值。
一元线性回归直线Regression equation二.参数估计 (最小二乘估计)令Q y a bx i i i n=--=∑()21==∑εii n21(3-7)我们取使Q 达最小的 ab 、作为未知参数a b 、的估计,这种方法称为最小二乘估计法,所得的估计称为最小二乘估计,Q 称为残差平方和。
对Q 求关于a b 、的偏导数,得如下方程∂∂Qa y a bx i i i n =---==∑201() (3-8)∂∂Qb y a bx x i i i i n =---==∑201() (3-9)Parameter estimate由(3-8)式得y na b x i i n i i n==∑∑=+11即 a y xb =-,代入(3-9)式∑∑∑====--n i ni ii n i i i x b x a x y 1121得 y x nx y bnx b x i i i ni i n==∑∑-⋅+-=12210 配方整理y x nx y i ii n=∑-⋅1yx n y x n y x n x y n i ii ⋅+⋅-⋅-=∑=1)(1y x y x y x x y i i ni i i ⋅+--=∑=∑=--=ni i i y y x x 1))(( ∂∂Q b y a bx x i i i i n =---==∑201() (3-9) ∂∂Q a y a bx i i i n =---==∑201() (3-8)∑=-ni ix b x bn 12222122xnb x nb x b x bn ni i+--=∑=)(212x x x x x x b i i ni i+---=∑=∑=--=ni i x x b 12)(得()()()x x y y b x x i i i i n i n ----===∑∑211记 l x x x nxxx i ii ni n()=-=-==∑∑22211l x x y y x y nx y xy i i i i i ni n()()=--=-⋅==∑∑11即得a y bxl b l xx xy =-=⎧⎨⎩(3-10)解上述方程组得a 、b 的最小二乘估计为a y bxb l l xy xx =-=⎧⎨⎪⎩⎪ (3-11)根据上述推导可看出,对于任意一组观测数据(,)x y i i (i n =12,,, ),当0≠xx l 时,由(3-11)总可建立回归方程(3-6)。
这样建立的回归方程是否有意义,即x 对y 是否有所影响,而且是线性的,这就需要进行检验。
三、回归方程的显著性检验(H b 00:=)由x 的n 个不全相同的值x x x n 12,,, 得到相应观测值y y y n 12,,, 。
y 值的差异现象称为变差。
对每次观测值来说,变差的大小可用y y i -(称为离差)来表示,而n 次观测值的总变差可由这些离差的平方和表示,记为S 总2,即S 总2=-=∑()y y i i n21(3-12)S 总2=-=∑(y y i i n)21∑=-+-=ni i i i y y y y 12)ˆˆ( =-=∑( )y yi i i n21+-=∑( )y y i i n21+--=∑21( )( )y y y y i i i i nSignificance tests1.F 检验法S 总2=-=∑(y y i i n)21 =-=∑( )y yi i i n21+-=∑( )y y i i n21=+S S 残回22 (3-13) 其中,( )( )y y y y i i i i n--=∑1∑=-+-=ni i i i y x ba y y 1)ˆˆ)(ˆ( =--=∑( )( )a y y y i i i n 1+-=∑( ) y y bx i i ii n1=-=∑ ( )b y yx i i i i n1=0 (由3-9式) 通常称(3-13)为平方和分解,其中 ∂∂Q a y a bx i i i n =---==∑201() (3-8)∂∂Q b y a bx x i i i i n =---==∑201() (3-9)S 回2=-=∑( )yy i i n21 (3-14) S 残2=-=∑( )y yi i i n21 (3-15) 分别称为回归平方和、残差平方和。
由(3-11)及(3-6)可以证明 yy =,即 yn y a bx y i i n==+==∑11 于是回归平方和又可表示成 S 回2=-=∑( )y y i i n 21----回归值的总变差。
a y bx b l l xy xx =-=⎧⎨⎪⎩⎪ (3-11) y = a bx + (3-6)由上分析看出, y i = a bx i +反映了y i中受x 影响的那一部分; 而y yi i - 则反映了y i 中扣除x 的影响后其它种种因素影响的部分,故称为残差。
F S Sn =-回残222/()~)2,1(-n F (H 0成立时) (3-16)对给定水平α(α较小),由P F {}>=λα查F 分布表可求得λ。
若F >λ,则否定H 0,说明x 与y 存在线性关系,否则回归方程无意义。
进一步当α=0.05时,若F <λα=005.,则x 与y 无线性关系;当α=0.01时,若F >λα=001.,则x 与y 存在十分显著的线性关系;若λα=005.<<F λα=001.,则称x 与y 存在显著的线性关系。
在计算F 统计量时,常用下列公式计算S 回2:S 回2=-==∑( ) y y bl i i nxy21(3-17) 事实上:S 回2=-=+--==∑∑( )( )yy a bx a bx i i ni i n2121=-===∑ ()() b x x l l l bl ii nxy xxxx xy22122.相关系数检验法对于线性回归中的变量x 与y ,其样本相关系数yyxx xy ni ni i i ni i i l l l y y x x y y x x r =----=∑∑∑===11221)()())((xy xxxy yy l l l l -=)1()1(22≥-=-=r l l l llyy yyxx xyyy22回残S l S yy -=xy yy l b l ˆ-=利用相关系数检验法对线性回归进行显著性检验: 对于给定的显著水平α,由样本算得yy xx xyl l l r =,若)2(->n r r α,则认为线性回归效果显著;若)2(-≤n r r α,则认为x 与y 之间不存在线性相关关系。
注意:在一元线性回归中,容易证明,F 检验法与相关系数检验法其实质是相同的,两者检验的结果也是一致的。
因此,在线性回归的显著性检验中,选择F 检验法与相关系数检验法中的任意一种方法进行检验就可以了。
这里顺便指出,在实际应用中,若对具有某种关系的变量进行拟合,有时也用相关系数的平方yyyy xy yy xx xy l S l l b l l l r 222ˆ回=== (3-18) 对拟合效果进行度量,并称2r 为决定系数或相关指数。