《常用统计技术》PPT课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
yi )2
m 1
r
(
i 1
yij
yi )2
(m 1)Si2
rm
r
r
Se
i 1
(
j 1
yij
yi )2
(m
i 1
1) Si 2
(m
1)
i 1
Si
2
3(0.0092 0.0142 0.0102 0.0112 ) 0.001494
fe r(m 1) 12 ST SA Se 0.01044 0.001494 0.11934 fT fA fe 3 13 16
单因子方差分析 • 假设检验:
H0:μ1 =μ2 = … = μr H1:μ1、μ2、…、μr不全相等 (至少有两个不相等)
• 方差分析作的三个基本假定 – 在水平Ai下,指标服从正态分布N(μ,α2); – 在不同水平下,各方差相等; – 各数据yij相互独立。
• 分析步骤
① 列出单因子试验数据表,yij表示在第i个水平,第j次试验指标值 ② 在表中计算因子A的每一水平下数据的和T1、T2、…TR及总和T ③ 计算各类数据的平方和
– 对显著因子应该取最好的水平;
– 对不显著因子的水平可以任意选取,在实际中通常从降低成本、操作方 便等角度加以选择。
– 上面的例子中对因子A与B应该选择A2B2,因子C可以任选,譬如为节约材 料可选择C1。
• 因子的贡献率
– 当试验指标不服从正态分布时,进行方差分析的依据就不够充足,此时可 通过比较各因子的“贡献率”来衡量因子作用的大小。由于S因中除因子 的效应外,还包含误差,从而称S因-f因MSe为因子的纯离差平方和,将因 子的纯离差平方和与ST的比称为因子的贡献率。
• 最后的方差分析表见表2.3.6,由于 FA>F0.90(2,2),FB>F0.95(2,2) 因子A影响显著,因子B影响高度显著,因子C 影响不显著
F比<F0.90
影响不显著
F0.95>F比>F0.90 影响显著
F0.99>F比>F0.95 影响高度显著
F比>F0.99
显著性特大
• 最佳条件的选择
④ 依次计算ST、SA、Se
rm
ST
( yij y )2
i1 j1
r
2
SA m yi y
i 1
r m
2
Se
yij yi
i1 j1
⑤ 依次计算fT、fA、fe
fT = n-1 = rm-1
fA = r-a
fe = n-r = fT-fA
⑥ MSA=SA/fA
MSe=Se/fe
• 优点:信息量大,可选最佳条件 • 缺点:试验次数太多,估计不出试验误差
② 单因子条件试验法(因子轮换法)
取A2B3C2为最佳条件 优点:试验次数少 缺点:各因子水平间搭配不全面,信息量不够;试验误差未知,当试验误差大时,有时会 选错最佳条件
③ 正交试验法
用正交表安排试验,并利用正交表的特点进行数据分析,找出最好或满意 的试验条件。用单因子条件试验法的相同试验次数,各因子水平间全面搭 配,信息量丰富,能估计出试验误差
b、当因子A是显著时,可找出最佳水平
c、可估计误差方差及标准差
强度有显著差异
• 例2.1.2,与2.1.1相似
• 如果没有给出原始数据yij,仅给出各水平下的试验次数、数据的均值与标准 差,那么可将前面的公式稍作变化后作方差分析
• 对2.1.2的数据进行分析:
r
r
1)
T
i1
m
yi
m i1
yi
r 4,m 4
• 避免混杂现象——表头设计的一个原则
– 在进行表头设计时,若一列上出现两个因子,或两个交互作用,或一个 因子与一个交互作用时,称为混杂现象,这是不允许的
– 在用正交表安排试验时,因子应与所在列的自由度相同,而交互作用所 占列的自由度之和应与交互作用的自由度相同
– 根据表头设计避免混杂的原则选择正交表时必须满足下面一个条件: “所考察的因子与交互作用自由度之和≤n-1”,这是一个必要条件, 不是充分条件
所求得的回归方程是有意义的
• 例2.2.1的单因子方差分析 • 利用回归方程进行预测:给定了自变量x后,对因变量y做出推断
预测值: y0 a bx0
观测区间:( y0 - ,y0 + )
t1 /2(n2)
1
1 n
( x0
x)2
/
Lxx
u1 /2
SE / fe
• 例2.2.1中指定x0=0.16,预测y0的区间可化为一元线性回归的曲线回归 • 确定曲线回归方程形式,方法有两种:
T 4(0.031 0.100 0.079 0.058)
2) Ti m yi
n rm
SA
r
Ti
2
i1 m
T2 n
r
m
i1
yi
2
T2 rm
4(0.0312 0.1002 0.0792 0.0582 ) 1.0722 0.01044 44
fA r 1 3
r
3)
Si
(
i 1
yij
B RB
11 12 70
C
RC 80 90
• 数据的方差分析(多因子方差分析) – 数据的方差分析计算见表2.3.5
SA=S1 SB=S2 SC=S3 Se=S4
Βιβλιοθήκη Baidu
ST=S1+S2+S3+nS4
ST
(
i 1
yi
y)2
n
i 1
yi2
T2 n
3
SA
3(T i
i 1
y)2
n
T
i 1
yi
• 对满足2.3.1式要求的一类正交表则有: ST=S1+S2+…+Sp
– 一是根据专业知识
– 二是根据数据所画的散布图,将它与一些标准的函数图像进行比较后加 以选择
• 例2.2.2 • 散布图2.2.5 • 常见的函数图像 • 图2.2.4
• 曲线回归方程中参数的估计,我们采用线性化的方法,即通过变化将它化为 一元线性回归方程的形式,用线性回归方法来获得参数的估计
• 数据分析 – 数据的直观分析 ① 寻找最好的试验条件 直观分析计算表,见表2.3.1 ② 各因子对指标影响程度大小的分析用极差来判断影响大小 B因子影响最大,其次是A因子,C因子影响最小
③ 各因子不同水平对指标的影响图
A 220
205
190 RA
175
160 900 1100 1300 10
• 验证试验
– 验证的最佳条件不一定在试验中出现,为此通常需要进行验证试验。即 使选择的最佳条件在试验中出现,也需要通过验证看其是否稳定
• 有交互作用的正交设计与数据分析 • 试验设计
– 明确试验目的 – 明确试验指标 – 确定试验中所考虑的因子与水平,并确定可能存在并要考察的交互作用 – 选用合适的正交表,进行表头设计 – 进行试验,并记录试验结果
⑦ 填写方差分析表
⑧ F检验:F比 = MSA/MSe 当F比 > F1-α(fA,fe),认为因子A是显著的 当F比 < F1-α(fA,fe),认为因子A是不显著的
• 对2.1.1数据进行分析
• 结论:
a、F比 = 31.21 > F0.95(2,9) = 4.26 因子A是显著的,表明不同工厂的零件
– 例2.3.3
感谢下 载
感谢下 载
• 正交表具有正交性,这是指它有如下两个特点: (1) 每列中不同的数字重复次数相同。 – 在表L9(34)中,每列有3个不同数字:1,2,3,每一个出现3次。
(2) 将任意两列的同行数字看成一个数对,那么一切可能数对重复次数相同。
– 在表L9(34)中,任意两列有9种可能的数对: (1,1),(1,2),(1,3),(2,1),(2,2),(2,3),
• 例2.2.2
u 1/ x v 1/ y v a bu
• 曲线回归方程的比较,比较准则两个: – 一是要求相关系数R大 – 二是要求剩余标准差S小
R2 1 ( yi y)2 ( yi y)2
S ( yi y)2 n2
三 试验设计
• 试验设计的基本概念与正交性 – 试验设计 ① 全面搭配 试验三个因子,每个因子三个水平
正交表 a、常用正交表
Ln(qp) “L”表示正交表 “n”是表的行数,在试验中表示试验的条件数 “p”是列数,在试验中表示可以安排因子的最多个数 “q”是表的主体只有三个不同数字,在试验中表示每
一因子可以取的水平数
• 常用的正交表有两大类
(1) 一类正交表的行数n,列数p,水平数q间有如下关系:
• 重复数不等情况下的单因子方差分析
• 对2.1.3的数据进r行分析
n
i1
mi
SA
r
Ti
2
m i1 i
T2 n
二 回归分析
• 散布图:为研究两个变量间存在什么关系,把每一对(xi,yi)(i=1、2、…、 n)看成直角坐标系中的一个点,在图中标出n个点,称此图为散布图
• 例2.2.1,表2.2.1,图2.2.1
• n=qk, k=2,3,4,…, p=(n-1)/(q-1) • 如:L4(23),L8(27),L16(215),L32(231)等,可以考察因子间的交互作
用。
(2) 另一类正交表的行数,列数,水平数之间不满足上述的两个关系
• 如:L12(211),L18(37),L20(219),L36(313)等 • 这类正交表不能用来考察因子间的交互作用
• 相关系数的检验
• 根据r的绝对值的大小可判断两个变量间线性相关的程度
• 对于给定的α,当|r|>r1- α/2(n-2),可认为两个变量间存在一定的线性相关关 系
• r1- α/2(n-2)的临界值可从表2.2.2中查到
• 例2.2.1 • 计算相关系数r,并判断其线性相关关系
• 一元线性回归方程
– 当两个变量间存在线性相关关系时,常希望建立两者间的定量关系表达 式,这便是两个变量间的一元线性回归方程
• 一元线性回归方程的求法
• 例2.2.1求yˆ回归a方程 bx
b L L • 由回归方程
画出的回归直线一定通过(0,a)和( xy xx
a y bx
)两点。
yˆ a bx
x, y
• 回归方程的显著性检验
• 相关系数:用一个统计量来表示两个变量间关系的密切程度,这个量成为相 关系数r
• 不同r值的示意图:图2.2.2
r (xi x )( yi y) (xi x )2 ( yi y)2
Lxy Lxx Lyy
• 性质:|r|≤1 • r=±1时,表示n个点在一条直线上,这时两个变量间完全线性相关。 • r>0,两个变量间具有线性正相关 • r<0,两个变量间具有线性负相关 • r=0表示两个变量间没有线性相关关系,但并不排斥两者间有其它函数关系。
– 检验两个变量间是否存在线性相关关系的问题便是对回归方程的显著性 检验问题
• 相关系数检验法:当|r|>r1- α/2(n-2)时,便认为两个变量间存在线性相关关系, 所求得的回归方程是有意义的
• 方差分析检验法:是单因子方差分析
F比
SR SE
/ /
fR fe
当F比 F 时, 1(fR ,fe)
• 数据分析 – 多因子有交互作用的方差分析 计算表见2.3.11,方差分析表见2.3.12
• 最佳条件的选择
– 对显著因子可通过比较两个水平下的数据均值得到最佳水平,因子C取C2 为好
– 对显著的交互作用,先要计算两个因子不同搭配下的数据均值,再通过 比较得出哪种水平组合较好
– 不显著因子,其水平可任取
(3,1),(3,2),(3,3)每一对出现一次。
• 无交互作用的正交设计与数据分析 试验设计,以2.3.1为例
(1)明确试验目的 (2)明确试验指标 (3)确定因子与水平 (4)选用合适的正交表,进行表头设计,列出试验计划
• 进行试验和记录试验结果 – 试验的次序最好要随机化 – 试验结果记录在对应的试验条件后面
第二章 常用统计技术 (中级)
一、方差分析
几个概念 • 因子:在试验中改变状态的因素称为因子,常用大写英文字母A、B、C等表示。 • 水平:因子在试验中所处的状态称为因子的水平。用代表因子的字母加下标
表示,记为A1,A2,…。
• 方差分析类型: – 单因子方差分析 – 多因子方差分析 – 有交互作用的多因子方差分析