第二章 方差分析与相关分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 公式:
• 相关系数的意义:
例 10名3岁男童体重与体表面积的关系
编号 体重(X,kg) 体表面积(Y,103cm2) 1 11.0 5.283 2 11.8 5.299 3 12.0 5.358 4 12.3 5.292 5 13.1 5.602 6 13.7 6.014 7 14.4 5.830 8 14.9 6.102 9 15.2 6.075 10 16.0 6.411 合计133.4 57.266
• 出行量与各指标之间的相关性如何? • 各指标之间相关性如何?若要做回归分析,与哪 些指标做回归分析?
• 该相关用于测量两个定类变量(变量分类: 赞同或反对,是或否,男或女)间的相关 关系。
• 现考察不同阶层人群对于地铁环境的满意 度情况,得到结果如下,请计算相关系数
学生 舒适 不舒适 81 60 工薪阶层 其他 53 79 40 16
– 例如,S项政策的效果,S个阶层的人的对某一问题的评价,S组 人员的工资水平, S种同功能药品的效果, S种训练方法的训练 效果, S种饲料的作用, S台设备的故障率, S种工艺的效果, S种材料的强度等等,有无显著差异,都可以用单因素方差分析来 解决。 – 交通方面,S个改善方案的效果,S组不同路段车速的差异性,S种 扣件性能的差异性,S个运行图的效果差异性等。
• 因此在样本容量n较小时,我们仅凭相关系数较 大就判定变量x与y之间有密切的线性关系是不妥 当的。
用excel做相关分析
• 选择“工具”-“数据分析”-“方差系数” 后,出现属性设置框,依次选择: • 输入区域:选择数据区域,注意需要满足至 少两组数据。如果有数据标志,注意同时 勾选下方“标志位于第一行”; • 分组方式:指示输入区域中的数据是按行还 是按列考虑,请根据原数据格式选择; • 输出区域可以选择本表、新工作表组或是 新工作簿;
第二章
2.1方差分析
思考:以下问题用我们学过的知识如何 解决?
某社区随机抽取糖尿病患者、IGT异常 和正常人共30人进行载蛋白测定,结果如 下,问3种人的载蛋白有无差别?
• 方差分析的用途
参数假设检验中,我们经常检验两个参 数总体分布的均值是否相同,但是如果有 多个总体,则必须两两比较检验,十分繁 琐。
• 缺点:如果H0不成立,只能获得S个××具有差异性,而 不能说明是哪几个具有差异,或者差异程度有多少。
• 3.理论假设与分析
理论假设:S个方案的总体都服从正态分布,
由此:
• 随机项的表达如下:
单因素模型构成表
由此,单因素方差分析的基本任务,转化为检验如 下假设:
• 4.计算思路
如果H0成立,即各方案的均值不存在任何差异, 但是在统计学中,并不一定要差异完全等于0才是 H0成立,一般,只要差异的值较小(不是显著大 于0),在一个可接受范围之内即可。
• 例:四组不同摄入方式病人的血浆游离吗啡水平 静脉点滴 肌肉注射 皮下注射 口服
12 10 7
8 9 14
12 16 15
9
9 7 6
11 7
12 8 8
10
差异 源 组间 组内
SS
57 91
df
3 15
MS
19 6.0666 67
F
3.1
P-value F crit
0.056 3.2
某社区随机抽取糖尿病患者、IGT异常 和正常人共30人进行载蛋白测定,结果如 下,问3种人的载蛋白有无差别?
10名3岁男童体重与体表面积散点图
体 表 面 积
6.5
(103cm2)
Y
6.0
5.5
5.0 11 12 13 14 15 16
体重(kg),X
资料相关系数的计算
X= .44 13 l XX 24.9040
r
Y 5.7266 lYY 1.5439
l XY 5.9396
5.9396 0.9579 24.9040 1.5439
• Spearman等级相关
对两组配对顺序样本而言,无法求出上述 样本的Pearson相关系数。或简化计算。
式中: ,前者表示xi的名 次,后者表示yi的名次。
• 一个的等价的公式:
• 思考:与pearson相关的公式的异同?
例如:请对某省地方性甲状腺肿患病率与当地食品与水中含 碘量的关系数据,计算其等级相关系数,说明两者间的关系。 表 某地地方性甲状腺肿患病率(%)与其食品、水中含 碘量的数据
单因素方差分析
• 1.问题的提出
设有s个技术方案,各个方案的效果如下表所示:
所谓单因素,就是指只有”方案“这个变量。
还可以是s阶层的人、s种训练方法、s台设备。。。
2.单因素方差分析的优缺点
• 单因素方差分析的优点:单因素方差分析起源于对多套实 验方案的效果的对比分析,可以用来检验多组相关样本之 间均值,有无显著差异。
源自文库
进站
3526
出站
3856
进站
3752
出站
3843
进站
3615
出站
3812
•思考: 与G相关的区别与联系?
• 偏相关
• 定义:所谓偏相关,就是在诸多相关的变 量中,剔除了(控制了)其中的一个或若 干个变量的影响后,两个变量之间的相关 关系。
• 如剔除人们对出行舒适性的要求及速度的 要求等因素,考虑经济与出行选择的影响。
G相关
• G相关用于测量两个定序变量间(变量有排 序关系,如:高中低,大中小等)的关系。 • 公式:
其中,Ns表示同序对数目,Nd表示异序对 数目。Eg中解释。
Pearson相关
• 该相关用于测量两个定距变量间的关系。
• 特点:不同于前两者,是用变量值的次数进行计 算,该相关可以用更精确的数据。
• (4)做假设检验
若f>fa(s-1,n-s),则表明SA较大,也即对 应的方案均值之间的差别较大,因此以a的 概率拒绝H0。 • (5)做出推论:统计学结论和专业结论。
• 检验的另一种方法
计算出统计值f的右侧概率,是否大于a来 判断H0的成立与否。 好处是从f的外侧概率,可以更方便地与不 同的范错误的概率a比较。
• Pearson相关系统显著异于0的检验
男童例子的相关系数的假设检验
H 0: r=0,体重与体表面积无相关关系; H 1: r0, 体重与体表面积有相关关系。
= 0.05。
r 0 t sr r 1 r2 n2
P=1-6×110/7/48=-0.96
例:在肝癌病因研究中,某地调查了10个乡的肝癌死亡率 (1/10万)与种食物中黄曲霉毒素相对含量(最高含量为10), 见表。试作Spearman相关分析。
• 现周一到周三进出大学城站点的客流数据如下: 计算Spearman等级相关系数。
3月25日 3月26日 3月27日
例:有4组进食高脂饮食的家兔,接受不同处理后,测定 其血清肾素血管紧张素转化酶(ACE)浓度),试比较四 组家兔的血清ACE浓度。 表5.1对照组及各实验组家兔血清ACE浓度(u/ml) A降脂 药 82.35 56.47 61.57
对照组
61.24 58.65 46.79 37.43 66.54 59.27
那么差异要多小,或者说小到什么程度呢? 单因素方差分析认为,当H0成立时,方案之间 的方差与所有方案内部的方差之和的比值应该小 于fa。否则,H0不成立。
• 5.计算步骤
• (3)计算F统计量之值
S A /( s 1) f S E /(n s)
f对应的统计量F服从F(s-1,n-s)
48.79 62.54 60.87
实验组 B降脂 药 26.23 46.87 24.36 38.54 42.16 30.33
20.68
C降脂 药 25.46 38.79 13.55
19.45 34.56 10.96
48.23
• 解:
SA=5515.3 SE=2930 F=13.80
fa(s-1,n-s)=f0.05(3,22)=3.05
• 定义:以一个统计值表示变量与变量之间 的关系。 • 取值:表示变量之间关联关系的强弱。
–大多数相关系数取值在[-1,1]之间,0代表无 相关,-1与1代表完全相关, –相关系数越大,则表明相关程度越强。
相关关系示意图
正相关 负相关 零相关
零相关
0<r<1 (a)
完全正相关
-1<r<0 (c)
完全负相关
Eg3:不同地铁票价的效果与人的经济因素有关。
两类方差分析的异同
两类方差分析的基本步骤相同,只是变异的 分解方式不同,
–单因素方差分析:总变异分解为组内变异和组 间变异(随机误差),即:SS总=SS组间+SS组 内, –双因素方差分析:总变异除了分解为处理组变 异和随机误差外还包括配伍组变异,即:SS总 =SS处理+SS配伍+SS误差。
• 输出 – 其中的“组间”就是影响成绩的因素间, – “组内”就是各因素内部, – “差异源”则是方差来源, – “SS”就是平方和, – “df”称为自由度, – “MS”就是均方, – “F”称为F比, – “P-value”则是原假设(结论)成立的概率:这 个数值越接近0,说明原假设成立的可能性越小, 反之原假设成立的可能性越大 – “Fcrit”为拒绝域的临界值。
相关系数用r还有一个表达公式为:
• 例:某财务软件公司在全国有许多代理商,为研究它的财 务软件产品的广告投入与销售额的关系,统计人员随机选 择10家代理商进行观察,搜集到年广告投入费和月平均 销售额的数据,并编制成相关表,见表1: 表1 广告费与月平均销售额相关表 单位:万元
• 需要指出的是,相关系数有一个明显的缺点,即 它接近于1的程度与数据组数n相关,这容易给人 一种假象。
相关关系与确定性关系(2)
• 当对事物的规律了解加深时,相关关 系可以转变为确定性关系。
• 父亲患白化病X, (X=是,否); • 子女患白化病Y, (Y=是,否); • X与Y的关系不确定。
• 当母亲患白化病时,X与Y的关系确定: X=是,则Y=是; X=否,则Y=否。
相关分析
• 任务:研究变量之间的不确定关系
普通相关分析
相关关系与确定性关系
• 确定性关系:两变量间的函数关系
圆的周长与半径的关系: C=2R 速度、时间与路程的关系:S=vt X与Y的函数关系: Y=a+bX
• 非确定性关系(相关关系):两变量在宏观 上存在关系,但并未精确到可以用函数关 系来表达。
青少年身高与年龄的关系; 年龄与血脂的关系;身高与体重的关系; 体重与体表面积的关系;
r0 (e)
零相关
r0 (g)
零相关
r=1 (b)
r=-1 (d)
r=0 (f)
r=0 (h)
• 相关分析在轨道交通中的应用:某区域的交通出 行量与一些指标密切相关,如:该区域的用地性 质、各用地性质的面积、户数、家庭收入水平、 距离市中心的距离、汽车保有量、使用各种出行 方式的出行时间及出行费用等等。问题:
• 操作 – 输入数据:其中“输入区域”让你输入数据区 域的单元格引用,它由两个或两个以上按“列” 或“行”排列的相邻数据区域组成, – “分组方式”用来确定输入区域中的数据如何 排列 – 它下面的“0.05”称为显著性水平,一般取默 认值0.05即可 – “输出区域”必须输入一个空白单元格引用, 用来确定计算结果存放区域左上角的位置
方差分析可以一次完成对多个总体的均 值是否相同的检验:
方差分析的分类
根据资料设计类型的不同,有以下两种方差分析的 :
1.单因素方差分析:只有一个变量(因素)。适用: 对成组设计的多个样本均数比较。
2. 双因素方差分析:问题中有两个变量A、B。
Eg1:不同药品的治疗效果,与病人的体质特征有关。 Eg2:不同营销方案的效果与产品的质量有关。
剔除了一个变量Z的影响后,两个变量X、Y之间的偏相关 系数
剔除了两个个变量Z1、Z2的影响后,两个变量X、Y之间 的偏相关系数
相关系数异于零的显 著性检验
• 显著性检验的必要性:由于我们通过抽样 的方法来研究变量的关系,当样本的相关 系数不为0时,并不能代表真正表明变量之 间是相关的,还需要通过显著性检验来判 别是否显著异于0。
判断,不成立,即各种处理是有区别的。
答案见excel3
EXCEL做方差分析
• 安装:点击“工具-加载宏”,选择加载“数 据分析”。若无法选择,则需装入office安 装盘,完整安装。 • 打开:点击“工具→数据分析”菜单命令, 在打开的对话框中选中“方差分析:单因素 方差分析”,“确定”之后打开同名对话框。
• 相关系数的意义:
例 10名3岁男童体重与体表面积的关系
编号 体重(X,kg) 体表面积(Y,103cm2) 1 11.0 5.283 2 11.8 5.299 3 12.0 5.358 4 12.3 5.292 5 13.1 5.602 6 13.7 6.014 7 14.4 5.830 8 14.9 6.102 9 15.2 6.075 10 16.0 6.411 合计133.4 57.266
• 出行量与各指标之间的相关性如何? • 各指标之间相关性如何?若要做回归分析,与哪 些指标做回归分析?
• 该相关用于测量两个定类变量(变量分类: 赞同或反对,是或否,男或女)间的相关 关系。
• 现考察不同阶层人群对于地铁环境的满意 度情况,得到结果如下,请计算相关系数
学生 舒适 不舒适 81 60 工薪阶层 其他 53 79 40 16
– 例如,S项政策的效果,S个阶层的人的对某一问题的评价,S组 人员的工资水平, S种同功能药品的效果, S种训练方法的训练 效果, S种饲料的作用, S台设备的故障率, S种工艺的效果, S种材料的强度等等,有无显著差异,都可以用单因素方差分析来 解决。 – 交通方面,S个改善方案的效果,S组不同路段车速的差异性,S种 扣件性能的差异性,S个运行图的效果差异性等。
• 因此在样本容量n较小时,我们仅凭相关系数较 大就判定变量x与y之间有密切的线性关系是不妥 当的。
用excel做相关分析
• 选择“工具”-“数据分析”-“方差系数” 后,出现属性设置框,依次选择: • 输入区域:选择数据区域,注意需要满足至 少两组数据。如果有数据标志,注意同时 勾选下方“标志位于第一行”; • 分组方式:指示输入区域中的数据是按行还 是按列考虑,请根据原数据格式选择; • 输出区域可以选择本表、新工作表组或是 新工作簿;
第二章
2.1方差分析
思考:以下问题用我们学过的知识如何 解决?
某社区随机抽取糖尿病患者、IGT异常 和正常人共30人进行载蛋白测定,结果如 下,问3种人的载蛋白有无差别?
• 方差分析的用途
参数假设检验中,我们经常检验两个参 数总体分布的均值是否相同,但是如果有 多个总体,则必须两两比较检验,十分繁 琐。
• 缺点:如果H0不成立,只能获得S个××具有差异性,而 不能说明是哪几个具有差异,或者差异程度有多少。
• 3.理论假设与分析
理论假设:S个方案的总体都服从正态分布,
由此:
• 随机项的表达如下:
单因素模型构成表
由此,单因素方差分析的基本任务,转化为检验如 下假设:
• 4.计算思路
如果H0成立,即各方案的均值不存在任何差异, 但是在统计学中,并不一定要差异完全等于0才是 H0成立,一般,只要差异的值较小(不是显著大 于0),在一个可接受范围之内即可。
• 例:四组不同摄入方式病人的血浆游离吗啡水平 静脉点滴 肌肉注射 皮下注射 口服
12 10 7
8 9 14
12 16 15
9
9 7 6
11 7
12 8 8
10
差异 源 组间 组内
SS
57 91
df
3 15
MS
19 6.0666 67
F
3.1
P-value F crit
0.056 3.2
某社区随机抽取糖尿病患者、IGT异常 和正常人共30人进行载蛋白测定,结果如 下,问3种人的载蛋白有无差别?
10名3岁男童体重与体表面积散点图
体 表 面 积
6.5
(103cm2)
Y
6.0
5.5
5.0 11 12 13 14 15 16
体重(kg),X
资料相关系数的计算
X= .44 13 l XX 24.9040
r
Y 5.7266 lYY 1.5439
l XY 5.9396
5.9396 0.9579 24.9040 1.5439
• Spearman等级相关
对两组配对顺序样本而言,无法求出上述 样本的Pearson相关系数。或简化计算。
式中: ,前者表示xi的名 次,后者表示yi的名次。
• 一个的等价的公式:
• 思考:与pearson相关的公式的异同?
例如:请对某省地方性甲状腺肿患病率与当地食品与水中含 碘量的关系数据,计算其等级相关系数,说明两者间的关系。 表 某地地方性甲状腺肿患病率(%)与其食品、水中含 碘量的数据
单因素方差分析
• 1.问题的提出
设有s个技术方案,各个方案的效果如下表所示:
所谓单因素,就是指只有”方案“这个变量。
还可以是s阶层的人、s种训练方法、s台设备。。。
2.单因素方差分析的优缺点
• 单因素方差分析的优点:单因素方差分析起源于对多套实 验方案的效果的对比分析,可以用来检验多组相关样本之 间均值,有无显著差异。
源自文库
进站
3526
出站
3856
进站
3752
出站
3843
进站
3615
出站
3812
•思考: 与G相关的区别与联系?
• 偏相关
• 定义:所谓偏相关,就是在诸多相关的变 量中,剔除了(控制了)其中的一个或若 干个变量的影响后,两个变量之间的相关 关系。
• 如剔除人们对出行舒适性的要求及速度的 要求等因素,考虑经济与出行选择的影响。
G相关
• G相关用于测量两个定序变量间(变量有排 序关系,如:高中低,大中小等)的关系。 • 公式:
其中,Ns表示同序对数目,Nd表示异序对 数目。Eg中解释。
Pearson相关
• 该相关用于测量两个定距变量间的关系。
• 特点:不同于前两者,是用变量值的次数进行计 算,该相关可以用更精确的数据。
• (4)做假设检验
若f>fa(s-1,n-s),则表明SA较大,也即对 应的方案均值之间的差别较大,因此以a的 概率拒绝H0。 • (5)做出推论:统计学结论和专业结论。
• 检验的另一种方法
计算出统计值f的右侧概率,是否大于a来 判断H0的成立与否。 好处是从f的外侧概率,可以更方便地与不 同的范错误的概率a比较。
• Pearson相关系统显著异于0的检验
男童例子的相关系数的假设检验
H 0: r=0,体重与体表面积无相关关系; H 1: r0, 体重与体表面积有相关关系。
= 0.05。
r 0 t sr r 1 r2 n2
P=1-6×110/7/48=-0.96
例:在肝癌病因研究中,某地调查了10个乡的肝癌死亡率 (1/10万)与种食物中黄曲霉毒素相对含量(最高含量为10), 见表。试作Spearman相关分析。
• 现周一到周三进出大学城站点的客流数据如下: 计算Spearman等级相关系数。
3月25日 3月26日 3月27日
例:有4组进食高脂饮食的家兔,接受不同处理后,测定 其血清肾素血管紧张素转化酶(ACE)浓度),试比较四 组家兔的血清ACE浓度。 表5.1对照组及各实验组家兔血清ACE浓度(u/ml) A降脂 药 82.35 56.47 61.57
对照组
61.24 58.65 46.79 37.43 66.54 59.27
那么差异要多小,或者说小到什么程度呢? 单因素方差分析认为,当H0成立时,方案之间 的方差与所有方案内部的方差之和的比值应该小 于fa。否则,H0不成立。
• 5.计算步骤
• (3)计算F统计量之值
S A /( s 1) f S E /(n s)
f对应的统计量F服从F(s-1,n-s)
48.79 62.54 60.87
实验组 B降脂 药 26.23 46.87 24.36 38.54 42.16 30.33
20.68
C降脂 药 25.46 38.79 13.55
19.45 34.56 10.96
48.23
• 解:
SA=5515.3 SE=2930 F=13.80
fa(s-1,n-s)=f0.05(3,22)=3.05
• 定义:以一个统计值表示变量与变量之间 的关系。 • 取值:表示变量之间关联关系的强弱。
–大多数相关系数取值在[-1,1]之间,0代表无 相关,-1与1代表完全相关, –相关系数越大,则表明相关程度越强。
相关关系示意图
正相关 负相关 零相关
零相关
0<r<1 (a)
完全正相关
-1<r<0 (c)
完全负相关
Eg3:不同地铁票价的效果与人的经济因素有关。
两类方差分析的异同
两类方差分析的基本步骤相同,只是变异的 分解方式不同,
–单因素方差分析:总变异分解为组内变异和组 间变异(随机误差),即:SS总=SS组间+SS组 内, –双因素方差分析:总变异除了分解为处理组变 异和随机误差外还包括配伍组变异,即:SS总 =SS处理+SS配伍+SS误差。
• 输出 – 其中的“组间”就是影响成绩的因素间, – “组内”就是各因素内部, – “差异源”则是方差来源, – “SS”就是平方和, – “df”称为自由度, – “MS”就是均方, – “F”称为F比, – “P-value”则是原假设(结论)成立的概率:这 个数值越接近0,说明原假设成立的可能性越小, 反之原假设成立的可能性越大 – “Fcrit”为拒绝域的临界值。
相关系数用r还有一个表达公式为:
• 例:某财务软件公司在全国有许多代理商,为研究它的财 务软件产品的广告投入与销售额的关系,统计人员随机选 择10家代理商进行观察,搜集到年广告投入费和月平均 销售额的数据,并编制成相关表,见表1: 表1 广告费与月平均销售额相关表 单位:万元
• 需要指出的是,相关系数有一个明显的缺点,即 它接近于1的程度与数据组数n相关,这容易给人 一种假象。
相关关系与确定性关系(2)
• 当对事物的规律了解加深时,相关关 系可以转变为确定性关系。
• 父亲患白化病X, (X=是,否); • 子女患白化病Y, (Y=是,否); • X与Y的关系不确定。
• 当母亲患白化病时,X与Y的关系确定: X=是,则Y=是; X=否,则Y=否。
相关分析
• 任务:研究变量之间的不确定关系
普通相关分析
相关关系与确定性关系
• 确定性关系:两变量间的函数关系
圆的周长与半径的关系: C=2R 速度、时间与路程的关系:S=vt X与Y的函数关系: Y=a+bX
• 非确定性关系(相关关系):两变量在宏观 上存在关系,但并未精确到可以用函数关 系来表达。
青少年身高与年龄的关系; 年龄与血脂的关系;身高与体重的关系; 体重与体表面积的关系;
r0 (e)
零相关
r0 (g)
零相关
r=1 (b)
r=-1 (d)
r=0 (f)
r=0 (h)
• 相关分析在轨道交通中的应用:某区域的交通出 行量与一些指标密切相关,如:该区域的用地性 质、各用地性质的面积、户数、家庭收入水平、 距离市中心的距离、汽车保有量、使用各种出行 方式的出行时间及出行费用等等。问题:
• 操作 – 输入数据:其中“输入区域”让你输入数据区 域的单元格引用,它由两个或两个以上按“列” 或“行”排列的相邻数据区域组成, – “分组方式”用来确定输入区域中的数据如何 排列 – 它下面的“0.05”称为显著性水平,一般取默 认值0.05即可 – “输出区域”必须输入一个空白单元格引用, 用来确定计算结果存放区域左上角的位置
方差分析可以一次完成对多个总体的均 值是否相同的检验:
方差分析的分类
根据资料设计类型的不同,有以下两种方差分析的 :
1.单因素方差分析:只有一个变量(因素)。适用: 对成组设计的多个样本均数比较。
2. 双因素方差分析:问题中有两个变量A、B。
Eg1:不同药品的治疗效果,与病人的体质特征有关。 Eg2:不同营销方案的效果与产品的质量有关。
剔除了一个变量Z的影响后,两个变量X、Y之间的偏相关 系数
剔除了两个个变量Z1、Z2的影响后,两个变量X、Y之间 的偏相关系数
相关系数异于零的显 著性检验
• 显著性检验的必要性:由于我们通过抽样 的方法来研究变量的关系,当样本的相关 系数不为0时,并不能代表真正表明变量之 间是相关的,还需要通过显著性检验来判 别是否显著异于0。
判断,不成立,即各种处理是有区别的。
答案见excel3
EXCEL做方差分析
• 安装:点击“工具-加载宏”,选择加载“数 据分析”。若无法选择,则需装入office安 装盘,完整安装。 • 打开:点击“工具→数据分析”菜单命令, 在打开的对话框中选中“方差分析:单因素 方差分析”,“确定”之后打开同名对话框。