三 常用的统计分析方法
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
表明判定系数等于回归平方和在总平方和中所占的比率,体现了回 归模型所解释的因变量变异的百分比。如果R2 =0.775,说明变异中又 77.5%是由变量x引起的。 R2 =1表明因变量与自变量为函数关系。 R2 =0,表示自变量与因变量无线性关系。 (3)方差分析
回归均方 F 残差均方
ˆ) ( y y
-0.50
0.00
0.50
1.00
1.50
X
Coefficientsa Unstandardized Coefficients B Std. Error .433 .229 2.146 .388 Standardized Coefficients Beta .810
Model 1
(Constant) X
的铂族元素矿化特征,请用逐步回归分析方法,求出Pt含量与其它元 素的回归方程。
Cu 109 84 134 43 382 2316 154 295 233 203 142 113 147 6088 290 61 43 350 210 Ni 200 54 93 33 969 2964 873 1857 980 1029 332 200 900 9922 298 37 14 121 52 单位:ppm S 50 20 20 40 640 40 3540 50 110 40 20 8190 1400 41200 130 70 80 800 1150 FeOT 11.07 11.43 9.08 10.7 11.42 12.05 10.97 11.42 11.69 10.93 10.79 10.7 10.79 16.28 12.06 11.15 10.44 15.21 12.05 MgO 10.83 9.43 6.86 7.84 20 13.91 19.61 16.94 20.98 16.86 11.07 11.37 24.8 24.2 9.32 7.44 7.92 5.48 4.59 单位:% H2O+ 3.3 7.52 6.74 7.14 6.17 8.4 5.48 8.3 7.78 7.45 7.4 0.68 5.12 4.58 4.72 4.86 2.58 1.48 1.85 CO2 0.58 0.21 4.09 0.13 4.3 5.97 5.44 5.91 1.34 5.8 4.01 0.24 0.45 0.27 0.22 0.2 0.21 0.54 1.02 Au 1.39 2.59 1.27 0.38 12.9 18.4 6.54 4.55 4.67 5.95 1.71 1.73 4.68 179 1.02 0.83 0.51 4.24 3.66 Ag 57 146 265 72 239 463 80 538 128 259 110 85 105 2336 64 55 37 154 149 Pd 7 7.32 9.86 0.43 105 73 13.7 32.9 47.3 28.2 7.51 6.06 5.83 162 1.28 2.26 6.47 9.33 13.54 Pt 20.4 54.9 24.5 10 139 97.1 44.9 57.8 62.9 40 70.5 310 73.6 512 136 25.8 133 86.8 266
T0 n(n - 2)/2
;
T1 t i (t i 1) / 2
; T2 ui (ui 1) / 2
ti(或ui)是x(或y)的第i 组结点x(或y)值的数目,n为观测量数。
*如果数据不满足正态分布的条件,应使用Spearman和Kendall相关分析方法
多元线性回归的概念
1 多元回归分析的模型
ˆ b0 b1 x1 b2 x2 bn xn y
ˆ ) /(n k 1) (y y R =1- y y /n 1
2 2 2
2 多元线性回归分析中的统计指标
(1)校正R2判定系数的公式
Adjusted
0.3 0.54
0.3 0
0.3 -0.03
3.5 3 2.5 2 1.5 1 0.5 0 -0.5 0 0.5 1 1.5
由图可见,它们之间呈 现线性关系 Y=a+bX 若用
则实测值Y与Yi间,就会有误差: 最小二乘法原理:误差平方和达到最小的回归直线是最好的。
3.00
2.00
Y
1.00 0.00
ˆ y) / p (y
2
2
/(n p 1)
一元线性回归各种残差与预测值关系示意图
以预测值为横轴,测定值与预测值之间的误差(残差)为纵轴,绘制残差的散点图
(a)
(b)
(c)
(d)
(e)
(f)
(g)
例:在某铂矿氧化带的探槽中,采集 了18个样品,分析其中铂与砷含量, 其结果见表
1
2
当然,也可以通过Data菜单中 的Select Case过程来选择记 录,两者功能是等价的。
输出统计量对话框
Estimates:可输出回归系 数及其标准误,t值、p值, 还有标准化回归系数Beta; Confidence intervals:输 出每个回归系数的95%的 可信区间; Covariance Matrix:输出 各个自变量的相关矩阵和 方差、协方差矩阵。
常用的统计分析方法
一 回归分析
研究变量(指标)之间关系的一种统计方法,也就是要建立一个变量和另一个变 量(或几个变量)之间的数学表达式。
一元线性回归
1 一元线性回归方程
ˆ a bx 最优线性回归方程: y
常用的方法是最小二乘法,也就是使直线与各点的纵向距离最小,即使实测 ˆ 之差的平方和 值y与 y ˆ ) 2 达到最小,因此,求回归方程问题,归 ( y y 根结底就是求 ( y y ˆ ) 2 最小时a和b的问题。A称为截距,b为回归直线的斜率, 它们又称为回归系数。 2 一元回归方程的检验 (1)回归系数的显著性检验
t 1.888 5.527
Sig . .077 .000
a. Dependent Variable: Y
回归方程:Y=0.433+2.146X
二 (可以是随机变量,也可以 是确定性变量)的依赖关系的一种统计分折方法。虽然回归分析 与相关分析之间有微小的区别,人们常常把它们统称为回归分析 或相关分析。 回归分析主要解决以下几方面的问题: (1)建立回归方程 =b0+b1X1+b2X2+…+bpXp (2)讨论回归方程中各自变量的作用,或者说检验 每个自变量对回归的贡献大小。 (3)最优回归方程的选择。 (4)对因变量y的预测或控制。
标准化系数 T值 系数β -3.945 .985 8.152 -10.707 .657 -.370 168.357 -94.847 . .671 -.356 -.007 . . . .059 .015 .059 .004 .007 . . . . P值
独立变量 WO3 统计分析得线性回归方程: y = -49.217+95.709X2-4.732X7
二 相 关 分 析
Correlations
相关分析的概念与相关分析过程
基本概念:
相关系数是描述线性相关关系强弱程度和方向的统计量。
1 正态分布的等间隔测度的变量X和y间相关系数
rxy
( x x )( y y )
i 1 i i
n
Pearson积矩相关
(x x) ( y y)
S 分别是Ri和Si的平均值。
基本概念:
Kendall’s tau-b :
τ
sgn(x
i j
i
x j ) sgn( y i y j )
(T0 T1 )(T0 T2 )
其中
1 sgn( z ) 0 1
if z 0 if z 0 if z 0
Enter:强行进入法,候 选自变量全部纳入模型, 不作任何筛选。 Stepwise:逐步法 Remove:强制剔除法 Backward:向后法 Forward:向前法
WLS Weight:加权最 小二乘法的回归分析
设定运算规则对话框
选入一个筛选变量,并利用右 侧的Rules钮建立一个选择条 件,这样,满足该条件的记录 才会进入回归分析。
对斜率检验的假设是,总体回归系数b=0。检验该假设的t值计算公式是: t
b SEb
对截距检验的假设是,总体回归方程截距a=0。检验该假设的t值计算公式是:
t a SEa
在两公式中,SEb是回归系数的标准误。SEa是截距的标准误。
一元线性回归
(2)R2判定系数
2 ˆ ( y y ) i R2 2 ( yi y )
Model fit:模型拟和过程中进入、退出的变量的列表,以及有关拟和优度 的检验。
选择对话框
Use probability of F 采用F检验的概率值作为判据, 图中为系统默认值。档一个 变量的Sig值≤Entry值时, 该变量被引入回归方程,当 Sig值≥Removal值时,该变 量从回归方程剔除。 注意:Entry值要小于 Removal值,且必须大于0
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
Y X
1.5 9 0.4
1.69 0.78
1.81 0.54
1.89 0.54
1.49 0.54
1.89 0.65
3.13 1.04
2.31 1
2.66 0.7
0.85 0.3
2.28 0.6
1.15 0
2.22 0.78
0.3 0
0.78 0.54
其中k为自变量的个数,n为观测量数目 (2)Zero-Order (3)Part Correlation (4) Partial Correlation
偏回归系数和常数项的t检验的公式
t 偏回归系数 偏回归系数的标准误
t
常数项 常数项的标准误
回归菜单
线性回归主对话框
Dependent:因变量 Independent:自变量
单位:ppb
回归系数 未标准化系数 模型 系数b 1 常数 S 2 常数 S H2O+
自变量: Pt 线性回归方程: y=0.010X1-16.154X2+168.944
标准化系数 T值 P值 .000 .000 .000 .000 .014 系数β 4.768 .840 6.387 4.793 .783 -.313 6.885 -2.752
未标准化系数 模型 系数b 1 常数 Mo 2 常数 Mo Nb 3 常数 Mo Nb Bi -868.604 143.534 -94.217 95.709 -4.732 -118.485 97.681 -4.554 -.075 Std. Error 220.153 17.608 8.800 .568 .050 .000 .000 .000 .000
Std. Error 16.839 .002 35.250 .002 5.871
80.294 .011 168.944 .010 -16.154
例:某钨矿床矿石定量分析结果及WO3预报值
X1 Sn 1 2 3 4 35 35 21 32.8 X2 Mo 16 12 8 12.7 X3 Bi 140 48 117 65.5 X4 Cu 74 51 45 56.4 X5 Pb 59 46 48 50.6 X6 Zn 70 81 55 73.3 X7 Nb 16 20 96 30.4 X8 Ga 20 23 39 24.5 Y WO3 1361 959 217 978.7 预测 WO3 1361.402 959.635 217.106 977.410
2 i 1 i i 1 i
n
n
2
2 数据分布不满足正态分布的条件
Spearman相关系数
θ
( Ri R )(S i S ) (R
R
i
R ) 2 (S i S ) 2
是Pearson相关系数的 非参数形式,是根据数 据的秩而不是根据实际 值计算的
式中Ri是第i个x值的秩,Si是第i个y值的秩。
简单散点图对话框图
散点图示例
$80,000
$60,000
Beginning Salary
$40,000
$20,000
$0
$0
$20,000
$40,000
$60,000
$80,000
$100,000 $120,000 $140,000
Current Salary
例: 四川某铂族元素矿区,该矿区内的基性、超基性岩浆岩具有明显