用SPSS作T检验、聚类分析和回归分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

作用:变换后的数据均值为 ,标准差为1, 作用:变换后的数据均值为0,标准差为 ,消去 了量纲的影响;当抽样样本改变时, 了量纲的影响;当抽样样本改变时,它仍能保 持相对稳定性。 持相对稳定性。
2. 构造关系矩阵 1) 描述变量或样本的亲疏程度的数量指标有两种: 描述变量或样本的亲疏程度的数量指标有两种: 相似系数——性质越接近的样品,相似系数越接近 性质越接近的样品, 相似系数 性质越接近的样品 于1或-1;彼此无关的样品相似系数则接近于 ,聚 或 ;彼此无关的样品相似系数则接近于0, 类时相似的样品聚为一类 距离——将每一个样品看作 维空间的一个点,在 将每一个样品看作m维空间的一个点 距离 将每一个样品看作 维空间的一个点, 维空间中定义距离, 这m维空间中定义距离,距离较近的点归为一类。 维空间中定义距离 距离较近的点归为一类。 相似系数与距离有40多种 多种, 相似系数与距离有 多种,但常用的只是少数 2) 在SPSS中如何选择测度 中如何选择测度: 中如何选择测度 →Analyze →Classify →Hierachical Cluster Analysis →Method 然后从对话框中进行如下选择
T = X − µ S n
0
关于µ的置信度为 置信区间 关于 的置信度为1-α置信区间为: 的置信度为 置信区间为
[X − s s t1 − α / 2 ( n − 1), X + t1 − α / 2 ( n − 1)] n n
P {| T |≤ t1 − α / 2 ( n − 1)} = 1 − α

相应的假设检验: 相应的假设检验: 假设检验 优良估计量: 优良估计量: 拒绝域: 拒绝域:
H0 : µ = µ0 H1 : µ ≠ µ0
T = X − µ0 S n
t > tα ( n − 1)
例1 某台天平没有系统误差但存在随机误差,随机误 某台天平没有系统误差但存在随机误差, 差服从正态分布。为估计一物件G1的重量 的重量µ 差服从正态分布。为估计一物件 的重量 ,将其 在这台天平上重复称了5次,得结果为(单位:克) 在这台天平上重复称了 次 得结果为(单位: 8.62,8.58,8.73,8.61,8.53 , , , , 取α=0.05,直接计算得 , x = 8.614, s = 0.0737, t0.025 = 2.7664 置信区间为: 置信区间为:
用 SPSS 作 T 检 验
统计的假设是先建立一种假设理论, 统计的假设是先建立一种假设理论,然后将此 假设理论 假设与实际观测数据相对照,若结果与理论不符, 观测数据相对照 假设与实际观测数据相对照,若结果与理论不符, 则放弃假设,否则认为假设正确( 则放弃假设,否则认为假设正确(至少说明无充分 证据表明假设错误)。 证据表明假设错误)。
R型是对变量进行分类处理,其作用在于: 型是对变量进行分类处理,其作用在于: 型是对变量进行分类处理 1. 可以了解变量间及变量组合间的亲疏关系 2. 可以根据变量的聚类结果及它们之间的关系, 可以根据变量的聚类结果及它们之间的关系, 选择主要变量进行回归分析或Q型聚类分析 选择主要变量进行回归分析或 型聚类分析
可得如下结果: 可得如下结果:
从结果可看出: 从结果可看出:表一是单样本 统计, 统计,表二是检验
表一中显示出: 均值(Mean)为8.614 表一中显示出: 均值 为 标准差(Std. Deviation) 为0.07369 标准差 标准误(Std. Error Mean)为0.03295 标准误 为
用SPSS作聚类分析 作聚类分析
一、聚类分析(Cluster Analysis)简介 聚类分析( ) 常言道: 物以类聚” 对事物分门别类进行研究, 常言道:“物以类聚”,对事物分门别类进行研究, 有利于我们做出正确的判断。日常生活中, 有利于我们做出正确的判断。日常生活中,我们不自觉 地用定性方法将人分为“好人” 坏人” 地用定性方法将人分为“好人”、“坏人”;按熟悉程 度分为“朋友” 熟人” 陌生人” 等等。 度分为“朋友”、“熟人”、“陌生人” 等等。 数理统计中的数值分类有两种问题: 数理统计中的数值分类有两种问题: • 判别分析:已知分类情况,将未知个体归入正确类别 判别分析:已知分类情况, • 聚类分析:分类情况未知,对数据结构进行分类 聚类分析:分类情况未知, 通过分类,有利于我们抓住重点, 通过分类,有利于我们抓住重点,从总体上去把握 事物,找出解决问题的方法。例如将股票进行分类, 事物,找出解决问题的方法。例如将股票进行分类, 可以为我们投资提供参考。 可以为我们投资提供参考。
从Measure框中点击 框中点击 Interval项的向下箭头, 项的向下箭头, 项的向下箭头 将出现如左可选项, 将出现如左可选项, 从中选一即可。 从中选一即可。
3) 常用测度(选项说明): 常用测度(选项说明): a) Euclidean distance:欧氏距离 : 二阶Minkowski距离) 距离) (二阶 距离
三、聚类过程与方法
聚类的主要过程一般可分为如下四个步骤: 聚类的主要过程一般可分为如下四个步骤: 1. 数据预处理(标准化) 数据预处理(标准化) 2. 构造关系矩阵(亲疏关系的描述) 构造关系矩阵(亲疏关系的描述) 3. 聚类(根据不同方法进行分类) 聚类(根据不同方法进行分类) 4. 确定最佳分类(类别数) 确定最佳分类(类别数) 以下我们结合实际例子分步进行讨论。 以下我们结合实际例子分步进行讨论。
d( x, y) = ( xi − yi )2 ∑
i
用途: 用途:聚类分析中用得最广泛的距离 但与各变量的量纲有关,未考虑指标间的相关性, 但与各变量的量纲有关,未考虑指标间的相关性, 也未考虑各变量方差的不同
b) Squared Eucidean distance:平方欧氏距离 :
d( x, y) = ∑( xi − yi )2
n
自由度(df)为4 (即样本数 为 即样本数 即样本数-1) 自由度
某种矿砂含镍量X~N(µ,σ2),测定 个样品的值 ,测定5个样品的值 例2 某种矿砂含镍量
(%)为: 为 3.25,3.27,3.24,3.26,3.24 , , , , 问在显著性水平α=0.01下,能否认为这批矿砂的 问在显著性水平 下 平均含镍量为3.25(%)? 平均含镍量为 ?
选单: 选单:Analyze→Compare Means→One Sample T Test 设置如左
结果如下
因为 Sig.(2-tailed)=.749>1% 接受假设H0: 接受假设 : µ=3.25 尝试: 尝试: 假设H0: 假设 : µ=3.2,结果会如何? ,结果会如何? 因为 Sig.(2-tailed)=0.001<1% 拒绝假设H0: 拒绝假设 : µ=3.2 思考: 思考: α=0.05 ,结果会如何? 结果会如何? 哪些会变,哪些不变? 哪些会变,哪些不变?
i
用途: 用途:聚类分析中用得最广泛的距离
c) Cosine:夹角余弦(相似性测度 :夹角余弦 相似性测度 相似性测度)
来自百度文库
σ2 X 这是样本均值的标准差,注意到: 这是样本均值的标准差,注意到: ~ N µ , n
0 .0 7 3 6 9 s = = 0 .0 3 2 9 5 n 5
当总体方差未知时,用样本方差来代替! 当总体方差未知时,用样本方差来代替!
表二中显示出:待检验 值 表二中显示出:待检验µ值(Test Value)为0 为 t=261.391 标准误* 标准误 t=8.61401 注意均值 =8.614 双侧检验概率值(Sig.(2-tailed)) 双侧检验概率值 X − µ0 T = 为0<5%,拒绝原假设 ,拒绝原假设(µ=0) S 平均差异(Mean Difference)为8.614 平均差异 为 置信度为95%的置信区间 的置信区间(95% Confidence Interval 置信度为 的置信区间 of the Difference): : 下界(Lower):8.5225 : 下界 上界(Upper):8.7055 : 上界
x11 L x1m X = M M M xn1 L xnm
xij − xj * xij = Sj 0
1 n xj = ∑xij n i=1
1 n Sj = ∑ xij − xj n − 1 i=1
(
)
2
b) Z Scores:标准化变换 :
若Sj ≠ 0 i = 1,2,L, n j = 1,2,L, m 若Sj = 0
聚类分析是直接比较各事物之间的性质,将性质相近的归为 聚类分析是直接比较各事物之间的性质, 一类,将性质差别较大的归入不同的类的分析技术。 一类,将性质差别较大的归入不同的类的分析技术。
二、聚类对象
要做聚类分析,首先得按照我们聚类的目的, 要做聚类分析,首先得按照我们聚类的目的,从对 象中提取出能表现这个目的的特征指标 提取出能表现这个目的的特征指标; 象中提取出能表现这个目的的特征指标;然后根据亲 疏程度进行分类。 疏程度进行分类。 聚类分析根据分类对象的不同可分为Q型和 型两大类 聚类分析根据分类对象的不同可分为 型和R型两大类 型和 Q型是对样本进行分类处理,其作用在于: 型是对样本进行分类处理,其作用在于 型是对样本进行分类处理 1. 能利用多个变量对样本进行分类 2. 分类结果直观,聚类谱系图能明确、清楚地表达 分类结果直观,聚类谱系图能明确、 其数值分类结果 3. 所得结果比传统的定性分类方法更细致、全面、 所得结果比传统的定性分类方法更细致、全面、 合理
从Transform Values框 框 中点击向下箭头, 中点击向下箭头,将 出现如下可选项, 出现如下可选项,从 中选一即可: 中选一即可:
3) 常用标准化方法(选项说明): 常用标准化方法(选项说明): a) None:不进行标准化,这是系统默认值 :不进行标准化,
为了便于后面的说明,作如下假设: 为了便于后面的说明,作如下假设: 均值表示为 所有样本表示为 标准差表示为
单一样本T检验与置信区间 单一样本 检验与置信区间
设总体X~N(µ,σ2),X1, X2, …, Xn是来自该总体的一 设总体 , 组样本,关于总体均值µ的区间估计与假设检验 的区间估计与假设检验, 组样本,关于总体均值 的区间估计与假设检验, 用到关于µ的优良估计量 小样本): 的优良估计量( 用到关于 的优良估计量(小样本):
年全国28个省 例、下表给出了1982年全国 个省、市、自治区农民 下表给出了 年全国 个省、 家庭收支情况,有六个指标, 家庭收支情况,有六个指标,是利用调查资料进行 聚类分析,为经济发展决策提供依据。 聚类分析,为经济发展决策提供依据。 (详见文件1982“农民生活消费聚类 详见文件 农民生活消费聚类.sav”) ) 农民生活消费聚类 1. 数据预处理(标准化) 数据预处理(标准化) 1) 为什么要做数据变换 →指标变量的量纲不同或数量级相差很大,为了使这 指标变量的量纲不同或数量级相差很大, 指标变量的量纲不同或数量级相差很大 些数据能放到一起加以比较,常需做变换。 些数据能放到一起加以比较,常需做变换。 2) 在SPSS中如何选择标准化方法 中如何选择标准化方法: 中如何选择标准化方法 →Analyze →Classify →Hierachical Cluster Analysis →Method 然后从对话框中进行如下选择
[8.5225, 8.7055]
下面我们用SPSS来求解 来求解 下面我们用
选择菜单: 选择菜单:Analyze→Compare Means→ One Sample T Test
Test Value取0(如 取 如 果要作检验, 果要作检验,则 取检验值) 取检验值 Confidence Inteval(置信度 置信度) 置信度 取95%
相关文档
最新文档