《统计分析方法及应用》PPT(第十二章)
合集下载
数据统计分析方法和应用PPT培训课件
药物筛选
利用数据统计分析对大量化合物进行筛选,找出 具有潜在药物活性的候选药物。
药物疗效评估
通过分析临床试验数据,评估药物的疗效和安全 性,加速新药的上市进程。
THANKS
感谢观看
方差分析
通过比较不同组数据的均值差异,判断这些差异是否显著。
方差分析是一种统计学方法,用于比较不同组数据的均值差异,并判断这些差异 是否具有显著性。这种方法常用于实验设计、质量控制、市场调研等领域,例如 比较不同产品在不同市场上的销售表现、分析不同因素对产品质量的影响等。
主成分分析
通过降维技术,将多个相关变量转化为少数几个不相关的综合指标。
数据统计分析方法和应用ppt 培训课件
汇报人:可编辑 2023-12-25
目录
• 引言 • 数据统计分析基础 • 常用数据统计分析方法 • 数据统计分析在实践中的应用
01
引言
数据统计分析的意义
揭示数据内在规律和 特征
提高数据处理和分析 效率
为决策提供科学依据
数据统计分析的应用领域
01
02
03
方差分析
在总体参数未知的情况下,通过样本数据 对某一假设进行检验,常用的方法有t检验 、卡方检验等。
比较不同组数据的差异,以确定各因素对 总体变异的影响程度。
统计决策理论
统计决策理论
根据不同的决策问题,选择合 适的统计方法进行数据处理和 分析,以得出最优的决策方案
。
贝叶斯决策理论
基于贝叶斯定理,通过先验概 率和似然函数计算后验概率, 从而做出最优的决策。
04
金融
风险评估、投资决策、市场预 测等
医疗
疾病诊断、疗效评估、流行病 学调查等
市场营销
利用数据统计分析对大量化合物进行筛选,找出 具有潜在药物活性的候选药物。
药物疗效评估
通过分析临床试验数据,评估药物的疗效和安全 性,加速新药的上市进程。
THANKS
感谢观看
方差分析
通过比较不同组数据的均值差异,判断这些差异是否显著。
方差分析是一种统计学方法,用于比较不同组数据的均值差异,并判断这些差异 是否具有显著性。这种方法常用于实验设计、质量控制、市场调研等领域,例如 比较不同产品在不同市场上的销售表现、分析不同因素对产品质量的影响等。
主成分分析
通过降维技术,将多个相关变量转化为少数几个不相关的综合指标。
数据统计分析方法和应用ppt 培训课件
汇报人:可编辑 2023-12-25
目录
• 引言 • 数据统计分析基础 • 常用数据统计分析方法 • 数据统计分析在实践中的应用
01
引言
数据统计分析的意义
揭示数据内在规律和 特征
提高数据处理和分析 效率
为决策提供科学依据
数据统计分析的应用领域
01
02
03
方差分析
在总体参数未知的情况下,通过样本数据 对某一假设进行检验,常用的方法有t检验 、卡方检验等。
比较不同组数据的差异,以确定各因素对 总体变异的影响程度。
统计决策理论
统计决策理论
根据不同的决策问题,选择合 适的统计方法进行数据处理和 分析,以得出最优的决策方案
。
贝叶斯决策理论
基于贝叶斯定理,通过先验概 率和似然函数计算后验概率, 从而做出最优的决策。
04
金融
风险评估、投资决策、市场预 测等
医疗
疾病诊断、疗效评估、流行病 学调查等
市场营销
第十二讲统计分析演示文稿
第十二讲统计分析演示文稿
(优选)第十二讲统计分析
资料的统计处理是指对收集到的问 卷资料加以整理、分类以及统计运 算,把庞大、复杂、零散的资料集 中简化,使资料变成易于理解和解 释的形式。
数据检查
问
编
录
卷
登
记
和
检
码
入
查
拟
统
定 统
计
计
运
分 析
算
计
划
问卷登记和检查
问卷的登记
按照地区或者访问员进行分类 记录内容包括:
各地区、各访问员交回的问卷数量、交 付时间、实发问卷数量、丢失问卷数量
问卷的检查
相当部分题目没有回答 答案记录模糊不清 不符合作答要求 调查对象不符合要求
பைடு நூலகம்
答案中存在前后矛盾或者明显错误 答案选择高度一致 缺损问卷
编码
编码即把原始资料转化为符号或者 数字的资料简化过程。 编码程序的复杂程度依资料形式而 定。 事前编码和事后编码
编码工作包括以下几个方面:
规定变量名称 规定各量表值
注意事项: ✓漏选或多选 ✓非问卷题目的有关问题 ✓多选题
✓开放式问题
编写编码簿
(优选)第十二讲统计分析
资料的统计处理是指对收集到的问 卷资料加以整理、分类以及统计运 算,把庞大、复杂、零散的资料集 中简化,使资料变成易于理解和解 释的形式。
数据检查
问
编
录
卷
登
记
和
检
码
入
查
拟
统
定 统
计
计
运
分 析
算
计
划
问卷登记和检查
问卷的登记
按照地区或者访问员进行分类 记录内容包括:
各地区、各访问员交回的问卷数量、交 付时间、实发问卷数量、丢失问卷数量
问卷的检查
相当部分题目没有回答 答案记录模糊不清 不符合作答要求 调查对象不符合要求
பைடு நூலகம்
答案中存在前后矛盾或者明显错误 答案选择高度一致 缺损问卷
编码
编码即把原始资料转化为符号或者 数字的资料简化过程。 编码程序的复杂程度依资料形式而 定。 事前编码和事后编码
编码工作包括以下几个方面:
规定变量名称 规定各量表值
注意事项: ✓漏选或多选 ✓非问卷题目的有关问题 ✓多选题
✓开放式问题
编写编码簿
统计分析PPT课件
x1,2p ˆ1exp(31-.00.5 19 6 17 12 )50.24,57 x2,4p ˆ0.6935
(1) 預估成功率: 有一年工作經驗者,估計有 24.6 % 機率完成,勝算 0.326 有二年工作經驗者,估計有 69.4 % 機率完成,勝算 2.262 (2) 可由係數估計勝算比, 勝算比 = exp(0.1615) = 1.175. 實值意義:工作經驗每增加一個月,完成工作之勝算是 原來的 1.175倍。
32
時間序列
長時間對某一現象觀察的資料記錄是為時 間序列
政府機關、公司機構保留的記錄,長期累 積下來是為一有研究價值的資料
未來經濟預測、營運的決策,或投資的選 擇通常靠分析時間序列資料
33
時間序列模式
時間序列的資料非獨立資料,相鄰兩筆資 料間互相影響,此稱之為自相關
通常時間序列資料的建模必須考慮自相關 以下的模式考慮前一時間的影響
或不就業 ➢ 金融機構研究影響個人信用狀況的因素
27
簡易邏輯迴歸模式
以某一變因(X) 預估事件發生的機率 資料的反應變數(Y)只有二種可能的結果, 通常以 y=1 表示發生 及 y=0 表示未發生。 定義:勝算 odds = 勝負機率之比 基本原理:假設 ln(勝算) 對 X 有線性關係
註:ln 是自然對數
(參考SAS統計軟體得到的報表) ➢結論是五種廣告效應有明顯的不同,
在統計上說“有顯著差異”(significant difference)
14
其它檢定之例
消基會檢測食品防腐劑是否超出標準: hypothesis 為不超出標準,在等於標準下計算 的 p-值,若 p-值<0.05,則認定食品防腐劑顯 然超出標準。
ln (od ) d Z s β 0 β 1 X
(1) 預估成功率: 有一年工作經驗者,估計有 24.6 % 機率完成,勝算 0.326 有二年工作經驗者,估計有 69.4 % 機率完成,勝算 2.262 (2) 可由係數估計勝算比, 勝算比 = exp(0.1615) = 1.175. 實值意義:工作經驗每增加一個月,完成工作之勝算是 原來的 1.175倍。
32
時間序列
長時間對某一現象觀察的資料記錄是為時 間序列
政府機關、公司機構保留的記錄,長期累 積下來是為一有研究價值的資料
未來經濟預測、營運的決策,或投資的選 擇通常靠分析時間序列資料
33
時間序列模式
時間序列的資料非獨立資料,相鄰兩筆資 料間互相影響,此稱之為自相關
通常時間序列資料的建模必須考慮自相關 以下的模式考慮前一時間的影響
或不就業 ➢ 金融機構研究影響個人信用狀況的因素
27
簡易邏輯迴歸模式
以某一變因(X) 預估事件發生的機率 資料的反應變數(Y)只有二種可能的結果, 通常以 y=1 表示發生 及 y=0 表示未發生。 定義:勝算 odds = 勝負機率之比 基本原理:假設 ln(勝算) 對 X 有線性關係
註:ln 是自然對數
(參考SAS統計軟體得到的報表) ➢結論是五種廣告效應有明顯的不同,
在統計上說“有顯著差異”(significant difference)
14
其它檢定之例
消基會檢測食品防腐劑是否超出標準: hypothesis 為不超出標準,在等於標準下計算 的 p-值,若 p-值<0.05,則認定食品防腐劑顯 然超出標準。
ln (od ) d Z s β 0 β 1 X
统计分析方法讲座PPT资料(正式版)
简洁新颖。 2、种类:总标题 单行式,双行式(惊人
--农民的人情债) 小标题 递进式(商品市场:78年
前短缺,79-84年恢复, 85年后买方,当务之急引 导消费); 并列式( :总量速度 增,结构调整,效益较 好)。
(七)直接开头
1、要求:简明扼要,直奔主题。 2、方法:概述全文内容;
提出基本观点; 说明写作目的。
谢谢!
单位:湖北省统计局综合处 魏尚平 :430071
谢谢观看
递进式,如现状、问题及 原因、建议。 横式 平等、平行 并列式, 如居民消费结构食穿用 住行;提高效益途径: 技术产品创新,抓质量, 降低成本费用。
明观点问题。有分组、动态、综合指数、 因素、相关、投入产出、图示等分析法。
种类:纵比 前后时间发展变化,如实际
灵活变通数字形式,如相对数
与计 呼应开头;
横比 空间范围、点与面对比,如 石化行业、山西利润大增。
提出基本观点; 2、类型:纵式 步步深入,按时间顺序
地 呼应开头;
结合改革发展形势,反映 ,配合 的中心工作。
统计改革发展的需要(检验数据);Biblioteka 好)。区、部门之间对比,构成、
比例
等。
注意可比性:价格、区划变动,形成背景,
(六)提炼标题 1、要求:直截了当,开门见山,宽窄合适,
统计改革发展的需要(检验数据); 个人素质提高的需要(能力与水平)。
二、怎样写统计分析
(一)明确概念 1、定义:用统计数据说话。通过对数据
分组、对比等反映特点及规律,或找问题, 原因,提出办法。
2、特点:以一定量的数为依据;以定量为 主,定量与定性相结合;运用特有方法,如 分组、对比、矩阵、综合指数、数量模型、 投入产出等。
--农民的人情债) 小标题 递进式(商品市场:78年
前短缺,79-84年恢复, 85年后买方,当务之急引 导消费); 并列式( :总量速度 增,结构调整,效益较 好)。
(七)直接开头
1、要求:简明扼要,直奔主题。 2、方法:概述全文内容;
提出基本观点; 说明写作目的。
谢谢!
单位:湖北省统计局综合处 魏尚平 :430071
谢谢观看
递进式,如现状、问题及 原因、建议。 横式 平等、平行 并列式, 如居民消费结构食穿用 住行;提高效益途径: 技术产品创新,抓质量, 降低成本费用。
明观点问题。有分组、动态、综合指数、 因素、相关、投入产出、图示等分析法。
种类:纵比 前后时间发展变化,如实际
灵活变通数字形式,如相对数
与计 呼应开头;
横比 空间范围、点与面对比,如 石化行业、山西利润大增。
提出基本观点; 2、类型:纵式 步步深入,按时间顺序
地 呼应开头;
结合改革发展形势,反映 ,配合 的中心工作。
统计改革发展的需要(检验数据);Biblioteka 好)。区、部门之间对比,构成、
比例
等。
注意可比性:价格、区划变动,形成背景,
(六)提炼标题 1、要求:直截了当,开门见山,宽窄合适,
统计改革发展的需要(检验数据); 个人素质提高的需要(能力与水平)。
二、怎样写统计分析
(一)明确概念 1、定义:用统计数据说话。通过对数据
分组、对比等反映特点及规律,或找问题, 原因,提出办法。
2、特点:以一定量的数为依据;以定量为 主,定量与定性相结合;运用特有方法,如 分组、对比、矩阵、综合指数、数量模型、 投入产出等。
统计分析方法应用PPT课件
1.一个因变量与两个及两个以上自变量之间的回归
2.描述因变量 y 如何依赖于自变量 x1 , x2 ,…, xp 和误差项 的方程称为多元线性回归模型
3.涉及 p 个自变量的多元线性回归模型可表示为
y 0 1 x 1 i2 x 2 ip x p i i
▪ b0 ,b1,b2 ,,bp是参数 ▪ 是被称为误差项的随机变量 ▪ y 是x1,,x2 , ,xp 的线性函数加上误差项 ▪ 说明了包含在y里面但不能被p个自变量的线性关系所
Statistics
第五部分 统计分析-1
------统计分析方法应用
Statistics
统计分析方法的类型
描述性统计分析 推断性统计分析
大量观察法 统计分组法 综合指标法 归纳推断法 统计模型法
常规统计分析方法 多元统计分析方法 其他统计分析方法
…… ……
分组分析 比较分析 因素分析 因子分析 判别分析 相关回归分析 方差分析 假设检验 ……
Statistics
内容安排
➢ 一 描述性统计分析
----综合指标分析
----统计分组
---分布特征描述
➢
---统计表 统计图
➢ 二 相关回归分析
➢ 三 动态分析方法
➢ 四 其他分析方法(多元统计分析、综合评价……)
Statistics
一、 描述性统计分析
Statistics
(一)综合指标分析
2001年 1020 220 220
2002年 912 -108 112
2003年 1100 188 300
2004年 1300 200 500
2005年 1450 150 650
环比发展速度% —— 127.50 89.41 120.61 118.18 111.54
2.描述因变量 y 如何依赖于自变量 x1 , x2 ,…, xp 和误差项 的方程称为多元线性回归模型
3.涉及 p 个自变量的多元线性回归模型可表示为
y 0 1 x 1 i2 x 2 ip x p i i
▪ b0 ,b1,b2 ,,bp是参数 ▪ 是被称为误差项的随机变量 ▪ y 是x1,,x2 , ,xp 的线性函数加上误差项 ▪ 说明了包含在y里面但不能被p个自变量的线性关系所
Statistics
第五部分 统计分析-1
------统计分析方法应用
Statistics
统计分析方法的类型
描述性统计分析 推断性统计分析
大量观察法 统计分组法 综合指标法 归纳推断法 统计模型法
常规统计分析方法 多元统计分析方法 其他统计分析方法
…… ……
分组分析 比较分析 因素分析 因子分析 判别分析 相关回归分析 方差分析 假设检验 ……
Statistics
内容安排
➢ 一 描述性统计分析
----综合指标分析
----统计分组
---分布特征描述
➢
---统计表 统计图
➢ 二 相关回归分析
➢ 三 动态分析方法
➢ 四 其他分析方法(多元统计分析、综合评价……)
Statistics
一、 描述性统计分析
Statistics
(一)综合指标分析
2001年 1020 220 220
2002年 912 -108 112
2003年 1100 188 300
2004年 1300 200 500
2005年 1450 150 650
环比发展速度% —— 127.50 89.41 120.61 118.18 111.54
数据统计分析方法和应用PPT含动画培训动画课件
电商行业数据应用
用户行为分析: 通过数据挖掘 用户需求,优 化产品设计和
营销策略
销售预测:利 用历史数据预 测未来销售趋 势,为库存管 理和采购计划
提供依据
价格优化:通 过数据分析确 定最佳定价策 略,提高销售
额和利润率
营销效果评估: 分析营销活动 对销售和用户 行为的影响, 为营销策略调
整提供依据
添加 标题
注重团队建设和培训:数据分析团队需要具备 高度的凝聚力和协作精神,因此需要注重团队 建设和培训,包括团队文化、团队精神、技能 培训等,以便提高团队的整体素质和效率。
制定合理的工作计划:数据分析项目通常需要 耗费大量的时间和精力,因此需要制定合理的 工作计划,包括时间表、任务分配、进度安排 等,以便团队成员能够有序地开展工作。
互动与讨论:鼓励听众提问和讨论,共同探 讨案例分析的思路和方法
05
数据驱动决策在实 际工作中的应用
利用数据进行决策的优势
提高决策准确性:数据驱动的决策基于客观事实和数据,能够减少主观臆断和错误决策的风险。
增强决策透明度:数据驱动的决策过程更加透明,能够让团队成员了解决策背后的原因和依据。
促进团队协作:通过数据共享和分析,团队成员能够更好地理解业务目标和决策背景,从而提 高团队协作效率。
Python在统计分析中的应用案例:数据清洗、描述性统计、假设检验、回归分析等
04
统计分析报告的撰 写与汇报技巧
统计分析报告的结构设计
引言:简要介绍报告的目的、背景 和内容概述
数据来源与处理:说明数据的来源、 收集和处理方法
统计分析方法:详细描述所使用的 统计方法、原理和计算过程
结果呈现:以图表、表格等形式展 示分析结果
实用统计分析方法与应用PPT课件
常用抽样方法
1. 简单随机抽样 2. 类型抽样 3. 整群抽样 4. 等距抽样 5. 阶段抽样
24
第24页/共42页
• 简单随机样本样本必须具有的性质
代表性——即样本( X1, X 2, , X n )的每个分量 X i 与总体 X 具有相同的概率分布。
独立性——即每次抽样的结果既不影响其余各次抽样的结果,也不受其它各次抽 样结果的影响。
数学期望又可以称为期望值(Expected Value), 均值(Mean)
15
第15页/共42页
• 方差的引入
设有两个楼盘,其各户型总价取值规律如下:
总价 (万元)
40
50
60
占比 1/4 1/2 1/4
总价 (万元) 20 30 50 70 80
占比 1/8 1/8 1/2 1/8 1/8
E( X1 )=50 E( X2 )=50
7
第7页/共42页
• 随机变量的数学特征
分布:分布是形容数据的一类集体形态的特征,分布列或分布函数代表了 数据出现在不同位置拥有的不同概率。
离散型随机变量的分布列:表现出每一个随机变量取值及出现的概率
例: 某楼盘当期开盘的户型总价分布列
价格 占比
A1(70万) A2(88万) A3(108万)
25%
31
第31页/共42页
显著性水平
22
2
Z 2
置信度 1
0
置信度
置信度,也叫置信水平。它是指特定个 体对待特定命题真实性相信的程度.也 就是概率是对个人信念合理性的量度. 概率的置信度解释表明,事件本身并没 有什么概率,事件之所以指派有概率只 是指派概率的人头脑中所具有的信念 证据。置信水平是指总体参数值落在 样本统计值某一区内的概率;而置信 区间是指在某一置信水平下,样本统 计值与总体参数值间误差范围。置信 区间越大,置信水平越高。
数据统计分析方法和应用PPT培训课件
数据统计分析方法
02
描述性统计分析
描述数据的集中趋势
描述数据的分布形态
使用平均数、中位数和众数等统计量 来描述数据的中心趋势。
通过直方图、箱线图等图形来描述数 据的分布形态。
描述数据的离散程度
使用方差和标准差等统计量来描述数 据的离散程度。
推理性统计分析
01
02
03
参数估计
使用点估计和区间估计等 方法来估计总体参数的取 值范围。
SPSS在数据统计分析中的应用
统计分析
SPSS提供了多种统计分析方法, 如描述性统计、推论性统计、非 参数检验等,可以满足用户对不
同类型数据的需求。
数据管理
SPSS的数据管理功能强大,支持 多种数据导入导出格式,方便用
户对数据进行整理和清洗。
结果输出
SPSS的结果输出方式多样,可以 生成详细的统计分析报告,也可 以将结果导出到其他软件中进行
加密和安全存储
采用加密技术对数据进行加密, 并将数据存储在安全可靠的环境 中,防止未经授权的访问和篡改 。
数据来源的合法性和公正性
合法获取数据
确保数据的获取和使用符合相关法律 法规的要求,不得侵犯他人的合法权 益。
公正使用数据
在数据分析过程中,应避免歧视和偏 见,确保数据的公正使用,不损害任 何特定群体的利益。
数据整理
01
对收集到的数据进行整理和分类,为后续分析做准备。
数据分析
02
运用统计分析方法,如因子分析、聚类分析等,深入了解客户
的需求和期望。
结果应用
03
根据分析结果,改进产品或服务质量、提升客户体验和忠诚度
。
数据统计分析的伦
05
数据统计分析方法和应用PPT培训课件
意义
通过数据统计分析,可以更加客 观、准确地认识和理解研究对象 ,为决策制定、学术研究、商业 分析等领域提供有力支持。
数据统计分析的常用方法
பைடு நூலகம்
描述性统计
对数据进行整理、概括 和可视化,以描述数据 的基本特征和分布规律
。
推论性统计
通过样本数据推断总体 特征,包括参数估计和
假设检验等方法。
多元统计分析
研究多个变量之间的关 系,如回归分析、聚类 分析、主成分分析等。
利用数据可视化技术跟踪和分析疫情 传播、医疗资源分配等情况,为政府 决策提供科学依据。
大数据分析与挖掘
05
大数据分析的基本概念
大数据定义
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是 需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和 多样化的信息资产。
离散程度度量
计算数据的方差、标准差和极差 等,以描述数据的离散程度。
分布形态度量
通过偏态系数和峰态系数等,描 述数据分布的形态特点。
推论性统计分析
03
假设检验的基本原理
原假设与备择假设
阐述假设检验中原假设与备择 假设的概念及其设立原则。
检验统计量与拒绝域
介绍检验统计量的选择及拒绝 域的确定方法。
时间序列分析
研究时间序列数据的特 征和趋势,如移动平均
、指数平滑等方法。
数据统计分析的应用领域
01
02
03
04
商业分析
通过数据分析揭示市场趋势、 消费者行为和企业运营规律,
为商业决策提供支持。
学术研究
运用统计分析方法对研究数据 进行处理和分析,验证假设并
通过数据统计分析,可以更加客 观、准确地认识和理解研究对象 ,为决策制定、学术研究、商业 分析等领域提供有力支持。
数据统计分析的常用方法
பைடு நூலகம்
描述性统计
对数据进行整理、概括 和可视化,以描述数据 的基本特征和分布规律
。
推论性统计
通过样本数据推断总体 特征,包括参数估计和
假设检验等方法。
多元统计分析
研究多个变量之间的关 系,如回归分析、聚类 分析、主成分分析等。
利用数据可视化技术跟踪和分析疫情 传播、医疗资源分配等情况,为政府 决策提供科学依据。
大数据分析与挖掘
05
大数据分析的基本概念
大数据定义
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是 需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和 多样化的信息资产。
离散程度度量
计算数据的方差、标准差和极差 等,以描述数据的离散程度。
分布形态度量
通过偏态系数和峰态系数等,描 述数据分布的形态特点。
推论性统计分析
03
假设检验的基本原理
原假设与备择假设
阐述假设检验中原假设与备择 假设的概念及其设立原则。
检验统计量与拒绝域
介绍检验统计量的选择及拒绝 域的确定方法。
时间序列分析
研究时间序列数据的特 征和趋势,如移动平均
、指数平滑等方法。
数据统计分析的应用领域
01
02
03
04
商业分析
通过数据分析揭示市场趋势、 消费者行为和企业运营规律,
为商业决策提供支持。
学术研究
运用统计分析方法对研究数据 进行处理和分析,验证假设并
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
行轮廓矩阵
r1 r 1 2 R Dr P rp p11 p1 p21 p2 p p1 p p p12 p1 p22 p2 pp2 p p p1q p1 p2 q p2 p pq p p
i 1
其中U=(u1,u2,⋯,uk),V=(v1,v2,⋯,vk),Λ=diag(λ1,λ2,⋯, λk) ,这里u1,u2,⋯,uk是一组p维正交单位向量, v1,v2,⋯,vk是一组q维正交单位向量,即有,λ1,λ2,⋯,λk 12 , 22 ,, k2 是 ZZ 的正特 是Z的k个奇异值。于是, 征值。因此 2 p q pij pi p j tr ZZ k 2 总惯量= i pi p j i 1 j 1 i 1 2=45.594>21.026= 2 12 , 0.05 例12.2.1 例12.1.1中,χ 故拒绝心理健康状况与社会经济状况相互独立的原 假设(p=8.15×10-6)。
r P1 p1 , p2 , , p p 其中 1 1,1,,1 是元素均为1的q维向量,最后一行 用 c表示,即 c 1 P p1 , p2 ,, pq 其中 1 1,1,,1是元素均为1的p维向量,向量r和c
的元素有时称为行和列密度(masses)。
列轮廓矩阵为
0.239 0.371 C PDc1 0.221 0.170
两个马赛克图
对心理健康的每一种状况,A、B、C、D、E五个小 方块的宽度显示了行轮廓,0、1、2、3四种心理健 康状况的小方块高度显示了行密度。
对社会经济的每一种状况,0、1、2、3四个小方块 的高度显示了列轮廓,A、B、C、D、E五种社会经 济状况的小方块宽度显示了列密度。
第十二章 对应分析
§12.1
行轮廓和列轮廓 §12.2 独立性的检验和总惯量 §12.3 行、列轮廓的坐标 §12.4 对应分析图
§12.1 行轮廓和列轮廓
一、列联表 二、对应矩阵 三、行、列轮廓
表9.1.1
p×q列联表
一、列联表
表12.1.1
列 行 1 2 ⋮ p 合 计 1 n11 n21 ⋮ np1 n∙1
第j列轮廓:
p1 j p2 j n1 j n2 j p pj n pj cj , , , , , , p p n n p j j j n j j j 其各元素之和等于1,即1c j 1, j 1, 2,, q 。
第十二章 对应分析
对应分析(correspondence analysis)是用于寻求列联表的行 和列之间联系的一种低维图形表示法,它可以从直觉上揭示 出同一分类变量的各个类别之间的差异,以及不同分类变量 各个类别之间的对应关系。 对应分析是由法国人Benzecri于1970年提出的,起初在法国 和日本最为流行,然后引入美国。 在对应分析中,列联表的每一行对应(通常是二维)图中的 一点,每一列也对应同一图中的一点。本质上,这些点都是 列联表的各行各列向一个二维欧式空间的投影,这种投影最 大限度地保持了各行(或各列)之间的关系。
总惯量的分解
对 P rc 构造标准化矩阵 Z Dr1 2 P rc Dc1 2 其元素为 pij pi p j zij pi p j
记k=rank(Z),有k≤min(p-1,q-1),因为 P rc 1 P1 rc1 r r 0 对Z进行奇异值分解,得 k Z UΛV i ui vi
q q
q
p1q p2q ppq p∙q
合 计
p1∙ p2∙ pp∙ 1
p
这里,pij
p i 1
nij n
, pi pij
j 1 j 1
nij n
, p j pij
i 1 i 1
p
nij n
。
显然有 pi p j 1。
j 1
q
称 P pij nij n 为对应矩阵。将对应矩阵表中的 最后一列用r表示,即
二、总惯量
总惯量
2
n
i 1 j 1
p
q
p
ij
pi p j pi p j
2
总惯量还可以行轮廓和列轮廓的形式表达如下:
总惯量 pi
i 1 j 1 p q
p
ij
pi p j p j
2
pi ri c Dc1 ri c
三、行、列轮廓
第i行轮廓(profile):
piq ni1 ni 2 niq pi1 pi 2 ri , ,, , , , pi ni ni ni pi pi 其各元素之和等于1,即 ri1 1, i 1, 2,, p 。
n j=1,2,⋯,q ; i nij 为第i行的频数之和,i=1,2,⋯,p;
p
j 1
n ni n j nij 为所有类别组合的频数总和。
二、对应矩阵
表12.1.2
列 行 1 2 p 合 计
对应矩阵
1
p1∙2
心理健康状况
0(好) 1(轻微症状形成)
2(中等症状形成)
3(受损)
112
86
65
60
77
94
54
78
54
71
将表12.1.3中的数据除以n,得到对应矩阵,列于表 12.1.4中。表12.1.4给出的行密度和列密度向量为
0.185 0.363 , c 0.305,0.173,0.231,0.160,0.131 r 0.218 0.234
其中 Dc diag p1 , p2 ,, pq 。
可见, r可以表示成各列轮廓的加权平均。类似地,
c 1 P 1 Dr D P piri
1 r p i 1
p1 p q 1 2 r P 1 PDc Dc 1 c1 , c2 ,, cq p j c j j 1 pq
即 c可以表示成各行轮廓的加权平均。
例12.1.1
将由n=1660个人组成的样本按心理健康状况与社会 经济状况进行交叉分类,分类结果见表12.1.3。
心理健康状况-社会经济状况数据
社会经济状况 A(高) 121 188 B 57 105 C 72 141 D 36 97 E(低) 21 71
表12.1.3
从表12.1.3算得的对应矩阵
合 计 0.185 0.363 0.218 0.234 1.000
行轮廓矩阵为
0.394 0.312 R Dr1 P 0.309 0.221 0.186 0.235 0.117 0.068 0.174 0.234 0.161 0.118 0.180 0.213 0.149 0.149 0.154 0.242 0.201 0.183 0.199 0.188 0.136 0.097 0.366 0.367 0.366 0.327 0.226 0.201 0.204 0.249 0.209 0.245 0.294 0.327
总惯量为零的等价情形
总惯量为零与以下三种情形的任一种等价: (1) pij pi p j , i 1, 2,, p, j 1, 2,, q ,或表示 为 P rc; (2)所有的行轮廓相等,即 r1 r2 rp c; (3)所有的列轮廓相等,即 c1 c2 cq r。 所以,如果行变量与列变量相互独立,则我们可以 期望(由样本数据构成的)列联表中所有的行有相 近的轮廓,所有的列亦有相近的轮廓。
45.594 总惯量 0.0275 n 1660
2
§12.3 行、列轮廓的坐标
D
1 2 r
Dc1 2 Z UΛV P rc
k i 1
1 1 P rc Dr 2UΛV Dc 2 AΛB i ai bi
其中 1 1 A a1 , a2 ,, ak Dr 2U , B b1 , b2 ,, bk Dc 2V
q
2
称为第i行轮廓ri到行轮廓中心c的卡方(χ2)距离, 它可看作是一个加权的平方欧氏距离。同样,
c
j
r D
1 r
c
j
r
p i 1
p
ij
p j pi pi
2
是第j列轮廓cj到列轮廓中心r的卡方距离。故总惯量 可看成是行轮廓到其中心的卡方距离的加权平均, 也可看成是列轮廓到其中心的卡方距离的加权平均。 它既度量了行轮廓之间的总变差,也度量了列轮廓 之间的总变差。
其中Dr diag p1 , p2 ,, p p 。
列轮廓矩阵
1 C PDc c1 , c2 , , cq p11 p1 p21 p1 p p1 p1 p12 p2 p22 p2 pp2 p2 p1q pq p2 q pq p pq pq
表12.1.4
社会经济状况 心理健康状况 0(好) 1(轻微症状形成) 2(中等症状形成) 3(受损) 合 计 A(高) 0.073 0.113 0.067 0.052 0.305 B 0.034 0.063 0.039 0.036 0.173 C 0.043 0.085 0.046 0.057 0.231 D 0.022 0.058 0.033 0.047 0.160 E(低) 0.013 0.043 0.033 0.043 0.131