第五章探索性数据分析——【数据挖掘与统计应用】
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
单因素方差分析
单因素方差的检验统计量是F统计量
R函数的基本书写格式为: aov(观测变量域名~控制变量域名,data=数据框名) anova(方差分析结果对象名)
• 示例:
各总体均值的可视化
直观展示控制变量不同水平下观测变量总体均值的取值 状况,可绘制各总体均值变化的折线图以及各总体均值 的置信区间图
(y
y
)
2
/
n
首都经济贸易大学 统计学院
spearman相关系数
首都经济贸易大学 统计学院
Kendll-τ相关系数
首都经济贸易大学 统计学院
计算简单相关系数
示例:
简单相关系数的检验
简单相关系数的检验
相关系数检验的R函数是cor.test,基本书写格式为:
cor.test(数值型向量1, 数值型向量2,alternative=检验方 向,method="pearson")
需对是否满足前提假设进行检验
总体正态性检验
可通过以下两种方式判断控制变量不同水平下观测变量 总体是否服从正态分布 第一,绘制Q-Q图
R绘制关于正态分布的Q-Q图的函数为qqnorm,基本书写格 式为: qqnorm(数值型向量名)
进一步,若希望在Q-Q图上添加基准线,需调用qqline函数, 基本书写格式为: qqline(数值型向量名,distribution = qnorm)
两分类型变量相关性的分析主要包括两个方面: 第一,相关性的描述 第二,相关性的检验
两分类型变量相关性的描述
两分类型变量相关性描述的工具是编制列联表。列联表 中一般包括两分类型变量类别值交叉分组下的观测频数, 表各行列的频数合计(边际频数),各频数占所在行列 合计的百分比(边际百分比)以及占总合计的百分比 (总百分比)等
第一控制变量不同水平下观测变量的总体分布为正态分布第二控制变量不同水平下观测变量的总体具有相同的方差基于这个假设方差分析最终的研究即为分析控制变量不同水平下观测变量的总体均值是否存在显著差异可用于多个独立样本的均值检验方差分析有多个控制变量时的方差分析称为多因素方差分析单因素方差分析单因素方差分析用来研究一个控制变量的不同水平是否对观测变量产生了显著影响
总体正态性检验
• 绘制Q-Q图示例:
总体正态性检验
可通过以下两种方式判断控制变量不同水平下观测变量 总体是否服从正态分布 第二,柯尔莫哥和斯米诺夫(Kolmogorov-Smirnov)检验 简称K-S检验,可通过样本数据推断样本来自的总体 是否服从某一理论分布 K-S检验是一种拟合优度的检验方法,也适用于探索 单个连续型随机变量的分布(单样本K-S检验),属 于非参数统计的范畴
协方差认为观测变量的变动既受到控制变量的作用,也受到协变 量以及其他随机因素的影响。同时,除需满足方差分析的两个前 提假设(正态性和等方差)外,还要求控制变量各水平下,协变 量与观测变量的线性关系一致且无明显差异
单因素协方差分析
单因素协方差分析的R函数基本书写格式为:
aov(观测变量域名~协变量域名+控制变量域名,data=数据框名)
gplots包中plotmeans函数,的基本书写形式为: plotmeans(观测变量域名~控制变量域名,data=数据框 名,p=置信水平,use.t=TRUE,maxbar=上限最大 值,minbar=下限最小值)
各总体均值的可视化
示例:
检验单因素方差分析的前提假设
单因素方差分析有两个前提假设: 第一,控制变量不同水平下观测变量总体服从正态分 布 第二,控制变量不同水平下观测变量总体方差齐性
LSD(Least Significant Difference)检验,称为最小显著性差异法检验,特点:水 平间观测变量的均值存在较小程度的差异就可能被检验出来
原假设为:第i个总体和第j个总体的均值无显著差异 检验统计量为t统计量。第i个总体和第j个总体均值对比检验的t统
计量定义为:
LSD(Least Significant Difference)检验的R函数:aov
示例:
计算偏相关系数
偏相关系数是在控制了其他数值型变量(这些变量称为 控制变量)的条件下,计算两数值型变量间的相关系数, 从而消除其他变量对相关系数值的影响
偏相关系数计算的函数在corpcor 包中基本书写格式为: cor2pcor(相关系数矩阵名)
计算偏相关系数
• 示例:
两分类型变量相关性的分析
示例:
多重比较检验
• 单因素方差分析的基本分析只能判断控制变量是否对观测变量产 生了显著影响。如果控制变量确实对观测变量产生了显著影响, 进一步还应确定:控制变量的不同水平对观测变量的影响程度如 何,其中哪个水平的作用明显区别于其他水平,哪个水平的作用 不显著,等等。对此可通过多重比较检验
多重比较检验的LSD检验
样本相关系数
经典的统计方法是使用样本相关系数度量变量之间关系的强度。 • pearson相关系数 • Spearman秩相关系数 • Kendll-τ相关系数 • 偏相关系数
首都经济贸易大学 统计学院
pearson相关系数
r
2 xy
x y
(x x)(y y) / n
(x x)2 / n
声音提取:“鸡尾酒会”的问题
声音提取:“鸡尾酒会”的问题
麦克风1 麦克风2 麦克风3
ICA模型
A
混合矩阵
W
分离矩阵或解混矩阵
ICA的假设
A
混合矩阵
分离矩阵或解混矩阵
为了确保上边刚刚给出的基本的ICA模型能被估计,我们必须要做 出一定的假设和约束。
• 独立成分被假定是统计独立的; • 独立成分具有非高斯的分布; • 假定混合矩阵是方阵;
基于这个假设,方差分析最终的研究即为分析控制变量 不同水平下观测变量的总体均值是否存在显著差异,可 用于多个独立样本的均值检验
方差分析
只有一个控制变量时的方差分析称为单因素方差分析 有多个控制变量时的方差分析称为多因素方差分析
单因素方差分析
单因素方差分析用来研究一个控制变量的不同水平是否对观测变 量产生了显著影响。这里,由于仅研究单个因素对观测变量的影 响,因此称为单因素方差分析
独立成分被假定是独立的
独立成分具有非高斯的分布
如果观测到的变量具有高斯分布,那么ICA在本质上是不可能实现的。 原因:因为独立成分联合分布是高斯的,那么他们的联合概率密度为:
P(s1,s2) =1/2π*exp[-(s12+s22)/2] = 1/2π*exp(-||s||2/2)
• Exploratory data analysis简称EDA • 由John Tukey 于1961年定义为: " Procedures for analyzing data,
techniques for interpreting the results of such procedures, ways of planning the gathering of data to make its analysis easier, more precise or more accurate, and all the machinery and results of (mathematical) statistics which apply to analyzing data." • “分析数据的过程,解释此类过程结果的技术,收集数据以使分 析更容易、更精确、更准确需要设计的方法,和所有适用于分析 数据的机械的和 (数学)统计的结果。”
示例:
多因素方差分析
多因素方差分析用于研究多个控制变量的不同水平是否 对观测变量产生了显著影响
在多因素方差分析中,观测变量的取值变动受到三个方 面的影响:第一,控制变量独立作用的影响;第二,控 制变量交互效应的影响;第三,随机因素的影响。基于 这个原则,两因素方差分析将观测变量的总变差分解为 (以两因素为例) : SST=SSA+SSB+SSAB+SSE
单因素方差分析的原假设为:
单因素方差分析
单因素方差分析认为:观测变量值的变动受到控制变量 和随机变量两方面的影响.可将观测变量总的离差平方和 分解为组间离差平方和(Between Groups)与组内离差 平方和两部分:SST=SSA+SSE
SST(Sum Square of Total)为观测变量的离差平方和;SSA (Sum Square of factor A)为组间差离差平方和,是控制变量 的不同水平造成的变差;SSE(Sum Square of Error)为组内离 差平方和,是抽样误差引起的变差
两数值型变量相关性的分析
• 两个数值型变量的相关性,这里主要指线性相关性。一方面,可 通过简单相关系数刻画样本所体现的相关性。相关系数大于零表 示有正的线性相关性,小于零表示有负的线性相关性,等于零表 示没有线性相关性。相关系数的绝对值越大,线性相关性越强; 另一方面,可通过相关系数检验对样本来自总体的相关性进行检 验
示例:
方差分析
方差分析用于分析一个数值型变量和一个或多个分类型 变量是否相关 数值型变量称为观测变量,分类型变量称为控制变量 (或因素),分类型变量的类别值称为控制变量的水 平
方差分析的研究对象是来自控制变量不同水平下各观测 变量总体的两组或多组独立的随机样本
方差分析
方差分析有两个重要的前提假设: 第一,控制变量不同水平下观测变量的总体分布为正 态分布 第二,控制变量不同水平下观测变量的总体具有相同 的方差
aov函数仅给出了控制变量第二个水平及后续水平下的观测变量 均值,与控制变量第一个水平下的观测变量均值的差, 即t统计量 的分子部分。结果组织在名为coefficients的成分中
示例:
单因素协方差分析
协方差分析将那些数值型影响因素作为协变量,并在排除协变量 对观测变量影响的条件下,分析可控的分类型控制变量对观测变 量的作用
多因素方差分析
• 两因素方差分析的三个检验统计量:
多因素方差分析
多因素方差分析的R函数为aov,基本书写格式为: aov(R公式,data=数据框名)
常见的R公式有如下示例: y~A+B y~A+B+A:B y~A*B*C y~(A+B+C)^2 y~.
多因素方差分析
• 示例
探索性数据分析
总体正态性检验
单个样本来自的总体是否服从正态分布的K-S检验的R函 数是ks.test,基本书写格式为: ks.test(数值型向量名, "pnorm")
示例:
各总体方差齐性检验
各总体方差齐性检验:仍采用两独立样本t检验中的levene’s方差 同质性检验方法,对各总体方差是否齐性进行检验
• 1 统计描述基础理论知识 集中趋势描述 离散趋势描述 正态分布
• 2 统计描述分析实例 summary()函数分析实例 sapply()函数分析实例 describe()函数分析实例 stat.desc()函数分析实例 分组计算描述性统计量 对数正态分布资料的统计
分类型单变量的统计描述
• 分类型单变量描述的目标是编制频数分布表。频数分布表一般包 括频数和百分比,用于展示单个分类型变量的分布特征 编制频数分布表的函数是table函数,基本书写格式为: table(向量名)
编制列联表的函数基本书写格式为: table(矩阵或数据框的列号) xtabs(R公式,data=数据框名)
两分类型变量相关性的描述
• 示例
两分类型变量相关性的描述
• 进一步计算
两分类型变量相关性的检验
卡方检验的R函数和示例
卡方检验的R函数是chisq.test,基本书写形式为:
chisq.test(列联表对象,correct=TRUE/FALSE)
主要内容
• 独立成分分析 (Independent Component Analysis) • 投影寻踪 (Projection Pursuit) • 遗传算法(Genetic Algorithm)
独立成分分析 (Independent Component Analysis)
• ICA是20世纪90年代提出的,起初是神经网络的研究中有一个重要 的问题,独立成分分析是一个解决问题的新方法。在许多应用方 面,包括特征识别、信号分离。这种方法是用一种解线性方程组 的方式的估计方式求解信号源。
第五章 探索性数据分析
探索性数据分析
• 数值型单变量的统计描述 • 分类型单变量的统计描述
数值型单变量的统计描述
数值型单变量描述的目标是选用恰当的描述统计量,测度和刻画变 量分布的集中水平、离中趋势、分布形态的对称性及陡峭程度。常 用的描述统计量包括:反映集中水平特征的均值、众位数等;反映 离中趋势特征的四分位差、方差、标准差等;反映分布形态对称性 的偏态系数;反映分布形态陡峭程度的峰度系数