数据分析与Stata软件应用-第5章
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
5 数据内部关联结构分析与Stata实现
• 5. predict命令 • predict命令可以用于预测变量、拟合值和残差,
利用predict命令也可以完成因子得分的计算。 predict命令的基本语法为:
. predict [type] stub*| newvarlist [if] [in] [, statistic options]
5 数据内部关联结构分析与Stata实现
• ⑶cluster dendrogram命令 • cluster dendrogram命令主要用于将聚类分析的结果生
成树状图。cluster dendrogram命令的常用基本语法为: . cluster dendrogram clname, labels(name) horizontal • 其中clname为聚类分析产生的结果,该命令表示针对 clname绘制树状图。labels(name)对生成的树状图命名, 名字为name。horizontal表示生成水平状的树状图, 默认为垂直状的。
• 5.1.1 系统聚类分析与Stata实现
• 系统聚类分析是根据观察变量之间的亲疏程度, 将最相似的对象结合在一起,以逐次聚合的方式 将观察个案(即样本)分类,直到最后所有观察 个案(样本)都聚成一类。
• Stata根据变量数据类型的不同,分别提供了相似 性(即相关系数)和不相似性(即距离)两种方 式测度样本间亲疏程度。
5 数据内部关联结构分析与Stata实现
• 命令格式1:通过变量直接进行因子分析。 . factor varlist [if] [in] [weight] [, method options]
i 1
i1
E(xi )
E( yi )
• ② (Phi-square)统计量
PHISQ(x, y)
k
k
(xi E(xi )2
( yi E( yi ))2
i 1
i1
E(xi )
E( yi )
n
5 数据内部关联结构分析与Stata实现
• 2.类间亲疏程度测量方法 • ⑴最近邻元素法 • 以当前某个样本与已经形成小类中的各样本距离的最
5 数据内部关联结构分析与Stata实现
• 2.迭代原理和过程 • 快速聚类分析基本原理和迭代步骤如下: • (1)首先需要用户指定聚类成多少类(比如k类)。 • (2)然后Stata确定k个类的初始类中心点。 • (3)计算所有样本数据点到k个类中心点的欧氏距离。 • (4)Stata重新确定k个类的中心点。 • (5)重复(3)(4)两步计算过程,直到达到指定
5 数据内部关联结构分析与Stata实现
• ⑶公共因子提取 • 确定公共因子个数m的方法主要有: • ①根据特征值的大小确定,一般取大于1的特征
值的个数作为m的数值; • ②根据因子的累计方差贡献率来确定。
5 数据内部关联结构分析与Stata实现
• 3.因子变量的命名解释 • 通过旋转因子载荷矩阵,使得因子载荷的数值向0或1
5 数据内部关联结构分析与Stata实现
• ⑵clustermat命令 • clustermat命令使用之前要求首先生成距离矩阵,
生成距离矩阵的基本命令为:
. matrix dissimilarity matname= [varlist] [if] [in] [,matrix_options]
• dissimilarity表示依据样本之间的不相似性(距离) 作为分类的依据,matname表示生成的距离矩阵 的名称,[varlist]指明需要保存哪些变量的所有观 测个案的距离。
COSINE(x,y)
k
xi2 yi2
i 1
k
k
( xi2 )( yi2 )
i 1
i 1
5 数据内部关联结构分析与Stata实现
• ⑶定序或定性变量的样本亲疏程度测量方法 • ① (Chi-square)统计量
CHISQ(x,y)
k
k
(xi E(xi ))2
( yi E( yi ))2
解释性; • (4)计算因子变量的得分。
5 数据内部关联结构分析与Stata实现
• 5.2.1 因子分析基本步骤 • 1.适用条件 • 初始变量之间要具有比较强的相关关系。 • Stata在因子分析过程中还提供了几种检验方法来
判断变量是否适合做因子分析,主要的统计检验 方法有如下几种。
5 数据内部关联结构分析与Stata实现
分化,以便于快速识别到公共因子主要反映的初始变 量的综合含义。 • 4.因子得分的计算 • 样本数九在不同公共因子变量上的具体数据值就是因 子得分,它和原变量的得分相对应。估计因子得分的 方法有回归法、巴特利特法、安德森-鲁宾法等。
5 数据内部关联结构分析与Stata实现
• 5.2.2 Stata基本命令 • 1.estat命令 • estat命令用于判断初始变量数据是否适合于做因子分析,
的迭代次数或终止迭代的判断要求为止。
5 数据内部关联结构分析与Stata实现
• 3.Stata基本命令 • 快速聚类中类初始中心点的指定方法不同,形成了k
均值聚类和k中位数聚类两种方法。 • k均值聚类方法的基本命令为:
. cluster kmeans [varlist] [if] [in] , k(#) [options]
• 2. 因子变量的构建 • 因子分析中有多种构建因子变量的方法,如基于
主成分模型的主成分分析法和基于因子分析模型 的主轴因子法、极大似然法、最小二乘法等。其 中,基于主成分模型的主成分分析法是使用最多 的因子变量构建方法之一。
5 数据内部关联结构分析与Stata实现
• 以主成分分析方法为因子变量构建方法进行分析。 • ⑴数据标准化 • ⑵因子载荷矩阵构建 • ①因子载荷 • ②变量共同度 • ③公共因子 的方差贡献
• ⑴KMO统计量检验
rij2
KMO
i j
rij2 pij2
i j
i j
• ⑵巴特利特球形度检验
• 巴特利特球形度检验统计量较大,相伴概率值小于用
户设定的显著性水平,那么应该拒绝原假设,认为相 关系数矩阵不可能是单位矩阵,即适合于做因子分析
• ⑶反映像相关矩阵检验
5 数据内部关联结构分析与Stata实现
本语法如下: . loadingplot [, loading_options]
5 数据内部关联结构分析与Stata实现
• 4. rotate命令 • rotate命令用于完成因子载荷矩阵的正交旋转或斜
交旋转。 • rotate命令的基本语法如下:
. rotate [, rotate_options]
5 数据内部关联结构分析与Stata实现
• linkage是系统聚类中类间距离测度方法, varlist是 系统聚类分析中需要用到的变量名称。
• 系统聚类分析中,除了形成聚类分析结果文件, 还可绘制树状聚类图,具体命令可采用如下形式: . cluster singlelinkage x1 x2 x3, name(cls) . cluster dendrogram cls, xlabel
5 数据内部关联结构分析与Stata实现
• 1.样本间亲疏程度测量方法
• ⑴连续变量的样本不相似性测度方法
• ①欧氏距离
k
EUCLID (xi yi )2
i 1
• ②欧氏距离平方
k
SEUCLID (xi yi )2
i 1
• ③切比雪夫距离
CHEBYSHEV (x,y) max xi yi
数据内部关联结构分析与Stata实现
5 数据内部关联结构分析与Stata实现 样本的关联结构分析—聚类分析 变量的关联结构分析—因子分析
数据内部关联结构与Stata实现
数据内部关联结构分析与Stata实现
样本的关联结构分析 —聚类分析
变量的关联结构分析 —因子分析
系
快
因因因
统
速
适子子子
聚
聚
用变变得
小值作为当前样本与该小类之间的距离。 • ⑵最远邻元素法 • 以当前某个样本与已经形成小类中的各样本距离的最
大值作为当前样本与该小类之间的距离。 • ⑶组间链接法 • 两个小类之间的距离为两个小类内所有样本间的平均
距离。
5 数据内部关联结构分析与Stata实现
• ⑷组内链接法 • 对所有样本对的距离求平均值,包括小类之间的样本对、
• ④块距离 • ⑤闵可夫斯基距离
k
BLOCK (x, y) xi yi
i 1
k
MINKOWSKI (x, y) p xi yi p i 1
5 数据内部关联结构分析与Stata实现
• ⑵连续变量的样本相似性测度方法
• 连续变量亲疏程度的度量,有皮尔逊相关系数、 余弦相似度(COSINE)等。
5 数据内部关联结构分析与Stata实现
• 3.scoreplot、loadingplot 命令 • 这两个命令都用来绘制散点图。 • scoreplot用于绘制不同因子得分的散点图,基本语法:
.scoreplot [, scoreplot_options] • loadingplot 命令用于绘制不同因子载荷的散点图,基
• 其中stub*| newvarlist为需要计算因子变量得分的 变量。
5 数据内部关联结构分析与Stata实现
• 6. factor和factormat命令
• 前述各项命令是因子分析中用于中间计算结果的 展示和调整命令。Stata中用于因子分析的主命令 有两种形式,一是通过变量直接进行因子分析, 为factor命令。二是通过矩阵进行主成分分析,为 factormat命令。
• 3. Stata基本命令 • Stata中聚类分析可以采用两种命令方式完成:一种是
利用cluster命令通过数据直接进行系统聚类分析,另 一种是利用clustermat命令通过分析距离矩阵来进行 系统聚类分析。 • ⑴cluster命令 • cluster命令的基本语法为:
. cluster linkage varlist [if] [in] [,cluster_options]
因子分析进行之后,可通过estat命令显示估计的数值与矩 阵变量的统计量。 • 2. screeplot命令 • screeplot命令用来绘制碎石图。screeplot命令基本语法: . screeplot [eigenvals] [, options] • 其中,eigenvals为用户保存的特征向量,
之间的联系,以较少的几个因子反映原资料的大 部分信息的统计方法。
• 因子分析有两个核心问题:一是如何构建因子变 量;二是如何对因子变量进行命名解释。
5 数据内部关联结构分析与Stata实现
• 因子分析有下面4个基本步骤: • (1)确定因子分析的适用条件; • (2)构造因子变量; • (3)因子变量命名,以便使得因子变量更具有可
5 数据内部关联结构分析与Stata实现
• 5.1.2 快速聚类分析与Stata实现 • 1.适用条件 • 快速聚类分析是由用户指定类别数的大样本数据
的逐步聚类分析。它先对数据进行初始分类,然 后逐步调整,得到最终分类。
• 在快速聚类分析中,用户可以自己指定初始的类 中心点。如果用户的经验比较丰富,则可以指定 比较合理的初始类中心点。
类
类
条量量分
分
分
件构命计
析
析
造名算
5 数据内部关联结构分析与Stata实现
• 5.1样本的关联结构分析—聚类分析 • 聚类分析的实质是建立一种分类,它能够在没有
先验知识的情况下将一批样本数据按照它们性质 上的亲疏程度自动进行分类,通过分类反映样本 之间的关联结构。
5 数据内部关联结构分析与Stata实现
小类内的样本对。 • ⑸质心聚类法 • 将两小类间的距离定义成两小类重心(质心)间的距离。
每一小类的重心(质心)就是该类中所有样本在各个变量 上的均值代表点。 • ⑹瓦尔德法 • 是小类合并的方法,在聚类过程中,使小类内各个样本的 欧氏距离总平方和增加最小的两小类合并成一类。
5 数据内部关联结构分析与Stata实现
• k中位数聚类方法的基本命令为:
. cluster kmedians [varlist] [if] [in] , k(#) [options]
• 其中,varlist表示聚类分析过程中需要使用的变量, k(#)表示指定的聚类的类别数,#为类别数
5 数据内部关联结构分析与Stata实现
• 5.2变量的关联结构分析—因子分析 • 因子分析就是用少量因子来描述许多指标或因素