属性数据分析资料
优酷视频用户基本属性分析.
重度网民:每次浏览优酷120分钟以上的人 中度网民:每次浏览优酷61-120分钟的人 轻度网民:每次浏览优酷15-60分钟的人
Source : 尼尔森中国 Mar. 2009
优酷用户浏览时段分析
优酷网民的平均浏览时间从6:00开始攀升并趋于稳定,晚高峰在19:00-22:00。
Source : 尼尔森中国 Mar. 2009
50%
40% 30% 20% 10% 0% Source : 尼尔森中国 Mar. 2009
71.9
博客 BBS论坛 口述/口头转发
优酷用户上传视频习惯分析
29.1%的优酷网民上传过视频。
优酷网民的上传视频情况
100% 90% 80% 70% 60% 50% 40% 70.9 否 是
30%
100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0%
信用卡持有数量
1 37.7
2
62.3 3 16.5 5.9 5.4 4.2
30.3
5
4
6张及以上
37.7
是 否
Source : 尼尔森中国 Mar. 2009
优酷用户DV持有分析
71%的优酷网民拥有DV。
优酷网民DV持有情况
4
3.3 3.0 2.9
27 2.9
2.8
25
23
2.3
22
20 10
0
2.8 2.5 2.4 2.2
21
3 20 19 2.1 18 18 15 14
2.2
2.1
10 1.7
2.0
2.0
8 1.6
2
1.9
1.9
属性数据与空间数据
属性数据与空间数据一、引言属性数据和空间数据是地理信息系统(GIS)中的两个重要概念。
属性数据是指描述地理实体特征的非空间信息,例如地名、人口、气候等。
空间数据则是指地理实体的地理位置和空间关系。
本文将详细介绍属性数据和空间数据的定义、特点以及在GIS中的应用。
二、属性数据1. 定义属性数据是指描述地理实体特征的非空间信息。
它可以是定量数据(如人口数量、温度)或者定性数据(如土地利用类型、地物分类)。
属性数据通常以表格的形式存储,每一行代表一个地理实体,每一列代表一个属性。
2. 特点(1)非空间信息:属性数据与地理位置无关,仅用于描述地理实体的特征。
(2)可测量性:属性数据可以通过测量或者统计得到具体的数值。
(3)多样性:属性数据可以包含各种类型的信息,如人口、经济、环境等。
3. 应用(1)数据分析:属性数据可以通过统计分析、空间分析等方法,揭示地理实体之间的关系和规律。
(2)决策支持:属性数据可以为决策者提供相关信息,匡助其做出合理的决策。
(3)可视化展示:属性数据可以通过图表、统计图等形式进行可视化展示,使数据更易理解和传达。
三、空间数据1. 定义空间数据是指地理实体的地理位置和空间关系。
它可以是点、线、面等几何要素,也可以是栅格数据。
空间数据通常以矢量或者栅格的形式存储。
2. 特点(1)地理位置信息:空间数据包含地理实体的地理位置信息,可以通过坐标系统进行表示。
(2)空间关系:空间数据可以描述地理实体之间的相对位置和空间关系,如邻近、包含等。
(3)拓扑关系:空间数据可以描述地理实体之间的拓扑关系,如相交、相切等。
3. 应用(1)地图制作:空间数据是地图的基础,可以通过地图展示地理实体的分布和空间关系。
(2)空间分析:空间数据可以通过空间分析方法,揭示地理实体之间的空间关系和模式。
(3)路径规划:空间数据可以用于路径规划、导航等应用,匡助用户找到最佳路径。
四、属性数据与空间数据的关系属性数据和空间数据是地理信息系统中密切相关的两个概念。
第九章 属性(分类)数据分析[最新]
SAS软件与统计Байду номын сангаас用教程
STAT
9.1.1 属性数据分析与列联表
1. 属性变量与属性数据分析
从变量的测量水平来看分为两类:连续变量和属性 (Categorical) 变量,属性变量又可分为有序的 (Ordinal) 和无序的变量。 对属性数据进行分析,将达到以下几方面的目的: 1) 产生汇总分类数据——列联表; 2) 检验属性变量间的独立性(无关联性); 3) 计算属性变量间的关联性统计量; 4) 对高维数据进行分层分析和建模。
SAS软件与统计应用教程
表9-1 关于改革方案的调查结果(单位:人)
一分公司 二分公司 三分公司 四分公司 合计
STAT
赞成该方案
反对该方案 合计
68
32 100
75
45 120
57
33 90
79
31 110
279
141 420
表中的行 (row) 是态度变量,这里划分为两类:赞成改 革方案或反对改革方案;表中的列 (column)是单位变量, 这里划分为四类,即四个分公司。表 9-1 所示的列联表 称为24表。
SAS软件与统计应用教程
STAT
第九章 属性(分类)数据分析
9.1 属性数据及其分析
9.2 SAS中的属性数据分析
SAS软件与统计应用教程
STAT
9.1
属性数据及其分析
9.1.1 属性数据分析与列联表
9.1.2 属性变量关联性分析
9.1.3 属性变量关联度计算
9.1.4 有序变量关联性分析
SAS软件与统计应用教程
STAT
3. V系数
属性数据与空间数据
属性数据与空间数据一、引言属性数据和空间数据是地理信息系统(GIS)中两个重要的数据类型。
属性数据是描述地理现象的非空间特征的数据,如人口数量、土地用途等。
空间数据是描述地理现象的空间位置和形状的数据,如地图、卫星影像等。
本文将详细介绍属性数据和空间数据的定义、特征、获取方式以及在GIS中的应用。
二、属性数据1. 定义属性数据是指描述地理现象的非空间特征的数据,通常以表格形式存储,每一行代表一个地理实体,每一列代表一个属性。
属性数据可以是定量或者定性的,如人口数量、土地所有权等。
2. 特征属性数据具有以下特征:- 可测量性:属性数据可以通过数值进行度量,如人口数量、面积等。
- 可分类性:属性数据可以根据特定的标准进行分类,如土地用途、行政区划等。
- 可变性:属性数据可以随时间和空间变化,如人口数量的增减、土地用途的变化等。
3. 获取方式属性数据可以通过以下方式获取:- 实地调查:通过实地走访、问卷调查等方式采集数据。
- 统计数据:利用已有的统计数据,如人口普查、经济统计等。
- 数据挖掘:通过对大数据进行分析和挖掘,获取隐藏的属性数据。
4. 在GIS中的应用属性数据在GIS中有广泛的应用,包括:- 空间分析:通过属性数据的空间分布,进行统计和分析,如人口密度分析、土地利用变化分析等。
- 决策支持:利用属性数据的特征,辅助决策制定,如城市规划、环境保护等。
- 可视化展示:将属性数据与空间数据结合,制作地图、图表等可视化展示方式。
三、空间数据1. 定义空间数据是指描述地理现象的空间位置和形状的数据,通常以地图、卫星影像等形式存在。
空间数据可以是点、线、面等不同的几何对象。
2. 特征空间数据具有以下特征:- 空间关系:空间数据可以描述地理实体之间的位置关系,如相交、包含等。
- 空间属性:空间数据可以携带属性数据,如地图上的标注、卫星影像上的像素值等。
- 空间分析:通过空间数据的分析,可以得出地理现象的空间模式和规律。
优酷视频用户基本属性分析
30% 20% 10%
0%
11
9 8 4 中国网民
Source : 尼尔森中国 Mar. 2009
中国网民与优酷网民年龄分布对比
12
12
29
29
24
17 12 4 2 优酷全网民
24
17 12 4 2 优酷男网民
10
29
25
17 12 4 3 优酷女网民
不到18 岁 18-24 岁 25-30 岁 31-35 岁 36-40 岁 41-50 岁 50岁以上
1
37.7
2
30.3
3
16.5
5
5.9
50%
4
24.8 22.5
租房 (单独 ) 租房 (合租 ) 买房 (分期付款 ) 买房 (一次付清 )
50%
13
40%
30%
20%
39.7
优酷网民房产持有量
1套
2套
24.2
3套 4.5
67.1
10%
3套以上 4.2
0%
Source : 尼尔森中国 Mar. 2009
优酷用户车辆持有分析
17% 的优酷网民已经购车,持有 2辆以上的占到 2.8% 。
27
16 11 10 4 22 优酷网民
企事业单位工作人员 学生 其他 企事业单位管理者 自由职业 党政机关一般公务员 党政机关干部 无业
优酷用户收入分析
优酷网民收入整体水平偏高,低收入人群低于整体网民 10多个百分点;优酷网 民家庭收入在 3000 元以上的占到总比例 67% 。
中国网民与优酷网民个人收入对比
女男
52
48
50
51
年龄分布对比
多元统计分析第十章 属性数据的统计分析
第10章 属性数据的统计分析10.1列联表的独立性分析10.1.1实例列联表通常是用来描述两个及两个以上变量在各自不同的取值(或属性)组合水平上的观测频数数据,它常与定性变量相联系。
通过对列联表的分析,可以了解这些变量之间的依赖关系。
例10.1 在一个有三个主要大型商场的商贸中心,调查479个不同年龄阶段的人首先去三个商场中的哪一个,结果如表10-1所示。
表10-1 商场调查数据那么通过对这个数据列表的分析,我们希望知道顾客对首先选择去什么样的商场与顾客的年龄段是否有关。
可以看到,表中只有两个变量,这样的列联表称为二维列联表。
例10.2 下表给出了一个假设的某大学毕业生的专业M (文科、理工科),性别G 及毕业后工作的收入I (高、低)为变量的三维列联表,结果如表10-2所示。
表10-2 大学毕业生调查牙刷则根据这样的含有三个变量(专业、性别和收入)的列联表,我们可以观察这些变量之间的关系,这样的列联表称为三维列联表。
10.1.2 定性变量与列联表对定性变量的观测,一般是对它们在不同水平组合上的频数的记录,这里我们将定性变量所描述的不同状态称为该定性变量的水平。
我们用C B A ,,表示定性变量,用k j i C B A ,,表示相应的水平。
假设有n 个随机实验的结果按照两个变量A 和B 分类,A 取值为r A A A ,,21,B 取值为s B B B ,,21,将变量A 和B 的各种情况的组合用一张s r 列联表表示,称s r 列联表,如表8-3所示。
其中ij n 表示A 取i A 及B 取j B 的频数。
r i sj ijn n11,其中:表示各行之和,,2,1,1.r i n n sj ij iri i sj j ri ij j n n n s j n n 1.1.1...,,,2,1,表示各列之和表10-3 变量频数表体表,但这样通常用起来不方便,所以一般是采用象例10.2的方式把三维列联表给出。
属性(定性)数据分析_SPSS应用方法(第二部分)
根据亲近程度进行聚类有多种方法,最常 用的是系统聚类法(Hierachical Clustering Method)和动态聚类法(K-means Method) 系统聚类法根据对象间的距离将对象逐步 归并而获得聚类图(谱系图Dendrogram) 动态聚类法在选定种子后将对象逐个归并 到种子所在的类。它适用于大量对象的分 类 。要求预定类的个数
不同的定义可能得出不同的结果!
3
聚类分析
系统聚类法
聚类分析
系统聚类法
对 变 量 也 可 进 行 聚 类
聚类分析
动态聚类法
聚类分析
动态聚类法
动态聚类法要求预先确定分类的个数 动态聚类法根据分类的个数先为每个类选 定一个种子作为类的初始中心 将每个对象归入最靠近的中心所在的类 (基于欧式距离) 调整每个类的中心 重新将每个对象归入最靠近中心所在的类 调整每个类的中心重复上述过程直至中心 稳定为止
自变量(X)
广义线性模型
10
聚类分析
基本概念
第六章:聚类分析
聚类分析是按照对象(观测或变量)取值 的相似程度,将对象(观测或变量)分为 无公共元素的类,使在同一类内的对 象有较强的相似性,不同类间的对象 其相似性较类内对象间的相似性低
聚类过程可对观测或变量进行 对象间的相似性可以由对象间的距离或相 关性决定 无需特定的统计模型假设
5
方差分析
多重比较
方差分析
多重比较
方差分析中,称形如i j 的参数组合为一个 “比较”(comparison) 若因素A共有k 个水平,共有k(k-1)/2 个比较 当接受H0: 1= . . . = k时,意味着所有的比较 都为0,而当拒绝H0 时意味着至少存在一对i j 或i j 0。H0是个复合假设 在拒绝原假设的同时,希望进一步检验哪些 比较不为0,这样的检验统称为“多重比较”
属性分析(1)_计算机软件及应用_IT计算机_专业资料
1.造成交通事故的原始数据为:驾驶错误察觉得晚察觉得晚判断失误驾驶错误察觉得晚判断失误察觉得晚判断失误察觉得晚判断失误酒后或疲劳驾驶察觉得晚判断失误察觉得晚驾驶错误判断失误驾驶错误察觉得晚判断失误酒后或疲劳驾驶察觉得晚察觉得晚察觉得晚察觉得晚察觉得晚偏离规定行使路线判断失误驾驶错误察觉得晚判断失误判断失误判断失误察觉得晚驾驶错误察觉得晚察觉得晚驾驶错误察觉得晚判断失误判断失误驾驶错误驾驶错误判断失误驾驶错误驾驶错误酒后或疲劳驾驶察觉得晚察觉得晚察觉得晚(1)这些是属性数据还是定量数据?答:属性数据(2)给出这些数据的频数分布和频率(%)分布;表1-1 频数与频率分布(3)答:察觉得晚(5)怎样描述这些数据的中心位置和离散程度?求出相应的代表性的数值。
答:可以用众数和中位数来描述中心位置,从中可以看出察觉得晚是事故起因的众数出现的最多,离散程度可以用GS指数和熵表示。
GS指数=1-(0.42^2+0.22^2+0.06^2+0.28^2+0.02^2)=0.692熵=-(0.42*ln0.42+0.22*ln0.22+0.06*ln0.06+0.28*ln0.28+0.02*ln0.02)=1.302.某学院综合质量评价为:很差、差、一般、好、很好答:属性数据(2)给出汇总数据的频数分布和频率(%)分布;(3)(4)以你的汇总数据为基础,解释学生对课程的综合评估。
答:由汇总数据可知,学生对课程的综合评估为好和很好的,占总数的70%,所以,我们有理由认为学生对课程的综合评价较高。
3.一个糖果制造商观察到硬糖外层发生的各种问题频数如下表:问题频数外层不够486两个粘在一起43被压扁295外层太多84破裂12(1)把问题按频数从大到小的次序排列,建立一个表格说明各种问题的糖果频数、在所有有问题的糖果数中的百分比和累计百分比;(2)图3-1 排列图(3) 利用受影响的糖果数说明什么是最重要的问题?这个问题所设涉及的糖果所占的百分比是多少?答:最重要的问题是外层不够,所占百分比为53%(4) 什么是次重要的问题?它占的百分比是多少?答:次重要问题为两个粘在一起,占32%(5) 有这两个重要问题的糖果在具有缺陷的糖果中占的百分比是多少?答:最重要的两个问题所占百分比为85%。
属性分析报告
属性分析报告1. 引言属性分析是一种将样本数据中的各种属性进行深入研究和分析的方法。
通过属性分析,我们可以发现不同属性之间的关联性,从而更好地了解数据的特点和规律。
本报告将对属性分析的概念、方法和应用进行详细介绍,并以实例进行说明。
2. 属性分析概述属性分析是数据分析的重要组成部分,它对于理解数据的特点和规律具有至关重要的作用。
属性分析主要通过以下几个步骤进行:1.收集数据:首先,需要收集样本数据,确保数据的真实性和完整性。
2.数据清洗:对收集到的数据进行清洗,包括去除重复值、处理缺失值、处理异常值等。
3.属性选取:根据分析的目的,选择相应的属性进行分析。
4.属性关联性分析:通过统计方法、数据挖掘等技术手段,分析不同属性之间的关联性。
5.结果呈现:将分析结果以可视化的方式展示出来,以便更好地理解数据的特点和规律。
3. 属性分析方法属性分析可以采用多种方法进行,根据不同的数据类型和分析目的,选择相应的方法进行分析。
常用的属性分析方法包括:1.描述性统计分析:描述性统计分析是对数据进行表述和总结的方法,它可以通过计算中心趋势、离散程度、分布特征等指标,对数据进行全面的描述和概括。
2.相关性分析:通过计算不同属性之间的相关系数,可以分析不同属性之间的关联程度。
常用的相关系数包括皮尔逊相关系数、斯皮尔曼相关系数等。
3.回归分析:回归分析可以找出自变量和因变量之间的关系,通过建立回归模型,可以预测因变量的取值。
4.聚类分析:聚类分析是将数据按照某种相似性指标进行分类的方法,通过分析不同属性之间的聚类情况,可以发现数据的内在特点和规律。
5.主成分分析:主成分分析是一种降维技术,通过线性变换将原始的属性空间转换为新的属性空间,从而减少属性的数量,并保留数据的主要特征。
4. 属性分析应用属性分析在各个领域都有广泛的应用,下面以几个实例说明属性分析的应用场景:4.1 金融领域在金融领域,属性分析可以帮助银行进行风险评估和信用评级。
新媒体数据分析:微信公众号用户属性分析
微信公众号用户属性分析
微信公众号用户属性分析
人口特征
地域归属
访问设备
用户分析
用户属性数据可以帮助运营者分析 粉丝的属性和质量
微信公众号用户属性分析
性别分布
性别分布数据可以 帮助运营者更好地
调整账号内容和风 格。
年龄分布
语言分布
年龄分布则可以帮助运营 者掌握账号粉丝年龄结构, 找准用户定位,更加有针 对性地调整账号内容风格。
微信公众号用户属性分析
微信公众号用户属性分析 合自己的账号进行推广合作 年龄主要为中青年人,因此 的帮助,特别是在APP或者手游推 微信公众号用户属性分析 统的游戏,则这个企业肯定会选择 找准用户定位,更加有针 微信公众号用户属性分析 安卓用户居多的账号进行推广宣传。 安卓用户居多的账号进行推广宣传。 丝来自海外,账号运营者针对这部分用 找准用户定位,更加有针 常读用户是账号的忠实粉丝,直观的反应用户 在进行创作时,可选择中年 微信公众号用户属性分析 地域归属数据即粉丝所在省市数据。 微信公众号用户属性分析 在进行创作时,可选择中年
语言分布则可以帮助运营者了解粉丝使 用语言,如当粉丝使用语言既有简体中
文又有英文时,则说明有相当一部分粉 丝来自海外,账号运营者针对这部分用 户发布相应的内容或做出合适的推广。
人口特征
微信公众号用户属性分析
图中所示微信公众号的用户 年龄主要为中青年人,因此 在进行创作时,可选择中年 人和年青人所偏好的内容。
地域归属
地域归属数据即粉丝所在省市数据。 图中此微信公众号的粉丝集中在江苏, 这个数据能够为运营者提供一下几方面 的参考:一是此账号粉丝付费能力较强 ,二是在举办线下活动时需要优先选择 在江苏省举办,三是在内容创作中要尽 量贴近本地文化生活特点。
属性数据分析教学设计
属性数据分析教学设计一、引言在现代企业管理中,常常需要通过收集和分析数据来实现决策,而数据中的属性数据是常见的数据类型之一。
属性数据是指可以被计数和分类的离散数据,包括计数数据、分类数据等。
属性数据的分析方法主要包括频数分析、交叉分析、卡方检验、假设检验等,这些方法在企业决策中具有重要的作用。
因此,本文将针对属性数据分析的教学设计进行探讨,希望能够为属性数据分析的教学提供有益的参考。
二、教学目标在本教学设计中,主要的教学目标包括:1.学生能够理解什么是属性数据;2.学生能够掌握属性数据的基本描述统计方法;3.学生能够掌握属性数据的常用分析方法;4.学生能够应用属性数据分析方法来解决实际问题。
三、教学内容3.1 属性数据的定义与描述1.属性数据的定义:什么是属性数据,与其他数据类型的区别是什么?2.属性数据的描述方法:计数数据的描述方法、分类数据的描述方法。
3.2 属性数据的基本描述统计方法1.频数分析:如何计算频数、频率、百分比等描述性统计量?2.中心趋势量:均值、中位数、众数等的计算方法和应用。
3.变异性度量:极差、标准差、方差等的计算方法和应用。
3.3 属性数据的常用分析方法1.交叉分析:两个分类变量之间的关系如何分析?2.卡方检验:如何判断两个分类变量之间的关系是否显著?3.假设检验:如何使用假设检验来判断样本和总体之间的差异是否显著?3.4 实际案例分析在本部分中,将通过案例的方式来进行实际数据分析的操作,通过分析具体数据,来帮助学生掌握数据分析方法的应用。
四、教学策略4.1 课前讲解在课前讲解环节,通过PPT等多媒体工具,讲解属性数据的概念和基本描述统计方法,帮助学生掌握基本的理论知识。
4.2 课堂互动在课堂互动环节,可以通过小组讨论、学生报告等方式,帮助学生掌握属性数据分析的常用方法和实际应用。
4.3实践操作在实践操作环节,学生可以使用Excel等数据分析软件来进行实际的数据分析操作,以提高实际操作能力。
属性数据与空间数据
属性数据与空间数据一、引言属性数据与空间数据是地理信息系统(GIS)中两个重要的数据类型。
属性数据描述了地理对象的非空间特征,如名称、分类、属性值等;而空间数据则描述了地理对象的几何形状和位置信息。
本文将详细介绍属性数据和空间数据的定义、特点以及在GIS中的应用。
二、属性数据1. 定义属性数据是指描述地理对象的非空间特征的数据。
它可以是数量型、字符型、日期型等不同类型的数据。
属性数据通常以表格的形式存储,每一行代表一个地理对象,每一列代表一个属性字段。
2. 特点(1)描述地理对象的特征:属性数据可以描述地理对象的名称、分类、属性值等特征,为地理对象提供更多的信息。
(2)可进行统计与分析:属性数据可以进行各种统计和分析操作,如求和、平均值、排序等,以便更好地理解和利用地理对象的特征。
(3)易于存储和管理:属性数据通常以表格形式存储,可以使用数据库管理系统进行存储和管理,方便数据的检索和更新。
3. 应用(1)地理查询和筛选:通过属性数据,可以进行地理查询和筛选,找出符合特定条件的地理对象,如查找某一地区的人口密度超过一定阈值的区域。
(2)空间分析:属性数据与空间数据结合,可以进行各种空间分析操作,如缓冲区分析、叠加分析等,以便更好地理解地理对象的属性特征与空间关系。
(3)决策支持:属性数据可以作为决策支持系统的重要数据源,为决策者提供准确的地理信息,帮助其做出科学的决策。
三、空间数据1. 定义空间数据是指描述地理对象的几何形状和位置信息的数据。
它可以是点、线、面等不同类型的几何要素,用于表示地理对象在地球上的位置和空间关系。
2. 特点(1)描述地理对象的几何形状和位置:空间数据可以精确描述地理对象在地球上的几何形状和位置信息,如点的坐标、线的起点和终点坐标、面的边界坐标等。
(2)支持空间分析:空间数据可以进行各种空间分析操作,如空间叠加、空间关系判断等,以便更好地理解地理对象之间的空间关系。
(3)可视化展示:空间数据可以通过地图、图表等方式进行可视化展示,使人们更直观地理解地理对象的空间位置和分布。
属性数据与空间数据
属性数据与空间数据一、引言属性数据和空间数据是地理信息系统(GIS)中的两个重要概念。
属性数据是指描述地理现象的非空间属性的数据,例如人口统计数据、土地利用数据等。
空间数据是指地理现象在地球表面上的位置和形状的数据,例如地图、卫星影像等。
本文将详细介绍属性数据和空间数据的定义、特点以及在GIS中的应用。
二、属性数据1. 定义属性数据是指描述地理现象的非空间属性的数据。
它包含了地理现象的各种特征,例如名称、分类、数量、状态等。
属性数据通常以表格的形式存储,每一行代表一个地理现象的实例,每一列代表一个属性。
2. 特点(1)离散性:属性数据是离散的,每个地理现象的属性值都是具体的、可数的。
(2)定量性和定性性:属性数据可以是定量的,例如人口数量;也可以是定性的,例如土地利用类型。
(3)可测量性:属性数据可以通过测量或统计得到,例如人口普查、遥感影像解译等。
(4)可变性:属性数据的值可以随时间、空间和其他因素的变化而变化,例如人口数量的增减、土地利用的变化等。
(5)关联性:属性数据之间可以存在关联关系,例如人口数量和土地利用类型之间的关系。
3. 应用属性数据在GIS中具有广泛的应用,例如:(1)地理分析:通过对属性数据的分析,可以揭示地理现象的分布规律和变化趋势,例如人口密度分析、土地利用变化分析等。
(2)决策支持:属性数据可以为决策提供依据,例如基于人口数据的城市规划、基于土地利用数据的环境保护政策制定等。
(3)资源管理:属性数据可以用于资源的管理和调度,例如基于水资源数据的水资源管理、基于土地利用数据的土地资源规划等。
(4)应急响应:属性数据可以用于应急响应和灾害管理,例如基于人口分布数据的灾害风险评估、基于道路交通数据的应急救援路线规划等。
三、空间数据1. 定义空间数据是指地理现象在地球表面上的位置和形状的数据。
它以几何对象的形式表示地理现象,例如点、线、面等。
空间数据通常以矢量或栅格的形式存储,矢量数据以坐标点的方式表示地理现象的位置和形状,栅格数据以像素的方式表示地理现象的位置和形状。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
属性数据分析一属性变量和属性数据通常所指属性数据(categorical data),是说反映事物属性的数据,也称为定性数据或类别数据,它是属性变量取的值。
属性变量可能是表示事物属性,取值为事物属性的量反映事物的客观属性,例如变量“性别”取值为男,女;又如变量是中医所分人的体质,取值为平和,气虚,阳虚,阴虚,瘀血,痰湿,湿热,气郁,特凛。
对事物表态的量表达人们主观对事物的评论,例如变量是“某人对某个政策的态度”,取值是赞成,中立和反对;又如变量是“人对医疗效果的评价”,取值为特好,好,一般,差,很差。
区间值变量取值为多个互不重叠区间:例如变量是“顾客的购买水平”,取值分为[0,100),[100,200),[200,300)和300以上。
“属性变量”是反映事物的客观属性或对事物表态,以及区间值变量,它是一种变量,它取的值之间不能做加,减,乘,除等运算,而且所取的值只能是有限个,属性变量取的值也称为属性变量的“水平”。
二属性数据表示形式属性变量有4种表示形式:原始属性变量形式、指示变量形式(调查数据常用)、频数形式和列联表。
例1 某连锁超市要检验商品销售情况与陈列方式是否相关,随机抽取了10家门店,分别以C B A 、、共3种方式陈列(即第一个属性变量是“陈列方式”,取值A 、B 、C ),各门店销售情况分为 “high ”及“low ”两类(即第二个属性变量是“销量”,取值“high ”和“low ”)。
这两个属性变量的统计资料4种形式如下:属性变量形式的样本是把各个属性变量的1次观测值排成1行;例如例1中属性变量“销量”和“排列方式”的第1个观测值(第1个门店)的观测值是“high ”和“B ”,就把“high ”、“B ”排在第一行,见下表表 超市数据属性变量形式指示变量形式是列出各个属性变量的所有值,对每个值建立一个变量,例如例1中两个属性变量取值“high ”、“low ”、“A ”、“B ”、“C ”;建立5个指示变量:sl ,sh,ma,mb,mc.每次观测中,属性变量的哪个值出现了,就在对应列中用1表示,否则用0表示;例如对于超市数据建立5个变量后:sh 表示变量销售额高,sl 表示变量销售额低,ma 表示排列方式是A ,mb并表示排列方式是B,mc表示排列方式是C。
第1次观测中属性变量的值是“high”和“B”,这时观测值就是1,0,0,1,0,…见下表表超市数据指示变量形式在做调查时(例如对街道行人作调查),通常要求被调查人在调查表上打勾和叉,整理这些调查表,勾和叉分别改为1和0,得到的就是指示变量形式的样本;大学生舌象体质调查数据就是两种形式数据混合,使用时必须注意。
指示变量形式。
把属性变量形式汇总,同样观测数据只记一次,其相同次数称为频数,得到的就是频数形式数据,超市数据频数形式见下表;例如例1中销量“high”且排列方式是“A”的门店有3个,频数就记为3,汇总观测值记为“high、A、3”,下表中最后一列是频数。
两个属性变量的列联表就是把频数形式数据,写成一个长方形表,其中最左列给出一个属性变量(行变量)的值,最上面的变量名行給出另一个属性变量(列变量)的值,频数填在对应格中,见下表,列联表能直观反映数据特点,经常使用。
所以有时频数形式数据也称为列联表。
2个属性变量的列联表最常使用;3,4个属性变量的频数形式数据也能排在平面上。
属性变量多于2的列联表称为“高维列联表”。
表超市数据的列联表三对应分析一般统计书籍只介绍到列联表及其分析,上世纪70年代以来出现了许多分析属性数据的方法:对应分析,logistic回归,广义线性模型,重复测量模型等等。
本次重点介绍对应分析。
对应分析是研究属性变量的值间关系,带有直观图象展示的一种分析方法。
“列联表”分析能解决属性变量间是否有联系的判断问题,但对于它们是怎样联系的却不能给出具体结论。
对应分析要研究属性变量的取值之间是怎样联系的,它把属性变量取的各个值投影成一幅“地图”上的点,距离较近的点显示关系较密切。
对应分析分为简单对应分析和多重对应分析。
简单对应分析分析两个属性变量间关系;多重对应分析分析多个属性变量间关系。
(一)简单对应分析简单对应分析的主要步骤。
基本步骤是:1 输入数据对于常用的列联表数据,将列联表数据(连同变量名)拷入工作表后,还要增加一列:列变量名,该列按照表中列水平出现顺序(从左到右),将它们从上到下安放一列中,这列通常按其含义加变量名“列名”。
由于列联表中通常已包含行名称,无须另加一列输入“行名”。
2进入简单对应分析对话框从“统计 > 多变量 > 简单对应分析”入口,就能进入“简单对应分析”对话框。
选定“列联表的列”,指定列联表的各列。
3 填写对话框在对话框的“列名”处填写列变量名称所在列,在“行名”处填写行变量名称所在列;进入“图形”框后指定显示哪些图(其中“显示行和列的对称图”最重要)。
例2某公司在5个地区销售4种商品(甲、乙、丙、丁),某年销售量汇总表如下表。
试问销售量按地区分布有何规律?销售量按商品分布有何规律,二者有何联系?表某公司5地区销售数据(单位:件)地区甲乙丙丁A1 60 20 21 20A2 100 25 30 30A3 100 5 80 200A4 40 1 35 110A5 90 60 120 20解1)将表拷入工作表后,为了能在有关图表中显示各列名称,应补充一列。
因为商品列C2-C5的变量名从左到右依次为“甲、乙、丙、丁”,将列变量名称“甲、乙、丙、丁”填入C6列,并将此列命名为“商品”。
2)从“统计 > 多变量 > 简单对应分析”入口,进入“简单对应分析”对话框。
3)在“输入数据”中,选择“列联表的列”,指定为“甲乙丙丁”4列数据,将“行名”指定为“地区”,将“列名”指定为“商品”,对于“分量数”仍保留为默认的“2”。
4)点击“图形”,弹出“简单对应分析-图形”对话框,选择“只显示行的对称图”,“只显示列的对称图”及“显示行和列的对称图”以便得到3幅图。
5)各框点击“确定(OK)”,即可以得到计算结果和图形。
行对称图从行图中可见A1,A2,地区销售情况相似;A3,A4地区销售情况相似。
(比例相似)列对称图从列图中可见甲乙丙丁销量不相似行列对称图从图中可见A1,A2两地卖甲商品较多,A3,A4两地卖丁商品较多例3设已有大学生舌苔色和BMI决定的胖瘦程度二维列联表如下,试做对应分析。
分析肥胖程度与苔色对应。
解 将上表考入工作表,最右边添上一列,变量名为“BMI ”,按照从上到下顺序填上 瘦,中,胖。
2)从“ 统计 > 多变量 > 简单对应分析”入口,进入“简单对应分析”对话框。
3)选定“列联表的列”,将带数值的列选入“列联表的列”空格。
4)将“苔色”选入行名空格,“BMI ”选入列名空格5)点击“图形”,弹出“简单对应分析-图形”对话框,选择“只显示行的对称图”,“只显示列的对称图”及“显示行和列的对称图”,各框点击“确定”,即可以得到行对称图,列对称图,行和列的对称图。
丛行对称图可见:4种苔色无关系。
从列的对称图看出胖中瘦间无联系。
行和列的对称图如下 行列对称图从行和列的对称图可见:体型中的人和苔色发白的人联系紧,即苔色发白的人体型中等 (二)多重对应分析“多重对应分析”用于分析多个属性变量值间的关系,它每次可以同时分析两个或更多个属性变量。
“多重对应分析”对话框能够读入两种形式数据:属性变量形式和指示变量形式数据。
无论哪种形式的数据,实施多重对应分析时,工作表中都要加一列,列举所有属性变量所取的所有值:读入指示变量形式的数据时,按照属性变量值在工作表 的“变量名”行出现的先后顺序从上到下排列;读入属性变量形式的数据时,先按照这些属性变量在工作表中出现的先后顺序,再对每个属性变量值按照字典序从上到下排列。
然后从“ 统计 > 多变量 >多重对应分析”入口,进入“多重对应分析”对话框,可以实施“多重对应分析”MINITAB计算“多重对应分析”后输出的结果中,最重要的是列图。
列图是一个平面图形,所有属性变量的各个值都作为点安放在列图上,距离较近的点显示关系较紧密。
例4(指示变量形式数据)为了分析人们对某种新家具的看法,请80名顾客对“样式”、“油漆”、“颜色”、“材料”和“价格”评价:分别给出“式样好”、“式样差”、“油漆好”、“油漆差”、“颜色好”、“颜色差”,“材料好”、“材料差”、“价格低”、“价格中”、“价格高”的评价。
厂商希望从调查数据分析这5个变量的“值”间的关系。
数据如下。
试画图分析顾客对式样、油漆、颜色、材料和价格的意见间的联系。
表80名顾客对家具的评价解1)将表拷入工作表,在右边加上一列,列名为“变量值”,内容为各列的变量名。
2)从“统计> 多变量>多重对应分析”入口,进入“多重对应分析”对话框。
3)选定“需要指示变量的列”将这含有指示变量的11列选入空格。
4)将“变量值”选入“属性名称”空格。
5)点击“图形”,弹出“多重对应分析-图形”对话框,在其中选定“显示列图”。
6)各框点击确定。
结果分析:由列图可见:漆好、价高、料好、色好、样好距离较近,聚为一类,这表明顾客对这批家具评价较好时,也觉得价格较高;另外漆劣、价低距离较近,聚为一类,这表明认为家具价格低廉的顾客认为漆不好;色劣、样劣聚为一类,也就是说认为这批家具色劣的顾客认为家具式样低劣;料劣、价中聚为一类,就是说认为价格中等顾客也认为主要问题是材料不好。
例5例1为了分析某种疾病成因,考虑是否饮用某种饮料、吃快餐、上网、患病程度、性别这5个项目,把它们作为5个变量,它们分别取一些值(水平),为了分析这些水平间有何对应关系。
统计50名以上病人其资料如下表,试根据这资料作分析,看看哪些水平间关系最密切。
表疾病与生活习惯数据解1)将数据拷入工作表(C1-C6)。
2)添一列在工作表中(C7),变量名为列名,以下空格顺序填写“不饮,饮用,不吃,吃,女、男,不上网、上网,低,高,中”。
3)从“统计> 多变量 > 多重对应分析”入口,进入“多重对应分析”对话窗,4)在“属性变量”中指定“饮用否-患病程度”(C2-C6)共5列(描黑后点击“选择”),在“类别名称”中选入“列名”,在“分量数”仍保留为默认的“2”。
5)点击“图形”,弹出“多重对应分析-图形”对话窗,选择“显示列图。
6)各窗点击“确定”,就可以得到计算结果从图中可见:患病程度高的与饮用该饮料、男性、吃快餐、上网关系密切,女性与不饮用关系密切,也就是说男性希望饮用、吃快餐、上网;女性不希望饮用;不吃快餐的患病程度低;不上网的患病程度中等。
(三)SAS作对应分析SAS作对应分析的必要性:功能强大可以考虑频数,画图清晰。