社会调查数据分析的新技术
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
社会调查数据分析的新技术
调查数据分析的一些新的方法与技术
• 与大数据相结合的分析方法 • 神经网络分析 • 传感器数据分析 • 倾向值分析 • 荟萃分析(meta analysis) • 基于主体建模(agent based modeling) • 社会网络分析
……
调查数据分析中存在的一些问题
• 由于方法的限制,很难建立因果模型 • 分析日益走向复杂和繁琐化,很难进行简单而直观的描 述、解释、以至于预测 • 往往忽略了分析对象的时空属性
xcoord(xcoord) ycoord(ycoord) legenda(on))
legend(title("Religious orientation", size(*0.5) bexpand justification(left)))
///
///
spmap: 多变量描述
use "Italy-RegionsData.dta", clear spmap pop98 using "Italy-RegionsCoordinates.dta", id(id) clnumber(8) /// title("Pct. Catholics without reservations", size(*0.8)) /// subtitle("Italy, 1994-98" " ", size(*0.8)) /// diagram(variable(relig1) range(0 100) refweight(pop98) /// xcoord(xcoord) ycoord(ycoord) fcolor(red))
use "Italy-RegionsData.dta", clear spmap using "Italy-RegionsCoordinates.dta", /// id(id) fcolor(stone) /// diagram(variable(relig1 relig2 relig3) proportional(fortell) ///
subtitle("Italy, 1994-98" " ", size(*0.8)) point(data("Italy-RegionsData.dta") xcoord(xcoord) ycoord(ycoord) proportional(relig1) fcolor(red) ocolor(white) size(*3)) /// ///
空间自回归:SAR
• GDP,城镇化对教育发展水平的影响(残差分析)
空间自回归:SAR
• OLS估计的条件
满足这些条件时 OLS估计是BLUE
空间自回归:SAR
• 多层线性模型 vs OLS
空间自回归:SAR
• 空间滞后模型与空间误差模型
y = λ Wy + Xβ + u u = ρ Mu + ε
STATA的空间数据可视化命令:spmap
• spmap AREA
/// using"cntycoor.dta“
///,id(_ID)
spmap: 带彩色尺度的热力图
• spmap v7 using cntycoor.dta,
/// id(_ID) clnumber(10)
/// fcolor(Reds2) /// ocolor(none ..)
subtitle("Italy, 1994-98" " ", size(*0.8))
///
///
diagram(variable(relig1) range(0 100) refweight(pop98) xcoord(xcoord) ycoord(ycoord) fcolor(red))
spmap: 嵌入饼图
空间数据的可视化与分析
什么是空间数据分析?
借助于地图及地理信息系统(GIS),对研究 对象与空间相关的属性进行描述,在引入空间的维
度上wk.baidu.com行解释。
三代空间统计分析软件
• 第一代: • 第二代: • 第三代:
微软的空间可视化软件PowerMap(3D Map)
空间数据的基础文件——shp文件
空间数据文件的基本形式是由一系列文件名相同,扩展名 不同的文所组成的一个集合,其中最重要的是shp文件和 dbf文件 • shp文件:记录空间元素的地理空间信息
Wy, Mu都是某个空间权重矩阵,将其一般化为W,则
1. 空间滞后模型:y = λ W+ Xβ + ε
2. 空间误差模型:y = ρ W+ Xβ + ε
空间自回归:SAR
• 空间滞后
空间自回归:SAR
• GDP,城镇化对教育发展水平的影响(广义空间二阶段回归)
空间统计分析的要点
• 数据密集型分析 • 大运算量 • 可视化与分析并重
空间邻近性的测量
• 空间权重矩阵:
Wij代表空间元素i与空间元素j的空间邻近关系
空间邻近性的测量
• 空间权重矩阵 1. 空间邻接矩阵:0/1 元素矩阵 2. 空间距离矩阵:矩阵元素为元素ij间距离的倒数
空间邻接矩阵
• 两种邻接判定标清:车邻接与后邻接
空间邻接矩阵
spmat contiguity cntycoutig ///
• shp2dta
ssc install shp2dta
• spmap
ssc install spmap
• spmat, spreg
net install sppack.pkg
STATA的空间数据可视化命令:spmap
spmap [attribute] [if] [in] using basemap [, basemap_options polygon(polygon_suboptions) line(line_suboptions) point(point_suboptions) diagram(diagram_suboptions) arrow(arrow_suboptions) label(label_suboptions) scalebar(scalebar_suboptions) graph_options]
///
/// ///
label(data("Italy-RegionsData.dta") xcoord(xcoord) ycoord(ycoord) label(relig1) color(white) size(*0.7))
///
spmap: 嵌入统计图(量杯图)
use "Italy-RegionsData.dta", clear spmap using "Italy-RegionsCoordinates.dta", id(id) /// fcolor(stone) /// title("Pct. Catholics without reservations", size(*0.8)) ///
• dbf文件:记录空间元素的其他相关信息
三种基本的空间元素
•点 •线 • 多边形
shp文件转为STATA格式
• Shp2dta命令
shp2dta using shpfilename, database(filename) coordinates(filename)
数据文件
ID
座标文件
本讲座所需要的STATA扩展命令
spmap: 嵌入统计指标
. use "Italy-OutlineData.dta", clear . spmap using "Italy-OutlineCoordinates.dta", id(id) ///
title("Pct. Catholics without reservations", size(*0.8))
using cntycoor.dta ,id(_ID) ///
normalize(minmax)
空间距离矩阵
spmat idistance dcnty x_c y_c ///
, id(_ID)
空间自相关性的测量
空间自相关性的测量
空间自相关:Moran I 统计量
空间自回归:SAR
• GDP,城镇化对教育发展水平的影响(OLS)
调查数据分析的一些新的方法与技术
• 与大数据相结合的分析方法 • 神经网络分析 • 传感器数据分析 • 倾向值分析 • 荟萃分析(meta analysis) • 基于主体建模(agent based modeling) • 社会网络分析
……
调查数据分析中存在的一些问题
• 由于方法的限制,很难建立因果模型 • 分析日益走向复杂和繁琐化,很难进行简单而直观的描 述、解释、以至于预测 • 往往忽略了分析对象的时空属性
xcoord(xcoord) ycoord(ycoord) legenda(on))
legend(title("Religious orientation", size(*0.5) bexpand justification(left)))
///
///
spmap: 多变量描述
use "Italy-RegionsData.dta", clear spmap pop98 using "Italy-RegionsCoordinates.dta", id(id) clnumber(8) /// title("Pct. Catholics without reservations", size(*0.8)) /// subtitle("Italy, 1994-98" " ", size(*0.8)) /// diagram(variable(relig1) range(0 100) refweight(pop98) /// xcoord(xcoord) ycoord(ycoord) fcolor(red))
use "Italy-RegionsData.dta", clear spmap using "Italy-RegionsCoordinates.dta", /// id(id) fcolor(stone) /// diagram(variable(relig1 relig2 relig3) proportional(fortell) ///
subtitle("Italy, 1994-98" " ", size(*0.8)) point(data("Italy-RegionsData.dta") xcoord(xcoord) ycoord(ycoord) proportional(relig1) fcolor(red) ocolor(white) size(*3)) /// ///
空间自回归:SAR
• GDP,城镇化对教育发展水平的影响(残差分析)
空间自回归:SAR
• OLS估计的条件
满足这些条件时 OLS估计是BLUE
空间自回归:SAR
• 多层线性模型 vs OLS
空间自回归:SAR
• 空间滞后模型与空间误差模型
y = λ Wy + Xβ + u u = ρ Mu + ε
STATA的空间数据可视化命令:spmap
• spmap AREA
/// using"cntycoor.dta“
///,id(_ID)
spmap: 带彩色尺度的热力图
• spmap v7 using cntycoor.dta,
/// id(_ID) clnumber(10)
/// fcolor(Reds2) /// ocolor(none ..)
subtitle("Italy, 1994-98" " ", size(*0.8))
///
///
diagram(variable(relig1) range(0 100) refweight(pop98) xcoord(xcoord) ycoord(ycoord) fcolor(red))
spmap: 嵌入饼图
空间数据的可视化与分析
什么是空间数据分析?
借助于地图及地理信息系统(GIS),对研究 对象与空间相关的属性进行描述,在引入空间的维
度上wk.baidu.com行解释。
三代空间统计分析软件
• 第一代: • 第二代: • 第三代:
微软的空间可视化软件PowerMap(3D Map)
空间数据的基础文件——shp文件
空间数据文件的基本形式是由一系列文件名相同,扩展名 不同的文所组成的一个集合,其中最重要的是shp文件和 dbf文件 • shp文件:记录空间元素的地理空间信息
Wy, Mu都是某个空间权重矩阵,将其一般化为W,则
1. 空间滞后模型:y = λ W+ Xβ + ε
2. 空间误差模型:y = ρ W+ Xβ + ε
空间自回归:SAR
• 空间滞后
空间自回归:SAR
• GDP,城镇化对教育发展水平的影响(广义空间二阶段回归)
空间统计分析的要点
• 数据密集型分析 • 大运算量 • 可视化与分析并重
空间邻近性的测量
• 空间权重矩阵:
Wij代表空间元素i与空间元素j的空间邻近关系
空间邻近性的测量
• 空间权重矩阵 1. 空间邻接矩阵:0/1 元素矩阵 2. 空间距离矩阵:矩阵元素为元素ij间距离的倒数
空间邻接矩阵
• 两种邻接判定标清:车邻接与后邻接
空间邻接矩阵
spmat contiguity cntycoutig ///
• shp2dta
ssc install shp2dta
• spmap
ssc install spmap
• spmat, spreg
net install sppack.pkg
STATA的空间数据可视化命令:spmap
spmap [attribute] [if] [in] using basemap [, basemap_options polygon(polygon_suboptions) line(line_suboptions) point(point_suboptions) diagram(diagram_suboptions) arrow(arrow_suboptions) label(label_suboptions) scalebar(scalebar_suboptions) graph_options]
///
/// ///
label(data("Italy-RegionsData.dta") xcoord(xcoord) ycoord(ycoord) label(relig1) color(white) size(*0.7))
///
spmap: 嵌入统计图(量杯图)
use "Italy-RegionsData.dta", clear spmap using "Italy-RegionsCoordinates.dta", id(id) /// fcolor(stone) /// title("Pct. Catholics without reservations", size(*0.8)) ///
• dbf文件:记录空间元素的其他相关信息
三种基本的空间元素
•点 •线 • 多边形
shp文件转为STATA格式
• Shp2dta命令
shp2dta using shpfilename, database(filename) coordinates(filename)
数据文件
ID
座标文件
本讲座所需要的STATA扩展命令
spmap: 嵌入统计指标
. use "Italy-OutlineData.dta", clear . spmap using "Italy-OutlineCoordinates.dta", id(id) ///
title("Pct. Catholics without reservations", size(*0.8))
using cntycoor.dta ,id(_ID) ///
normalize(minmax)
空间距离矩阵
spmat idistance dcnty x_c y_c ///
, id(_ID)
空间自相关性的测量
空间自相关性的测量
空间自相关:Moran I 统计量
空间自回归:SAR
• GDP,城镇化对教育发展水平的影响(OLS)