在线社交网络数据挖掘
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Social Network Analysis
Macro Community ER model BA model
Meso Social tie Group behavior Dunbar
Micro Social influence Action
Theory
Social Theories
Algorithmic Foundations
实际案例:谷歌流感预测
研究目标
构建大数据智能决策计算范式 实现个体智能到群体智能的跨越
科学问题 1:复杂数据的 精简表达与度量
① 分布规律
科学问题 2:全模态数据的 计算模型与方法
① 核数据提取
N K
科学问题 3:群体智能的 计算模式
① 预测模型
② 结构规则
② 决策机制
② 多重小样本近似
③ 关联模式
小波分析
频谱包络
经验模态法
...
S
A1
x( ) F 1 lg F [ f (t )* h(t )]
...
D1
F 1 lg[ F (e jw )* H (e jw )] F 1[lg F (e jw )] F 1[lg H (e jw )] ˆ ( ) h ˆ( ) f
其中购买和购物车以及收藏符合明显的齐普夫(帕累托)分布,即80%的人 购买少量的物品,只有大约20%的人大量购物(图中红色点为“双11”记录)
近期相关研究2:用户移动轨迹和移动方式预测
Supervised methods Decision tree Support vector machine Markov Models Unsupervised methods empirical method kernel method
有了在线社交网络我们如何出去吃一顿?
为什么需要数据挖掘?
在线社交网络上:
1.我们每天产生
2.5x1018
2
byte的数据量 年
2.这些数据均产生于过去
在线社交网络研究核心:
Application Prediction Search
Information Diffusion
Advertise
speed values location features heading change rate stop rate velocity change rate ......
近期相关研究3:发动机异常检测
发动机监控 系统 结构监控系 统 执行器监控 系统 ... 航空电子监 控系统
强健的故障特征提取与信号处理
实际案例:谷歌流感预测
在流感爆发季节,人们也会通过
twitter等工具反映用户本人、朋友
是否感染流感,或者与流感相关的 信息等。因此利用google/twitter等
工具抓取与流感相关的关键词,通
过分析这些关键词的频率发现,相 对于传统的疾病监测系统,这种方 法可以很好预测流感的传播情况, 尤为重要的是,这种方法的代价低 甚至可以提早很多天进行预测。
• 800 million users ~50% revenue from network life • 560 million users influencing our daily life • 79 million users per month 9.65 billion items/year • 500 million users 35 billion on 11/11 • 280 million users 80% of users are 80-90’s
BIG Social Data
在线社交网络研究核心:
① 社交网络的结构特性与演化机理
② 社交网络的群体行为与互动规律
③ 社交网络信息传播模型与影响力
实际案例1:位置信息挖掘
位置 共享
公园
宿舍
?
位置信息
通讯信息
?
?
活动信息
教室
KTV
?
运动场所
?
情绪信息
位置情感 兴趣点发现
兴趣点发现
通过兴趣点发现最佳轨迹
X1..Xn X1* (1).. Xn* (1) X1* (2)..Xn* (2)
*(1) n
③ 控制方法
*(1) *( m) (n ...... n )
*(2) n
X1* (m)..Xn* (m)
…
*( m ) n
…
近期相关研究1:用户购买行为预测
淘宝 用户 的四 种行 为预 测及 其分 布
( ) H [ x(t )] x
A2
A3
D2
S A1 D1
(t )
பைடு நூலகம்
x( )
D3
A2 D1 D2 A3 D1 D2 D3
2 (t ) x(t ) x 2 (t ) x
S
s V
s v
s v
...
v x
X
x
x
利用发动机工作的海量的数据,根据数据的来源及其代表的属性,采用张量分 解等,抽出核心数据,快速进行故障诊断。
如何做数据挖掘
1. 深入学习数据挖掘理论基础 关联规则挖掘、分类、聚类算法等 2. 广泛阅读著名会议论文跟踪热点技术
KDD,ICDM等
3. 尝试参加数据挖掘比赛培养全方位解决实际问题的能力 SigKDD,Kaggle等 4. 尝试为一些开源项目贡献自己的代码
谢谢!
你不知道的社交网络
信息安全基本概念
第一次工业革命
第二次工业革命
第三次工业革命
第四次工业革命
信息安全基本概念
信息量大 信息安全
真假难分
数据异构
在线社交网络现状:
• 1.26 billion users • 555 million users 700 billion minutes/month 5 billion tweets/day