移动互联网大数据分析 及其应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
移动互联网大数据分析 及其应用
报告人: 刘克松
目录
大数据时代与移动互联网 大数据技术架构体系(方正智思) 移动互联网舆情分析 展望
大数据发展史
阿尔文·托夫勒 《第三次浪潮》 Bigdata—第三次浪潮的华彩乐章
发展阶段 • 2012年,美国颁布《大数据的研究和发展计划》
• 2012年,中国成立大数据专家委员会
移动互联网大数据之展望 可穿戴设备
智能家居
• 服务领域更加广阔,覆盖健康、医疗、交通、公共服务等等。 • 不仅仅是数据源、数据载体,向数据价值获益转变。 • 待分析的数据更多,问题更广。
谢谢!
关注阶段
•
2001年,Gartner公司对大数据进行了相对明确的定义,提出3V特征
萌芽阶段 • 1996年,美通社在介绍高性能平行节点技术时提到大数据应用
20世纪80年代——90年 代中期
20世纪90年代中期——21 世纪前10年
2010年——
搜索曲线
移动互联网大数据的发展
网页:网页数量1899亿个,年增长26.6% 网民:达6.49亿,全年共计新增网民3117万人,普及率47.9% 手机网民:达5.57亿,年增加5672万人,手机上网人群占比85.8% 移动智能终端用户:10.6亿;每日产生60亿条以上的数据; 微信活跃用户:5亿
目录
众说纷纭的大数据时代 大数据技术架构体系(方正智思) 移动互联网舆情分析案例 展望
互联网大数据分析处理流程
数据获取
数据收集
数据存储
数来自百度文库计算
数据服务
互联网大数据技术架构体系
互联网大数据处理技术
演化分析
多维度 语义检索 排序 聚合分析
基于内容的检索
PB
高 性
关系抽取
能
并
行
计
算
微信
智能分析
方正智思 大数据处理技术
201010618393.4 一种论坛回帖的增量采集方法及系统
201010609163.1 网络数据采集方法及装置
2013年,“一种对半结构化文档集进行文本
中国专利奖 200910217505.2挖一掘种基的于互方联法网定”向站获点得网页数据采集的方法及装置
200810240016.4 一种元搜索引擎的排名方法及元搜索引擎
移动互联网大数据的4V
• Volume 随时随地都在产生数据,数 据量更大。
• Variety 随时随地联网的特性,使得 移动互联网的数据更具有多样性。位 置设备、智能硬件等各种传感器数据。
• Velocity 对速度处理的要求性更高, 很多的业务场景需要更实时的数据处 理才能使得数据产生价值。
• Value 更多高价值的数据。
移动互联网大数据的价值和利用
• 更好的个性化服务 • 智能商业,更为精准的个性化营销。 • 更为便利的生活,各种O2O服务。
大数据时代的挑战(舆情角度)
?如何全面收集网络舆情信息 ?如何快速发现敏感或负面舆情
?如何准确掌握热点事件的网络舆论
?如何对海量信息内容深入挖掘分析 ?如何应对突如其来的突发事件
-海量数据水平自动分区
-Master/Slave结构
-横向扩展模式
-高容错性
-节点自动复制
-支持超大数据集
-高性能的随机读写
-集群扩展灵活方便
PB级数据存储大,数据秒存储级处理响应!
全文检索
及检索分析
智能挖掘分析
-Master/Slave结构
-索引和检索松散耦合 -检索节点动态扩展 -集群内各服务器负载均衡 -多用户高并发高性能访问
O2O行业
移动互联网舆情
面向移动互联网舆情,首要关注新闻、 论坛类应用。
移动互联网舆情 (释永信被举报事件 2015-08) 事件发展态势
移动互联网舆情 (释永信被举报事件 2015-08) APP通道分布
移动互联网舆情 (释永信被举报事件 2015-08) 事件演化
• 新话题的产生、旧话题的衰减
200710304146.5 一种中文新闻网页正文的自动抽取方法及装置
201310210101.7 基于云服务的海量数据传播性分析预测及交互
目录
众说纷纭的大数据时代 大数据技术架构体系(方正智思) 移动互联网舆情分析案例 展望
移动互联网
LBS 位置服务
智能手机 + 丰富应用
票务、团购、促销 个性化推荐、精准推送
及
201010236363.7 一种高效的互联网信息采集方法
奖
201010515747.2 一种手机报中新闻内容的抽取方法及系统
项
201010530643.9 一种从新闻列表页抽取新闻记录元数据的方法及系统
201010546334.0 从网站中多个不同IP的服务器抓取网页的方法及系统
共有专利115项
传播路径
地域分析 事件分析
热词 挖掘
网民观 点归纳
热点 分析
技术发明及奖项
201210511269.7 一种基于频繁树的论坛数据抽取方法
201210583885.3 一种元搜索快速判断数据缓存更新的机
201210287661.8 一种特定的BBS采集方法
方正智思荣20获111中036文636信7.1息一处种自理动抽领取域论坛最内容高页奖数据项的方法
语料的利用
• 准备训练集 • 特定问题领域,专门词汇搭配 • 标记数据较少
• 人工标注依赖领域知识(保密)和语言理解 • 容易获取大量无标记数据
• 例如:领域相关的关键词扩展 • 半监督式学习, 已分类的文档:NB + EM • 无监督式,word2vec 训练词向量
目录
众说纷纭的大数据时代 大数据技术架构体系(方正智思) 移动互联网舆情分析案例 展望
数据管理 级 数 据 管 理
数据清洗
移动新闻 客户端
漫爬 定向
数据整合
海量数据获取
视频 微信
图片
论坛
超过20万微个博 信源全,媒体日采集增量近报刊8000万!
社交
移动APP
博客
新闻 评论
数据融合管理
海量数据采集
通用采集
定向采集
元搜索采集
网络漫爬
针对传统媒体类型: 新闻、论坛、博客、 评论等
分布式架构 变频采集技术 自学习抽取技术 动态解析技术
移动互联网舆情 (释永信被举报事件 2015-08)
相关词
事件评论的情感倾向分析
不只是词频,基于共现性的统计特征 结合离线训练词向量
几点相关技术 机器学习方法的应用
模型
实验
编码
数据驱动下快速迭代
发文模板识别
疫情定期检查通知
模板示意
• 猜测模板 • 记住若干实例(Instance-based learning) • n-gram分布推断共享的模板 • 跟踪模板的演化、信息抽取
f
针对特定数据类型: 微博、移动新闻、微 信等
模拟登陆技术 辐射式多层关系提取 技术
整合搜索引擎: 基于元搜索结果的采 集
多种搜索引擎的支持 采集任务统一管理
更大范围的信息获取: 基于关键词的全网信 息爬取
负载均衡技术 DNS缓存技术 多IP并发技术
数据存储检索
HBase分布式数据库
HDFS文件存储
发 明
“钱伟长中文信息处理科学技术奖”
201210566545.X 一种基于传播轨迹来确定重点博主的方法
201110415749.9 一种高采全率的新闻评论采集系统
专
二等奖
利
201210587234.1 基于网络平台分布式大数据量并发系统
201110415356.8 一种网络文学的实时采集方法及系统
-关键词及摘要提取 -聚类分析 -情感分析 -命名实体识别
智能挖掘分析
基础数据
用户数据
分析与挖掘
• 文本内容向量 • 粉丝相似度 • 用户亲密度 • 大V用户 • 区域相关用户 • 用户画像 • 用户阅读特征 • 用户特征数据
智能挖掘分析
人物 分析
观点 归纳
趋势 分析
演化分析
信息 类型
网站 分类
报告人: 刘克松
目录
大数据时代与移动互联网 大数据技术架构体系(方正智思) 移动互联网舆情分析 展望
大数据发展史
阿尔文·托夫勒 《第三次浪潮》 Bigdata—第三次浪潮的华彩乐章
发展阶段 • 2012年,美国颁布《大数据的研究和发展计划》
• 2012年,中国成立大数据专家委员会
移动互联网大数据之展望 可穿戴设备
智能家居
• 服务领域更加广阔,覆盖健康、医疗、交通、公共服务等等。 • 不仅仅是数据源、数据载体,向数据价值获益转变。 • 待分析的数据更多,问题更广。
谢谢!
关注阶段
•
2001年,Gartner公司对大数据进行了相对明确的定义,提出3V特征
萌芽阶段 • 1996年,美通社在介绍高性能平行节点技术时提到大数据应用
20世纪80年代——90年 代中期
20世纪90年代中期——21 世纪前10年
2010年——
搜索曲线
移动互联网大数据的发展
网页:网页数量1899亿个,年增长26.6% 网民:达6.49亿,全年共计新增网民3117万人,普及率47.9% 手机网民:达5.57亿,年增加5672万人,手机上网人群占比85.8% 移动智能终端用户:10.6亿;每日产生60亿条以上的数据; 微信活跃用户:5亿
目录
众说纷纭的大数据时代 大数据技术架构体系(方正智思) 移动互联网舆情分析案例 展望
互联网大数据分析处理流程
数据获取
数据收集
数据存储
数来自百度文库计算
数据服务
互联网大数据技术架构体系
互联网大数据处理技术
演化分析
多维度 语义检索 排序 聚合分析
基于内容的检索
PB
高 性
关系抽取
能
并
行
计
算
微信
智能分析
方正智思 大数据处理技术
201010618393.4 一种论坛回帖的增量采集方法及系统
201010609163.1 网络数据采集方法及装置
2013年,“一种对半结构化文档集进行文本
中国专利奖 200910217505.2挖一掘种基的于互方联法网定”向站获点得网页数据采集的方法及装置
200810240016.4 一种元搜索引擎的排名方法及元搜索引擎
移动互联网大数据的4V
• Volume 随时随地都在产生数据,数 据量更大。
• Variety 随时随地联网的特性,使得 移动互联网的数据更具有多样性。位 置设备、智能硬件等各种传感器数据。
• Velocity 对速度处理的要求性更高, 很多的业务场景需要更实时的数据处 理才能使得数据产生价值。
• Value 更多高价值的数据。
移动互联网大数据的价值和利用
• 更好的个性化服务 • 智能商业,更为精准的个性化营销。 • 更为便利的生活,各种O2O服务。
大数据时代的挑战(舆情角度)
?如何全面收集网络舆情信息 ?如何快速发现敏感或负面舆情
?如何准确掌握热点事件的网络舆论
?如何对海量信息内容深入挖掘分析 ?如何应对突如其来的突发事件
-海量数据水平自动分区
-Master/Slave结构
-横向扩展模式
-高容错性
-节点自动复制
-支持超大数据集
-高性能的随机读写
-集群扩展灵活方便
PB级数据存储大,数据秒存储级处理响应!
全文检索
及检索分析
智能挖掘分析
-Master/Slave结构
-索引和检索松散耦合 -检索节点动态扩展 -集群内各服务器负载均衡 -多用户高并发高性能访问
O2O行业
移动互联网舆情
面向移动互联网舆情,首要关注新闻、 论坛类应用。
移动互联网舆情 (释永信被举报事件 2015-08) 事件发展态势
移动互联网舆情 (释永信被举报事件 2015-08) APP通道分布
移动互联网舆情 (释永信被举报事件 2015-08) 事件演化
• 新话题的产生、旧话题的衰减
200710304146.5 一种中文新闻网页正文的自动抽取方法及装置
201310210101.7 基于云服务的海量数据传播性分析预测及交互
目录
众说纷纭的大数据时代 大数据技术架构体系(方正智思) 移动互联网舆情分析案例 展望
移动互联网
LBS 位置服务
智能手机 + 丰富应用
票务、团购、促销 个性化推荐、精准推送
及
201010236363.7 一种高效的互联网信息采集方法
奖
201010515747.2 一种手机报中新闻内容的抽取方法及系统
项
201010530643.9 一种从新闻列表页抽取新闻记录元数据的方法及系统
201010546334.0 从网站中多个不同IP的服务器抓取网页的方法及系统
共有专利115项
传播路径
地域分析 事件分析
热词 挖掘
网民观 点归纳
热点 分析
技术发明及奖项
201210511269.7 一种基于频繁树的论坛数据抽取方法
201210583885.3 一种元搜索快速判断数据缓存更新的机
201210287661.8 一种特定的BBS采集方法
方正智思荣20获111中036文636信7.1息一处种自理动抽领取域论坛最内容高页奖数据项的方法
语料的利用
• 准备训练集 • 特定问题领域,专门词汇搭配 • 标记数据较少
• 人工标注依赖领域知识(保密)和语言理解 • 容易获取大量无标记数据
• 例如:领域相关的关键词扩展 • 半监督式学习, 已分类的文档:NB + EM • 无监督式,word2vec 训练词向量
目录
众说纷纭的大数据时代 大数据技术架构体系(方正智思) 移动互联网舆情分析案例 展望
数据管理 级 数 据 管 理
数据清洗
移动新闻 客户端
漫爬 定向
数据整合
海量数据获取
视频 微信
图片
论坛
超过20万微个博 信源全,媒体日采集增量近报刊8000万!
社交
移动APP
博客
新闻 评论
数据融合管理
海量数据采集
通用采集
定向采集
元搜索采集
网络漫爬
针对传统媒体类型: 新闻、论坛、博客、 评论等
分布式架构 变频采集技术 自学习抽取技术 动态解析技术
移动互联网舆情 (释永信被举报事件 2015-08)
相关词
事件评论的情感倾向分析
不只是词频,基于共现性的统计特征 结合离线训练词向量
几点相关技术 机器学习方法的应用
模型
实验
编码
数据驱动下快速迭代
发文模板识别
疫情定期检查通知
模板示意
• 猜测模板 • 记住若干实例(Instance-based learning) • n-gram分布推断共享的模板 • 跟踪模板的演化、信息抽取
f
针对特定数据类型: 微博、移动新闻、微 信等
模拟登陆技术 辐射式多层关系提取 技术
整合搜索引擎: 基于元搜索结果的采 集
多种搜索引擎的支持 采集任务统一管理
更大范围的信息获取: 基于关键词的全网信 息爬取
负载均衡技术 DNS缓存技术 多IP并发技术
数据存储检索
HBase分布式数据库
HDFS文件存储
发 明
“钱伟长中文信息处理科学技术奖”
201210566545.X 一种基于传播轨迹来确定重点博主的方法
201110415749.9 一种高采全率的新闻评论采集系统
专
二等奖
利
201210587234.1 基于网络平台分布式大数据量并发系统
201110415356.8 一种网络文学的实时采集方法及系统
-关键词及摘要提取 -聚类分析 -情感分析 -命名实体识别
智能挖掘分析
基础数据
用户数据
分析与挖掘
• 文本内容向量 • 粉丝相似度 • 用户亲密度 • 大V用户 • 区域相关用户 • 用户画像 • 用户阅读特征 • 用户特征数据
智能挖掘分析
人物 分析
观点 归纳
趋势 分析
演化分析
信息 类型
网站 分类