移动互联网大数据分析 及其应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据时代与移动互联网

20世纪80年代——90年代中期 20世纪90年代中期——21世纪前10年 2010年——

萌芽阶段 •1996年,美通社在介绍高性能平行节点技术时提到大数据应用

阿尔文·托夫勒 《第三次浪潮》 Bigdata—第三次浪潮的华彩乐章

关注阶段

•2001年,Gartner 公司对大数据进行了相对明确的定义,提出3V 特征 发展阶段 •2012年,美国颁布《大数据的研究和发展计划》

•2012年,中国成立大数据专家委员会

网页:网页数量1899亿个,年增长26.6%

网民:达6.49亿,全年共计新增网民3117万人,普及率47.9%

手机网民:达5.57亿,年增加5672万人,手机上网人群占比85.8%

移动智能终端用户:10.6亿;每日产生60亿条以上的数据;

微信活跃用户:5亿

??

大数据技术架构体系(方正智思)

数据获取数据收集数据存储数据计算数据服务

PB 级数据管理

基于内容的检索

演化分析 关系抽取 漫爬 移动新闻 客户端

微信 定向 数据管理 数据清洗

数据整合

语义检索

多维度 排序 聚合分析

新闻

论坛

博客评论

图片

视频社交

移动APP

报刊

微信

微博全媒体采集 海量数据获取

超过20万个信源,日增量近8000万!

动态解析技术

通用采集网络漫爬

定向采集元搜索采集

f

大数据存储及检索分析 级数据存储,秒级处理响应!

•文本内容向量 •粉丝相似度 •用户亲密度 •大V 用户 •区域相关用户 •用户画像 •用户阅读特征

•用户特征数据

演化分析

事件分析 网站 分类

地域分析 传播路径 人物 分析

观点 归纳 信息 类型 热词 挖掘 网民观 点归纳 热点 分析

趋势 分析

201210511269.7 一种基于频繁树的论坛数据抽取方法

201210287661.8 一种特定的BBS采集方法

201210566545.X 一种基于传播轨迹来确定重点博主的方法

201210587234.1 基于网络平台分布式大数据量并发系统

201010236363.7 一种高效的互联网信息采集方法

201010530643.9 一种从新闻列表页抽取新闻记录元数据的方法及系统

201210583885.3 一种元搜索快速判断数据缓存更新的机

201110366367.1 一种自动抽取论坛内容页数据的方法

201110415749.9 一种高采全率的新闻评论采集系统

201110415356.8 一种网络文学的实时采集方法及系统

201010515747.2 一种手机报中新闻内容的抽取方法及系统

201010546334.0 从网站中多个不同IP的服务器抓取网页的方法及系统201010618393.4 一种论坛回帖的增量采集方法及系统

200910217505.2 一种基于互联网定向站点网页数据采集的方法及装置

200710304146.5 一种中文新闻网页正文的自动抽取方法及装置

201010609163.1 网络数据采集方法及装置

200810240016.4 一种元搜索引擎的排名方法及元搜索引擎

201310210101.7 基于云服务的海量数据传播性分析预测及交互

方正智思荣获中文信息处理领域最高奖项

“钱伟长中文信息处理科学技术奖”

二等奖

共有专利115项

2013年,“一种对半结构化文档集进行文本

挖掘的方法”获得中国专利奖

移动互联网舆情分析案例

O2O行业

模型

实验

编码

展望

谢谢!

相关文档
最新文档