大数据汇报ppt(内部精华版)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘基本方法
预测建模:将已有数据和模型用于对未 知变量的语言。(1)分类,用于预测离 散的目标变量(2)回归,用于预测连续 的目标变量 关联分析:反映一个事物与其他事物之 间的相互依存性和关联性。用来发现描述 数据中强关联特征的模式。 聚类分析:发现紧密相关的观测值组群, 使得与属于不同簇的观测值相比,属于同 一簇的观测值相互之间尽可能类似 异常检测:识别其特征显著不同于其他 数据的观测值
ASG Server ASG Server
To Other Grid Nodes
ASG Server ASG Server Grid Server Grid Server Grid Server ASG Server Grid Server 移动终端 ASG Server ASG Server 移动终端 ASG Server
实战项目1—— Python 网络爬虫
网络爬虫是一个自动提取网页的程序/脚 本,它可以搜索引擎从万维网上下载网 页,是搜索引擎的重要组成。 做为通用搜索引擎网页收集器 (Google、Baidu) 做垂直搜索引擎(51job、zhaoping、 chinahr) 科学研究:在线人类行为,在线社群 演化,复杂网络,数据挖掘领域的实证 科学研究,快速收集大量数据
•非结构化海量信息的智能化处理:自然语言 理解、多媒体内容理解、机器学习等.
大数据驱动架构概念图
大数据存储 云计算技术是最理想的解决方案!?
2017/3/7
27
社会计算研究
2017/3/7
28
城市计算的基本框架
2017/3/7
29
数字足迹与城市计算
出租车GPS 数字足迹:不同时刻的城市热点检测、城市区域的功能特 性分类、路径规划、出租车司机寻客策略、异常轨迹检测、城市道路
关系数据库曾经是万能的
远程监护平台
电子病历
虚拟数据库
关系数据模型
CRM客户关系管理
销售管理系统
实时监控平台
2017/3/7
信息管理系统(HIS)
11
Google 大数据处理技术
- Google文件系统GFS(Google File System) - 并行数据处理MapReduce - 结构化数据表BigTable - 分布式锁管理Chubby
实时分析而非批量式分析
数据输入、处理与丢弃 立竿见影而非事后见效
2.什么是云计算?
云计算将计算任务分布在大量计算机构成的资源池上,是各种应用系统能够根据需 要获取计算力、存储空间和各种软件服务。 云计算的“云”就是存在于互联网上的服务器集群上的资源,它包括硬件资源(服 务器、存储器、CPU等)和软件资源(如应用软件、集成开发环境等)本地计算机只需 要通过互联网发送一个需求信息,远端就会有成千上万的计算机为你提供需要的资源并 将结果返回本地计算机。
To Other Grid Nodes
ASG Server PC用户
邮件服务器
邮件服务器 PC用户
PC用户
3.大数据类型:结构化与非结构化数据
数据模型: 结构化数据:二维表(关系 型) 半结构化数据:树、图 非结构化数据:无 结构化数据:先有结构、再有 数据 半结构化数据:先有数据,再 有结构
Question
大数据从何而来,互联网技术发展现状? 什么是大数据、云计算与大数据有什么 关系、大数据类型?
大数据如何获取、存储、处理、分析的
技术?
大数据怎么用、未来发展趋势?
互联网发展趋势
风云变幻中……
2017/3/7
4
1.大数据 (Big Data)
所谓“大数据”(big data)指的是这样一种现象:一个公司日常运营所生成和积累用户 行为数据“增长如此之快,以至于难以使用现有的数据库管理工具来驾驭,困难存在于数 据的获取、存储、检索、共享、分析和可视化等方面。”这些数据量是如此之大,已经不 是以我们所熟悉G或T为单位来衡量,而是以P、E或Z为计量单位,所以称之为大数据。
Task:携程数据库(游客数据、点评记录)
实战项目2—— 数据分析及可视化应用
1.Python—2012年美国总统大选数据分析
2.动态气泡图的实现
3.热力感应图(heatmap.js)
管理大数据“易”,理解大数据“难”
•目前大数据管理多从架构和并行等方面考虑, 解决高并发数据存取的性能要求及数据存储 的横向扩展,但对非结构化数据的内容理解 仍缺乏实质性的突破和进展,这是实现大数 据资源化、知识化、普适化的核心.
2017/3/7
6
大数据的4V特性
非结构化数据的超大规模和增长
体量Volume 多样性Variety 价值密度Value 速度Velocity
总数据量的80~90% 比结构化数据增长快10倍到50倍 是传统数据仓库的10倍到50倍 大数据的异构和多样性 很多不同形式(文本、图像、视频、机器数据) 无模式或者模式不明显 不连贯的语法或句义 大量的不相关信息 对未来趋势与模式的可预测分析 深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、 报告等)
30
大数据时代的发展趋势
大数据时代的发展趋势
大数据时代的发展趋势
大数据时代的发展趋势
交通流量预测等;
移动社交网络数字足迹:探索个人和群体移动模式、群体事件监测、 个性化的兴趣点推荐和搜索服务、交叉重叠式社群的发现与诠释等; 移动电话数字足迹:测量城市交通系统效率、优化城市道路、人的移 动性、地区经济发展、传染病预测、监测群体移动位置预测群体事件 等。
2017/3/7
NWU 智能信息处理研究所
大数据处理技术——Hadoop
开源Apache项目,灵感来源于Google的三篇论文:BigTable、MapReduce、GFS; Hadoop核心组件包括: -分布式文件系统(HDFS) -分布式数据库存储系统(Hbase) -分布式计算构架(MapReduce) 使用Java编写 运行平台:Linux
HDFS 分布式文件系统
HDFS: - 分布式文件存储系统,存储海量的数 据; - 数据冗余,硬件容错; - 流式的数据访问; - 存储大文件; - 适合数据批量读写,吞吐量高;适 一次写入,多次读取,顺序读写。 - 不适合交互式应用,低延迟很难 满足不支持多用户并发写相同文件。 HDFS 体系架构
大数据系统 整体架构
Data
Value : 数据挖掘与分析
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其 中的、人们事先不知道的、但潜在的有用信息和知识的过程。
Βιβλιοθήκη Baidu
数据挖掘与分析
知识发现(KDD)是从数据集中识别 出有效的、新颖的、潜在有用的,以及 最终可理解的模式的过程。 数据挖掘是数据库知识发现(KDD) 中不可缺少一部分
MapReduce
BigTable
Chubby GFS
作用: - 成本降低,能用PC机,不用大型机和高端存储 - 软件容错硬件故障视为常态,通过软件保证可靠性 - 简化并行分布式计算,无须控制节点同步和数据交换
技术变革
云计算:把集中的运算分散开来
物联网:把分散的设备连在一起
Hadoop:把大数据切成小模块
相关文档
最新文档