大数据管理与分析
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
21
NoSQL例子:key-value存储
• • • • 键值得哈希表 属性值都与键一起存储 快速访问少量数据值 例子 – Project-Voldemort
– http://www.project-voldemort.com/ – Linkedin
• 例子 – MemCacheDB
– http://memcachedb.org/ – 后端存储的是Berkeley-DB
– Key: 电影/歌曲名字 – Value:电影,歌曲 – Key: 块 ID – Value: 块
• Facebook, Twitter: • iCloud/iTunes:
• 分布式文件系统
系统举例
• Google File System, Hadoop Dist. File Systems (HDFS) • Amazon
定义3 (“大数据”(Big data)研究机构Gartner)
“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力 和流程优化能力的海量、高增长率和多样化的信息资产 。
管理、处理、并整理成为人类所能解读的信息
处处皆是大数据
移动设备
请各位评审老师提出宝贵建议! 谢谢!
社交网络 科学仪器
传感网
NewSQL示例:VoltDB
• • • • 自动数据分片技术 分区表 表复制 串行单线程序处理
NewSQL示例:H-Store
进程 参数
应用程序
提纲
• • • • • • • • 大数据 大数据“量”的管理 大数据“质”的管理 大数据分析 大数据管理与分析平台 大数据管理与分析的应用实例 哈尔滨工业大学海量数据计算研究中心的成果 结论
数据质量问题
数据包含错误或相互矛盾。 一个或多个数据源的不同记录实 数据库不具有足够信息回答用户 数据已陈旧。例如,数据库中用 数据不能准确表述现实中的实体。 例如 , 客户记录(公司 =,先导 , 际上标识同一实体。例如 企业的 查询。例如,医疗数据库可能遗 户的地址在 2009 年是正确、精确 例如,一个公务员的年龄上限可 市场、销售和服务部门可能维护 国码 = 86, 区号2010 =10, 年未必如此。 城市=上海) 缺某些患者病史资料。数据遗缺 和完整的,但在 为100或250。显然100比250更为 各自的数据库,这些数据会有大 导致不正确的分析、错误决断乃 含有语义错误 : 10是北京的区号, 据统计,由于各类原因数据库中 精确。换言之,正确的数据可能 至严重事故。例如,美国每年近 量的不同描述的重复客户。 而非上海 . 平均 1/4 的商业用户或患者数据在 含有误差,未必精确。 十万医疗事故来自数据遗缺。 一年内可能过时。 数据 不一致
– 图数据近似匹配 – XML数据近似匹配
– 基于规则的多模态数据实体识 别
缺少知识 • 计算有效的数据质量描述
• 并行数据清洗
混杂错误
计算困难
– 并行实体识别 – 并行真值发现 – 并行缺失值填充
• 劣质容忍的近似计算
– 劣质数据模型 – 基于实体识别的劣质数据管理 – 近似子图查询
提纲
• • • • • • • 大数据 大数据“量”的管理 大数据“质”的管理 大数据分析 大数据管理与分析平台 大数据管理与分析的应用实例 结论
10
NoSQL 产品/项目
http://www.nosql-database.org/ 列举了122 个 NoSQL 数据库 • Cassandra • CouchDB • Hadoop & Hbase • MongoDB • StupidDB • Etc.
11
NoSQL 区别特征
• 大数据量
– 谷歌的 “大数据”
– 工作在一个分布式集群的节点上,其中每个节 点拥有一个数据子集,查询分布执行 – 一个单一的主节点数据源,用一组节点进行事 务处理,从主节点取数据执行查询
• 高度优化的SQL存储引擎
– 更好的MySQL
• 透明分片
– 提供了分片的中间件层 – 数据库自动分割在多个节点运行
NewSQL示例:SQL-on-Hadoop
• 能够处理大规模数据,e.g., PBs
– 需要分配数据至数百甚至数千台机机器
• Amazon:
Key-Values: 举例
– Key: 顾客ID – Value: 顾客信息(e.g., 购买历史, 信用卡, ..) – Key: 用户ID – Value: 用户信息(e.g., 历史消息,照片,好友, …)
– 集成列存储与SQL数据库 – http://www.ingres.com/products/vectorwise
19
NoSQL的例子:文档存储
• 例如:CouchDB
– http://couchdb.apache.org/ – BBC
• 例如: MongoDB
– http://www.mongodb.org/ – Foursquare, Shutterfly
据存在错误
地址写错而退回的邮件造成每 个企业每年5000-10万英镑的 经济损失
五角大楼通知200多名已经 去世的军官继续服役
电话公司因数据错误每年损失6亿 英镑 (50%的电话单有误;电信数 据的错误率:10%--75%)
全球财富1000强公司中超过25%的关键数据存在错误 在一个有500,000 条用户记录的数据库中,平均 500,000 过世的人仍持 120,000 条记录在一年内不再正确 有医疗保险 工业界的数据出错率: 1% 30% (Redman, 1998)
海量数据计算研究中心
Massive Data Computing Lab @ HIT
大数据管理与分析
哈尔滨工业大学 王宏志 wangzh@hit.edu.cn http://homepage.hit.edu.cn/pages/wang
2015-07-08@哈尔滨
提纲
• • • • • • • 大数据 大数据“量”的管理 大数据“质”的管理 大数据分析 大数据管理与分析平台 大数据管理与分析的应用实例 结论
大数据分析和传统分析的不同之处
传统分析
结构化& 可重复 为存储数据建立建立结构
大数据分析
迭代 & 探索 数据即是结构
客户确定问题
分析的信息
IT团队从平台 上搜集数据
全部信息
分析全部信息
可用信息上基于约束的抽样
全局分析连接孤立的点
分Βιβλιοθήκη Baidu的信息
分析的信息
IT团队建立系统 解释已有问题
分析之前清洗小规模数据集合
什么是大数据?
至今没有公认的定义 定义1 (Kusnetzky, Dan. What is "Big Data?") 所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、
请各位评审老师提出宝贵建议! 定义2 (维克托·迈尔-舍恩伯格、肯尼斯·库克耶.“大数据时代”) 不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法 谢谢!
医疗数据
商业数据
计算机艺术
大数据的特点
请各位评审老师提出宝贵建议! 谢谢!
提纲
• • • • • • • • 大数据 大数据“量”的管理 大数据“质”的管理 大数据分析 大数据管理与分析平台 大数据管理与分析的应用实例 哈尔滨工业大学海量数据计算研究中心的成果 结论
大数据“量”的管理 NoSQL VS. NewSQL
• 每个操作都必须终止在一个预期的响应之 内– Pritchett
15
分区容错性
– 出现任意信息的损失时系统继续运行– Wikipedia • 操作始终完成,即使存在单个组件不可用– Pritchett
16
NoSQL数据库类型
讨论NoSQL数据库是个复杂的话题,因为有各 种各样的类型: •列存储—每个存储块包含的数据只有一个列 •文档存储—由标记元素组成存储文档 •key-value存储—键值的哈希表
• 特征
– – – – – 弱一致性–陈旧的数据好 可用性第一 尽力服务 可提供近似答案 简单快捷
13
一致性
• 所有节点同时看到相同的数据 – Wikipedia • 一系列操作都是一次性完成的– Pritchett • 像ACID事物属性中的原子
14
有效性
– 结点故障不会阻止其余结点继续操作– Wikipedia
17
其它类型Non-SQL数据库
• • • • XML 数据库 图数据库 面向对象数据库 等等…
18
NoSQL的例子:列存储
• 每个存储块包含的数据只有一个列 • 例如: Hadoop/Hbase
– http://hadoop.apache.org/ – Yahoo, Facebook
• 例如: Ingres VectorWise
NoSQL
NoSQL 定义
www.nosql-database.org的定义 下一代数据库主要强调以下几个特点: 非关系型, 分布式,开源和横向可扩展性.最初的目的是构造 现代网络级数据库.它开始于2009年早期并迅速发 展。有了更多新的特征如: 模式自由,容易复制支 持, 简单的API,最终一致性 (非ACID), 支持大数据等 等。
数据 精度低
数据 不完整
数据 陈旧
实体 不同一
大数据的数据质量问题
来源和形式上的多样使得数据有 更大的可能产生不一致和冲突 更新会导致过时和不一致数据迅 速产生 获取、存储、传输和计算过程中 可能产生更多错误
数据质量对数据应用的影响
数据错误引发的医疗事故每 13.6%--81.1% 的医疗数 年导致 98000名患者的死亡
• 可拓展的复制分布
– 可能是成千上万台机器 – 可能分布在世界的各个角落
• • • • • • •
查询需要立即回复 查询较多,更新较少 异步插入和更新 架构灵活 不需要ACID事务属性 CAP定理 开源开发
12
BASE 事务
• 与缩略词ACID意义相反
– 基本可用性, – 软状态, – 最终一致性
NewSQL
NewSQL
• 向传统SQL回归 • NewSQL是对各种新的可扩展/高性能数据 库的简称
– 具有NoSQL对海量数据的存储管理能力 – 还保持了传统数据库支持ACID和SQL等特性
• NewSQL特点
– 支持关系数据模型 – 使用SQL作为主要的接口
NewSQL的分类
• 全新的数据库平台
• JSON –对象表示法
20
CouchDB JSON的例子
{ "_id": "guid goes here", "_rev": "314159", "type": "abstract", "author": "Keith W. Hare" "title": "SQL Standard and NoSQL Databases", "body": "NoSQL databases (either no-SQL or Not Only SQL) are currently a hot topic in some parts of computing.", "creation_timestamp": "2011/05/10 13:30:00 +0004" }
– Dynamo: 内置key-value存储支持Amazon.com (购物车) – Simple Storage System (S3)
• BigTable/HBase/Hypertable: 分布式的、可扩展的 数据存储 • Cassandra: “分布式数据管理系统” (Facebook)
• Memcached: 存储器内存储少量任意数据(字符串, 对象) 的key-value • eDonkey/eMule: p2p共享系统
商业用户浏览 数据并提出问题
分析原始数据 & 按需清洗
大数据分析和传统分析的不同之处
22
Key-Value 存储
• 界面
– put(key, value); // 插入/写入与“value”对应的“key” – value=get(key); // 取出/读出与“key”对应的“value” 值
• 抽象概念
– 文件系统: value content 块 – 数据库:简单、扩展性强
大数据量质融合管理的难题
缺少知识 混杂错误
计算困难
缺少知识 混杂错误
• 基于众包的数据清洗
– 基于众包的真值发现 – 基于众包的实体识别 – 基于众包的缺失值填充 – 基于众包的不一致修复
计算困难
缺少知识 混杂错误
• 混合错误清洗
– HITClenter
计算困难
• 不确定数据实体识别 • 多模态数据质量管理