大数据管理与分析

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

21
NoSQL例子:key-value存储
• • • • 键值得哈希表属性值都与键一起存储快速访问少量数据值例子 – Project-Voldemort
– http://www.project-voldemort.com/ – Linkedin
• 例子 – MemCacheDB
– http://memcachedb.org/ – 后端存储的是Berkeley-DB
– Key: 电影/歌曲名字 – Value:电影,歌曲 – Key: 块 ID – Value: 块
• Facebook, Twitter: • iCloud/iTunes:
• 分布式文件系统
系统举例
• Google File System, Hadoop Dist. File Systems (HDFS) • Amazon
定义3 (“大数据”（Big data）研究机构Gartner)
“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
管理、处理、并整理成为人类所能解读的信息
处处皆是大数据
移动设备
请各位评审老师提出宝贵建议！谢谢！
社交网络科学仪器
传感网
NewSQL示例：VoltDB
• • • • 自动数据分片技术分区表表复制串行单线程序处理
NewSQL示例：H-Store
进程参数
应用程序
提纲
• • • • • • • • 大数据大数据“量”的管理大数据“质”的管理大数据分析大数据管理与分析平台大数据管理与分析的应用实例哈尔滨工业大学海量数据计算研究中心的成果结论
数据质量问题
数据包含错误或相互矛盾。一个或多个数据源的不同记录实数据库不具有足够信息回答用户数据已陈旧。例如，数据库中用数据不能准确表述现实中的实体。例如 , 客户记录（公司 =,先导 , 际上标识同一实体。例如企业的查询。例如，医疗数据库可能遗户的地址在 2009 年是正确、精确例如，一个公务员的年龄上限可市场、销售和服务部门可能维护国码 = 86, 区号2010 =10, 年未必如此。城市=上海）缺某些患者病史资料。数据遗缺和完整的，但在为100或250。显然100比250更为各自的数据库，这些数据会有大导致不正确的分析、错误决断乃含有语义错误 : 10是北京的区号, 据统计，由于各类原因数据库中精确。换言之，正确的数据可能至严重事故。例如，美国每年近量的不同描述的重复客户。而非上海 . 平均 1/4 的商业用户或患者数据在含有误差，未必精确。十万医疗事故来自数据遗缺。一年内可能过时。数据不一致
– 图数据近似匹配 – XML数据近似匹配
– 基于规则的多模态数据实体识别
缺少知识 • 计算有效的数据质量描述
• 并行数据清洗
混杂错误
计算困难
– 并行实体识别 – 并行真值发现 – 并行缺失值填充
• 劣质容忍的近似计算
– 劣质数据模型 – 基于实体识别的劣质数据管理 – 近似子图查询
提纲
• • • • • • • 大数据大数据“量”的管理大数据“质”的管理大数据分析大数据管理与分析平台大数据管理与分析的应用实例结论
10
NoSQL 产品/项目
http://www.nosql-database.org/ 列举了122 个 NoSQL 数据库 • Cassandra • CouchDB • Hadoop & Hbase • MongoDB • StupidDB • Etc.
11
NoSQL 区别特征
• 大数据量
– 谷歌的 “大数据”
– 工作在一个分布式集群的节点上，其中每个节点拥有一个数据子集，查询分布执行 – 一个单一的主节点数据源，用一组节点进行事务处理，从主节点取数据执行查询
• 高度优化的SQL存储引擎
– 更好的MySQL
• 透明分片
– 提供了分片的中间件层 – 数据库自动分割在多个节点运行
NewSQL示例：SQL-on-Hadoop
• 能够处理大规模数据,e.g., PBs
– 需要分配数据至数百甚至数千台机机器
• Amazon:
Key-Values: 举例
– Key: 顾客ID – Value: 顾客信息(e.g., 购买历史, 信用卡, ..) – Key: 用户ID – Value: 用户信息(e.g., 历史消息,照片,好友, …)
– 集成列存储与SQL数据库 – http://www.ingres.com/products/vectorwise
19
NoSQL的例子:文档存储
• 例如:CouchDB
– http://couchdb.apache.org/ – BBC
• 例如: MongoDB
– http://www.mongodb.org/ – Foursquare, Shutterfly
据存在错误
地址写错而退回的邮件造成每个企业每年5000-10万英镑的经济损失
五角大楼通知200多名已经去世的军官继续服役
电话公司因数据错误每年损失6亿英镑（50%的电话单有误；电信数据的错误率：10%--75%）
全球财富1000强公司中超过25%的关键数据存在错误在一个有500,000 条用户记录的数据库中，平均 500,000 过世的人仍持 120,000 条记录在一年内不再正确有医疗保险工业界的数据出错率: 1% 30% (Redman, 1998)
海量数据计算研究中心
Massive Data Computing Lab @ HIT
大数据管理与分析
哈尔滨工业大学王宏志 wangzh@hit.edu.cn http://homepage.hit.edu.cn/pages/wang
2015-07-08@哈尔滨
提纲
• • • • • • • 大数据大数据“量”的管理大数据“质”的管理大数据分析大数据管理与分析平台大数据管理与分析的应用实例结论
大数据分析和传统分析的不同之处
传统分析
结构化& 可重复为存储数据建立建立结构
大数据分析
迭代 & 探索数据即是结构
客户确定问题
分析的信息
IT团队从平台上搜集数据
全部信息
分析全部信息
可用信息上基于约束的抽样
全局分析连接孤立的点
分Βιβλιοθήκη Baidu的信息
分析的信息
IT团队建立系统解释已有问题
分析之前清洗小规模数据集合
什么是大数据？
至今没有公认的定义定义1 (Kusnetzky, Dan. What is "Big Data?") 所涉及的数据量规模巨大到无法通过人工，在合理时间内达到截取、
请各位评审老师提出宝贵建议！定义2 (维克托·迈尔-舍恩伯格、肯尼斯·库克耶.“大数据时代”) 不用随机分析法（抽样调查）这样的捷径，而采用所有数据的方法谢谢！
医疗数据
商业数据
计算机艺术
大数据的特点
请各位评审老师提出宝贵建议！谢谢！
提纲
• • • • • • • • 大数据大数据“量”的管理大数据“质”的管理大数据分析大数据管理与分析平台大数据管理与分析的应用实例哈尔滨工业大学海量数据计算研究中心的成果结论
大数据“量”的管理 NoSQL VS. NewSQL
• 每个操作都必须终止在一个预期的响应之内– Pritchett
15
分区容错性
– 出现任意信息的损失时系统继续运行– Wikipedia • 操作始终完成,即使存在单个组件不可用– Pritchett
16
NoSQL数据库类型
讨论NoSQL数据库是个复杂的话题,因为有各种各样的类型: •列存储—每个存储块包含的数据只有一个列 •文档存储—由标记元素组成存储文档 •key-value存储—键值的哈希表
• 特征
– – – – – 弱一致性–陈旧的数据好可用性第一尽力服务可提供近似答案简单快捷
13
一致性
• 所有节点同时看到相同的数据 – Wikipedia • 一系列操作都是一次性完成的– Pritchett • 像ACID事物属性中的原子
14
有效性
– 结点故障不会阻止其余结点继续操作– Wikipedia
17
其它类型Non-SQL数据库
• • • • XML 数据库图数据库面向对象数据库等等…
18
NoSQL的例子:列存储
• 每个存储块包含的数据只有一个列 • 例如: Hadoop/Hbase
– http://hadoop.apache.org/ – Yahoo, Facebook
• 例如: Ingres VectorWise
NoSQL
NoSQL 定义
www.nosql-database.org的定义下一代数据库主要强调以下几个特点: 非关系型, 分布式,开源和横向可扩展性.最初的目的是构造现代网络级数据库.它开始于2009年早期并迅速发展。有了更多新的特征如: 模式自由,容易复制支持, 简单的API,最终一致性 (非ACID), 支持大数据等等。
数据精度低
数据不完整
数据陈旧
实体不同一
大数据的数据质量问题
来源和形式上的多样使得数据有更大的可能产生不一致和冲突更新会导致过时和不一致数据迅速产生获取、存储、传输和计算过程中可能产生更多错误
数据质量对数据应用的影响
数据错误引发的医疗事故每 13.6%--81.1% 的医疗数年导致 98000名患者的死亡
• 可拓展的复制分布
– 可能是成千上万台机器 – 可能分布在世界的各个角落
• • • • • • •
查询需要立即回复查询较多，更新较少异步插入和更新架构灵活不需要ACID事务属性 CAP定理开源开发
12
BASE 事务
• 与缩略词ACID意义相反
– 基本可用性, – 软状态, – 最终一致性
NewSQL
NewSQL
• 向传统SQL回归 • NewSQL是对各种新的可扩展/高性能数据库的简称
– 具有NoSQL对海量数据的存储管理能力 – 还保持了传统数据库支持ACID和SQL等特性
• NewSQL特点
– 支持关系数据模型 – 使用SQL作为主要的接口
NewSQL的分类
• 全新的数据库平台
• JSON –对象表示法
20
CouchDB JSON的例子
{ "_id": "guid goes here", "_rev": "314159", "type": "abstract", "author": "Keith W. Hare" "title": "SQL Standard and NoSQL Databases", "body": "NoSQL databases (either no-SQL or Not Only SQL) are currently a hot topic in some parts of computing.", "creation_timestamp": "2011/05/10 13:30:00 +0004" }
– Dynamo: 内置key-value存储支持Amazon.com (购物车) – Simple Storage System (S3)
• BigTable/HBase/Hypertable: 分布式的、可扩展的数据存储 • Cassandra: “分布式数据管理系统” (Facebook)
• Memcached: 存储器内存储少量任意数据(字符串, 对象) 的key-value • eDonkey/eMule: p2p共享系统
商业用户浏览数据并提出问题
分析原始数据 & 按需清洗
大数据分析和传统分析的不同之处
22
Key-Value 存储
• 界面
– put(key, value); // 插入/写入与“value”对应的“key” – value=get(key); // 取出/读出与“key”对应的“value” 值
• 抽象概念
– 文件系统: value content 块 – 数据库：简单、扩展性强
大数据量质融合管理的难题
缺少知识混杂错误
计算困难
缺少知识混杂错误
• 基于众包的数据清洗
– 基于众包的真值发现 – 基于众包的实体识别 – 基于众包的缺失值填充 – 基于众包的不一致修复
计算困难
缺少知识混杂错误
• 混合错误清洗
– HITClenter
计算困难
• 不确定数据实体识别 • 多模态数据质量管理