数据流和数据流管理系统-文档资料

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

相关的数据库技术
传统DBMS中的触发器、物化视图 主存数据库 分布式数据库 活动数据库(Active DataBase) ??? 时间序列数据库 实时数据库(Realtime Databases) 可适应、在线、部分结果集 ???
(Adaptive, Online, Partial Results)
内容提要
数据流和数据流管理系统(DSMS) 相关的领域知识和问题 查询处理器Psoup(AT&T) 实验结果及结论 小结
电报系统示意图
stream ed)
Stream Access
• A rbitrary • W eighted history • Sliding w indow (special case: size = 1)
DSMS
内容提要
数据流和数据流管理系统(DSMS) 相关的领域知识和问题 查询处理器PSoup 实验结果及结论 小结
• Predefined • Ad-hoc • Predefined, inactive until invoked
User/Application Query Processor
A nsw er A vailability
• O ne-tim e • Event/tim er based • M ultiple-tim e, periodic • C ontinuous (stored or
AND O2.event = end)
Result requires unbounded storage Can provide result as data stream Can output after 2 min, without seeing end
查询模型
Q uery R egistration
相关知识
011000011100000101010
滑动窗口(Sliding Window)
有限的内存,需要近似技术
(Approximation technique for bounded memory )
最新的数据
时间戳(TimeStamps)
显式(Explicit) 隐式(Implicit)
电话通信(Telecom call records) 网络安全 (Network security ) 金融领域(Financial Application) 工业生产(Manufacturing Processes) 网页日志与点击流(Web logs and
clickstreams)
Find all outgoing calls longer than 2 minutes
SELECT O1.call_ID, O1.caller FROM Outgoing O1, Outgoing O2 WHERE (O2.time – O1.time > 2
AND O1.call_ID = O2.call_ID AND O1.event = start
应用实例
网络安全
数据包流,用户的会话信息 查询: URL 过滤,异常监测,网络攻击和病
毒来源
金融领域
交易数据流, 股票行情, 消息反馈 查询: 套汇可能性分析,模式
现有的研究方向
流数据建模(Stream data model)
STanford stREam datA Manager (STREAM) Data Stream Management System (DSMS)
random access is expensive
传统的数据库模型
User/Application
Query Query

Result Result

Loader
数据流(DSMS)管理系统模型
User/Application
Register Query
Results
Stream Query Processor
流检来自百度文库/查询建模(Stream query model)
Continuous Queries Sliding windows
流数据挖掘(Stream data mining)
Clustering & summarization (Guha, Motwani et al.) Correlation of data streams (Gehrke et al.) Classification of stream data (Domingos et al.)
流查询(例1)
ALICE
BOB
Central Office
Central Office
Outgoing (call_ID, caller, time, event) Incoming (call_ID, callee, time, event)
DSMS
event = start or end
流查询(例1 Cont)
Scratch Space (Memory and/or Disk)
Data Stream Management System
(DSMS)
DBMS 与 DSMS
持久的关系
One-time queries 随机的访问 “无限”的磁盘空间 当前状态有效 被动的存储?? 相对较低的更新率 很少“实时服务”?? 假定数据精确无误
访问策略由查询处理器 在数据库设计时确定
瞬间的流 连续的查询 序列化的访问 有限的主存 数据的到达顺序是关键 主动的存储?? 数据传输率未知 实时响应 过时/模糊的数据 变化的数据及数据量
应用领域
新的应用领域 – 以连续的、有序的“流” 的形式输入数据
网络监听和流量控制(Network monitoring and traffic engineering)
内容简介
数据流和数据流管理系统(DSMS) 相关的领域知识和问题 查询处理器PSoup 实验结果及结论 小结
什么是数据流
概念 一系列连续且有序的点组成的序列 x1,…,
xi, …, xn,称为数据流;按照固定的次序,这些 点只能被读取一次或者几次 特点 大数据量,甚至无限 频繁的变化和快速的响应 线性扫描算法,查询次数有限
相关文档
最新文档