w1大数据挖掘及其背景

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

例子
• 下图是包含姓名(name)、地址(address)和电话 号码(phone)字段的记录的内存索引结构。
– 索引基于电话号码字段构建,桶采用链表结构。 – 电话号码800-555-1212所对应的哈希到桶号码为17
• 使用哈希表的索引,电话号码经过哈希函数 映射到不同桶中,桶编号就是哈希结果值
二级存储器
• 处理大规模数据时,数据在磁盘还是在内存 ,计算的时间开销相差很大 • 将数据放在内存中将具压倒性优势
– 一般来说,磁盘上数据到内存的传送速度大约是 100 MB/s。 – 将磁盘组织成块结构,每个块是操作系统用于, 在内存和磁盘之间传输数据的最小单元

• 例如,Windows操作系统使用的块大小为64KB。 • 需要大概10毫秒的时间,来访问和读取一个磁盘 块。 • 相对于从内存中读取一个字的时间,磁盘的读取 延迟大概要慢5个数量级。 • 若将相关的数据组织到磁盘的单个柱面上,这样可以 以每块显著小于10毫秒的速度,将柱面上的所有块读 入内存。
– 比如,并不清楚到底是影片的什么因素,导致某 些观众喜欢或者厌恶该影片。 – 因此,在Netflix竞赛要求设计一个算法,来预测观 众对影片的评分时,基于已有评分样本的数据挖 掘算法获得了巨大成功。
数据挖掘不成功的案例
• 当挖掘的目标,能够更直接地描述时,数据 挖掘方法并不成功。
– WhizBang!实验室曾试图使用数据挖掘方法,在 Web上定位人们的简历。
大数据挖掘知识点
• 对数据挖掘研究有益的一些知识
– – – – – (1)用于度量词语重要性的TF.IDF指标 (2)哈希函数及其使用 (3)二级存储器(磁盘)及其对算法运行时间的影响; (4)自然对数的底e及包含它的一系列恒等式 (5)幂定律(power law)
词语在文档中的重要性
• 文档(词语的序列)挖掘的不少应用,都涉及根 据主题,对文档分类的问题。
索引
• 为对象的一个或多个元素值建立索引,是一 种能够支持对象高效查找的方法。
– 最常见的对象是记录,而索引按照记录中的某个 字段来建立
• 哈希表是一种简单的索引构建方法。
– 哈希函数的输入键是用于建立索引的一个或者多 个字段。 – 对于某条记录来说,哈希函数会基于其中哈希键 的值进行计算,然后将整条记录分配到某个桶中 – 桶的号码取决于哈希函数的结果。
数据准备 数据挖掘 结果评价 结果表达和解释
数据挖掘
数据转换 预处理 数据选择 数据集成 目标数据 数据 数据源 预处理后 转换数据 数据 知识
模式
常用的数据挖掘方法
关联规则 聚类分析 分类技术 时序模式 偏差检测 预测估计 …….
传统的数据挖掘软件
• 专用挖掘工具、通用挖掘工具
– – – – – – – QUEST MineSet DBMiner Intelligent Miner SAS Enterprise Miner SPSS Clementine ……
自然对数的底e
• 常数e = 2.718 281 8... 有一些非常有用的特性 • e是当x趋向于无穷大时,
1 1 x
x
• 的极限。 • 当x分别等于1、2、3和4时,上式的值分别近似为2、 2.25、2.37和2.44
例子
• 令x=1/2,有
– e1wk.baidu.com2 = 1 +1/2+1/8+1/48+1/384+…
Part 1大数据挖掘及其背景
应用于大数据处理
高级讲师:杨文川 2014/7/17
主要内容
大数据挖掘 数据模型的发现 大数据挖掘知识点
量化一切、利用所有的数据
大数据挖掘的基础
在数字化时代,获取数据正变得比以往任何 时候都简单而不受限制 文字、方位、社交关系等都变成了数据
发现数据间的隐含信息
之前信息技术变革的重点在"T"(技术)上, 而不是在"I"(信息)上。
• 或约为
– e1/2=1.648 44
• 令x = −1,有
– e−1 = 1 − 1 +1/2-1/6+1/24-1/120+1/720-1/5040+…
• 或约为
– e−1=0.367 86。
幂定律
• 很多现象中,两个变量之间 通过幂律(power law)关联起来
– 两个变量在对数空间下,呈现 出线性关系
首选将B取为素数
• 当哈希键都是整数时,如果选用一个与所有 可能的哈希键,都具有公因子的B时,将会导 致分配到桶中的结果不随机。
– 因此,通常都首选将B取为素数。这种选择方法减 少了非随机行为的可能性。
• 如果哈希键不是整数,有一些简单的规则可 以将通用的类型转化成整数。
– 例如,如果哈希键是字符串,那么可以将每个字 符,转换成其对应的ASCII码或Unicode码
– 算法的效果都比不过人工设计的,直接通过典型 关键词和短语,来查找简历的算法。
– 相对于直接设计的简历发现算法而言,数据挖掘 并无任何优势
建模的计算方法
• 数据建模有很多不同的方法。
• 数据可以通过,其生成所可能遵从的,统计 过程构建来建模。
数据建模两种做法
• 数据建模方法可描述为下列两种做法之一:
• 左边是斜率为-2的幂律关系
– log10y=6-2log10x
Amazon.com上的图书销售情况
• Amazon.com上的图书销售情况
– x表示图书的销量排名,y对应的是 销售排名为x的畅销图书在某个时间 段的销量 – 销售排行第1位的图书的销量是1百 万册,而排行第10位的图书的销量 为1万册,排行第100位的图书销量 为100册…。
N IDFi log 2 ni
• 词项i在文档j中的得分被定义为TFij×IDFi • 具有最高TF.IDF得分的那些词项,通常都是刻 画文档主题的最佳词项
例子
• 假定文档集中有220 = 1百万 篇文档 • 假定词语w在其中的210 = 1024篇文档中出现
– 那么IDFw = log2(220/210) = log2(210) = 10。 – 考虑一篇文档j,w在该文档中出现20次,是文档 当中出现最多的词。那么TFwj =1,于是w在文档j 中的TF.IDF得分为10 – 假定在文档k中,词语w出现一次,而该文档中任 一词语最多出现20次。有TFwk = 1/20, w在文档k 中的TF.IDF得分为1/2
– 1) 频繁项集(frequent itemset) – 2) 相似项(similar item)
1) 频繁项集
• 该模型适用于多个项集组成的数据,其原始 应用发生在真实的购物篮场景下:
– 在超市结账的时候,某些物品会被顾客同时购买 ,例如热狗和芥末,这些物品组成了项集
– 寻找那些在很多购物篮中,同时出现的项集(频 繁项集),这就是要找的,刻画数据的特征。
大数据挖掘面临的挑战
• 数据来源种类多且量大:
– 现有的RDBMS无法处理如此巨大的数据
• 可扩展处理:
– 挖掘计算可扩展,要反应及时
• 可靠性保证:
– 分布式文件系统的备份恢复机制
• 并行计算模型:
– 需要采用MapReduce的计算模型。
大数据挖掘的三个重要转变
首先,要分析与某事物相关的所有数据,而 不是依靠分析少量的数据样本。 其次,接受数据的纷繁复杂,而不再追求精 确性。 最后,不再探求难以捉摸的因果关系,转而 关注事物的相关关系。
哈希函数
• 哈希函数h的输入是一个哈希键值,输出是一 个桶编号。
– 假定桶的个数为整数B,则桶编号通常是0到B-1之 间的整数。
– 哈希键值可以是任何类型的数据,哈希函数的一 个直观性质,是其将哈希键值"随机化"
例子
• 假设哈希键是正整数。
– 哈希函数是h(x) = x mod B,即x 除以B之后的余数
– 数据挖掘可以描述为:按既定决策目标,对大 量的数据进行探索和分析,揭示隐藏的、未知 的或验证已知的规律性,并进一步将其模型化 的先进有效的方法。
数据、信息与知识
客观世界
收集
分析
数据
信息
再 分 析
知识
指导
经典挖掘模型CRISP-DM
商业理解
结果部署 数据 建立模型 模型评估
数据理解
数据准备
数据挖掘三阶段
正态分布
• 假定现有的数据是一系列数字。
– 统计学家可能会判定这些数字,来自一个高斯分 布(即正态分布),并利用公式来计算该分布最有可 能的参数值。 – 该高斯分布的均值和标准差,能够完整地刻画整 个分布,因而成为上述数据的一个模型
擅长的典型场景
• 数据挖掘擅长的,是当人们对数据中的寻找 目标,几乎一无所知。
现代信息系统让大数据成为了可能,是时候开始 关注信息"I"本身了。
大数据挖掘
大数据挖掘的核心动力来源于人类了解和分 析世界的渴望。
传统的数据挖掘
• 数据挖掘(Data Mining),又称知识发现 (KDD)
– 是一个从大量数据中提取、挖掘出未知的、有 价值的模式或规律等知识的复杂过程。
• 数据挖掘是一类深层次的数据分析方法。
– 文档的主题通过一些特定的,能够体现主题的词 语来刻画。 – 例如,有关棒球(baseball) 的文章中常出现类似 "ball"(球)、"bat"(球棒)、"pitch"(投球)以及"run"(跑 垒)之类的词语。
分类必须先考察文档
• 从文档中找出重要的词语
– 最频繁出现的词语未必最重要,如 "the"、"and" 等停用词 – 极少出现的词语如albeit,有时也不能提供多少有用 的信息 – 另一方面,某个词(如chukker,马球一局)能提示文 档明显和马球运动有关
2) 相似项
• 有时数据看上去像一系列集合,这时的目标 是,寻找那些共同元素比例较高的集合对。
– 由于顾客大都对许多不同的商品感兴趣,寻找兴 趣相似的那部分顾客,并根据这些关联对数据进 行表示的做法会更有用。 – 为向顾客推荐感兴趣的商品,Amazon先寻找与他 相似的顾客群,并把其中大部分人购买过的商品 也推荐给他,该过程称为协同过滤
– 1)对数据进行简洁的近似汇总描述; – 2)从数据中抽取出最突出的特征,代替数据,并忽 略剩余内容
数据汇总
• 一种数据汇总形式是PageRank,谷歌成功的 关键算法
– Web的整个复杂结构,可由每个页面所对应的一 个数字( PageRank值)归纳而成。
• 另一种数据汇总形式是聚类
– 在聚类中,数据被看成是多维空间下的点,空间 中相互邻近的点将被赋予相同的类别。
– 这些类别的概括信息综合在一起,形成了全体数 据集合的数据汇总结果。
伦敦地图标出的霍乱传播情况
• 内科医生John Snow在处理霍乱爆发时,在城 市地图上标出了病例的发生地点
– 图示病例聚集在某些交叉路口。这些路口的水井 已被污染,水井附近的居民染上了疾病
特征抽取
• 基于特征的模型,会从数据中寻找某个现象 的最极端样例,并用其表示数据。 • 大数据下的一些重要的特征抽取类型包括:
多处数据都满足幂律
• • • • 1) Web图当中节点的度 2) 商品的销量 3) Web网站的大小 4) Zipf定律
1) Web图当中节点的度
• 按照网页的入链数对所有网 页排序,令x为网页在排序结 果的序号,y为序号为x的网 页的入链数。 • y和x间的关系和左图类似,
• TF.IDF是度量给定词语在文档中,反复出现程 度的形式化指标
TF.IDF
• 假定文档集中有N篇文档,fij为词项i在文档j中 出现的频率(即次数),词项i在文档j中的词项 频率TFij定义为
TFij
fij
max k f kj
• 假定词项i在文档集的ni篇文档中出现,那么 词项i的IDF定义
数据挖掘是数据模型的发现过程
• 数据挖掘(data mining)是数据"模型"的发现过 程,而"模型"却可以有多种含义。 • 下面介绍在建模方面最重要的几个方向
统计建模
• 最早使用"data mining"术语的人是统计学家
– 原意是:试图抽取出数据本身不支持的信息的过 程
– 统计学家认为,数据挖掘就是统计模型的构建过 程 – 而这个统计模型指的就是,可见数据所遵从的总 体分布
– 如果哈希键的总体是所有的正整数,那么上述 哈希函数产生的结果会非常均匀,即1/B的整 数将被分到每个桶中。 – 如果哈希键只能是偶数值,并且如果B=10,那 么h(x) 的结果只能是0、2、4、6和8,此时哈 希函数的行为明显不够随机。 – 如果选择B=11,那么会有1/11的偶数会分到每 个桶中,这时候哈希函数的效果又会很好
相关文档
最新文档