斯坦福数据挖掘Introduction

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

斯坦福数据挖掘Introduction
感谢敖⼭、薛霄⽼师把我引进了统计学和现代服务业的⼤门.......⾄少是长见识了。

查相似项检索时发现的。

中间⼀部分资料来⾃厦门⼤学数据库实验室,感谢⼤⽜们的传道授业,爱你们。

查资料时发现很多计算机相关(⽐如分布式、数据库)的研究⽣都曾经是数学系的学⽣。

ppt是英⽂的,笔者做了简单翻译。

⼀.英语单词
subsidiary :附带的
Standard Deviation:标准差
outline:梗概,⼤纲
spam:垃圾邮件
extrac:提取
crap:废物,排泄物
objection:反对
vague:模糊的
violate:违反,妨碍,亵渎
suspicious:可疑的
at length:详细地
moral:道德上的,寓意,教训
⼆.课程⼤纲
测虚假(bogus)数据。

可视化(visualization):⽤图代替兆字节(Megabyte)的输出。

Databases: concentrate on large-scale (non-main-memory) data.
AI (machine-learning): concentrate on complex methods, small data.
Statistics: concentrate on models.
模型和过程分析:对数据库⼈员说,数据挖掘是过程分析的极端表现形式;对于统计学⼈员,数据挖掘是模型的推断(inference),结果是模型的参数。

Given a billion numbers, a DB person would compute their average and standard deviation.A statistician might fit the billion points to the best Gaussian distribution and report the mean and standard deviation of that distribution.
2.1 课程⼤纲(⼀)
课程⼤纲(⼀)
Map-Reduce and Hadoop.
Association rules, frequent itemsets.
PageRank and related measures of importance on the Web (link analysis ).
Spam detection.
Topic-specific search.
Recommendation systems.
Collaborative filtering.
2.2 课程⼤纲(⼆)
Finding similar sets.Minhashing, Locality-Sensitive hashing.
Extracting structured data (relations) from the Web.
Clustering data.
Managing Web advertisements.
Mining data streams.
充满意义的回答。

⼤数据挖掘的风险:可能发现毫⽆意义的模式。

邦弗朗尼原理:如何避免统计假象。

2.3 邦弗朗尼原理
斯坦福教授证明追踪恐怖分⼦是不可能的(我查资料发现介绍邦弗朗尼原理的书中都有这个例⼦)。

在考察数据时,如果将某些对象视为数据的有趣特征,⽽这些对象中的许多都可能会在随机数据中出现,那么这些显著的特征就不可依赖。

对于那些实际中并不充分罕见的特征来说,上述观察结果限制了从这些数据特征中进⾏挖掘的能⼒。

邦弗朗尼校正(Bonferroni correction):在数据随机性假设的基础上,可以计算所寻找事件出现次数的期望值。

如果该结果显著⾼于你所希望找到的真正实例的数⽬,那么可以预期,寻找到的⼏乎任何事物都是臆造的,也就是说,它们是在统计上出现的假象,⽽不是你所寻找事件的凭证。

假设我们确信在某个地⽅有⼀群恶⼈,⽬标是把他们揪出来。

再假定我们有理由相信,这些恶⼈会定期在某个宾馆聚会来商讨他们的作恶计划。

为限定问题的规模,我们再给出如下假设:
(1) 恶⼈数⽬可能有10亿;
(2) 每个⼈每100天当中会有⼀天去宾馆;
(3) ⼀个宾馆最多容纳100个⼈。

因此,100 000个宾馆已⾜够容纳10亿⼈中的1%在某个给定的⽇⼦⼊住宾馆;
(4) 我们将对1000天的宾馆⼊住记录进⾏核查。

为了在上述数据中发现恶⼈的踪迹,我们可以找出那些在两个不同⽇⼦⼊住同⼀宾馆的⼈。

但是假设并没有恶⼈,也就是说,给定某⼀天,对每个⼈来说,他们都是随机地确定是否去宾馆(概率为0.01),然后⼜是随机地从105个宾馆中选择⼀个。

从上述数据中,我们能否推断出某两个⼈可能是恶⼈?
接下来我们做个简单的近似计算。

给定某天,任意两个⼈都决定去宾馆的概率为0.000 1,⽽他们⼊住同⼀宾馆的概率应该在0.000 1基础上除以105(宾馆的数量)。

因此,在给定某天的情况下,两个⼈同时⼊住同⼀宾馆的概率是10 9。

⽽在任意给定的不同的两个⽇⼦,两⼈⼊住同⼀宾馆的概率就是10 9的平⽅,即10 18。

需要指出的是,上述推理中只需要两⼈两次中每次住的宾馆相同即可,并不需要两次都是同⼀家宾馆。

基于上述计算,我们必须要考虑到底事件出现多少次才意味着作恶事件的发⽣。

上例中,"事件"的含义是指"两个⼈在两天中的每⼀天⼊住相同宾馆"。

为简化数字运算,对于较⼤的n,⼤概等于n2/2。

下⾯我们都采⽤这个近似值。

因此在109中的⼈员组对个数为
=5×1017,⽽在1000天内任意两天的组合个数为 =5×105。

疑似作恶事件的期望数⽬应该是上述两者的乘积再乘上"两个⼈在两天中的每⼀天⼊住相同宾馆"的概率,结果为5 × 1017 × 5 ×105 × 10 18 = 250 000
也就是说,⼤概有25万对⼈员看上去像恶⼈,即使他们根本不是。

现在假定实际上只有10对⼈员是真正的恶⼈。

警察局需要调查25万对⼈员来寻找他们。

除了会侵犯近50万⽆辜⼈们的⽣活外,所需的⼯作量⾮常⼤,以⾄于上述做法⼏乎是不可⾏的。

寓意:Understanding Bonferroni’s Principle will help you look a little less stupid than a parapsychologist.
三.结束。

相关文档
最新文档