数据挖掘基础讲座
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数理统计
• 估计量的有限样本性质 • 估计量的大样本性质(大数定律、中心极
限定理) • 参数估计 • 区间估计和置信区间
信息论
• 熵、相对熵、信息量、互信息 • 渐进均分性(信息论中的大数定律) • 信息论与统计 • 科尔莫戈罗夫复杂性(奥克姆剃刀)
随机过程
• 马尔可夫过程 • 隐马尔可夫模型
数据挖掘基础讲座
概率统计、随机过程、信息论基础
课程的性质
• 短时间讲多内容 • 《数学分析讲》辛钦(国立莫斯科大学) • 数据挖掘课程上所需要的概率统计、随机
过程、信息论知识 • 结合工作中数据挖掘、统计中的学习体会
概率论
• 随机变量和概率分布 • 联合分布、条件分布和独立性 • 概率分布的特征 • 联合与条件分布特征 • 一些重要的分布
线性函数因此依然无偏,则可用样本矩 代替
总体矩
最大似然估计
• 最大似然估计
– 似然函数:关于 的函数
区间估计和置信区间
• 区间估计的必要性
– 点估计+样本的标准差 不足以给出总体值落在 相对于样本值的什么地方
– 置信区间的理解问题
充分统计量
• 充分统计量
– [2] p83 充分统计量是一个关于样本D的函数s, 其中包含了能够有助于估计某种参数 的所有 相关的信息
• 模型训练: • 给定一个模型,如何计算某个特定的输出序列的概率; • 给定一个模型和某个特定的输出序列,如何找到最可能产生这个输出的 状态序列; • 给定足够量的观测数据,如何估计HMM模型算法
参考文献
[1] 计量经济学,现代观点 J.M.Wooldridge. [2] 信息论基础 Thomas M . Cover [3] 应用随机过程 林元烈 [4] 模式分类 Richard O.Duda [5] 数据之魅 Philipp K. Janert
– 参数值逼近的评估
奥克姆剃刀
• 奥克姆剃刀:
– 简单性原理,是科学界常用的一个准则,具体表述为,如果 多个理论同时都能解释某一现象,那么我们优先取利用假设 最少的理论,这个理论被认为是最好的。越简洁的推论可能 性就越高。
– 根据复杂度来权衡所有可能的解释
• 科尔莫戈罗夫复杂度: • 一个数据串的复杂度可以定义为计算该数据串所需 的最短二进制程序的长度。 • 如果序列服从熵为H的分布,那么该序列的科尔莫戈 罗夫复杂度近似等于熵H。 • 算法复杂度 PK 计算复杂度
且
随机变量和概率分布
• 离散随机变量:取值至多可数的随机变量为离散型 的随机变量。概率分布(分布律)
且
典型的离散随机变量分布
• 0-1分布:
p+q=1,p>0,q>0,则称X服从参数为p的0-1分布, 或两点分布,还可以表示成:
且
典型的离散随机变量分布
• 二项分布:二项分布是n个独立的是/非试验中成功的次数的离散概率 分布,其中每次试验的成功概率为p。这样的单次成功/失败试验又称 为伯努利试验。举个例子就是,独立重复地抛n次硬币,每次只有两 个可能的结果:正面,反面,概率各占1/2。
μ为平均数,N为样本总数
方差
• 离散和连续随机变量方差计算:
中位数
• 中位数:对数据集中趋势的一个度量。 • 定义:连续随机变量概率密度函数中,左边和右边刚好相
等的位置。离散随机变量中的中间值。 • 特点:数据约不平衡,中位数和数学期望相差越大。幂律
分布下,观察样本数据的数学期望和中位数之间差值的变 化。
• 相对熵:
熵、相对熵
• 相对熵:
• 涵义:两个随机分布之间的距离的度量。
互信息
• 互信息:一个随机变量包含另一个随机变量信息量的度量。也即在给定另一 随机变量知识的条件下,原随机变量不确定度的缩减量
充分统计量
渐进均分性
• 渐进均分定理:
• 解释:几乎一切事件都令人同等的意外
信息和统计
• Leabharlann Baidu希尔信息在参数估计中的作用:
且
典型的离散随机变量分布
• 泊松分布:
连续的随机变量分布
• 分布函数:定义:对于随机变量X的分布函数F(x),若存在非负的函数f(x),使 对于任意实数x,有:
则称X为连续型随机变量,其中f(x)称为X的概率密度函数,简称概率密度。型 随机变量的概率密度f(x)有如下性质:
典型的连续随机变量分布
• 均匀分布:若连续型随机变量X具有概率密度,则称均匀分布:
典型的连续随机变量分布
• 指数分布:
典型的连续随机变量分布
• 正态分布(高斯分布):
典型的连续随机变量分布
• 正态分布(高斯分布)特点(为何如此重要): • 中心极限定理的完美体现 • 分布的值非常集中的分布在中心区域 • 面积可以精确的计算出来
联合分布、条件分布和独立性
• 协方差:
• 涵义:协方差度量两个随机变量的线性相 关性,正值代表同向移动,负值代表反向 移动。
• 独立 协方差为0,反过来不正确
相关系数
• 相关系数:
sd(X),sd(Y) 代表标准差
条件数学期望
• 离散变量:
给定
• 连续变量:
X的条件数学期望
联合概率密度函数
Y边缘概率密度函数
• 样本均值和样本(协)方差构成了真实均值和协 方差的一个充分统计量
充分统计量
• Hadoop适合处理的统计量
• 信息论对充分统计量的估计
信息论
• 熵、相对熵、信息量、互信息 • 渐进均分性(信息论中的大数定律) • 信息论与统计学 • 科尔莫戈罗夫复杂性(奥克姆剃刀)
信息论初步
• 熵:
熵、相对熵
随机过程
• 马尔可夫过程 • 隐马尔可夫模型
马尔科夫过程
• 马尔可夫链
– 马尔可夫链(Markov Chain),描述了一种状 态序列,其每个状态值取决于前面有限个状态。
• 状态迁移问题 • 状态分类和状态空间分解 • 马尔科夫链的极限形态和平稳分布 • 生灭过程
隐马尔科夫过程
• 状态序列隐藏 • 观察序列 • 观察序列只和状态序列相关(独立输出假设)
中心极限定理
• 排除了原始分布的影响,只要期望方差存 在。
• 其存在有一定的假设
中心极限定理
• 随机变量独立 • 服从同一分布 • 期望、方差存在并有限
• 幂律分布第三个条件不满足
参数估计
• 矩估计
– 将参数 表示成与 X 分布的某些期望有某种关
系,通常是 E(X)有关系的量,
,如果样
本均值 是 E(X)的无偏并且一致估计量, 是
条件概率密度函数 条件数学期望
数理统计
• 估计量的有限样本性质 • 估计量的大样本性质(大数定律、中心极
限定理) • 参数估计 • 区间估计和置信度 • 假设检验
• 无偏性
估计量性质
W为参数u的一个估计量,h为函数
• 有效性:样本方差小的那个估计量
估计量性质
• 一致性:估计量的趋势特性
大数定律
典型的连续随机变量分布
• 幂律分布(长尾分布): • 没有明确的代数式子 • 分布趋向于0的速度远小于指数分布
典型的连续随机变量分布
• 判断方法:
典型的连续随机变量分布
• 真实的分布:
社交网站用户数量和用户 关注度数量的分布
网络终端结点之间RTT值的 分布(密度函数)
典型的连续随机变量分布
• 幂律分布的重要: • 大量社会规律服从,实践中常遇到,大数据领 域经常遇到 • 数学期望发散,不要用均值来替代整体分布 • 大数定律和中心极限定理不成立
典型的连续随机变量分布
• 幂律分布的应用:
数学期望
• 如果X是在概率空间(Ω, P)中的一个随机变量,那么它的 期望值E[X]的定义是:
方差
• 方差:一个随机变量的方差(Variance)描述的是它的离 散程度,也就是该变量离其期望值的距离。一个实随机变 量的方差也称为它的二阶矩或二阶中心动差,恰巧也是它 的二阶累积量。