概率论论文

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

概率论与随机过程(论文)

题目: 概率论在数据挖掘中的应用

姓名程潇婷

学院信息与通信工程学院

专业信息与通信工程

班级概率论与随机过程3班

学号2013110355

班内序号1号

指导教师周清

2015年12 月

目录

目录 (2)

概率论在数据挖掘中的应用 (3)

摘要 (3)

一、数据挖掘与概率论 (3)

二、粗糙集理论与概率论知识的融合 (4)

概率论基础知识 (4)

基于粗糙集理论的概率规则 (4)

粗糙集理论下的概率规则测度 (6)

三、理论知识的实际应用 (6)

粗糙集理论的概率规则的应用 (6)

粗糙集理论下的概率规则测度的应用 (7)

四、课程学习心得体会 (7)

参考文献 (7)

概率论在数据挖掘中的应用

摘要

本文主要通过结合笔者的研究方向与本学期学习的课程《概率论与随机过程》从而探讨概率论在数据挖掘中的一些具体应用。随着大数据时代的到来,数据挖掘作为新兴的数据处理手段在各个领域都有着广泛的应用,而数据挖掘技术的发展一方面服务于各类新兴大数据命题,另一方面又依托于传统支撑型理论学科,从而在二者之间建立起坚固的桥梁。概率论作为数据挖掘的理论支撑在模型构建,数据预测,数据仿真方面都有着极其重要的作用。文中笔者主要通过介绍基于概率测度的数据挖掘模型来具体阐述二者的关系。

关键词:概率论,数据挖掘,概率测度

一、数据挖掘与概率论

数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。数据挖掘利用了来自如下一些领域的思想:(1) 来自统计学的抽样、估计和假设检验,(2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。

数据挖掘研究从大规模的数据库中挖掘出有用的知识来辅助决策, 而粗糙集理论是一种基于等价关系分类的新的信息处理方法, 其特点是不需要预先给定某些特征或属性的数量描述, 而是直接从给定问题的描述集合出发, 找出该问题中的内在规律。该理论主要研究信息和智能系统中知识不精确、不完善的问题, 但其基本方法是确定性的, 因而忽略了数据可利用的统计信息。为了将粗糙集理论应用于概率领域, 有必要研究粗糙集理论与概率统计结合的相融点, 提取具有一定概率可信度的数据挖掘规则。

粗糙集合理论通过将数据属性进行组合从而反映了数据的分类特征, 是目前知识获取中归纳学习的一种有效工具。然而在现实领域中进行归纳学习存在着如下问题:( 1) 当属性

数目很大时,计算费用非常高;(2)这种方法无法提供属性的先验概率;( 3) 在以往工作中, 对规则进行的推导只局限在不可分辨集合是正域的一个子集中, 然而这在现实信息世界中, 特别是在概率领域中约束太强。因此, 当将粗糙集合理论应用于概率空间领域的知识获取时, 需要进行如下扩展:( 1) 进行规则推导, 仅考虑覆盖正域规则是不充分的, 必须关注于可能域, 一个正域是可能域的一个特定子集;( 2) 需要引入一些测度来估计规则的统计特征。因此,为了完善这一理论,结合概率论测度理论可以产生挖掘分类规则的基本思路: 首先, 利用条件概率的形式表示研究集合的上下近似空间, 根据决策属性值的不同, 将对象划分成不同的组代表不同的决策类;其次, 从条件概率的角度利用条件属性的逼近精度的相关参数进行属性集的约减从而形成两种子规则, 一种子规则用于区分每一类, 另一种子规则用于区分每一组中的不同类;然后,将两部分子规则集成为一条规则对应每一决策属性;最后, 计算每条规则的分类精度、覆盖率来选择适当的概率规则。

二、粗糙集理论与概率论知识的融合

概率论基础知识

概率空间是概率论的基础。概率的严格定义基于这个概念。概率空间(Ω, F, P)是一个总测度为1的测度空间(即P(Ω)=1)。第一项Ω是一个非空集合,有时称作“样本空间”。Ω的集合元素称作“样本输出”,可写作ω。第二项F是样本空间Ω的幂集的一个非空子集。F的集合元素称为事件Σ。事件Σ是样本空间Ω的子集。集合F必须是一个σ-代数(Ω, F)合起来称为可测空间。事件就是样本输出的集合,在此集合上可定义其概率。第三项P称为概率,或者概率测度。这是一个从集合F到实数域R的函数,P :F →R。每个事件都被此函数赋予一个0和1之间的概率值。P必须是一个测度,且P(Ω)=1。概率测度经常以黑体表示,例如P 或Q ,也可用符号"Pr"来表示。

基于粗糙集理论的概率规则

定义一:令R 是论域U 上的等价关系, D 是决策分类概念的集合, X R是满足等价关系R 的x 的等价类。则定义条件概率为:

P(D|Xi R)=P(D∩Xi R)

P(Xi R)

=

card(D∩Xi R)

card(Xi R)

其中P(D|Xi R)表示事件Xi R发生的条件下事件D 发生的概率,card 为基数函数。即:

P(D|Xi R)=1, 当且仅当Xi R⊆D

P(D|Xi R)>0, 当且仅当Xi R∩D≠∅

P(D|Xi R)=0, 当且仅当Xi R∩D=∅

定义二:令R 是论域U 上的等价关系, D

相关文档
最新文档