概率频繁模式挖掘算法研究综述

合集下载

频繁项集挖掘算法

频繁项集挖掘算法

频繁项集挖掘算法 FP-GrowthApriori算法和FPTree算法都是数据挖掘中的关联规则挖掘算法,处理的都是最简单的单层单维布尔关联规则。

Apriori算法Apriori算法是⼀种最有影响的挖掘布尔关联规则频繁项集的算法。

是基于这样的事实:算法使⽤频繁项集性质的先验知识。

Apriori使⽤⼀种称作逐层搜索的迭代⽅法,k-项集⽤于探索(k+1)-项集。

⾸先,找出频繁1-项集的集合。

该集合记作L1。

L1⽤于找频繁2-项集的集合L2,⽽L2⽤于找L3,如此下去,直到不能找到频繁k-项集。

找每个L k需要⼀次数据库扫描。

这个算法的思路,简单的说就是如果集合I不是频繁项集,那么所有包含集合I的更⼤的集合也不可能是频繁项集。

算法原始数据如下:TID List of item_ID’sT100 T200 T300 T400 T500 T600 T700 T800 T900I1,I2,I5 I2,I4I2,I3I1,I2,I4 I1,I3I2,I3I1,I3I1,I2,I3,I5 I1,I2,I3算法的基本过程如下图:⾸先扫描所有事务,得到1-项集C1,根据⽀持度要求滤去不满⾜条件项集,得到频繁1-项集。

下⾯进⾏递归运算:已知频繁k-项集(频繁1-项集已知),根据频繁k-项集中的项,连接得到所有可能的K+1_项,并进⾏剪枝(如果该k+1_项集的所有k项⼦集不都能满⾜⽀持度条件,那么该k+1_项集被剪掉),得到项集,然后滤去该项集中不满⾜⽀持度条件的项得到频繁k+1-项集。

如果得到的项集为空,则算法结束。

连接的⽅法:假设项集中的所有项都是按照相同的顺序排列的,那么如果[i]和[j]中的前k-1项都是完全相同的,⽽第k项不同,则[i]和[j]是可连接的。

⽐如中的{I1,I2}和{I1,I3}就是可连接的,连接之后得到{I1,I2,I3},但是{I1,I2}和{I2,I3}是不可连接的,否则将导致项集中出现重复项。

关联规则挖掘方法

关联规则挖掘方法

关联规则挖掘方法一、前言关联规则挖掘是数据挖掘中的一个重要领域,它可以帮助我们发现数据中隐藏的规律和关系,从而为商业决策和市场营销提供支持。

本文将介绍关联规则挖掘的方法和步骤,包括数据预处理、频繁项集生成、关联规则生成和评估等。

二、数据预处理在进行关联规则挖掘之前,我们需要对原始数据进行预处理。

首先,我们需要去除无用的属性和记录,并对缺失值进行处理。

其次,我们需要将离散型数据转换为数值型数据,并对连续型数据进行离散化。

最后,我们需要对异常值进行检测和处理。

三、频繁项集生成频繁项集是指在数据集中经常出现的一组物品集合。

频繁项集生成是关联规则挖掘的第一步,其目的是找到所有满足最小支持度阈值的频繁项集。

1. Apriori算法Apriori算法是最常用的频繁项集生成算法之一。

它基于两个重要性质:单调性和自由子集性质。

Apriori算法分为两个阶段:候选项集生成和剪枝。

2. FP-growth算法FP-growth算法是一种基于树结构的频繁项集生成算法。

它通过构建一棵FP树来发现频繁项集。

FP-growth算法相对于Apriori算法具有更快的速度和更小的空间复杂度。

四、关联规则生成在找到所有频繁项集之后,我们需要从中挖掘出有意义的关联规则。

关联规则是指形如X->Y的规则,其中X和Y都是物品集合,且X∩Y=∅。

1. 关联规则挖掘关联规则挖掘是指从频繁项集中挖掘出满足最小置信度阈值的关联规则。

置信度是指在条件X下出现Y的概率。

2. 关联规则评估关联规则评估是指对挖掘出来的关联规则进行评估和选择。

常用的评价指标包括支持度、置信度、提升度和全置信度等。

五、总结本文介绍了关联规则挖掘的方法和步骤,包括数据预处理、频繁项集生成、关联规则生成和评估等。

在实际应用中,我们需要根据具体情况选择不同的算法和参数,并进行优化和调整。

交通数据中频繁轨迹模式挖掘

交通数据中频繁轨迹模式挖掘

所 i 页。最终 ,运动物体 ,j l 概述 是T 个单元 时间间隔 T 第 i , 个时间段用 t i 表 i 存储 的位置 R【 】 在 从相 同长度 的时空 序列 中发现 时空周 示 (≤i ) 1 ≤T 。 数据 库 D 被转换成 用标识符 O 标 识 的不 同 s j 问题 描述 1 :给定一个一般 轨迹集合 D, 运动序列 的集合 MS 。 期性模式 时,一种算法被提出 ,而且应用序列 34 MI . NE A 结构来支持时空查 询的执行。但我们关心 的是 个 二 维 参 考 平 面 M,关 注 的 时 间 区 间 u P算法 x 直接 应用像 G P或者 D F M N S S _ I E之类 的 随机长度 的序列趋 势,并且研究的点是不确定 m a sa s r n 】和支 持 度 的 最 小 阈值 pn[ a ,e d tt i a 的取样 点 。在文 献 【1中 D F M N 6 S _ I E算 法在 r n sp u 。我们 的任务 就是从数据库 中发现对 算法是不可能的,因为模式中一个区域的形状 天气预报进行时空挖掘时被引进 ,但是那篇文 象运动的所有的频繁模式 。 和大小在每一轮重新发现并被 自动修改的。我 章研究 了固定地点 的随时间变化 的属性间的关 问题描述 2 :给定用一系列的位置表示的 们提 出的 MIE A L P算法用 于发现所 有 的 N _LF 系 ,但是没考虑算法怎样应用到运动对象的挖 轨 迹的历史 数据库 D =f (i t ,l ≤ 频繁 模 式 。 B ( p,v ) ≤i i 掘中。所以 。对于这种变化中的位置属性和对 n 、取样时间间隔为 T 1 、参考二维 平面 M、最 为 了便 于快 速高效 的产生候选模式 ,模 应的固定属性 的关系 的研究 ,就显得 尤为必 大 的 时 间 限 制 m xgp、 最 小 的 支 持 度 式域的 MB 被提 出来 。如果这些对 的交集不 a_a Rs i a 要, 具体应用 中,用户什 么时候进人某位 置就 r n sp u 、最小 的置信度 m n cn。问题是从 是 空 的 ,取 得 的候 选 模 式将 会 是这 种 形 式 i _ f o 需 要被知晓 ,所 以时 间戳也是 我们关 心的因 D B中发 现所有符合阈值限制的频繁运动规则。 c d f (l 1 , (2 2 , … , (k a = < a ,t) n c ,t) o- l k 1 , (k ,)> ,t一 ) b ,t k ,我们将 cn a d中所有 素。这里提出两种算 法 M N _ L F 和 M 】 IE A L P a一 【 3发现模式 的算法 M N _ L F IE A L P MO P。分别用来发现所有的运动频 繁集和最大 处理之前 ,用一个 函数 MI E MS来使得 域 的符 合一定 条件 的点连 接起来 :R. = j N_ i R. oj 频繁集。我们引入 图的概念 ,并且 在发现频繁 我们可 以从 相同 的输 人 中得 到我们希 望的模 oi ,此 时要 将 m 和 Rj连 接起 来条 件是 m. jRi ,且 m._ jj o t R.。候选模式的支持度是 i t 集的过程 中引入一种类似图中路径来增加算法 式。运 动对象数据库 D B首先按照物体标识符 O = .i 可行性,为了控制住模式的可控性并且使得可 的 O 分类 ,在 同一个对 象的信 息内部是按 照 符合候选模式 的对象 0i j 的个数 。 然后 ,候 选域需要 经过一个检测 ,因为 控性的大小可变,我们引入一种基 于网格的簇 时间戳进行排序的。之后 ,根据轨迹 的生存时 集 (ls r g 技 术 。 cut n) e i 间 【 ,t】 t e ,将 生存 时 间在给 定 最大 时间段 经 过连接操作 之后它 们可能 不再是密集 型的 s x 为 了达到最终 目标—— 支持基 于位置 系 m a sa s r,ed p n【at n 】中的轨迹 从 D t B中抽取 了。如果支持度 大于最 小支持度 r n u ,那 a _p i 统 L S的功能 ,提出一种基 于规则 的位置 预 出来 。这个 函数 d r g 0 在文 献 【O B u n i l】中有 么候 选 模式 的域 将 会 被 重 聚类 。对于 得 到 的 新 测算法 ,来利用挖掘出来 的规则预测一个运 动 介绍。这样我们就从数据库中抽取 了我们关心 的聚类 ,一个模式将会 被创建 ,模式域 的大小 对象 的未来时刻的位置。其 中运动规则是利用 时 间段 内 的特 定 对象 的运 动 信 息 。 也 会 跟 着 调 整 。 比如 , 考 虑 候 选 模 式 < ( 2 , t), ( 0 , t) >。 在 连 接 单 元 R13 1 R 1 2 现提 出的 MI E A L P算 法对用 户 的历 史运 N _ LF 31 期 工作 之 一 :轨迹 重 构 .前 动信息进

基于fp-growth算法的数据挖掘实例研究 -回复

基于fp-growth算法的数据挖掘实例研究 -回复

基于fp-growth算法的数据挖掘实例研究-回复基于fpgrowth算法的数据挖掘实例研究数据挖掘是从大规模数据集中寻找隐藏的模式、关联和信息的过程。

在日益增长的数据量和复杂性的背景下,数据挖掘算法及其应用变得越来越重要。

而fpgrowth算法是一种非常有效的数据挖掘算法,用于发现数据集中频繁项集的关联规则。

本文将通过一个实例来阐述fpgrowth算法的应用过程。

实例背景和数据集我们将以一个超市的销售数据为例来说明fpgrowth算法的应用过程。

假设这个超市的销售数据中记录了每位顾客购买的商品清单,我们的目标是利用数据挖掘技术找出顾客购买商品的关联规则。

数据预处理首先,我们需要对数据进行预处理。

原始数据集中记录了每位顾客购买的商品清单,我们需要将数据转化成一个适合fpgrowth算法处理的格式。

通常情况下,数据集格式为每一行代表一位顾客的购买清单,清单中的商品用逗号分隔。

为了方便后续的处理,可以将数据集转化为交易的事务形式。

例如,原始数据集中的一行记录可能是这样的:[牛奶, 面包, 小麦, 鸡蛋]经过转化后,数据集可能变成这样:牛奶, 面包, 小麦, 鸡蛋数据挖掘过程步骤1:构建频繁项集和频繁模式树首先,我们需要构建频繁项集和频繁模式树。

fpgrowth算法通过构建一棵FP树来实现这一步骤。

FP树是一种非常高效的数据结构,用于存储事务数据库中的频繁项集和它们的支持度。

对于我们的超市销售数据集,我们首先需要计算每个商品的支持度,并筛选出频繁项集。

支持度是指一个项集在所有事务中的出现频率,频繁项集是指支持度大于等于预设阈值的项集。

通过计算数据集中每个商品的支持度,并筛选出支持度大于等于预设阈值的商品,我们可以得到一组频繁项集。

接下来,将这些频繁项集按照支持度排序,构建频繁模式树。

步骤2:从频繁模式树中发现关联规则在构建好频繁模式树后,我们可以从中发现关联规则。

关联规则是指商品之间的关联性,例如如果顾客购买了商品A,那么他们更有可能购买商品B。

模式识别与数据挖掘期末总结

模式识别与数据挖掘期末总结

模式识别与数据挖掘期末总结第一章概述1.数据分析是指采用适当的统计分析方法对收集到的数据进行分析、概括和总结,对数据进行恰当地描述,提取出有用的信息的过程。

2.数据挖掘(Data Mining,DM) 是指从海量的数据中通过相关的算法来发现隐藏在数据中的规律和知识的过程。

3.数据挖掘技术的基本任务主要体现在:分类与回归、聚类、关联规则发现、时序模式、异常检测4.数据挖掘的方法:数据泛化、关联与相关分析、分类与回归、聚类分析、异常检测、离群点分析、5.数据挖掘流程:(1)明确问题:数据挖掘的首要工作是研究发现何种知识。

(2)数据准备(数据收集和数据预处理):数据选取、确定操作对象,即目标数据,一般是从原始数据库中抽取的组数据;数据预处理一般包括:消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换。

(3)数据挖掘:确定数据挖掘的任务,例如:分类、聚类、关联规则发现或序列模式发现等。

确定了挖掘任务后,就要决定使用什么样的算法。

(4)结果解释和评估:对于数据挖掘出来的模式,要进行评估,删除冗余或无关的模式。

如果模式不满足要求,需要重复先前的过程。

6.分类(Classification)是构造一个分类函数(分类模型),把具有某些特征的数据项映射到某个给定的类别上。

7.分类过程由两步构成:模型创建和模型使用。

8.分类典型方法:决策树,朴素贝叶斯分类,支持向量机,神经网络,规则分类器,基于模式的分类,逻辑回归9.聚类就是将数据划分或分割成相交或者不相交的群组的过程,通过确定数据之间在预先指定的属性上的相似性就可以完成聚类任务。

划分的原则是保持最大的组内相似性和最小的组间相似性10.机器学习主要包括监督学习、无监督学习、半监督学习等1.(1)标称属性(nominal attribute):类别,状态或事物的名字(2):布尔属性(3)序数属性(ordinal attribute):尺寸={小,中,大},军衔,职称【前面三种都是定性的】(4)数值属性(numeric attribute): 定量度量,用整数或实数值表示●区间标度(interval-scaled)属性:温度●比率标度(ratio-scaled)属性:度量重量、高度、速度和货币量●离散属性●连续属性2.数据的基本统计描述三个主要方面:中心趋势度量、数据分散度量、基本统计图●中心趋势度量:均值、加权算数平均数、中位数、众数、中列数(最大和最小值的平均值)●数据分散度量:极差(最大值与最小值之间的差距)、分位数(小于x的数据值最多为k/q,而大于x的数据值最多为(q-k)/q)、说明(特征化,区分,关联,分类,聚类,趋势/跑偏,异常值分析等)、四分位数、五数概括、离群点、盒图、方差、标准差●基本统计图:五数概括、箱图、直方图、饼图、散点图3.数据的相似性与相异性相异性:●标称属性:d(i,j)=1−m【p为涉及属性个数,m:若两个对象匹配为1否则p为0】●二元属性:d(i,j)=p+nm+n+p+q●数值属性:欧几里得距离:曼哈顿距离:闵可夫斯基距离:切比雪夫距离:●序数属性:【r是排名的值,M是排序的最大值】●余弦相似性:第三章数据预处理1.噪声数据:数据中存在着错误或异常(偏离期望值),如:血压和身高为0就是明显的错误。

《大数据时代下的数据挖掘》试题及答案..

《大数据时代下的数据挖掘》试题及答案..

《海量数据挖掘技术及工程实践》题目一、单选题(共80题)1)( D )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。

A.数据清洗B.数据集成C.数据变换D.数据归约2)某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A. 关联规则发现B. 聚类C. 分类D. 自然语言处理3)以下两种描述分别对应哪两种对分类算法的评价标准? (A)(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。

(b)描述有多少比例的小偷给警察抓了的标准。

A. Precision,RecallB. Recall,PrecisionA. Precision,ROC D. Recall,ROC4)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘5)当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)A. 分类B. 聚类C. 关联分析D. 隐马尔可夫链6)建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C)A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则7)下面哪种不属于数据预处理的方法? (D)A.变量代换B.离散化C.聚集D.估计遗漏值8)假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204,215 使用如下每种方法将它们划分成四个箱。

等频(等深)划分时,15在第几个箱子内?(B)A.第一个B.第二个C.第三个D.第四个9)下面哪个不属于数据的属性类型:(D)A.标称B.序数C.区间D.相异10)只有非零值才重要的二元属性被称作:( C )A.计数属性B.离散属性C.非对称的二元属性D.对称属性11)以下哪种方法不属于特征选择的标准方法: (D)A.嵌入B.过滤C.包装D.抽样12)下面不属于创建新属性的相关方法的是: (B)A.特征提取B.特征修改C.映射数据到新的空间D.特征构造13)下面哪个属于映射数据到新的空间的方法? (A)A.傅立叶变换B.特征加权C.渐进抽样D.维归约14)假设属性income的最大最小值分别是12000元和98000元。

在线挖掘数据流闭合频繁项集CMNL—SW算法

在线挖掘数据流闭合频繁项集CMNL—SW算法
第 2卷 第 4 7 期 21 年 Nhomakorabea 02 月







V o . o. 1 27 N 4
J u n lo t q iiin & P o e sn o r a fDa aAc ust o r c sig
J 1 2 1 u. 0 2
文 章 编 号 :049 3 (0 2 0— 580 1 0— 0 7 2 1 )40 0—6
Mo n 和 C ISra , 且 随着 数 据 流 上 处 理 事 务数 的 递 增和 快速 改 变表 现 出 良好 的 稳 定 性 。 me t F— t m 并 e 关 键 词 : 掘 算 法 ; 合 频繁 项 集 ; 动 窗 口 ; 据 流 挖 闭 滑 数 中 图分 类 号 : 2 T 9 TP ; P 文献标识码 : A
( M NL— W )i p o o e .I s st a as r c u e ,ie l s dma t rs h ls die C S s r p s d t e wod t tu t r s . .co e ps o e ,t eco e m— u t
st e s,t s r ne nd t m its o e he n ho e a e mi d a he nu ls t r st umbe fa ld fe e tie r o l if r n t ms.V i he sm p e a t i l uni pe a i n o t m m b r c nt i d wih n a n w r i i g ora l ltn r ns c i n on o r to n ie nu e o ane t i e a rv n n o d de e i g ta a to a h n e s c i n op r to n c r a n pr v o l e t ms t nc nd t e i t r e to e a in o e t i e i uscos d ie e so e,i nc e e a l pd t s ti r m nt ly u a e

数据挖掘与分析学习笔记(频繁模式挖掘-项集挖掘)

数据挖掘与分析学习笔记(频繁模式挖掘-项集挖掘)
深度优先
项集挖掘
频繁项集挖掘算法
2.支撑计算:
生成候选项集后,就要进一步的计算每个候选模式X的支撑,以便判断该候选模式X是否为频繁项集。计算方法如下:
BruteForce(D,I,minsup) //I为项集,D为由项集I及其子集和事务标识符集合构成的事务数据集,minsup为最小支撑阈值。
F ← ∅ //初始化频繁项集集合为空集;
规则的相对支撑为:rsup( → ) =
sup

一个项集规则的置信度是一个事务中即包含项集X,也包含项集Y的条件概率,
即 = → = =
()
()
=
sup
sup()
如果一个项集规则的支撑大于等于预先设定的阈值,即sup ≥ minsup(minsup为预定阈值),则称这个规则是频繁
的,如果一个项集规则的置信度大于等于预先设定的阈值,即 → ≥ minconf,则称这个项集规则为强规则。
5.项集和规则挖掘
项集和规则挖掘的目的就是通过枚举所有的频繁项集及其置信度,获取频繁且高置信度的规则。
项集挖掘
频繁项集挖掘算法
1.候选生成:项集I中的每个子集也被称作候选,因为每个项集都可能是一个候选的频繁模式。
子集一定也是频繁的;反之如果一个项集是不频繁的,则这个项集的所有超集集也一定是不频繁的。Apriori算法利用了项
集的这一特性,采用逐层宽度优先算法来搜索项集空间,并修剪掉所有的不频繁的候选的超集。
Apriori(D,I,minsup):
← ∅ //初始化频繁项集集合为空集
(1) ← ሼ∅ሽ //单个项集的初始化前缀树
(+1) ← ( () ) //展开前缀树

基于数据流频繁模式挖掘的入侵检测模型

基于数据流频繁模式挖掘的入侵检测模型
21年 1 01 2月
陕西理 工学院学报 ( 自然科 学版 )
Junl f h ax nvrt o ehooy( a rl c n eE io ) ora o ani i s y f cnl S U e i T g N t a Si c dt n 数据流分类技术和数据流频繁模式分析技术 。
2 频繁模式挖 掘
频繁模式挖掘的关键 问题是快而准确地进行频繁度计数。纵观现有文献 , 在理论上或者实际应用 中都取得了较多成果 , 提出一些经典算法 , A r r F . o t, S e 等。因为无法用 内存记录所有 如: pi i Pg wh D t e o, r r 数据 , 那么我们就要接受数据流频繁模式挖掘得到的近似 的频繁模式。频繁模式挖掘算法大致有两大 类 , 于概率误差区间的近似算法 和基 于确定误差区间的近似算法。F . o t 基 Pg wh算法采用的是 F . e r P te r 数据结构 。Ganl . J i ea C在此基础上提 出了 F - r m的模 型, n l PS e ta 它以 F . e 为基础 , P te r 用来从数据流中 挖掘频繁模式。该算法采用倾斜时间窗 口 来维护频繁模式以解决时间敏感问题 , 也有人提出用滑动窗 口模型来描述动态的数据流 。 』
在挖掘过程中, 数据流挖掘技术的数据搜集和挖掘同时进行 , 它以最快的速度从不断到来的数据 中挖掘 出感兴趣的数据信息。所 以, 它是 以精度换取时间来获得流式数据的高效聚类。
1 2 数据 流 的特点 .
在数据库研究领域 , 数据流虽是一个新生事物 , 但它的提 出却得到 了研究人员 的热捧 , 并逐渐成为 主流。数据流归纳起来有如下 4个典型特征 : ( )数据流中的元素在线 、 1 实时到达 ; () 2 数据元素连续到达 , 应用系统无法控制 , 而且数据的到来不可预知 ;

数据分析知识:数据挖掘中的频繁模式挖掘

数据分析知识:数据挖掘中的频繁模式挖掘

数据分析知识:数据挖掘中的频繁模式挖掘数据挖掘中的频繁模式挖掘数据挖掘是一个复杂的过程,需要从庞大的数据集中提取出有价值的信息,这些信息可以用于业务分析、决策支持、市场营销等方面。

而频繁模式挖掘,就是在大量数据中寻找频繁出现的组合,从而发现数据集中的一些结构、规律和特征,帮助人们更好地理解数据,作出可靠的决策。

本文将介绍频繁模式挖掘的概念、算法和应用,并探讨其在实践中的优势和不足之处。

一、频繁模式挖掘的概念频繁模式挖掘是数据挖掘中的一种技术,它通过数据集中的项集来寻找频繁出现的组合,从而发现数据集中的一些规律、结构和特征。

在频繁模式挖掘中,一个项集是指包含若干个属性(或特征)的集合,而频繁项集指在数据集中出现频率较高的项集。

举个例子,某超市的销售数据表格中,每一行代表一次购物,每一列代表某种商品,如果某些商品常常同时被购买,那么这些商品就组成了一个频繁项集。

对于频繁项集的挖掘,可以应用一些经典的算法,如Apriori算法、FP-growth算法等。

这些算法可以从数据集中提取出频繁项集,并进行支持度和置信度的计算,从而评估每个项集的重要性和关联性。

而支持度指项集在数据集中出现的概率,而置信度则是指在包含某项集的条件下,另一个项集出现的概率。

二、频繁模式挖掘的算法1、Apriori算法Apriori算法是频繁项集挖掘领域中的经典算法,它最早由R. Agrawal和R. Srikant于1994年提出。

该算法是基于Apriori原理的,即如果一个项集是频繁的,那么它的所有子集必须也是频繁的。

具体而言,Apriori算法的流程包括:(1)对数据集中的单个项进行扫描,统计每个项的出现次数,得到一个项集L1;(2)对于项集L1中的每一项,计算其支持度,只保留支持度大于等于设定阈值minsup的项,得到一个新的项集L2;(3)对于项集L2中的每两个项,判断它们是否能够组合成一个新的项集,如果满足条件,则进行计数,并得到一个新的项集L3;(4)重复第二步和第三步,直到无法生成新的项集为止。

保序模式挖掘算法-概述说明以及解释

保序模式挖掘算法-概述说明以及解释

保序模式挖掘算法-概述说明以及解释1.引言1.1 概述保序模式挖掘算法是一种用于从数据集中发现具有时间顺序关系的模式的方法。

它可以帮助人们更好地理解和分析数据中存在的时序规律,从而揭示数据背后的隐藏信息。

随着数据科学和机器学习的快速发展,保序模式挖掘算法在各个领域中得到了广泛的应用。

无论是金融领域中的股票走势分析,还是物流领域中的运输时间预测,甚至是医疗领域中的病人生命状态监测,都需要对数据中的时序关系进行深入研究和挖掘。

保序模式挖掘算法的核心思想是识别时间序列数据中的模式,并且保持这些模式在时间上的顺序。

这种算法可以帮助我们发现数据中的周期性行为、趋势变化以及异常事件等,并且能够预测未来的趋势和可能发生的事件。

通过对时序数据进行建模和分析,我们可以更好地了解数据的演变规律,从而做出准确的决策和预测。

然而,保序模式挖掘算法也存在一些挑战和局限性。

首先,由于时序数据的复杂性和多样性,算法的准确性和效率需要进一步提高。

其次,数据中存在噪声和异常值,这会影响到模式的发现和分析结果。

此外,在大规模数据集上进行模式挖掘也是一个挑战,需要使用高效的算法和技术来处理。

展望未来,随着技术的不断进步和数据科学的发展,保序模式挖掘算法将会得到更广泛的应用和改进。

预计在未来几年内,我们将看到更多基于保序模式挖掘算法的实际应用案例,并且算法的性能和准确性也会得到进一步提高。

此外,随着人工智能和机器学习的不断发展,保序模式挖掘算法也将与其他算法和技术相结合,形成更强大的分析和预测能力。

总之,保序模式挖掘算法是一种重要的数据分析和挖掘方法。

通过对时序数据进行建模和分析,它可以帮助人们揭示数据中的时序规律,并且对未来的趋势和事件做出预测。

尽管算法仍面临一些挑战和局限性,但随着技术的发展和算法的改进,我们有理由相信保序模式挖掘算法将在未来的数据科学领域中发挥更大的作用。

1.2文章结构1.2 文章结构本文将分为以下几个部分来探讨保序模式挖掘算法的相关内容:第一部分,引言,将介绍本文的背景和动机,以及对保序模式挖掘算法的概述。

频繁模式挖掘算法综述

频繁模式挖掘算法综述

结 构 以及 设 置广 告 页 面 等 。 因此 挖 掘 邻 近 序 列 模 式 有 实 际 意 义 。
为 了 提 高 算 法 效 率 , 们 提 出 了 散 列 项 集 计 数 1 划 分I、 人 9 1 、 , 选 O l 目前 人 们 已 经 提 出 了许 多 邻 近 序 列 模式 挖 掘算 法 . 如 ail rw提 出 的 P M 算 法fI 算 法 先 把所 有 的 序 列 串 联 在 D 3. 0该 样 I和 动 态 项 集 1等 技 术 来 对 A r r算 法 进 行 优 化 。 但 这 些 算 D ne C o I U 1 2 l pi i o 起 组 成 一 个 长 字符 串 .然 后 通 过 在 长 字 符 串 中 删 除 低 阶 邻 近 法 都 是 在 A f r算 法 基 础 上 进 行 的 改 进 . 可 能 改 变 A f f算 p oi i 不 po ii
2 频 繁 项 集挖 掘 、
要 多 次 扫 描 数 据 库 . 致 算 法 性 能 不 佳 。算 法 F S a 导 me pn和 Pe r. i a f P n虽 然 不 用 多 次 扫描 数 据 库 .但 往 往 会 构 造 很 多 投 影 或 者 x
关 联 规 则 是 数 据 挖 掘 的 众 多 模式 中最 为 重 要 的 一 种 .它 主 伪 投 影 数 据 库 . 此算 法 的 效率 也 不 理想 Pi 对 We 日志 的 因 e针 b 要 用 来揭 示数 据库 中项 目或 属 性 之 间 的相 关 性 。 关 联 规 则 经 常 特 点设 计 了一 个 称 为 WA — n P Mie的 算 法 . 算 法 首 先 扫 描 两 该
算法 , 并指 出 了频 繁 模 式 未 来的 研 究 方 向 。

新版数据挖掘第6章--挖掘频繁模式、关联和相关性:基本概念和方法

新版数据挖掘第6章--挖掘频繁模式、关联和相关性:基本概念和方法

Apriori算法步骤
Apriori算法由连接和剪枝两个步骤组成。 连接:为了找Lk ,通过Lk -1与自己连接产生候选k-项集的 集合,该候选k项集记为Ck 。
(l1[1] l2 [1]) (l1[2] l2 [2]) ... (l1[k 2] l2 [k 2]) (l1[k 1] l2 [k 1])
age ( X , "30...39" ) buys ( X , " laptop _ computer" ) age ( X , "30...39" ) buys ( X , " computer" )
根据关联挖掘的各种扩充
挖掘最大的频繁模式(该模式的任何真超模式都是非频繁 的) 挖掘频繁闭项集(一个项集c是频繁闭项集,如果不存在 其真超集c’,使得每个包含c的事务也包含c’)
sup port ( A B) P( A B)
Customer buys beer
confidence ( A B) P( B | A) P( A B) / P( A)
– 置信度c是指D中包含A的事 务同时也包含B的百分比
TID 2000 1000 4000 5000
购买的item A,B,C A,C A,D B,E,F
Apriori算法:通过限制 候选产生发现频繁项集
Apriori算法是挖掘布尔关联规则频繁项集的 算法 Apriori算法利用的是Apriori性质:频繁项集 的所有非空子集也必须是频繁的。
– A B 模式不可能比A更频繁的出现 – Apriori算法是反单调的,即一个集合如果不能 通过测试,则该集合的所有超集也不能通过相 同的测试。 – Apriori性质通过减少搜索空间,来提高频繁项 集逐层产生的效率

频繁模式树算法-概述说明以及解释

频繁模式树算法-概述说明以及解释

频繁模式树算法-概述说明以及解释1.引言1.1 概述频繁模式树算法是一种用于挖掘大规模数据集中频繁项集的有效算法。

在数据挖掘领域,频繁项集指的是在给定数据集中频繁出现的物品集合。

通过找到频繁项集,我们可以了解到数据集中的常见模式和关联规则,这对于市场分析、产品推荐和用户行为分析等方面都具有重要的意义。

频繁模式树算法通过构建一棵频繁模式树来实现频繁项集的发现。

在频繁模式树中,每个节点表示一个项集,并记录了该项集在数据集中的支持度。

支持度即该项集在数据集中出现的频率,支持度高的项集被认为是频繁项集。

通过遍历频繁模式树,我们可以获得满足最小支持度要求的所有频繁项集。

频繁模式树算法具有以下几个特点:首先,频繁模式树算法能够高效地处理大规模的数据集。

相比于传统的Apriori算法,频繁模式树算法采用了一种更加紧凑的数据结构,减少了空间开销和计算时间。

其次,频繁模式树算法还具有天然的子模式剪枝功能。

通过构建频繁模式树,我们可以快速地识别出不满足最小支持度要求的项集,并将其剪枝,从而提高算法的效率。

最后,频繁模式树算法还可以用于发现关联规则。

关联规则是指两个或多个项集之间的关系,例如“购买牛奶->购买面包”。

通过频繁模式树算法,我们可以挖掘出频繁项集,然后根据频繁项集之间的关系来生成关联规则。

在本文中,我们将详细介绍频繁模式树算法的原理、步骤和应用。

通过对算法进行深入的理解和探讨,我们可以更好地应用频繁模式树算法来挖掘数据集中的规律和模式,并为相关领域的研究和实践提供有力的支持。

1.2 文章结构本文将采用以下结构来展开对频繁模式树算法的介绍和讨论。

首先,在引言部分(1.1),我们将对频繁模式树算法进行概述,简要介绍它是什么以及为什么它在数据挖掘中是一个重要的算法。

同时,我们还将提到本文的结构和目的(1.2和1.3),以便读者能更好地理解文章的整体框架和目标。

接下来,在正文部分(2),我们将详细探讨频繁模式树算法的原理(2.1),从理论上解释其工作原理和背后的原理。

322-韩蒙 RAKING一种高效的不确定图K-极大频繁模式挖掘算法

322-韩蒙 RAKING一种高效的不确定图K-极大频繁模式挖掘算法
[15][16]
,文献[17]介
绍了最新不确定数据的相关技术 ,但这些研究仍然主 要面向传统数据项。针对不确定图的研究才刚刚开 始,其中已有计算不确定图中的最可靠子图 对不确定图进行高效 TOP-K 查询
[20] [18][19]
, :
等课题。邹提出
[21,22,23]
在不确定图上挖掘频繁模式的一些有效算法
RAKING:一种高效的不确定图 K-极大频繁模式挖掘算法
韩蒙 1) 张炜 2) 李建中 1) 2)
1) (黑龙江大学 计算机科学技术学院 黑龙江哈尔滨 150080) 2) (哈尔滨工业大学 计算机科学与技术学院 黑龙江哈尔滨 150的可能图实例,基于确定图模型的频繁图模式挖掘算法通常难以在不确定图集合上高 效运行。本文提出了一种不确定图数据集上的基于随机游走的 K 极大频繁子模式挖掘算法。首先,将每个不确定图转换 为相应的确定图并挖掘候选频繁模式;然后,将候选频繁模式恢复为不确定图并生成极大频繁模式搜索空间;最后,通 过随机游走以相同概率随机地选择 K 个极大频繁模式。理论分析和实验结果表明本文提出的算法能够高效地获得不确定 图集合的 K-极大频繁模式。
Margin[11]先将图数据组织成格,在搜索的同时不断
对搜索空间进行剪裁以减少子图同构的计算,从而更 易获得极大频繁模式。但是,因为不确定图的频繁子 树也是不确定的,而且不确定图蕴含的全部确定子图 空间巨大,即使进行一定的剪裁也很难有效枚举,所 以这两种方法都不可以直接应用于不确定图。 随机化的算法因可在大规模数据上高效执行被广 泛应用。在确定图上,ORIGAMI[12]通过随机化方法 解决了获得有代表性模式的问题,但其输出不具有一 致性,多次迭代后结果中仍可能漏掉一些重要模式。 MUSK[13]方法则通过随机游走获得极大频繁模式集。 近期,Hasan在原有工作基础上提出利用随机游走对 各类带约束模式进行挖掘的通用方法[14],但以上方法 对确定图进行的处理并没有考虑边及点的不确定性, 不能很好适用于不确定图。 对于不确定数据的研究近年也已有了很多成果, 如对不确定数据建模及管理的工作

基于关联规则的Apriori改进算法的研究综述

基于关联规则的Apriori改进算法的研究综述

基于关联规则的Apriori改进算法的研究综述Apriori算法是数据挖掘中常用的一种关联规则算法,其基本思想是通过候选集和频繁集的不断筛选,找出频繁项集,进而挖掘出数据中的关联规则。

但是Apriori算法存在一些问题,比如在处理大规模数据时耗时较长、频繁扫描数据集等。

因此,研究者在Apriori算法的基础上进行了改进,提出了一些改进算法,本文将对这些改进算法进行综述。

1. FP-Growth算法FP-Growth算法是一种基于不同的实现方式的改进算法。

与Apriori算法需要不断扫描数据集不同,FP-Growth算法只需要将数据集构造成一个FP树,然后通过FP树的频繁模式来挖掘关联规则,因此能够有效的减少扫描数据的时间,提高算法的效率。

2. Eclat算法Eclat算法也是一种基于频繁模式的改进算法,其主要思想是通过垂直数据结构来存储频繁项集,然后对该结构进行横向扫描和纵向连接,以挖掘数据中的频繁项集。

与FP-Growth算法类似,Eclat算法能够有效地降低算法的时间复杂度,在处理大规模数据时具有较好的效果。

3. 数据压缩算法数据压缩算法是一种基于数据压缩算法的改进算法,其主要思想是通过对数据进行压缩和解压缩来挖掘关联规则。

该算法能够有效地处理大规模数据,但是由于需要进行数据的压缩和解压缩,因此会引入一定的计算开销,使得算法效率不如FP-Growth算法和Eclat算法。

综上所述,基于关联规则的Apriori改进算法包括FP-Growth算法、Eclat算法和数据压缩算法等,这些改进算法相比于Apriori算法,在处理大规模数据时能够更好的提高算法的效率,并且在挖掘关联规则方面也具有良好的表现。

未来的研究可以进一步优化这些算法,以适应不同应用场景的需要。

最小频繁相关模式的挖掘

最小频繁相关模式的挖掘
由定义 1 ,相关模式的超模式一定是相关模式. 知 定义 26 如果一个模式不是相关模式 , 则称之 为独立模式. 【】
对于 模式, 独立 我们有如 个结论: 1模 下几 ( 式X ) 独立当 且仅当V , X 则I y , 2 如果 YY , p ) 7 ) ( I .(
模式 x独立的,则 x 的任意子模式都是独立模式. 如果一个频繁模式是相关模式 ,则此模式为频繁相关模式. 同样 ,如果一个频繁模式为独立模式 ,则
维普资讯
20 0 6年笫 4期 ( 总第 5 4期 )
漳 州帅地学 院学报 ( 自然科学版 ) Jun l f hn z o eces lg o ra o ag huT ah r C l! Z e

— —
N . . 0 6年 o 4 20
首先给出最小相关模式的定义 ,然后用一个例子加 以说明,最后给出最小频繁相 关模式挖掘算法. 一
设 X ={, , , )是一个模式 , x 的相关 自信度 c. l o— n dne6为: /i … f 12 o e t n ofec[ a c i i ]
P( i i 2… i 一P i) i … P( I n) (1 P(2) i n) p( x) P( i i 2… i +P( ) i … P( l n) i P( 1 2) i n)
表 1 事务数据库 :
1 0
2 0
A, C B,
C, , D E A、 C D E
D .E
3 0 4 0
则 所有频 模式为{CC ,ED , E. 为Pc 1 , = 1 7 Po 一/ ,o =/ ,D 繁 A ,D C,EC } 因 A =/ D 7 -/ , c= l7 PE 1 C 1 l 7

数据挖掘中支持度和置信度的概念

数据挖掘中支持度和置信度的概念

数据挖掘中支持度和置信度的概念
在数据挖掘中,支持度和置信度是两个重要的概念,它们通常
用于关联规则挖掘和频繁模式挖掘。

首先,让我们来看支持度。

支持度是指一个项集在数据集中出
现的频率。

在关联规则挖掘中,支持度用来衡量一个规则在整个数
据集中出现的频率。

支持度越高,表示该项集或规则在数据集中出
现的频率越大。

支持度可以通过以下公式来计算,支持度 = 项集出
现的次数 / 总事务数。

通过支持度的计算,我们可以找出频繁项集,即在数据集中出现频率较高的项集,这有助于发现数据集中的潜在
模式和规律。

其次,置信度是指在关联规则中,一个规则的可信度有多大。

置信度衡量了一个规则中后项出现的概率,给定前项出现的条件下。

置信度可以通过以下公式来计算,置信度 = (项集1并项集2出现
的次数) / 项集1出现的次数。

通过计算置信度,我们可以衡量关
联规则的可靠程度,即在前提条件下,后项出现的概率有多大。

支持度和置信度的概念在数据挖掘中被广泛应用,通过对这两
个指标的分析,我们可以发现数据集中的潜在模式和规律,从而为
决策提供支持。

同时,支持度和置信度也是评估关联规则挖掘结果质量的重要指标,能够帮助我们理解数据集中的关联关系,发现有用的信息。

因此,在数据挖掘中,支持度和置信度的概念具有重要的意义,对于挖掘数据中隐藏的规律和模式具有重要的指导作用。

工业控制系统软件的用户操作异常检测方法

工业控制系统软件的用户操作异常检测方法

工业控制系统软件的用户操作异常检测方法文元美;余雪晨【摘要】针对工业控制网络终端控制系统软件的用户行为安全问题,提出用户操作层面行为可信评估的方法.首先从软件日志文档中提取出整数数列的历史序列,然后引入Apriori方法进行用户操作行为序列频繁模式挖掘,并基于挖掘出的模式集建立概率矩阵,最后通过提取当前用户行为序列,基于BLAST-SSAHA算法与历史序列模式集序列匹配,对用户行为可信性进行检测,为后续系统平台可信性评估提供依据.实验表明:文章提出的方法是有效可行的.【期刊名称】《中国测试》【年(卷),期】2014(040)004【总页数】4页(P98-101)【关键词】用户操作异常;数据挖掘;模式匹配;工业控制网【作者】文元美;余雪晨【作者单位】广东工业大学信息工程学院,广东广州510006;广东工业大学信息工程学院,广东广州510006【正文语种】中文【中图分类】TP301;TP311.53;TP206+.3;O224随着信息技术的发展,工业控制系统的安全性逐渐成为人们关注的热点。

美国国家标准与技术研究院发布《ICS Security》(2011年),制定了工业控制系统(industry control system,ICS)安全管理规范。

Youngjoon Won等[1](2012)研究了基于IP的无线控制系统与网络的故障检测方法,分析传统以太网/IP网络故障诊断方法及其局限性,改进对ICN故障独特的交通特性及分类,同时提出了一种故障诊断、预测及自适应决策方法,并利用来自POSCO钢铁冶炼公司的实际数据对其进行验证;美国伯克利大学的Roosta,T.Nilsson[2](2008)研究了一种基于模型的无线过程控制系统入侵检测系统(intrusion detection system,IDS),IDS模仿无线传感网络常态行为实体与检测攻击,该模型可用于检测未知攻击;芬兰技术研究中心[3](2011)在MOVERTI(monitoring for network security status in modern data networks)项目报告中,分析了网络安全监控系统中一些特定操作的环境威胁,通过演化网络数据流特征得出安全设备精确报警阈值等,监测系统整体设备区域安全状态并提交给操作者。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
以及 综述 ,并 在此 基础 上提 出 了

I 生 了妨碍作用 。此外 ,GB I 还能够对有 闭路径 的增长办法进行计算,实现了有效的子图挖掘 中的有 向或者无 向标签 图进行处理 。搜 索时的 目的。可叠加挖掘算法对于后基因组分子生物 j I 每一个环节都是使用边或块老搜 索到对应 的连 学来说具有十分关键 的意义 。 i
S uBD UE与 GB I 不 仅能够 应用 在频 繁子 图外界 当中,同时它也是 目前知名度最高的单
图频 繁 子 图挖 掘 使用 顶 点 编 号 对 输 入 图进 行 有 损 性 压 缩 ,在 此 基础 上 获 得 一 种 数 据 结 构 , 叫
算 法研 究 [ J 】 . 湖 南城 市学 院学报 (自然
综 述 , 并对 这 些 算法 的 具体 应 用情 况 以及 相 互
对今后 的概率频率模式挖掘算法 ] 造器 ,可 以对 图数据 中的决策树 分类 器特征进
的研 究提供 一些理论 建议 。 J
行构造 。 1 . 2依托 I L P 的挖掘算法 键词 】概率频繁模 式 挖掘 算法
法 各种存在 的不 足以及 长处 。站在 理论角度来 分析 ,频繁子 图挖掘算法无 论是在 同构还 是在
图 特 征 方 面 都 存 在 着 许 多 问 题 , 因 此 在 今 后 的
在这一需求下 ,我们需要将这 些不同的
些 支 持 性 较 高 的子 图 ,而 由 DE HAS P E等 设
有关 贪 心搜索 下 的频 繁子 图挖 掘算 法 , E 一九九 四年就 己经获得了两大代表性的研
果 ,分别 为 S UB DUE 以 及 GBI , 笔 者 以
个 特 例 为 WAR MR 系 统 ,但 是 该 系 统 在 计
算过程 中较为复杂 ,因此一般情况 下我们 都将 其应用在 出现频率较高 的子结构 当中。
科 学版 ) , 2 O 1 3 ( 0 3 ) : 7 卜7 5 .
j DUE举 例进 行 说 明。S UBD UE是 在 最小 B 长度原则下 ,使用 定点替代方式来识别 出
[ 3 】韩 蒙 . R A K I N G : 一 种 高 效 的 不确 定 图 K 一 极 大 频繁 模 式 挖 掘 算 法 [ A 】 .中 国计 算

结 出一个 可以对 正负样 本集进行准确分类的规 则集合 。在 I L P系统 中对 图模 型进行构建时 , 杉 树规则一般来说所对应的均为子 图,基本上 法 ,使用各种不 同的启发方式对可能 的假设结 果进行剪辑。 由此可见 ,它们更加倾 向于识别

所 有基于 I L P的方法从根本上分析都未贪心算 之 间的关 系进行 了重 点介绍 ,并提 出了这 些算
进行分类。在本文 中,笔者 主要 针对概率
模 式 挖 掘 算 法 展 开 了研 究 与 综述 , 并根 据
计的I L P系 统 WAR MR 则 另 当 别 论 , 它 不 是
研究过程中还具有很大可挖掘的价值,现阶段 已经发展成为了数据 挖掘领域中的重点研究 内 容。从一九九四年至今,该领域相关的论文 己 发表数 百篇,足 己显现 出其可观 的发展趋势 。
机 学会 数 据 库 专业 委 员会 . N D B C 2 O 1 0第
ห้องสมุดไป่ตู้
能够有效压缩 原始 输入数据的模式。这一 做 S U MMAR Y,这一 数据 机构 能够在 短 时间 的 以仅含有输入 图 G中的一个定 点所对应 内排 除所 有频率较低的候选子 图,若 图中的子
在 图形结构处理这一 需求导 向下而特 意设计 而 成 的,同时也 没有使 用 图模 型 特定 的优化 技 术,所 以说它对应的计算量极 高。此 外,还 有

j 频繁子 图挖掘算法 的应用对 象分 为图集 以
图两类。
目 集 中的 频 繁 子 图 挖 掘 算 法
依托 贪心搜 索的挖 掘算法
I 接顶 点集合 ,在规 范化标记法 的应用 下确认获 1 取 的子 图是 否结 构相同。G BI 还 是一种特征构
些 笔者 自己的见解 ,希 望 能够
3 结 束 语
随着 社会 的不 断发 展,各 种现代 化科 学 技术也在飞跃进步,如生物信息学、计算机 网 络学、We b分析学 以及化学情报学等 ,这些学 科 的发展使得 图数据变得更加重要 了,尤其是 在一些结构 问题十分复杂 的建模过程 中,其重 要性得到 了不断 的突显 。为 了能够实现对 图的 深入特征化分析 以及分类分析 ,频繁子 图挖掘 技术所肩 负的任务也越来越艰 巨。在本文 中, 笔 者针对 典型频 繁子 图挖掘算法进行 了详细 的
参考文献
[ 1 ] 乔 少杰 , 韩楠 , 丁治明 , 金澈清 , 孙 未未 , 舒红平 .多模 式移 动对 象不确 定性轨迹预 测模 型 [ J ] .自动化学报 : 1 - 1 1 .
【 2 ] 杜 戈王子 . 概率频繁模 式挖掘之 U - a p r i o r i
2单图 中的频繁子图挖掘算法
我 们 可 以简 单 地 使 用 一 阶 逻 辑 来 对 图 进

行表达 ,因此在 此基础上设计 了一个 以 I L P为 依托 的挖掘 算法。在 I L P算法的基础上能够总 现 阶段 , 已有 越来 越 多高 效 的算法被 研 j 来 ,用于对 图集进 行挖掘 ,其 中也不 乏有 算法是 用作对单图 中的模式进行挖掘 的, 这些算 法的应用对象有所差别 ,因此他们 } 果也存 在一定的差异 。而针对任何 一个 实 在 的问题,最大的挑战在于如何进行有 效
数据库技术 ・ D a t a B a s e T e c h n i q u e
概率频繁模式挖掘算法研 究综述
文/ 苏 莉
1 i 模,这种搜索方式 的优势在于对不 间断压缩产 个特点,并使用了广度以及深 度两个截然不同
本 文 围绕 图集 中的频繁 子 图 挖掘 算法 、单 图 中的频繁 子 图挖 掘 算 法 两个方 面展 开 讨论 ,对概 率 频繁 模 式挖掘 算 法进 行 了研 究
相关文档
最新文档