Apriori算法的改进与分析

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Ck :D 中 k-候选项集
Lk :D 中 k-频繁项集
Dk :第 k 次删除后的事务数据库
Lk [i]:k-频繁项集的第 i 项
处理:
(1)L1={large1-itemsets};
(2)for (k=2;Lk-1≠ ;k++){
(3)Ck=Apriori-gen (Lk-1,min_sup);//新的候选项
(4)
c=p q;//两个项集联接
(5)
if has_infrequent_subset(c,Lk-1)
(6) delete c;//剪枝
(7) else add c to Ck;
(8) }
(9)Dk = apriori-del(Dk-1, Lk-1)
(10)return Ck
procedure apriori-del(Dk-1, Lk-1)
图 2 实验选择 11 个属性项 4.2 结果分析 为了验证优化算法的性能,我们针对同样的数 据库,在相同的硬件和软件环境下,首先,在不同的 支持度下,两个算法进行时间比较,结果如图 3 所 示。从图 3 可以看出,随着支持度的减小,BApriori 算法的执行时间增加幅度比 Apriori 算法的执行时 间要小,BApriori 算法在效率上的优势。接着,在支 持度相同、记录数不同的条件下,二种算法进行时 间效率比较,结果见图 4。从上面的测试结果可知, 二种算法的运行时间随着数据记录数的增大而变 大。但随着记录数的不断增加,BApriori 算法在时 间上的优势也不断扩大。从而证明了这种优化算法
境:CPU 为迅驰二代 1.7G,内存 512M,硬盘 40G。 实验是在我们的数据挖掘平台 BMiner 上进
行的,搭建的数据挖掘实验模型如图 1 所示。
图 1 数据挖掘实验模型 该问题涉及的主要数据存储在关系数据库的 表中。该表包括 18 个属性项,共 50000 条记录,我 们选取了其中 11 个属性项进行实验,如图 2 所示。
似地可证对于坌c∈Cp(p>k),有 c埭T0,故 Lp 不变。
3 改进算法的描述
BApriori 算法在发现频繁项目集和根据所获
得的频繁项目集精减事务数据库两方面进行了优
化后,下面是该算法的完整描述。
输入:事务数据库 D;最小支持度阈值 minsup,
待挖掘的项 I1,I2,…,In
输出:D 中的频繁项集 L
(11)return L=∪kLk
procedure apriori-gen(Lk-1,min_sup)
(1)for each itemset p∈Lk-1
(2) for each itemset q∈Lk-1
(3) if (p.item1=q.item1)∧…∧(p.itemk-2=q.
itemk-2)∧(p.itemk-1<q.itemk-1){
1 引言 1.1 Apriori 算法基本思想 Apriori 算法[1]的核心思想是采用逐层递推的方 法, 首先扫描数据库, 产生 1 频繁项目集;再由 apriori_gen 函数利用 Lk-1,中的成员连接、剪枝后, 产生候选项目集 Ck, 通过扫描事务数据库计算每 个候选项目集的支持度,大于最小支持度的项目集 并入 k 频繁项目集 Lk 中;直到不再产生候选项目 集结束;最后合并全部频繁项目集。 1.2 Apriori 算法优化研究现状 1995 年 Park 等人提出的基于 hash 的算法- Dynamic Hashing and Pruning(DHP)算法[2][3]。 该算 法通过引入 hash 技术来提高生成频繁 2 项集的效 率。同年 Savasere 等人提出的基于划分的算法[4]。该 算法的优点在于只需两次扫描整个事务数据库从 而提高了算法的效率。1996 年 Toivonen 提出的基 于采样的算法[5]。该算法显著提高了算法的运行效 率, 但有时会使产生的结果不精确。另外还有 Brin 等人提出的动态项集计数算法 [6]; 关联规则的矩阵 算法[7]等等。 2 改进的基本思想 在频繁项目集生成的步骤中,在计算强项集的 同时记录包含在强项集合中相应事物的 TID,每次 计算 Ck 支持度时对不包含在 Ck 中的各事务直接 删除,不必进行支持度计算,同时删除不包含 Ck 中 的任何项集的事务,在以后的支持度计算中不加考 虑,这样计算候选集支持度所涉及的记录数目将不 断减小,提高了整个算法的效率。在所有改进算法 中,比较重要的一种是基于以下定理: 定理 1 Ck 中任一项集必是 Ck-1 中某一项集的 超集。 定理 2 如果某一事务不包含 Ck-1 中的任何项 集,那么删除该事务对 Lj (j≥k)的计算没有影响。 然而我们看到上述算法还可以进一步优化。因 为对定理 1 和定理 2 进行扩展,有如下定理成立: 定理 3 Ck 中任一项集必是 Ck-1 中某 k 个项集的 超集。 证明:由 Lk-1={c∈Ck-1|Support(c)≥minsup},可得 Lk-1哿Ck-1。又根据 Ck 的构造可知,对于任意 c∈Ck, 从 c 中去掉任一项所得到的真子集必在 Lk-1 中,而 c 共有 k 个不同的真子集(均为 k-1 个元素),分别记 为 p1,p2,…, pk,则有 p1,p2,…, pk∈Lk-1。又 Lk-1∈Ck-1,所以 p1,p2,…, pk∈Ck-1,故对于坌c∈Ck,p1,p2,…, pk∈Ck-1,使 得 p1,p2,…, pk哿c,因此定理 3 成立。 定理 4 如果某一事务包含 Ck-1 中的项集个数 小于 k,那么删除该事务对 Lj (j≥k)的计算没有影 响。 证明:设某一事务 T0,由定理 3 可知,如果 c∈ Ck,c∈T0,则 p1,p2,…,pk∈Ck-1,使得 p1,p2,…, pk哿c,所以 p1,p2,…, pk哿T0。因为逆否命题等价于原命题,所以 如果对任意 p1,p2,…, pk∈Ck-1,不能满足 p1,p2,…, pk哿 T0,则对 c∈Ck,c埭T0,有{T|T∈D and T勐c}={T|T∈(DT0) and T勐c},故从 D 中删除 T0,Support(c)不变。又因 为 Lk={c∈Ck| Support(c)≥minsup},所以 Lk 不变。类

(4) for all transaction t∈D {
(5) Ct=subset(Ck,t);//事务 t 中所包含的候
选集
(6) for all candidates c∈Ct
(7)
c.cou源自文库t ++;
(8) }
(9) Lk={c∈Ck|c.count/|D|≥ min_sup}
(10) }
(1)for each items p∈Dk-1{
(2) if |items|< k delete items;
(3) if items 不包含 Lk-1 delete items;
(4)}
(5)return Dk-1
procedure has_infrequent_subset(c,Lk-1)
(1)for each (k-1)-subset s of c
图 3 不同支持度下运行时间比较
图 4 不同记录数度下运行时间比较
- 10 - 中国新技术新产品
信息技术
China
New
2009 NO.5 Technologies and Products
中国新技术新产品
数字电视发射机的特点及与模拟电视发射机的比较
赫 健 靖亚兴
(海伦市广播电视局,黑龙江 海伦 152300 )
中国新技术新产品
2009 NO.5 China New Technologies and Products
Apriori 算法的改进与分析
信息技术
包奇峰 (浙江工业大学信息学院,浙江 杭州 310014)
摘 要:本文首先对 Apriori 算法及其优化进行了总结,接着给出一种优化算法 BApriori,最后以某超市交易数据作为挖掘对象,证明了优化 算法的有效性。 关键词: Apriori 算法;优化;评价;分析
推出的 VHF OPTIMUM 和 UHF ULTIMATE 系列 发射机就已采用此种技术。
1.5 无线连接、GUI 界面、故障自我诊断和远程 遥控
在新设计的数字电视发射机中,功率放大器、 电源和 RF 合成器省去电缆而采用插、拔的方式直 接连接在一起。这样使整机结构更加紧凑、维护更 加方便。微处理器的应用,能够监控发射机的状态 和提供每个组件的有用信息。LCD 的应用提供了直 观友好的图形用户接口(GUI)使得用户操作更加容 易,用户可以很直观的察看设备的运行状态。先进 的故障自我诊断系统和 DAP 技术使得用户容易查 找故障部位,加快设备的维护、维修进度。远程遥控 功能使得用户可通过因特网对设备进行监控。
摘 要:面对着 GPS 跟踪、无线互联网、移动通信、PDP(等离子)显示和电视演播室技术的迅猛发展,数字电视发射技术显得慢了一些。但是 近几年,受数字电视市场的推动,英国、美国、西班牙、加拿大等国家数字电视业务的开播和全球掀起的数字电视热潮,电视发射技术方面也 取得了较大进步。 关 键 词 :数字电视;发射机
2 数字电视发射机与模拟电视发射机的比较 2.1 激励器 激励器主要包括音视频处理、调制、本振、变频 和 RF 小功率放大器,它是电视发射机的核心。发射 机的绝大部分技术指标由激励器决定。模拟电视发 射机激励器和数字电视发射机的大部分不能通用。 如果模拟电视发射机激励器采用数字音视频 处理,调制采用软件无线电方式在基带部分实现, 那么它与数字电视发射机激励器的共同部分可以 增加,但不能完全共用。 2.2 功率放大器 功率放大器决定了发射机的功率输出能力,是 发射机中成本最高的部分。模拟电视发射机有分放 式和合放式之分。分放式指图像载波信号和伴音载 波信号经不同的功率放大器分别放大,合放式指图 像载波信号和伴音载波信号用同一个功率放大器 放大。而数字电视发射机不可能采用分放式,因为 数字音视频信号总是复合在一起进行调制解调。因 此,要想使模拟电视发射机的功率放大器直接用于 数字电视发射机,就必须采用合放式。 2.3 RF 输出单元 RF 输出单元主要指输出滤波器。它决定发射 机的无用发射性能。模拟电视发射机的主要能量集 中在视频载波、伴音载波和色度副载波这些离散频
1 数字电视发射机的特点 早期的数字电视发射机是用外接的 COFDM 或 8-VSB 激励器简单取代模拟 Vision/Sound 激励 器,用射频波段滤波器取代射频输出滤波器和 Vi- sion/Sound 双工器。但是近来,一些大的电视发射机 制造商却以全新的理念和技术来设计生产新一代 数字电视发射机,纵观主要有以下特点: 1.1 数字自适应预校正技术(DAP 或 RTAC) 数字自适应预校正技术已经在美国和欧洲的 制造商生产的数字电视发射机上应用。数字自适应 于校正技术是指在不须人工干预的情况下在刚刚 启动发射机的几分钟内将发射机的性能调到最佳 状态,而且,这个系统还能够监测和自动校正来自 于发射机的老化、温度和发射机自身失效等波动的 调整,这样能够保证发射出去的信号始终处于高指 标的状态,使维护变得非常简单。 1.2 功放中广泛应用大功率 LDMOS 晶体管 LDMOS (Lateral Diffused Metal Oxide Semi- conductor)即:横向扩散金属氧化物半导体。起初, LDMOS 技术是为 900MHz 蜂窝电话技术开发的, 蜂窝通信市场的不断增长保证了 LDMOS 晶体管 的应用,也使得 LDMOS 的技术不断成熟,成本不 断降低,因此今后在多数情况下它将取代双极型晶 体管技术。 1.3 N+1 系统使拥有多台发射机的台站更经济 N+1 是指用 1 部发射机给多部(N 部)做备份。 本来固态发射机是用像放大器、电源等较不稳定设 备冗余累积起来的,模块化的激励器又一般采用双 激励器自动倒换的形式,设备运行的可靠性明显提 高。在通常情况下,也不用像电子管、速调管发射机 那样进行备份。因为全固态的数字电视发射机所应 用的积木化的功放和并行运行的电源等都足以实 现 N+1 系统,而且大多支持热插拔。 1.4 冷却系统采用风、液冷供选择的方式 为了满足不同客户对冷却系统的需求,发射机 生产厂家开发了风冷和液冷系统,在客户购机订货 时可供用户选择适合自己的冷却方式,改变了过去 固态机中只有风冷的单一方式。如 THALES 公司
(2) if s Lk-1 return true;
(3) else return false
4 性能比较与分析
4.1 实验准备
下面针对一个特例-某超市的销售历史数据进
行关联分析。算法运行的操作系统环境为 Win-
dows 2003 Server,后台数据库为 SQL Sever 2000
企业版,程序采用面向对象语言 Java 编制。硬件环
相关文档
最新文档