Apriori算法的改进与分析

相关主题

apriori算法

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Ck ：D 中 k-候选项集
Lk ：D 中 k-频繁项集
Dk ：第 k 次删除后的事务数据库
Lk [i]：k-频繁项集的第 i 项
处理：
（1）L1={large1-itemsets};
（2）for (k=2;Lk-1≠ ;k++){
（3）Ck=Apriori-gen (Lk-1,min_sup);//新的候选项
（4）
c=p q；//两个项集联接
（5）
if has_infrequent_subset(c,Lk-1)
（6） delete c;//剪枝
（7） else add c to Ck;
（8） }
（9）Dk = apriori-del(Dk-1, Lk-1)
（10）return Ck
procedure apriori-del(Dk-1, Lk-1)
图 2 实验选择 11 个属性项 4.2 结果分析为了验证优化算法的性能，我们针对同样的数据库，在相同的硬件和软件环境下，首先，在不同的支持度下，两个算法进行时间比较，结果如图 3 所示。从图 3 可以看出，随着支持度的减小，BApriori 算法的执行时间增加幅度比 Apriori 算法的执行时间要小，BApriori 算法在效率上的优势。接着，在支持度相同、记录数不同的条件下，二种算法进行时间效率比较，结果见图 4。从上面的测试结果可知，二种算法的运行时间随着数据记录数的增大而变大。但随着记录数的不断增加，BApriori 算法在时间上的优势也不断扩大。从而证明了这种优化算法
境：CPU 为迅驰二代 1.7G，内存 512M，硬盘 40G。实验是在我们的数据挖掘平台 BMiner 上进
行的，搭建的数据挖掘实验模型如图 1 所示。
图 1 数据挖掘实验模型该问题涉及的主要数据存储在关系数据库的表中。该表包括 18 个属性项，共 50000 条记录，我们选取了其中 11 个属性项进行实验，如图 2 所示。
似地可证对于坌c∈Cp(p>k)，有 c埭T0,故 Lp 不变。
3 改进算法的描述
BApriori 算法在发现频繁项目集和根据所获
得的频繁项目集精减事务数据库两方面进行了优
化后，下面是该算法的完整描述。
输入：事务数据库 D；最小支持度阈值 minsup，
待挖掘的项 I1,I2,…,In
输出：D 中的频繁项集 L
（11）return L=∪kLk
procedure apriori-gen(Lk-1,min_sup)
（1）for each itemset p∈Lk-1
（2） for each itemset q∈Lk-1
（3） if (p.item1=q.item1)∧…∧(p.itemk-2=q.
itemk-2)∧(p.itemk-1<q.itemk-1){
1 引言 1.1 Apriori 算法基本思想 Apriori 算法[1]的核心思想是采用逐层递推的方法, 首先扫描数据库, 产生 1 频繁项目集；再由 apriori_gen 函数利用 Lk-1,中的成员连接、剪枝后, 产生候选项目集 Ck, 通过扫描事务数据库计算每个候选项目集的支持度，大于最小支持度的项目集并入 k 频繁项目集 Lk 中；直到不再产生候选项目集结束；最后合并全部频繁项目集。 1.2 Apriori 算法优化研究现状 1995 年 Park 等人提出的基于 hash 的算法－ Dynamic Hashing and Pruning(DHP)算法[2][3]。该算法通过引入 hash 技术来提高生成频繁 2 项集的效率。同年 Savasere 等人提出的基于划分的算法[4]。该算法的优点在于只需两次扫描整个事务数据库从而提高了算法的效率。1996 年 Toivonen 提出的基于采样的算法[5]。该算法显著提高了算法的运行效率, 但有时会使产生的结果不精确。另外还有 Brin 等人提出的动态项集计数算法 [6]; 关联规则的矩阵算法[7]等等。 2 改进的基本思想在频繁项目集生成的步骤中，在计算强项集的同时记录包含在强项集合中相应事物的 TID，每次计算 Ck 支持度时对不包含在 Ck 中的各事务直接删除，不必进行支持度计算，同时删除不包含 Ck 中的任何项集的事务，在以后的支持度计算中不加考虑，这样计算候选集支持度所涉及的记录数目将不断减小，提高了整个算法的效率。在所有改进算法中，比较重要的一种是基于以下定理：定理 1 Ck 中任一项集必是 Ck-1 中某一项集的超集。定理 2 如果某一事务不包含 Ck-1 中的任何项集，那么删除该事务对 Lj (j≥k)的计算没有影响。然而我们看到上述算法还可以进一步优化。因为对定理 1 和定理 2 进行扩展，有如下定理成立: 定理 3 Ck 中任一项集必是 Ck-1 中某 k 个项集的超集。证明：由 Lk-1={c∈Ck-1|Support(c)≥minsup}，可得 Lk-1哿Ck-1。又根据 Ck 的构造可知，对于任意 c∈Ck，从 c 中去掉任一项所得到的真子集必在 Lk-1 中，而 c 共有 k 个不同的真子集(均为 k-1 个元素)，分别记为 p1,p2,…, pk，则有 p1,p2,…, pk∈Lk-1。又 Lk-1∈Ck-1,所以 p1,p2,…, pk∈Ck-1，故对于坌c∈Ck，p1,p2,…, pk∈Ck-1，使得 p1,p2,…, pk哿c，因此定理 3 成立。定理 4 如果某一事务包含 Ck-1 中的项集个数小于 k，那么删除该事务对 Lj (j≥k)的计算没有影响。证明：设某一事务 T0,由定理 3 可知，如果 c∈ Ck，c∈T0,则 p1,p2,…,pk∈Ck-1，使得 p1,p2,…, pk哿c,所以 p1,p2,…, pk哿T0。因为逆否命题等价于原命题，所以如果对任意 p1,p2,…, pk∈Ck-1，不能满足 p1,p2,…, pk哿 T0，则对 c∈Ck，c埭T0,有{T|T∈D and T勐c}={T|T∈(DT0) and T勐c},故从 D 中删除 T0,Support(c)不变。又因为 Lk={c∈Ck| Support(c)≥minsup}，所以 Lk 不变。类
集
（4） for all transaction t∈D {
（5） Ct=subset(Ck,t);//事务 t 中所包含的候
选集
（6） for all candidates c∈Ct
（7）
c.cou源自文库t ++;
（8） }
（9） Lk={c∈Ck|c.count/|D|≥ min_sup}
（10） }
（1）for each items p∈Dk-1{
（2） if |items|< k delete items;
（3） if items 不包含 Lk-1 delete items;
（4）}
（5）return Dk-1
procedure has_infrequent_subset(c,Lk-1)
（1）for each (k-1)-subset s of c
图 3 不同支持度下运行时间比较
图 4 不同记录数度下运行时间比较
- 10 - 中国新技术新产品
信息技术
China
New
2009 NO.5 Technologies and Products
中国新技术新产品
数字电视发射机的特点及与模拟电视发射机的比较
赫健靖亚兴
（海伦市广播电视局，黑龙江海伦 152300 ）
中国新技术新产品
2009 NO.5 China New Technologies and Products
Apriori 算法的改进与分析
信息技术
包奇峰 (浙江工业大学信息学院，浙江杭州 310014)
摘要:本文首先对 Apriori 算法及其优化进行了总结，接着给出一种优化算法 BApriori，最后以某超市交易数据作为挖掘对象，证明了优化算法的有效性。关键词: Apriori 算法；优化；评价；分析
推出的 VHF OPTIMUM 和 UHF ULTIMATE 系列发射机就已采用此种技术。
1.5 无线连接、GUI 界面、故障自我诊断和远程遥控
在新设计的数字电视发射机中，功率放大器、电源和 RF 合成器省去电缆而采用插、拔的方式直接连接在一起。这样使整机结构更加紧凑、维护更加方便。微处理器的应用，能够监控发射机的状态和提供每个组件的有用信息。LCD 的应用提供了直观友好的图形用户接口（GUI）使得用户操作更加容易，用户可以很直观的察看设备的运行状态。先进的故障自我诊断系统和 DAP 技术使得用户容易查找故障部位，加快设备的维护、维修进度。远程遥控功能使得用户可通过因特网对设备进行监控。
摘要：面对着 GPS 跟踪、无线互联网、移动通信、PDP(等离子)显示和电视演播室技术的迅猛发展，数字电视发射技术显得慢了一些。但是近几年，受数字电视市场的推动，英国、美国、西班牙、加拿大等国家数字电视业务的开播和全球掀起的数字电视热潮，电视发射技术方面也取得了较大进步。关键词：数字电视；发射机
2 数字电视发射机与模拟电视发射机的比较 2.1 激励器激励器主要包括音视频处理、调制、本振、变频和 RF 小功率放大器，它是电视发射机的核心。发射机的绝大部分技术指标由激励器决定。模拟电视发射机激励器和数字电视发射机的大部分不能通用。如果模拟电视发射机激励器采用数字音视频处理，调制采用软件无线电方式在基带部分实现，那么它与数字电视发射机激励器的共同部分可以增加，但不能完全共用。 2.2 功率放大器功率放大器决定了发射机的功率输出能力，是发射机中成本最高的部分。模拟电视发射机有分放式和合放式之分。分放式指图像载波信号和伴音载波信号经不同的功率放大器分别放大，合放式指图像载波信号和伴音载波信号用同一个功率放大器放大。而数字电视发射机不可能采用分放式，因为数字音视频信号总是复合在一起进行调制解调。因此，要想使模拟电视发射机的功率放大器直接用于数字电视发射机，就必须采用合放式。 2.3 RF 输出单元 RF 输出单元主要指输出滤波器。它决定发射机的无用发射性能。模拟电视发射机的主要能量集中在视频载波、伴音载波和色度副载波这些离散频
1 数字电视发射机的特点早期的数字电视发射机是用外接的 COFDM 或 8-VSB 激励器简单取代模拟 Vision/Sound 激励器，用射频波段滤波器取代射频输出滤波器和 Vi－ sion/Sound 双工器。但是近来，一些大的电视发射机制造商却以全新的理念和技术来设计生产新一代数字电视发射机，纵观主要有以下特点： 1.1 数字自适应预校正技术（DAP 或 RTAC）数字自适应预校正技术已经在美国和欧洲的制造商生产的数字电视发射机上应用。数字自适应于校正技术是指在不须人工干预的情况下在刚刚启动发射机的几分钟内将发射机的性能调到最佳状态，而且，这个系统还能够监测和自动校正来自于发射机的老化、温度和发射机自身失效等波动的调整，这样能够保证发射出去的信号始终处于高指标的状态，使维护变得非常简单。 1.2 功放中广泛应用大功率 LDMOS 晶体管 LDMOS （Lateral Diffused Metal Oxide Semi－ conductor）即：横向扩散金属氧化物半导体。起初， LDMOS 技术是为 900MHz 蜂窝电话技术开发的，蜂窝通信市场的不断增长保证了 LDMOS 晶体管的应用，也使得 LDMOS 的技术不断成熟，成本不断降低，因此今后在多数情况下它将取代双极型晶体管技术。 1.3 N+1 系统使拥有多台发射机的台站更经济 N+1 是指用 1 部发射机给多部（N 部）做备份。本来固态发射机是用像放大器、电源等较不稳定设备冗余累积起来的，模块化的激励器又一般采用双激励器自动倒换的形式，设备运行的可靠性明显提高。在通常情况下，也不用像电子管、速调管发射机那样进行备份。因为全固态的数字电视发射机所应用的积木化的功放和并行运行的电源等都足以实现 N+1 系统，而且大多支持热插拔。 1.4 冷却系统采用风、液冷供选择的方式为了满足不同客户对冷却系统的需求，发射机生产厂家开发了风冷和液冷系统，在客户购机订货时可供用户选择适合自己的冷却方式，改变了过去固态机中只有风冷的单一方式。如 THALES 公司
（2） if s Lk-1 return true;
（3） else return false
4 性能比较与分析
4.1 实验准备
下面针对一个特例－某超市的销售历史数据进
行关联分析。算法运行的操作系统环境为 Win－
dows 2003 Server，后台数据库为 SQL Sever 2000
企业版，程序采用面向对象语言 Java 编制。硬件环