一种正负关联规则的快速查询扩展算法
相关系数和卡方检验的正负关联规则挖掘算法
相关系数和卡方检验的正负关联规则挖掘算法胡志冬【摘要】随着经济全球化和信息技术的发展,为了给企业发展提供更多的信息支持和决策帮助,数据中心纷纷建立起来,其作用是通过分析海量数据来为企业的政策趋向和战略选择提供意见佐证.但是,要想在庞大的数据海洋中获取数据间的相关性依赖并非易事,而且,传统的关联规则算法通常并不完善,产生的规则通常会包含一些没有意义甚至错误的规则,即所谓的弱规则与负规则.针对这种现状,提出一种度量正负关联规则的检验方法,并引入赋予不同权重值给不同数据库的方式,提高在水平多数据库中挖掘正负关联规则的效率.【期刊名称】《微型机与应用》【年(卷),期】2013(032)016【总页数】4页(P64-67)【关键词】数据挖掘;正负关联规则;多数据库【作者】胡志冬【作者单位】辽宁师范大学计算机与信息技术学院,辽宁大连116029【正文语种】中文【中图分类】TP311数据挖掘(Data Mining)是从数据准备到知识评价的一个流程体系,在海量的数据中获取感兴趣的信息。
关联规则的挖掘是数据挖掘研究的重要方向之一,通过数据间隐含的依赖性关系生成知识。
目前多数工作的重心都放在了A⇒B的正关联规则研究上,而对于形如A⇒┐B、┐A⇒B、┐A⇒┐B(一般此类规则作用较小)的负规则研究很少,但负关联规则同样包含着巨大的信息量,对企业的战略决策选择同样起着至关重要的作用。
1 相关工作1.1 概念与定义在支持度-置信度的框架下,关联规则中只有同时满足支持度与置信度的规则才是强规则,即具有良好预测性的规则。
从概率的角度重新定义支持度和置信度为:定义1支持度是指数据库中同时包含A和B的概率。
也就是说,如果在数据库D 中包含A又包含B的事务集占总事务集的n%,则规则A⇒B的支持度为n。
定义2置信度是A成立的条件下B也为真的条件概率,也就是说,如果数据库D 中包含A又包含B的事务集占只包含A的事务集的m%,则规则A⇒B的置信度为m。
基于文本聚类搜索引擎的查询扩展算法
基于文本聚类搜索引擎的查询扩展算法袁津生;程超然【期刊名称】《计算机工程与应用》【年(卷),期】2012(048)003【摘要】目前多数基于文本聚类搜索引擎的研究对于聚类产生的小聚类簇查询未能给出深入查询解决方案,针对此类问题提出了一种基于聚类的查询扩展算法.此算法利用簇关系树结构改进相似度公式,对目标簇提取主题词并进行二次查询后,通过K中值聚类算法对查询结果进行聚类以对其进行扩展.此算法全部过程均为离线运算,旨在避免在线运算影响查询响应效率,并通过实验验证了该算法的有效性.%Most of the researches on search engine based on text clustering doesn't provide a good solution for deep searching with small clusters. To solve this kind of problems, a query recommendation algorithm based on clustering is proposed. This algorithm improves the similarity formula utilizing the hierarchical clustering results generated by text clustering, then searches for the target clusters using the extracted key-words, processes the result set using K-median clustering algorithm for recommendation. All the processes are done offline to avoid online computing. The algorithm is proved effective by experiment.【总页数】4页(P129-132)【作者】袁津生;程超然【作者单位】北京林业大学信息学院,北京100083;北京林业大学信息学院,北京100083【正文语种】中文【中图分类】TP391【相关文献】1.基于蚁群算法的文本聚类算法的参数优化 [J], 姚兴仁;赵刚2.基于个性化词典的搜索引擎查询扩展模型 [J], 李力沛;罗颖3.基于修正TF-IDF的搜索引擎查询扩展模型 [J], 李力沛;罗颖4.基于关联规则与聚类算法的查询扩展算法 [J], 李大高;程显毅;张冬慧5.基于个性化词典的搜索引擎查询扩展模型 [J], 李力沛;罗颖;因版权原因,仅展示原文概要,查看原文内容请购买。
一种用于挖掘正负关联规则的可量化标准
ZHAO a g, AO y n , U e to Lin XI De u LI Zh n a 2
(. ea m n o A t t nT i h a nvr t B i g 0 4 2 Is t e f a a t i , s g u n e i , e ig1 0 4 1D p r et f u mao 。 s g u ie i , e i 0 8 ; .ntu i n u e T i h a i r t B in 0 8 ) t o i n U sy j 10 n i toT w S d s n U v sy j 0 [ b t c]T e o vn o a a e o r i n s c t n u s s h p o —o f ec a e o h h a m m t o sF r n A s at h n et nl m w r f n gas i i l e up rc n dn e r w r w i s o e i i t n . o e r c i ko m i o ao r e it s t i fm k ch s l a i o
I e od|N gte s c t n l ; o e tnD tmn gQ et nae K y rs ea v s i i e C r li ; a in ; usoni w i a o ao r s r ao u a i i r
关联规则 的数据挖 掘是从大量 数据 中挖 掘出内在联 系的 方法,常用在购物篮分析中。在调研问卷分析中也常有类似 的需 求:哪些调查题 目之 间存在着内在的联系?本文尝 试用 关联规则数据挖掘方法来分析一份甲地区对 乙地区看法 的调 研 问卷 。现在对于 关联规 则的挖掘 多是 侧重于基 于支持度一
一种关联规则增量更新算法
一种关联规则增量更新算法
兰天;杨君锐
【期刊名称】《西安科技大学学报》
【年(卷),期】2009(29)1
【摘要】关联规则是数据挖掘领域的一个重要分支,而发现频繁项目集是关联规则数据挖掘中的关键问题.频繁项目集是在给定的交易数据库D下满足最小支持度和最小置信度下的一个项目集合,但随着数据集的增减,就会产生不同的频繁项目集.如何发现在数据集变化情况下频繁项目集快速和高效地更新是文中解决的问题.为此提出了一种改进的增量更新算法,实验结果表明此算法有较好的效果.
【总页数】5页(P113-117)
【作者】兰天;杨君锐
【作者单位】西安科技大学,计算机科学与技术学院,陕西,西安,710054;西安科技大学,计算机科学与技术学院,陕西,西安,710054
【正文语种】中文
【中图分类】TP301.6
【相关文献】
1.一种改进的关联规则增量更新算法 [J], 孙新;宋中山
2.一种基于临时表的关联规则增量更新算法 [J], 梅俊;郑刚
3.关联规则中一种负增量更新算法的探讨 [J], 郑明
4.一种改进的并行关联规则增量更新算法研究 [J], 王诚;赵申屹
5.一种高效的关联规则连续增量更新改进算法 [J], 杜焕强;俞立峰
因版权原因,仅展示原文概要,查看原文内容请购买。
一种用于挖掘正、负关联规则的改进Apriori算法
- -7
X)
在本文的挖掘算法中由于非频繁集的引入, 使 得候选 的关 联规 则数 目大 幅增 多 , 了剔 除其 中无 为 用 的规则 , 算法 中利 用 了兴 趣 度 来对 候 选 的关 联 规 则进 行筛 选 。兴 趣度就 是描 述关联 规则前 件 和后件 间联 系或 影 响紧密程 度 的一 个 度量 ,9 1年 由 Pa 19 i — ttk-hpr 首 先提 出 , esyS ai o 即如果关 联规则 )+Y满
关键词 正 关联 规 则 , 负关联 规 则 , 兴趣 度
1 引 言
关联 规 则挖 掘 是数 据 挖 掘 的一类 , 用 来在 一 它 个 大 的事 务集 中发现 各个 项 间 的隐含 关 系 ,93年 19 由 R rwa首 先提 出[ , Aga l 1 此后 大 量 的学 者 对 其进 ] 行 了深入 的研 究 , 现在 关 联 规 则 已经 广泛 地 应 用 于 各个领域 , 如诊断决策、 电信、 入侵检测等 。传统关 联规则挖 掘得 出 的是 形 如 A— B的蕴 涵 式 , 所 表 它 示 的意思就是 在一 个 事 务 中如 果 出现 了 A, 么 也 那 就极有 可 能 出现 B . rwa 于 19 提 出 了 。R Aga l 94年
足:
硕士生 , 主要研究领域 为人工智能 。邢永康 博士后 , 副教授 , 硕
摘
要
本文提 出一种传统的关联规则挖掘主要 着眼 于正关联规 则, 即形如 A— B的规 则的挖掘 , 而对 负关联规
则的研 究非常有限 , 然而 实践表明在关联规 则 的各 个应 用领域 中, 负关联规 则 同正关联 规则有 着 同样 的重要性 。 Ap o H H算法是挖掘 关联规 则的一 个经典 算 法, 是 它只局 限 于挖掘 正 关联规 则, 文对该 算 法进 行 改进提 出了 但 本 E - p i i 法, 算法不仅 能挖 出负关联规则 , xA r r算 o 新 而且 由于兴趣 度的 引进 , 能够剔除 大量无趣 的 关联规 则。实验表 明该种 算法有效且可行 。
一正一负数字匹配公式
一正一负数字匹配公式一正一负数字匹配公式什么是一正一负数字匹配公式一正一负数字匹配公式是一种用于匹配正负数的公式。
它可以用来判断一个数是正数还是负数,或者两个数的符号是否相反。
公式1:判断一个数的正负性公式:IF(A1 > 0, "正数", IF(A1 < 0, "负数", "零"))示例假设在单元格A1中输入一个数字,我们可以使用上述公式来判断这个数字的正负性。
如果数字大于0,则显示”正数”;如果数字小于0,则显示”负数”;如果数字等于0,则显示”零”。
公式2:判断两个数的符号是否相反公式:IF(A1 * B1 < 0, "符号相反", "符号相同")示例假设在单元格A1和B1中分别输入两个数字,我们可以使用上述公式来判断这两个数字的符号是否相反。
如果两个数字的乘积小于0,则显示”符号相反”;如果两个数字的乘积大于等于0,则显示”符号相同”。
公式3:判断两个数的正负性是否相同公式:IF((A1 > 0 AND B1 > 0) OR (A1 < 0 AND B1 < 0), "正负性相同", "正负性不同")示例假设在单元格A1和B1中分别输入两个数字,我们可以使用上述公式来判断这两个数字的正负性是否相同。
如果两个数字都是正数或者都是负数,则显示”正负性相同”;如果一个数字是正数而另一个数字是负数,则显示”正负性不同”。
小结一正一负数字匹配公式可以帮助我们判断一个数的正负性,或者判断两个数的符号是否相反,以及判断两个数的正负性是否相同。
这些公式在各种实际应用中都非常有用,例如在金融领域中判断收入和支出的正负性,或者在数学中判断两个向量的方向是否相反。
通过灵活运用这些公式,我们可以更好地处理和分析数据。
公式4:判断两个数是否为相反数公式:IF(ABS(A1) = ABS(B1) * -1, "相反数", "非相反数")示例假设在单元格A1和B1中分别输入两个数字,我们可以使用上述公式来判断这两个数字是否为相反数。
一种基于关系矩阵的关联规则快速挖掘算法
一种基于关系矩阵的关联规则快速挖掘算法
Snowball算法简介
Snowball算法是一种基于关系矩阵的关联规则快速挖掘算法,它的优势在于可以自动调整关联规则的支持度和置信度,使挖掘的关联规则更加准确。
它用来提取有分类推理价
值的关联规则,进而得出有用和非有用的联系,以及强调有用的联系。
Snowball算法分为界面模块和算法模块两部分。
在界面模块中,它能够支持多种格式的输入数据,可以按照用户需要定义数据集中错误值和缺失值,也可以让用户定义关联规
则的支持度和置信度的最小值;算法模块中,它的过程主要包括从输入的关系矩阵中找出“心脏”集合、对心脏集合进行必要性检查来提取候选规则,以及根据用户设定的最低支
持度和置信度的最小值来筛选出真正的关联规则。
Snowball算法的优势在于能够自动调整支持度和置信度,使挖掘的关联规则更加准确,降低用户疑惑度;同时,它只需要较少的资源,对大型数据集也有较好的处理能力;最后,可以根据用户的实际情况,直接筛选出合适的关联规则。
总的来说,Snowball算法非常适合用于面向大规模数据集的关联规则快速挖掘,它能够根据用户设定的最低支持度和置信度,为用户挖掘出有用的关联规则,省去许多容易出
错的人工收集,使解释工作更加简单快捷。
关联规则的四种算法
关联规则的四种算法关联规则是数据挖掘领域中的一个基础方法,其主要用于寻找一个数据集中不同属性之间的关系和规律。
在实际的应用场景中,关联规则算法被广泛应用于市场营销、电商推荐、客户分析等领域。
本文将介绍关联规则的四种经典算法:Apriori算法、FP-growth算法、ECLAT算法和SPMF算法,并分别从算法原理、实现过程、优缺点等多个方面进行详细的介绍。
一、Apriori算法Apriori算法是关联规则中的一种基础算法,它是R. Agrawal和R. Srikanth于1994年提出的。
该算法的主要思想是:如果某个项集是频繁的,那么它的所有子集也应该是频繁的。
这意味着如果一个项集没有达到最小支持度的要求,那么包含这个项集的项集必定不能达到最小支持度要求。
Apriori算法的实现过程主要分为两个步骤。
第一步是生成候选项集,即根据原始数据集生成所有可能出现的项集,包括单项、双项、三项等。
第二步是计算每个项集的支持度,并根据最小支持度对项集进行筛选,得到频繁项集。
Apriori算法的优点是它的思想简单易懂,容易实现。
然而,由于该算法需要生成大量的候选项集,因此它的计算复杂度比较高,而且在处理大规模数据时不够高效。
二、FP-growth算法FP-growth算法是一种基于树结构的关联规则算法,它最早是由Han J.和Kamber M.在2000年提出的。
该算法主要采用基于前缀树的方法,先将原始数据集转换为一棵FP树(频繁模式树),然后通过对FP树的递归遍历,得到所有的频繁项集。
FP-growth算法的实现过程主要分为两个步骤。
第一步是构建FP树,即对原始数据集进行一个预处理,生成一棵FP树。
第二步是遍历FP树,根据FP树的头指针表和条件模式基,递归地生成频繁项集。
FP-growth算法的优点是它不需要生成大量的候选项集,可以减少计算复杂度,同时也具有较高的效率和准确率。
同时,该算法也具有较好的扩展性和灵活性,可以通过实现不同的优化方式来适应不同的数据集。
关联规则挖掘的经典算法与应用
关联规则挖掘的经典算法与应用关联规则挖掘是数据挖掘领域的重要技术之一,它能够从大规模数据集中发现出现频率较高的项集,并进一步挖掘出这些项集之间的关联规则。
通过挖掘关联规则,我们可以发现项集之间的隐藏规律,帮助人们做出更明智的决策。
本文将介绍关联规则挖掘的经典算法,包括Apriori算法和FP-growth算法,并探讨其在实际应用中的应用场景和效果。
一、Apriori算法Apriori算法是关联规则挖掘中最具代表性的算法之一。
它的核心思想是通过迭代的方式逐步发现频繁项集和关联规则。
Apriori算法的步骤如下:1. 初始化,生成所有频繁1项集;2. 迭代生成候选项集,并通过剪枝策略去除不满足最小支持度要求的候选项集;3. 重复步骤2直到无法生成新的候选项集;4. 根据频繁项集生成关联规则,并通过最小置信度要求进行筛选。
Apriori算法的优点是简单易懂,容易实现。
然而,由于其需要多次迭代和大量的候选项集生成操作,对于规模较大的数据集来说,效率较低。
二、FP-growth算法为了克服Apriori算法的低效问题,FP-growth算法应运而生。
FP-growth算法采用了FP树(Frequent Pattern tree)的数据结构来高效地挖掘频繁项集和关联规则,其主要步骤如下:1. 构建FP树,首先对事务数据库中的项进行统计排序,然后基于排序后的项构建FP树;2. 通过FP树的挖掘路径,得到频繁项集;3. 基于频繁项集生成关联规则,并通过最小置信度要求进行筛选。
FP-growth算法的优点是减少了候选项集的生成过程,大大提高了算法的效率。
同时,由于使用了FP树的结构,它也减少了算法所需占用的内存空间。
三、关联规则挖掘的应用场景关联规则挖掘在各个领域都有广泛的应用,下面我将介绍几个典型的应用场景。
1. 零售市场分析:通过挖掘购物篮中的关联规则,可以发现商品之间的关联性,帮助零售商制定促销策略,提高销售额。
基于概率统计的正负关联规则挖掘算法
有关概念 , 然而传统的关联规则挖掘算法仅能用来 发现高频率 、 强相关性质 的正关联规则( x ) 如 Y , 不能发现数据库 中具有低频率 、 强相关性质的负关
联 规则 ( 如 = ] Y ] = >_ ,_
一
关 联 规则 的任务 就 是发 现 同时满 足 最小 支 持 度 阈值 ( i sp和最小 置 信度 阈值 ( i— cn) mn~ u ) mn of
一
] y =P( ) )一P( U y )
—
0. 6— 0. 5=0. 5> mi 2 3 n
sp o dne u ,cn ec ( i f
个项 集 , 事务 包 含 当且 仅 当 c , 关 联 则
. y =( ( _ ) J )一P( U y )P( =0 3 / . = ] P ) / X) .50 6
cn d ne X= o ec ( = i f >Y)=20 /0 0=0 4 5060 . 2> m n~ i
1 一 般化 关联 规 则
关 联规 则 是 数 据 挖 掘运 用 广 泛 的一种 挖 掘方 法, 其普遍 采 用 的模 型是 S pot of ec 模 型 . upr—cndne i 设 , i, … , 是所 有项 的集合 , ={ i, i } D是 所 有相
Y ] ,_
_ ]
y , 种 隐式 规 则 告 诉 我 们 那 些 数 据 项 目较 少 地 )这 起发 生 , 他们 之 间有 着相 当强 的相关性 . 但 企业 、
的强规则 . 但是这样 的规则并不一定都是有趣 的 . 假定分析对购买苹果和香蕉的事务感兴趣 , 设事件 表示 包 含买 香 蕉 的事 务 ,y表示 包 含 买 苹果 的
事 务 , U y表 示 同时 买 苹果 和 香 蕉 的 事务 . 所 在 分 析 的 100个 事 务 中 , 据 显 示 60 事 务 包 00 数 00个 含 X,00个事 务包 含 Y20 个 事务 包含 U y. 50 ,50
有效的矩阵加权正负关联规则挖掘算法
有效的矩阵加权正负关联规则挖掘算法作者:周秀梅黄名选来源:《计算机应用》2014年第10期摘要:针对现有加权关联规则挖掘算法不能适用于矩阵加权数据的缺陷,给出一种新的矩阵加权项集剪枝策略,构建矩阵加权正负关联模式评价框架SRCCCI (SupportRelevancyCorrelation CoefficientConfidenceInterest),提出一种新的基于SRCCCI评价框架的矩阵加权正负关联规则挖掘算法MWARMSRCCCI(Matrixweighted Association Rules Mining Based on SRCCCI)。
该算法克服了现有挖掘技术的缺陷,采用新的剪枝技术和模式评价方法,挖掘有效的矩阵加权正负关联规则,避免一些无效和无趣的模式产生。
以中文Web 测试集CWT200g(Chinese Web Test collection with 200GB Web Pages)为实验数据,与现有无加权正负关联规则挖掘算法比较,MWARMSRCCCI算法的挖掘时间减幅最大可达74.74%。
理论分析和实验结果表明,MWARMSRCCCI算法具有较好的剪枝效果,候选项集数量和挖掘时间明显减少,挖掘效率得到极大提高,其关联模式可为信息检索提供可靠的查询扩展词来源。
关键词:数据挖掘;关联规则;矩阵加权正负关联规则;项集中图分类号:TP391文献标志码:A引言数据挖掘是指从大量数据中发现隐含于其中的、事先不知道但又是潜在有用的信息和知识的过程。
关联模式指的是各类项集和正负关联规则等模式。
关联模式挖掘技术是数据挖掘领域中一个重要研究内容,应用前景广阔,已经成为众多学者研究的热点之一。
近20年来,关联模式挖掘研究取得了显著的成果,这些成果可以归纳为无加权正负关联模式挖掘技术、加权正负关联模式挖掘技术和矩阵加权(也称完全加权)正负关联模式挖掘技术等三大类,其中:前两类模式挖掘研究比较充分,最后一类模式挖掘研究还不深入。
基于同义词和关联规则的查询扩展模型
在 融 合 算 法 中 对 查询 扩 展 进 行 如 下 改 进 :计 算 查 询 词 同 义 词 相 似度 考虑 其 与 查 询 中 其他 的词 的 相 关 度 :对 查 询 词 进 行 相 关 词 扩展 时 . 虑 将 扩展 词 与 查 询 词 子 集 的 最 大 频 繁 项A与该 词 考 的 相 关 度 . 时 考 虑A中 每 个 词 的 权 重 和 包 含 源 查 询 词 个数 ( 同 包 含 源查 询 中词 越 多 . 关 度 越 大 ) 相 。算 法 描 述 如下 : ( ) 选 同义 词 集 合 构 建 : 定 用 户 查 询 为 向 , . , 1候 假 . q , g 根 据J2 相 似 度 公 式 计 算 计 算 查 询 词 0 任 意 索 引词 t 相 似 度 , .的 . 和 的 大 于 阈 值 ( 过 实 验 选 取 ) 词 作 为该 查 询 词 的候 选 同义 词 , 通 的 相
用 户 查 询 输 入 查 询后 , 其 关 键 词 集 合 {。 .q } 例 化 Q 用 q, . 实 ,, .
层 . 根 据 31 法 生 成 s 并 .算 i mR和R l 件 . 用 其 中存 储 的 内容 实 e文 利 时g t p 共现的概率 , 作r  ̄ l( £ 。g与z 记 r £; r 0 q q 的最终相似度 例化 贝叶 斯 网 络 的 同义 词层 和相 关 词层 及 相应 的连 线 。 每个 文 计算 : 档 相 关 性 Pd Q 推理如下 ( ( I) 这里计 过 程 。 实验 证 明该 方 法平 均 精 确度 大 幅 度 提 高。
【 关键词 】 查询扩展 , : 贝叶斯 网络 , 息检 索 , 信 关联规则
1 引 言 、
的 最大 查 询 词 子 集 , ) I I 表示Ⅱ 庖 括查询词的个数 , m表示 s i
一种高效挖掘关联规则的算法研究
( . 华大 学 教 育技 术 中心 ,吉林 1北
3 北 京科 技 大 学 信 息工程 学院 ,北京 1 0 8 ) . 0 0 3
摘 要 : 对经 典的 关联规 则算 法进 行 了分析 后 , 在 通过 引入 多维链 表结 构 , 出 了利 用事 效 地 挖 掘 关联 规 则 的 算 法 AR L . M L 实验 结 果 表 明 该 算 法 是 可 行 的 , 具 有 较 并 高的效 率.
现, 挖掘 关联 规 则算法 质量 、 效率 始终是 关联 规则 应 用推 广 的瓶颈 , 多 的 研 究 人员 对关 联 规 则 的挖 掘 诸 问题 进行 了大 量 的研 究 , 对原 有 的算 法 进行 改 进 优
收 稿 日期 :2 0 —0 —2 06 9 6
规 则 x y成 立 的条件 是 :) 具有 支持 度 , 1它 即 事 务数 据 库 D 中 至少 有
关键 词 : 据挖掘 ;关联规 则 ;多维链 表 数 中图 分类 号 : P 0 . T 3 16 文献标 识码 : A 化 , 力于 算 法效 率 的提 高 .具 有 代表 性 的 算法 有 致 AI S算 法 、 E M 算 法 、 r r 算 法 、 r r d ST Ap i i o Api i o Ti
联 规 则算 法 效 率 的几 个 关键 问题 , 出了 AR 给 ML L
( s o ito u e a e n m u t— i n i n l k a s ca i n r ls b s d o lid me s o i n
l t 算法 .算 法 的核 心思想 是利 用一 个 多维链 表结 i) s 构 来存储 各 个频 繁项 集 ( 项 集) 数据 库 中 的 Ti 大 在 d 集 以及 各 层次频 繁 集 之 间 的递 推关 系 , 过 集合 运 通 算和 链表 操作高 效地 获得 关联规 则 .
一种扩充语义的实视图重写查询技术
一种扩充语义的实视图重写查询技术
荀亚玲;张继福;刘爱琴
【期刊名称】《计算机工程与应用》
【年(卷),期】2008(44)12
【摘要】分组聚集查询已成为数据仓库领域研究的核心问题之一.实视图是提高分组聚集查询性能的有效手段.利用维属性间的层次关系,对一般意义上的实视图重写查询进行了扩展,讨论了单一视图重写查询的限制条件,并给出重写方法.在此基础上,提出了一种利用多个实视图重写查询的优化选择算法,并通过实验表明,该算法进一步提高了分组聚集查询效率.
【总页数】4页(P157-160)
【作者】荀亚玲;张继福;刘爱琴
【作者单位】太原科技大学,计算机学院,太原,030024;太原科技大学,计算机学院,太原,030024;太原科技大学,计算机学院,太原,030024
【正文语种】中文
【中图分类】TP311
【相关文献】
1.关联规则挖掘中一种实视图选择策略 [J], 陈佳;李敏
2.CRL:对语义Web上的Ontology表示语言DAML+OIL的一种扩充方案 [J], 李守丽;廖乐健;幺敬国;曹树贵
3.一种面向领域的虚拟视图语义集成方法 [J], 李华昱;胡长军;欧阳纯萍;叶银珠
4.基于语义约束的实视图自维护方法 [J], 谭兵;许娇阳;王俊贤;任洪庆
5.一种高效的实视图选择算法 [J], 张举; 耿海军
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
( 1 .大连外 国语学院计算机教研 部 , 辽 宁大连 1 1 6 0 4 4 ; 2 .中国人 民解放 军海军 9 1 4 2 3部 队, 辽 宁大连 1 1 6 0 4 3 )
摘 要 : 将 负关联规则 引入到查询扩展研 究中, 提 出了新的查询扩展模 型 , 并设计 了一种基 于正 负关联规则 的快速查询 扩展算 法。该 算法通过 对文本 事务数据 库的布尔化表 示及 数据 结构的合 理分 配, 采用 向量 内积策 略来产 生频繁 和非频繁特征 词集, 并 从 中挖掘 出词 间正负关联规则。实验 结果表明, 该算法能对原查 询词进 行快速 有效 的扩 展, 且仅 需扫描 1次 文本 数据 库, 并具 有动态剪枝 、 不保 留中间候选项和节省大量 内存等优 点, 对信 息检 索 中查询 扩展 的研 究具 有参考价值 。
t h e t e x t d a t a b a s e t o B o o l e a n Ve c t o r Ma t r i x,a n d a l l o t t i n g e q u i t a b l e d a t a s t o r a g e s t r u c t u r e ,t h i s a l g o r i t h m c a n p r o d u c e f r e q u e n t
2 . Pe o pl e ’ S Li b e r a t i o n A Na v y Co r p s 9 1 4 2 3,Da l i a n,Li a o n i n g 1 1 6 0 4 3 ,C h i n a )
Ab s t r a c t :Th i s p a p e r i n t r o d u c e s n e g a t i v e a s s o c i a t i o n r u l e s t o t h e f i e l d o f q u e r y e x p a n s i o n,a n d p r o p o s e s n e w mo d e l s o f q u e r y e x —
p a n s i o n ;me a n wh i l e ,we d e s i g n a n a l g o r i t h m o f q u e r y e x p a n s i o n b a s e d o n p o s i t i v e a n d n e g a t i v e a s s o c i a t i o n r u l e s .B y c o n v e r t i n g
第 8 卷 第 1 期 2 0 1 3 年 1 月
中 国 科 技 论 文
CH I NA S CI E NCEP APER
Vo 1 . 8 No . 1
J a n . 2 0 查 询 扩 展 算 法
刘 彩 虹 , 祁 瑞 华 , 刘 强
L i u Ca i h o n g , Qi Ru i h u a , L i u Qi a n g a
( 1 .C o mp u t e r R e s e a r c h De p a r t me n t , Da l i a n U n i v e r s i t y o f F o r e i g n L a n g u a g e s , Da l i a n , L i a o n i n g 1 1 6 0 4 4 ,C h i n a ;
o n l y o n c e .M e a n wh i l e ,i t h a s a d v a n t a g e s s u c h a s p r u n i n g d y n a mi c a l l y ,wi t h o u t s a v i n g mi d i t e ms ,a n d s a v i n g l o t s o f me mo r i e s ,
Ex p e r i me n t a l r e s u l t s s h o w t h a t t h i s a l g o r i t h m c a n e x p a n d o r i g i n a l q u e r y t e r ms e f f i c i e n t l y a n d e f f e c t i v e l y ,a n d s c a n t h e d a t a b a s e
关键词 : 数据挖掘 ; 负关联规 则; 信息检 索; 查询扩展 中图分类 号: T P 3 9 1 文献标志码 : A 文章编 号 : 2 0 9 5 —2 7 8 3 ( 2 0 1 3 ) 0 1 —0 0 5 1 — 0 7
Ef f i c i e n t q u e r y e x p a n s i o n b a s e d o n p o s i t i v e a n d n e g a t i v e a s s o c i a t i o n r u l e s
a n d i n f r e q u e n t f e a t u r e t e r ms a c c o r d i n g t O t h e i n n e r v e c t o r p r o d u c t ,a n d g e t p o s i t i v e a n d n e g a t i v e a s s o c i a t i o n r u l e s b e t we e n t e r ms .