基于查询术语同义词的扩展信念网络检索模型.

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2007年5月
May 2007
计 算 机 工 程Computer Engineering 第33 第10期
Vol 卷.33 No.10 ·博士论文·
文章编号:1000—3428(2007)10—0028—03
文献标识码:A
中图分类号:TP18
基于查询术语同义词的扩展信念网络检索模型
徐建民1,2,唐万生1
(1. 天津大学系统工程所,天津 300072;2. 河北大学数学与计算机学院,保定 071002)
摘 要:针对信念网络模型没有考虑术语之间关系的缺陷,引入了查询同义词的概念,提出了一个基于查询术语同义词的扩展信念网络检索模型。

给出了模型的拓扑结构,讨论了利用新模型进行信息检索的方法,并给出了一个实用案例。

新模型同时考虑了用户查询术语及其同义词的作用,提高了检索性能。

关键词:查询术语;同义词;信息检索;信念网络
Extended Belief Network IR Model Based on
Synonym of Query Terms
XU Jianming 1,2, TANG Wansheng 1
(1. Institute of Systems Engineering, Tianjin University, Tianjin 300072; 2. Mathematics and Computer College, Hebei University, Baoding 071002)
【Abstract 】To solve the problems that terms relationships are not considered in the belief network model, this paper uses the query term synonyms,presents an extended belief network model for IR, introduces models topology and retrieval method, and illustrates an example. This model has better performance because it takes account of not only query terms but also query term synonym. 【Key words 】Query term; Synonym; Information retrieval; Belief network
概率模型是一类重要的信息检索模型,已经得到了广泛应用。

它提供了一种管理信息检索领域不确定性的基本方法。

贝叶斯网络是人工智能领域用于管理不确定性问题的主要方法,作为概率模型的扩展已经应用于信息检索领域[1]。

文献[2]给出了一种基于贝叶斯网络的信息检索模型。

该模型引入了概念空间的定义,将文档检索过程看作是概念空间上两个概念的匹配过程[2]。

但是,该模型只考虑了查询、
术语和文档3种变量之间的关系,
没有考虑术语和术语之间,文档和文档之间的关系[3]。

根据Salton 和Mcgill 给出的信息检索领域的定义,一个用于信息检索的贝叶斯网络应该找出术语之间和文档之间的依赖关系,并用概率表示这些关系的强度,从而来得到给定查询下的相关文档。

本文在文献[2]给出的信念网络模型的基础上,引入了查询术语的同义词,得到了一个扩展的信息检索模型。

目的是通过挖掘术语之间的关系,提高查询的精度。

1 贝叶斯网络
贝叶斯网络是一个二元组B (G ,P ),由定性部分G 和定量
部分P 组成。

(1)G 是一个有向无环图,G =(V ,E )。

V 表示节点的集合,节点代表随机变量,它可以是任何问题的抽象。

E 是节点间有向边的集合,表示随机变量间的依赖关系。

在G 中蕴含了条件独立性假设,贝叶斯网络规定图中的每个节点i X 在给定其父结点集的取值后,与其非子孙节点条件独立。

即若设
表示的非子孙节点构成的任何节点子集,表示()i a X i X ()
i
pa X i X 的直接双亲节点,则
(|(),())(|())i i i i i P X a X pa X P X pa X =
(2)
P 是一个与每个节点相关的条件概率表,它量化了节点之间的依赖关系。

对于每一个有父节点的变量i X V ∈,条件概率可以用来描述。

没有任何父节点的变量
的条件概率为其先验概率。

(|())i
P X pa X i
n n
i i
i P X X X P X pa X ==∏
有了节点、有向边和条件概率表,就可以计算网络中变量的联合概率
1
2
1
(,,...,)(|())
图1给出了一个贝叶斯网络的实例。

2 相关的信念网络模型
图2给出的是文献[2]所述模型的拓扑结构。

图2 基本贝叶斯信念网络模型
基金项目:国家自然科学基金资助项目(70571056);河北省科学技术研究与发展计划基金资助项目(04213534)
作者简介:徐建民(1966-),男,教授、博士生,主研方向:信息检索,不确定信息处理;唐万生,教授、博导
收稿日期:2006-06-26 E-mail :hbuxjm@
—28—
模型中包括3类节点:查询结点q ,术语节点(0)i k i t ≤≤和文档节点。

(0)j d j N ≤≤若自术语节点k i 有一条边指向查询结点q ,表示k i 是组成查询q 的一个术语。

若自术语节点k i 有一条边指向文档结点d j ,表示k i 是文档d j 的一个索引术语。

在该模型中,每一个术语称为一个基本概念,所有基本概念组成一个概念空间U ,U 的一个子集u 称为非基本概念,也称为简单概念或简称概念。

查询q 和文档d j 都可以看成是空间U 中的一个概念。

概念空间中的一个概念C 对概念空间U 的覆盖程度可以用下面的公式计算:
()(|)()u
P c P c u P u =∑ (1)
式(1)中概念C 对空间U 的覆盖程度是通过把U 中的每
一个概念u 和C 比较后,乘以u 发生的概率P (u ),然后求和得到的。

因为开始并不知道u 发生的概率,假设等概率发生,即
1()2t
P u ⎛⎞=
⎜⎟⎝⎠
(2) 有了概念、概念空间等定义后,信息检索的过程可以看作是文档概念d j 和查询概念q 匹配的过程。

即计算(|)j
P d q 的
过程。

(|)j
P d q 值大于规定阈值的文档d j 被视为满足用户查询
需求的文档。

由条件概率公式和式(1)可知
()1
(|)(|)()()
()j j j u
P d q P d q P d q u P u P q P q ∩=
=
∩×∑
(3)
术语节点集{,把文档节点集和查询分割开来,查询q 和文档d 1}i k i t ≤≤j 相互独立,并考虑到对于一个固定查询来说P (q )是常数,于是
(|)=(|)(|)()j
j
u
P d q P d u P q u P u η××∑ (4)
式(4)是文档d j 相对查询q 排序的一般计算式。

在具体实施时,需要对()P d u 、()P q u 作出规定,对这两个概率的不同规定将得到不同的检索策略。

例如,可以规定
1 ,()()(|)0 i i i if k g q g u P q u otherwise
∀=⎧=⎨
⎩ (5)
其中,函数g i 定义为:如果基本概念k i 包含在概念u 中,则,否则()1i g u =()0i g u =。

并规定
(|)t P d u =
(6)
,i d w i d 中的权重,为术语k ,i u w i 在概念u 中的权重,计算方法主要运用tf-idf 公式[4,5]。

3 基于术语同义词扩展的信念网络模型
3.1 扩展模型的拓扑结构
原模型的贝叶斯网络可以划分为查询子网和术语子网。

引入术语同义词后,新模型的网络拓扑结构按下列原则构造:
(1)查询子网的构造
1)查询q 被定义为一个节点,称为查询节点。

2)组成查询q 的每一个术语定义为一个节点,称为查询术语节点。

所有的查询术语节点构成一个概念空间V 。

i kq 3)每一个查询术语节点都有一条边指向查询节点q 。

i kq (2)文档子网的构造
1)每一个文档d j 定义为一个文档节点。

2)文档集中的每一个索引术语k i 定义为一个节点,称为索引术语节点。

所有的索引术语节点构成一个概念空间U 。

3)若索引术语k i 索引了文档d j ,则有一条边从节点k i 指向节点d j 。

(3)查询子网与文档子网之间的关系 对于每一个查询术语,在空间U 中查找它的同义词k i kq j ,从k j 到有一条边。

得到的贝叶斯网络如图3。

i kq
U
图3 扩展贝叶斯信念网络模型
3.2同义词的识别及获得
在信息表示和信息检索领域中, 同义词的概念并不等同于语言学中和日常生活中的同义词,并不考虑感情色彩和语气,它主要指在信息检索中能够相互替换、表达相同或相近概念的词汇。

用于信息检索的同义词主要分为以下几类:
(1)等价的词和等义的词词组: 即意义完全相等的词。

主要是指一些语义等价的词以及学名与俗名、全称与简称、新称与旧称、产品的代号与型号等,如电脑—计算机、自行车—脚踏车、玉米—苞谷等。

(2)准同义词和准同义词词组: 意义基本相同的词和词组, 也就是说两个词或词组含有的义项基本相同,就可以把它们看作同义词,如边疆—边境、住房—住宅等。

(3)某些过于专指的下位词。

例如 “球类运动”和“门球”、“毽球”、“网球”等。

(4)极少数的反义词。

这类词描述相同的主题,但所包含的概念互不相容,如平滑度、粗糙度等[6]。

同义词一般可以利用同义词词典得到,如英语的Wordnet [7]、汉语的《同义词词林》[8]、CCD 等[9]。

3.3文档检索
文档检索的过程仍是计算(|)j
P d q 的过程,根据式(4)
计算。

其中()P d u ,仍按基本模型中规定。

对于,由于增加了一层术语节点,需重新定义。

下面仍以矢量模型为例说明。

首先定义函数()P u (|)P q u '()i
g u 。

1 , '()0j j i j i if k k k k u g u else
θ∃∧∈⎧=⎨
⎩使得 其中,j i k k θ表示是的同义词。

的计算可以分为以下2种方式:
j k i k (|)P q u (1)查询术语及其同义词等价考虑
1 ()'((|)0i i i kq g q g u p q u otherwise ∀
=⎧=⎨

) (7) 这种方式对于任一查询术语来说,不仅考虑了本身的匹配关系,同时考虑了同义词的匹配关系。

及其同义词等价处理,即对于查询的一个术语来说,只要在中存在的同义词,都视同本身。

和它本身也是同义词。

i kq i
kq i kq i kq q i kq u i kq i kq i kq (2)查询术语与其同义词分别处理
设查询q 包含m 个术语,并设其中的个术语在概念u 中,则定义
u m
—29—
1- ()'()(|)0
u u
i i i m m kq g q g u p q u m m
otherwise
α⎧+∀=⎪
=⎨⎪⎩
(8)
式(8)中α是一个调节常数,用于调节同义词的比重,
01α≤≤。

该公式假定q 中的每一个术语权重相同,均为1/m 。

如果中包含的不是查询术语本身,而是其同义词,则权重相应减小,通过u α进行调节。

4 案例分析
本案例所用文档来源于中国学术期刊全文数据库。

从该数据库下载10篇文档作为文档测试集合,分别抽取若干个代表文档主要内容特征的术语作为该文档索引,并统计每个术语i 在文档d j 中的术语频度tf ij 及其出现的文档数n i 。

如表1。

表1 文档测试结果
文档 编号 索引文档的术语
d 0调研(13,3),方法(20,3),关键(9,1),成功(8,1),因素法(7,1),
信息(49,1),结构(15,1),系统(41,1),分析(14,1) d 1调研(63,3),方法(54,3),旅游(88,1),数据(79,1),分析(105,2)
d 2调研(78,3),方法(18,3),发展(15,1),方向(10,1)
d 3企业(112,2),整合(60,1),战略(84,1), 风险(127,2),平衡(30,2),记分卡(15,1)
d 4企业(174,2),重组(104,2),对策(5,1),排异反应(148,1)
d 5资产(71,1),重组(44,2),商标权(54,1), 保护(15,1),价值(23,1),评估(45,1) d 6人民币(35,4),汇率(48,4),增值(10,1),风险(28,2),
货币(18,1)平衡(4,2),问题(7,2) d 7人民币(53,4),汇率(107,4),升值(21,3), 购买力(33,1),利率(39,1),理论(44,1)
d 8人民币(65,4),汇率(53,4),升值(34,3),稳定(17,2),问题(13,2) d 9
人民币(54,4),汇率(25,4),升值(49,3),压力(12,1),稳定(15,2)
术语在文档和查询中权重的计算方法有多种,本文采用文献[4]给出的方法。

计算公式如下:
,i j ij i w tf id =×f
,,0.5(0.5)(())
k ij i q i
k T q kq tf w i MAX tf ∀∈×=+
×df
表2 3种查询策略得到的相关文档及排序概率对比情况
查询
查询 策略 相关文档及排序概率P(d j |q i )
相关文档排序结果
策略1
无 d 0d 1d 2 策略2 0.213 64 0.358 18 0.940 13 d 2,d 1,d 0d 0d 1d 2 q 1
策略3 0.106 82 0.179 09 0.470 07
d 2,d 1,d 0d 3d 4 策略1
0.295 40 0.169 98 d 3,d 4d 3d 4d 5 策略2 0.469 31 0.505 19 0.100 60 d 4,d 3,d 5d 3d 4d 5 q 2
策略3 0.425 83 0.421 38 0.075 45 d 3,d 4,d 5d 6d 7d 8d 9策略1
0.163 38 0.055 21 0.159 47 0.086 86 d 6,d 8,d 9,d 7d 6d 7d 8d 9策略2 0.241 32 0.164 97 0.491 93 0.385 11 d 8,d 9,d 6,d 7d 6d 7d 8d 9q 3
策略3
0.228 33
0.146 68
0.436 52
0.335 40
d 8,d 9,d 6,d 7
给定查询集合Q ={q 1=调查方式, q 2=企业整合, q 3=人民币升值问题},根据《同义词词林》,术语中的同义词分别为(调查,调研)、(方式,方法)、(整合,重组)、(增值,升值)。

不同的查询策略得到的相关文档及排序概率对比情况如表2。

表2中策略1利用基本贝叶斯信念网络模型进行查询。

策略2利用扩展贝叶斯信念网络模型中的查询方式一进行查询。

策略3利用扩展贝叶斯信念网络模型中的查询方式(2)进行查询,其中α取0.5。

由表2可以看出:利用策略2和策略3进行查询,可以检索到更多相关文档,且策略3的排序结果更能满足用户的需求。

(1)q 1:策略1检索不到相关的文档;策略2、策略3检索到相同的3篇文档,但是策略3的概率值远小于策略2的概率值,主要是这3篇文档都是利用查询术语的同义词检索而得,且由于α的调节起到了主要的作用。

(2)q 2:根据策略1可知与其最相关的文档为d 3,但是利用策略2所得的排序结果却是d 4,d 3,d 5,这主要是因为将查询中的术语及其同义词等概率对待。

在此基础上改进的策略3,通过调节参数α以区分术语及其同义词对排序结果不同的重要性,从而得到最佳的排序结果d 3,d 4,d 5。

排序结果的改变的另外一个原因是策略2所得的d 4,d 3的概率值较接近。

这样策略3通过α的调节作用就可以得到与策略一一致的排序结果。

(3)q 3:策略2、策略3得到相同的排序结果,原因在于d 8,d 9,d 6 ,d 7的概率值相差较大。

参考文献
1 Campos L M, Fern´andez-Luna J M, Huete J F. Bayesian Networks and Information Retrieval: an Introduction to the Special Issue[J]. Information Processing and Management, 2004, 40(4): 727-733.
2 Ribeiro-Neto B, Muntz R. A Belief Network Model for IR[C] //Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. 1996: 253-260.
3 Campos L M, Fern´andez-Luna J M, Huete J F. The BNR Model: Foundations and Performance of a Bayesian Network-based Retrieval Model[J]. International Journal of Approximate Reasoning, 2003, 34(3): 265-285.
4 Calado P, Ribeiro-Neto B, Ziviani N, et al. Local Versus Global Link Information in the Web[J]. ACM Transactions on Information Systems, 2003, 21(1): 42-63.
5 Wong S K M, Ziarko W. Generalized Vector Space Model in Information Retrieval[C]//Proc. of the 8th Annual ACM SIGIR International Conference on Research and Development in Information Retrieval. 1985: 18-25.
6 陆 勇, 侯汉清. 用于信息检索的同义词自动识别及其进展[J]. 南京农业大学学报, 2004, 4(3): 87-92.
7 张 俐, 李晶皎, 胡明涵, 等. 中文WordNet 的研究及实现[J]. 东北大学学报(自然科学版), 2003, 24(4): 327-329.
8 章成志. 一种基于语义体系的同义词识别研究[J]. 淮阴工学院学报, 2004, 13(1): 60-62.
9 昝红英, 俞士汶. CCD 及其应用[J]. 广西师范大学学报(自然科学版), 2003, 21(1): 98-103.
10 欧 洁, 林守勋. 基于贝叶斯网络模型的信息检索[J]. 微电子学
与计算机, 2003, (5): 83-87.
—30—。

相关文档
最新文档