隐含语义索引在吉林省农业知识问答系统中的应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

隐含语义索引在吉林省农业知识问答系统中的应用
摘要:为了解决现有农业知识问答系统功能及业务流程中存在的一些问题,将隐含语义索引技术应用于吉林省农业知识问答系统中。该技术可以增强或消减词语在文档中语义的影响力,使文档之间的语义关系更为明晰,在一定程度上实现了自然语言检索,消除了词语同义性和多义性所造成的影响,从而取得更好的检索效果。
关键词:隐含语义索引;吉林省;农业知识;问答系统
Application of Latent Semantic Index in Agricultural Knowledge Question Answering System of Jilin Province
Abstract: The latent semantic index technology was applied to solve some problems with the existing function and in the professional process in agricultural knowledge question answering system. This technology could enhance or reduce the influence of words on the semantic in the document and it also could make the semantic relationships more clear, thereby realized the natural language search to a certain extent. The interference from identity and poly semantics was eliminated and better search results obtained.
Key words: latent semantic index; Jilin province; agricultural knowledge; question answering system
农业作为基础产业,是社会信息化不可或缺的一部分,所以农业必然会受到以计算机网络技术、多媒体技术和智能技术为特征的信息化浪潮的洗礼。目前农业科技人员和农民经常借助各种搜索引擎进行农业信息搜索。由于搜索引擎不是为农业领域设计的,多数搜索的结果往往不能满足他们的需求,农业知识问答系统正是在这种情况下发展起来的。
从大量农业信息中迅速而准确地获取最需要的信息是农业知识问答系统发展的困难之一。如何使现有的吉林省农业信息资源得到充分有效地利用,提高吉林省农业信息化服务的质量,已经成为农业科研人员研究的一个热点。隐含语义索引(LSI)是近年来逐渐兴起的不同于关键词检索的搜索引擎解决方案,其检索结果的实际效果更接近于人的自然语言,在一定程度上提高了检索结果的相关性,目前已被逐渐地应用到图书馆、数据库和搜索引擎的算法当中。隐含语义索引通过对原文档库的词-文档所建立的矩阵的奇异值分解计算,进而取其前k个最大的奇异值,然后用对应的奇异矢量构成一个新矩阵,用其近似地表示原来文档库的词-文档矩阵。因为新的矩阵消减了词和文档之间语义关系的模糊度,所以这种方法更有利于信息检索。
1隐含语义索引的基本原理
因为文本和词汇之间存在着一定的相关性,所以若干篇文本和若干个词汇由他们之间的相关性构成语义模型;使用数学的算法和计算机技术,分析此模型并对其进行计算和处理,保留文本与词汇间最主要的相关性,去除其他冗余、次要的影响因素,于是得到了优化后的模型;最终构成的语义结构和原始的文本、词汇的相关结构进行比较,规模要小很多,并且还保留了其中主要的相关性,用此模型挖掘文本和词汇的隐含关系;在即将进行的检索中,用该语义结构作为基础,统计出词汇与文本间的隐含相关度[1]。
在向量空间中,每个文档都可以表示成词的向量空间矢量Di=(wi1,wi2,…,wim)(T1,T2,…,Tm)T,这样每个词条也就可以表示为文档空间的矢量Tj=(w1j,w2j,…,wnj)(D1,D2,…,Dn)T,词条和词条之间的相似性用向量夹角余弦来计算。
在隐含语义索引算法中,一个文档库可以被表示成一个m×n的词-文档大矩阵A。其中n表示库中的文档数,m表示库中包含的所有不同的词的个数。即矩阵A 的每一行对应一个不同的词,矩阵A的每一列对应一个文档。A表示为:
A=[aij],1≤i≤m;1≤j≤n
矩阵中的元素aij是文档Dj中的特征项Ti出现的频度或其权重。实际应用中,因为词与文档的数量可能会很大,词在单个文档中出现又非常有限,所以A一般是高阶的稀疏矩阵。
这时利用向量代数的相关知识证明得知,可以把矩阵A分解成三个矩阵的乘积,即:
A=UΣVT
式中,矩阵Σ表示对角线矩阵,矩阵A的奇异值是对角线上的元素。矩阵U和V 的列向量都是正交归一化的。U是m×r的“左奇异值向量矩阵”;V是r×n的“右奇异值向量矩阵”,r是矩阵A的秩,并且有:
U=VTV=In(In为n阶单位矩阵)
矩阵A的分解过程[4]如图1所示。
前k个列构成A的近似矩阵Ak,其秩为K。这样就可以得到一个新的近似分解矩阵Ak:
Ak=Uk×Σk×VTk
矩阵Uk与矩阵Vk的列向量都是正交的向量。所以我们就可以用Ak近似地表
示原词、文档矩阵A,矩阵Uk和矩阵Vk中的行向量分别表示词和文档,在此分解方法的基础上,再进行农业知识相关的文档检索或其他各种文档处理。这就是基于隐含语义索引的吉林省农业知识问答系统的基本思想。
尽管隐含语义索引是用文档中包含的词来表示文档的语义内容,但是隐含语义索引算法中文档概念的可靠性并不能完全用文档中的词来表示。因为文本中词的多样性,在很大程度上掩盖了词和文档之间的关系,隐含语义索引则通过对原文档的向量矩阵的奇异值进行分解,取分解后的k阶近似矩阵,这样做一是消减了原词、文档矩阵中所包含的“噪声”[2],例如同义词,使词和文档之间的语义关系更加凸出;二是使得词、文档的向量空间维数大大减少,进而可以提高有关农业知识文档的检索效率。
2基于隐含语义索引的中文文本检索系统
本系统主要由抽取系统和问答系统两个模块组成。抽取系统是问答系统的后台支撑,主要是每天定时抽取大量关于农业技术的问答信息,对这些问题进行过滤并存入数据库,最终生成索引数据库。问答系统是解决用户问题的核心,主要有问题分析、语义计算、答案生成3个模块。问题分析模块主要是对用户提出的问题进行分析。将分析结果提交给语义计算模块、分词之后,经过计算权重,生成对应向量。答案生成模块主要是通过把问题向量映射到数据库中的备选问题组成的词-句子向量空间完成答案的选取。总体系统框架如图2所示。
基于隐含语义索引的农业技术问答系统检索的主要步骤分为5个,即:
1)词、文档向量矩阵A的建立。利用无词典分词算法,对库中的文本进行词条的切分和词频的统计,建立文档库的词、文档向量矩阵A,并对其进行归一化处理[3]。
2)奇异值分解。对建立的矩阵A按前面所述方法进行奇异值分解,得到一个矩阵Vk,矩阵Vk中的每一行对应库中的所有文档。
3)查询向量的投影。把查询向量投影到变换后得到的等价的k阶词、文档矩阵中,即为矩阵Vk中的一行向量。
4)相似性计算和度量。利用向量距离公式或向量夹角余弦公式计算相似度,根据向量间的相似性度,查找与查询结果最相似的集合,按相似度的值从大到小排列,并将相似度大于某值的文档返回[4]。
5)反复查找,直到结果满意。根据查询结果的满意程度,如果不满意则用上一次的查询结果来改修正查询,重新查找最相似的文档,这种过程可以循环进行,直到满意为止。
2.1问题分析模块
问题分析模块的主要任务是分析出用户的意图。首先根据用户所提的问题(如:
请问如何种植黄瓜?),去掉一些和礼貌用语有关的词,及一些语气词(如,请问、吗、吧等),分析出名词、副词、形容词等主关键词集合(如何、种植、黄瓜),同时还要进行同义词扩展,然后把分析出的关键词提交给语义计算模块。
2.2语义计算模块
语义计算模块是对问题进行权重计算,生成特征向量和进行语句相似度计算。权重计算与生成特征向量是语句相似度计算的基础[5]。语义计算模块主要是进行语句相似度计算。
2.3答案生成模块
答案生成模块根据相似度计算结果和用户提问句式,生成答案列表和选取答案。
采取的策略:首先根据用户所提问题判断其句式。句式确定之后,从相似度大于一定阈值的答案中选取句式最吻合的5个问题的答案作为用户所提问题的答案。试验数据为数据库中的2 000个问题和其对应的答案,经过预处理生成2 123×2 000词-句子矩阵,对隐含语义索引技术和常用的分类技术的准确率进行对比(图3),试验结果表明,前者要明显好于后者,这是因为隐含语义的模型在一定程度上减弱了或者排除了每个类中的噪声词汇。但隐含语义索引技术目前还不能处理文本的全面语义,这样在某些应用中的表现不如常用的分类算法,因此还需要对语义算法更深入地研究。对于整体文本分类而言,隐含语义索引技术克服了传统模型中的许多不足,在应用中已取得了很好的效果。
3小结
农业知识问答系统是一个综合的、复杂的系统,涉及到许多信息处理的技术问题。由于农业知识的复杂性和特殊性,以往的信息检索技术很难解决信息中的同义性和多义性问题。本文通过把新型的信息检索方法——LSI引入到农业知识问答系统中,为农业知识问答系统检索技术提出一种新的思路及流程。试验证明该技术表现出明显的性能优势,有效地解决了噪声数据对分类带来的负影响,提高了问答系统解答问题的准确率。
参考文献:
[1] 戚涌,徐永红,刘凤玉.基于潜在语义标引的WEB文档自动分类[J].计算机工程与应用, 2004,40(22):28-31.
[2] 余正涛,樊孝忠,郭剑毅,等.基于潜在语义分析的汉语问答系统答案提取[J].计算机学报,2006,29(10):1890-1892.
[3] 周文,龚礼明,蒋岚.隐含语义检索及中文样本分析实例[J].计算机应用,2004,24(Z1):273-276.
[4] 魏保子,王儒敬.隐含语义索引在农业技术问答系统中的应用[J]. 微电子学与计算机,2008(7):48-51.
[5] 王春红,张敏. 隐含语义索引模型的分析与研究[J]. 计算机应用,2007(5):1283-1288.。

相关文档
最新文档