中文问答系统中答案抽取的研究与实现.

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

绪论—问答系统
问答系统包含三个核心模块:问题分析、信息检索和答案抽取。模块之间的关系如图所示:
基于句法分析的答案抽取算法
答案抽取模块的工作流程如下： ①把从信息检索模块得到的候选文档或网页切分成句子，作为候选答案集。 ②根据问题的类型，对候选答案集进一步处理，排除冗余的句子，减少候选答案的空间。 ③应用相似度计算算法，计算候选答案句与问题句的相似度。 ④根据相似度的高低对候选答案进行排序，返回相似高的句子。 ⑤对相似度高的句子进行重新分析，根据问题的类型所对应的抽取策略，返回给用户需要的答案。
绪论—背景与意义
人们期待更快速准确的搜索技术出现；
据统计，人们花费在答案抽取的时间很长；
传统的搜索引擎有很多弊端；问答系统因此产生。
绪论—背景与意义
问答系统主要包括问题分析、信息检索和答案抽取3个主要模块。问题分析模块的主要工作包括对问题进行分类、抽取问题的关键词、对关键词进行扩展等; 信息检索模块的主要任务是对文档库或网络搜索引擎进行检索，返回一些与问题相关的文档或网页; 答案抽取模块的主要任务则是对信息检索模块得到的候选文档或网页进行处理，得到问题的候选答案集，并通过一定的算法从候选答案集中抽取出正确答案。
绪论—简介
答案抽取的基本步骤一般如下: ①把从信息检索模块得到的候选文档或网页进行处理，切分成单个句子，作为候选答案集。 ②根据问题的类型，对候选答案集进一步处理，排除兀余的句子，减少候选答案的空间。
③应用相似度计算算法，计算候选答案句与问题句的相似度。
④根据相似度的高低对候选答案进行排序，返回相似高的句子。对于答案为一个词的问题，根据问题的类型，采用相应的抽取策略，对返回的答案句进行分析，可能需要进行命名实体的识别工作，来返回精确的答案。
中文问答系统中答案抽取的研究与实现
--吉林大纳了一种基于规则改进的问题分类方法，而后提出了一种基于依存树的语义匹配相似度算法，对问题句与候选答案句进行相似度计算，根据相似度的高低对答案进行抽取，最后通过具体的实验实现了答案抽取的全过程。实验结果表明，在保证问题分析模块问题分类准确的情况下，得到用户所需答案的准确率可以达到92%以上，相比其它算法有效地提高了答案抽取的准确度。
绪论—本文的工作
本文所要做的具体工作: 1.问题分析模块的处理:通过改进规则对问题进行分类，通过对问句进行词法分析和句法分析，抽取和扩展问题关键词，必要时对重写问句，为答案抽取的研究做好准备工作。 2.信息检索模块的处理:将扩展后的关键词提交给Google搜索引擎，返回与问题相关的文档和网页。 3.答案抽取模块的处理:对返回的相关文档和网页进行处理，形成问题的候选答案集，对问题句和候选答案句进行句法分析，计算问题句和候选答案句的相似度，以相似度的高低排序候选答案，根据相应的答案抽取策略，返回问题的答案。
比较典型的算法有以下几种：（1）基于模式匹配的算法原理是：根据问题的类型，制定不同类型问题的答案模板。由于答案模板的覆盖率是有限的，因此这种算法的匹配程度不是很高。（2）基于信息检索和信息抽取的算法此算法主要是基于关键词来进行检索，它只考虑离散的词语，没有对句子的句法进行更深层次的分析，没有考虑词语与词语之间的顺序以及各个词语之间的相互依存关系，仅使用了匹配词与候选答案词的距离这一个特征，注定抽取出来的结果不会是很精确的答案。
答案抽取算法介绍
比较典型的算法有以下几种：（3）基于统计学习的算法基于统计的方法主要对测试集进行训练，来构建隐马尔可夫模型或支持向量空间模型的方法，通过分析问句与答案句的各种相关特征，计算句子作为正确答案的概率。（4）基于自然语言处理的算法此算法主要是在对句子进行处理后，把每个句子表示成一个向量，通过对问题句与答案句进行相似度计算，返回相似度高的句子，然后再把返回的句子，根据问题的类型进行处理，返回给用户所需要的答案。
中文句子相似度计算
（2）基于语义的相似度计算采用基于语义词典进行计算。首先要计算句子中各个词语之间的相似度，然后通过词语之间的相似度再去计算句子的相似度。对句子进行分词和去除冗余信息处理后，在《同义词词林》中查找这些关键词的语义编码，通过对编码进行分析来计算词与词之间的语义距离。评价：这种方法需要一定的语义资源作为基础，而且没有考虑词语在句子中的权重，实用性是不很高。但由于语义资源的统计还不是很全面，也没有考虑到句子的成分以及各词语之间的依存关系，因此相似度的计算还是有一定的误差。
中文句子相似度计算相似度是一个 0、1之间的浮点数，两个句子经过相似度计算得到的结果越大，则表示两者之间的匹配程度越高，例如：“我喜欢吃土豆” “我爱吃马铃薯” 在经过语义分析之后，计算两者的相似度得到的结果为 1，这样得出结论两者的语义是完全相同的。
中文句子相似度计算
相似度的计算方法分为以下几种：（1）基于关键词的相似度计算这种计算方法对句子进行分词处理后，把句子看成词的线性序列，只是根据句子中的单词出现的频率等相关信息来计算句子的相似度。把两个句子之间相互匹配的问题转化为向量空间中两个向量之间相互匹配的问题，两个句子的相似度可以用两个空间向量之间的夹角来衡量，夹角越小相似度越高。有一定的局限性
基于句法分析的答案抽取算法
在第③步中进行相似度计算时，需要进行如下考虑：为了使相似度的计算更加准确，需要对句子进行句法分析，得到句子中的关键词，和关键词有相同语义的词语，有时还需要考虑词语之间的顺序，以及各个词语之间的相互依存关系，根据词语的重要程度，为不同的词语设置不同的权重。
答案抽取算法介绍
答案抽取算法介绍每种答案抽取算法都有一定的弊端，现在所研究的答案抽取算法基本都是对句子进行句法分析处理基础之上的，得到的准确率是非常高的，因此本文提出了基于依存树的语义匹配相似度算法。
句法依存结构分析
在进行相似度计算对答案抽取之前，首先要对句子做更深层的处理，对句子进行句法和语义分析。通过词与词之间的相互依赖关系对句子进行句法分析是目前研究句子结构和语义的主要方法之一。在进行相似度计算时，尽量先对句子进行预处理，去除一些不必要的修饰词，得到两个意思相同的句子。