中文问答系统答案抽取的研究
中文问答系统问句分析研究综述
中文问答系统问句分析研究综述
随着信息技术不断发展,中文问答系统具有很大的发展潜力,它能够更好地服务于社会。
因此,本文旨在讨论中文问答系统的方法和机理,以及最新的研究成果。
首先,本文将介绍中文问答系统的背景和目标,概述其在今天新一代信息技术中的重要地位及其具有的重大社会意义。
其次,本文将介绍中文问答系统的基本原理,包括自然语言处理(NLP)、知识抽取和表达(KEE)等相关技术,以及其它相关技术,如语义计算、问答
系统性能评估等等。
此外,本文还将介绍中文问答系统实施的几种方法,包括模式匹配、语义网络、知识图谱、文本挖掘等等。
紧接着,本文将探讨中文问答系统的实现技术,包括词法分析、语法分析、语义分析等。
其中,词法分析指的是将一段文本分解成词汇的过程,而语法分析则是分析一段文本的句子结构。
此外,语义分析指的是分析文本中的上下文信息,以获得文本的意义,从而能够完成问答任务。
接下来,本文将介绍当前中文问答系统的研究现状,包括存在的问题和研究目标。
此外,本文还将对目前研究中用于评估中文问答系统性能的一些指标进行介绍,以及用于改善中文问答系统性能的一些新技术。
最后,本文将总结中文问答系统的研究进展,概述未来的研究方向和发展趋势。
未来,中文问答系统将更多地依赖于领域知识、机器学习和深度学习等技术来加强其能力,并将开发新型技术以改善性能,
助力未来的社会发展与繁荣。
总之,中文问答系统是一个复杂而又充满活力的领域,它将不断发展,打算在信息技术领域取得新的突破。
本文试图从技术角度揭示中文问答系统的发展,以期为今后的研究和发展把脉。
基于潜在语义分析的汉语问答系统答案提取
基于潜在语义分析的汉语问答系统答案提取
基于潜在语义分析的汉语问答系统答案提取,是一种基于自然语言处理与机器学习技术来构建汉语问答系统的方法。
它能够从大量文本数据中自动抽取潜在语义,并将其作为输入提供给问答系统,以对用户提出的问题进行分析、理解、推理,最终根据问题内容提取出正确的答案。
潜在语义分析的答案提取步骤主要包括:文本预处理、抽取潜在语义、提取问题特征和答案特征、建立问答模型、检索出正确答案。
首先,需要对文本数据进行预处理,包括分词、去除停用词等,以便抽取潜在语义。
然后,使用潜在语义分析(LSA)算法抽取文本中的潜在语义,并以文本向量的形式表示出来。
接着,使用语义分析算法来提取问题特征和答案特征,如词性、词频等,以便构建问答模型。
最后,在已构建的汉语问答系统中,对用户提出的问题进行检索,从而提取出正确的答案。
问答系统中问句分类方法研究综述
用自然语言与用户进行互动的计算机系统称之为问答系统。
问答系统(QA)由问句分析、信息检索、答案抽取三部分组成[1],问句分类作为QA的初始环节,其能否正确地对问句进行分类会直接影响到后续的答案抽取环节。
另外,问句分类能够对系统提供较为重要的数据信息,这些信息对于帮助用户找到想要的答案至关重要。
问句分类对问答系统的重要作用主要表现在两个方面:(1)根据期望的答案类型来为问句分配相应的标签,这是问句分类的基础,从而缩小候选答案的范围。
例如,问句“第一个登上月球的人是谁?”,用户真正想要知道的答案是“阿姆斯特朗”,而不是去检索过多包含“第一”或是“世界”相关内容的资料。
在进行问句分类操作后,能够得知这是一个询问人名的问句,答案应与问句的类型相一致,故在答案抽取阶段会把人名以外的候选语句筛除掉,只需要把焦点放在一些和人名有关的答案即可,而无需将过多注意力放在和人名无关的候选答案语句上面。
问答系统中问句分类方法研究综述韩东方,吐尔地·托合提,艾斯卡尔·艾木都拉新疆大学信息科学与工程学院,乌鲁木齐830046摘要:问答系统作为信息检索的一种高阶形式,能够迅速、精准地为用户提供所需的信息服务,在给定一个问题后,会相应地给出准确的答案,这使得它在自然语言处理领域成为一个越发受人关注的研究方向。
问句分类作为问答系统中的问题分析和处理的首要环节,是问答系统中尤为重要的一部分,其分类精度会直接影响到问答系统的性能。
近些年来,机器学习和深度学习等技术的快速发展极大地促进了问句分类的研究和发展,其在问句分类上具有较强的可行性和优越性。
为此就问句分类的国内外研究现状、问句分类标准体系、问句特征抽取、传统的机器学习分类方法和近来流行的深度学习分类方法进行总结和分析,阐述了问句分类当前所面临的一些研究难点,并对未来的研究和发展方向做了初步展望。
关键词:问答系统;问句分类;分类体系;机器学习;深度学习文献标志码:A中图分类号:TP391doi:10.3778/j.issn.1002-8331.2009-0211Survey on Question Classification Method in Question Answering SystemHAN Dongfang,Turdy Toheti,Askar HamdullaSchool of Information Science and Technology,Xinjiang University,Urumqi830046,ChinaAbstract:As a high-level form of information retrieval,the Question Answering system(QA)can quickly and accuratelyprovide users with the required information services.After giving a question,an accurate answer will be given accordingly, which makes it become a more and more attention research direction in the field of natural language processing.Question Classification(QC)is the most important part of question analysis and processing in the QA,and its classification accuracy will directly affect the overall performance of the QA.In recent years,the rapid development of machine learning and deep learning technologies has greatly promoted the research and development of QC,which has strong feasibility and superiority in question classification.This paper summarizes and analyzes the domestic and foreign research status of QC, question classification standard system,question feature extraction,traditional machine learning classification methods and recently popular deep learning classification methods,and elaborates the current status of QC.This paper expounds research difficulties in QC,and makes preliminary prospects for future research and development directions.Key words:question answering system;question classification;classification system;machine learning;deep learning基金项目:国家自然科学基金(61562083,61262062);国家重点研发计划(2017YFC0820603)。
浅析汉语问答系统中的句子检索方法
语 言式 的查询式 , 从相关文档 中抽取并返 回给用户准确 的答案。由 属类型等信 息。 信息检 索通过传统的信息检索技术获得答案可能所 此可见 , 问答系统 中信息检 索 占有十 分重要的地位 , 索性 能的 在的文档 , 在 检 并对文档 进行排序等处理。而答案抽取则是对信息检索 高低决定 了问答 系统的运行效率和返 回答 案的准确性I ” 。 所得到的候选 文档进行各种分析抽取 出答案返回给用户。 1 问答系统的原理及关键技术 汉语 问答 系统主要涉及到如下几种关键 技术 : 问答 系 统 包 含 知 识 存 储 、 识 表 示 、 息 抽 取 、 知 信 自然语 言 处理 等 11分词及词性标注 由于汉语书面语是连续书 写的,因此计 . 算机需要将汉字字 串按词切分开并打上切 分标志 , 该处理称为中文 文本 自动 分词。中文文本 的分词与词性标 注是 中文信息 处理 中特有 基 金 项 目 : 鸡 文 理 学 院 院 级 重 点 基 金 资 助 项 目( K 7 2 宝 Z 0 14 o 6 I 。 作者简介 : 黄莉( 9 1 , , 1 8 一)女 陕西宝鸡人 , 硕士 , 助教 , 研究方向为 自然语 言 的基础性 问题【 1 关键 词 抽 取 与 扩 展 统 计 法 是 关 键 词 抽 取 常 用 的 和 经 典 的 - 2 处理 , 信息检 索与信 息抽取 , 能系统 与决策支持 , 智 问答系统。
黄莉 Hu n i a gL
( 鸡 文理 学院 , 宝 宝鸡 7 1 0 ) 2 07 B oi nvri f t n ce c sB oi 2 0 7 C ia) aj U iest o Ar a dS in e , aj 7 10 , hn y s
摘 要 :自动 问答 系统是 自然 语 言理解研 究领域 中的 热 门方 向 , 它综合 运 用 了多种 自然语 言处理技 术 。本 文首 先 简单 介绍 了问答 系统 中的几
受限域FAQ中文问答系统研究
be implemented
with this method.The result of Yunnan tourism question answer model experiment
shows that this method is feasible and effective. Key words restricted domain question answering system;frequently—asked question base;domain ontology
are
language)of HowNet,the domain ontology and
described,and the fusion of
the
definited and
domain knowledge base
question
sentence
(domain HowNet)and common knowledge base(HowNet)is realized.On this basis,a
No.=130001
2领域中文问句相似度计算
问句相似度计算是FAQ中相似问句查找的基 础,同时也是答案提取的关键,其直接影响答案提取 的准确程度,当前已有多种中文句子相似度计算方 法,通常分为3个等级¨J:语法相似度、语义相似度 和语用相似度.语用相似度具有相当的难度,目前 效果不理想.而在一般的应用中,计算句子的语义 相似度就基本能够满足需求.目前对句子语义相似 度计算的研究方法主要有:基于相同词汇的方 法[5|、基于语义词典的方法[6-7]、基于依存树的方 法【8 J以及基于编辑距离的方法旧。0J等.其中,基于 相同词汇的方法有很明显的局限性,对于同义词之 间的替换则无能为力.而使用语义词典的方法,可 以很好地解决这一问题,但是单纯的使用语义词典 的方法,并没有考虑到句子内部的结构和词语之间 的相互作用关系,准确率不高.基于依存树的方法 利用句子之间句法依存关系进行相似度计算,考虑 了句子的句法结构关系,但面临完全句法分析的精 度问题,且没有考虑句法结构中词汇的同义近义替 换.编辑距离方法通常被用于句子的快速模糊匹配 领域,但是其规定的编辑操作不够灵活,也没有考虑
问答系统研究综述
1.2 问答系统的一般处理流程
给定一个问题, 问答系统的处理流程一般如 下:首先分析问题, 得到问题的句子成分信息、所 属类别和潜在答案类型等信息; 然后根据问题分析 得到的信息在数据集中得到可能含有答案的数据, 这缩小了进一步精确分析的范围; 在得到的小范围 数据中采用各种技术提取答案或者答案集合; 最后 将答案返回给用户。
摘 要:近年来, 问答系统被大量广泛地研究。问答系统的目标是给定一个问题, 能够得到简短、精确的 答案。根据处理数据的不同, 将问答系统分为三类:基于结构化数据的问答系统、基于自由文本的问答系 统、基于问题答案对的问答系统。对这三大类系统的特点、面临的问题和相关的研究分别进行了叙述和总 结。最后, 讨论了问答系统未来可能的研究方向。 关键词:问答系统(QA); 传统问答系统(TQA); 基于社区的问答系统(CQA); 信息检索; 答案抽取
由于各个阶段处理的数据格式和形式不同, 导 致各个阶段解决问答系统的三个基本问题的方法 和技术各不相同。本文将分别对这三个阶段各自的 问题进行叙述 1)。
3 基于结构化数据的问答系统
基于结构化数据的问答系统的主要思想是通过 分析问题, 把问题转化为一个查询(query), 然后在 结构化数据中进行查询, 返回的查询结果即为问题 的答案。从其基本思想可知, 这种方法一般只能用 在限定领域。
【硕士论文】中文问答系统中的信息检索模型的研究
重庆大学硕士学位论文中文摘要摘要问答技术是自然语言处理领域中一个非常热门的研究方向,它综合运用了各种自然语言处理技术。
目前,国内外有很多的科研机构参与了英文问答技术的研究,甚至己经有相对成熟的英文问答系统,但是参与中文自动问答技术研究的科研机构并不是很多,而且基本没有成型的中文问答系统。
本文正是对中文问答技术研究的一个探索。
基于自然语言处理的中文问答系统包括五个主要组成部分:问题理解、信息检索、信息处理、答案抽取、FAQ模块五个子系统。
信息检索模块是自动问答系统中最重要的模块之一,检索的结果对后面的处理,以至找到问题的正确答案都有很大的影响,同时它也是智能咨询系统、机器对话等研究的重要方面。
本文充分结合了汉语语言的特点以及计算语言学的技术,对问答系统中信息检索模块进行了深入分析,指出了在实际的使用问答系统的时候,用户的回答质量参差不齐。
我们不但要尽量检索相似度高的文档,而且还希望检索出来的文档的质量尽可能的好,而传统的信息检索中常用的四种数学模型:布尔模型、模糊逻辑模型、向量模型和概率模型以及基于语言模型的信息检索模型在计算相似度的时候都没有考虑到问题的质量。
本文通过最大熵方法用困惑度、序列模型、词的搭配作为特征来评估文档的质量,最后利用翻译模型把问题质量成功的集成到检索模型中。
最后,我们从社区问答系统中抽取问答对作为语料进行测试,试验结果表明引入文档质量到检索模型中比传统的检索模型能取得更好的试验结果。
关键词:问答系统,信息检索,文档质量,语言模型,最大熵我本沉默ELIZA扮演一个心理学专家的角色,采用启发式的心理疗法,通过反问应对精神病人的提问,诱导病人不停地说话,从而达到对病人进行心理治疗的目的。
1971年,Winograd利用MACLISP语言开发了SHRDLU问答系统。
SHRDLU包括解析器、英语语法识别器、语义分析器、一般问题解答器等。
该系统主要是用于儿童积木话题,并且取得了较好的效果。
中文开放域问答系统的问题分类研究
中文开放域问答系统的问题分类研究夏艳辉;聂百胜;胡金凤【摘要】中文问答系统通常由问题分析、信息检索、答案抽取组成.其中,问题分析中的问题的分类是否准确会直接关系到提取答案的准确度,所以在问答系统中起到关键性作用.本文主要介绍了中文问答系统的结构、问题分类体系以及方法,并提出结合基于规则的模式匹配与基于统计的机器学习的方法对问题进行分类,从而提高分类的准确度.【期刊名称】《价值工程》【年(卷),期】2019(038)016【总页数】3页(P147-149)【关键词】开放域;中文问答系统;问题分类【作者】夏艳辉;聂百胜;胡金凤【作者单位】中国矿业大学(北京),北京100083;石家庄铁道大学,石家庄050043;中国矿业大学(北京),北京100083;中国移动阜阳分公司,阜阳236000【正文语种】中文【中图分类】TP391.10 引言在问答系统中,用户输入自然语言查询语句后,系统便会给出精准的答案。
比如用户在问答系统中输入“中国有多少个民族?”,系统就会给出准确的答案“56个”。
因此,对于问答系统的研究正如火如荼的进行着。
对于用户输入的问题的类别分析通常按照答案的类型把问题归到对应的语义类别,比如用户提问“三峡大坝在哪里?”,就能够了解到其想得到的结果是一个地名,因此,此问题应该归为地名类。
问题分类作为问答系统中的一个关键部分,它的主要作用包括以下两点:①通过对问题类别的划分,可以一定程度的缩小候选答案空间,从而提高输出答案的正确率;②系统可以依据对问题划分的不同类型来调节答案的选择策略[1]。
综上所述,问题分类对问答系统的结果至关重要,分类的优劣会直接关系到问答系统最终答案的质量[2]。
1 相关研究1.1 开放域问答系统研究现状人工智能刚刚兴起时,就有研究者提出设计自动问答系统,试图让计算机用自然语言的方式,来回答用户的问题。
以前的问答系统主要用于特定的领域,利用某个领域的专家知识来检索答案,如BASEBALL和LUNAR等[3]。
中文问答系统的现代汉语疑问句类型分析研究概述
中文问答系统的现代汉语疑问句类型分析研究概述耿志红(浙江大学城市学院传媒与人文学院 浙江杭州 310015)摘要:计算机科学中的问答系统(Question-Answer System,QAS)的研究以自然语言中的“疑问句”为研究对象,其中关于疑问句的类型分析是研究领域中三个主要研究内容之一;从另一方面看,自然语言中的疑问句一直都是语言学家关注的重点,现代汉语问句的类型分析在语言学研究中成果丰富。
因此,在现代汉语问句类型分析角度两个领域产生了交叉研究的可能性,并在可行性方面有很大学术探讨空间。
关键词:中文问答系统;现代汉语疑问句;问句类型分析 中图分类号:TP391 文献标识码:A 文章编号:2095-9052(2016)0012-000365-02问答系统(Question-Answer System,QAS)是计算机自然语言理解到达人工智能阶段重要的成果,问答系统开启了人类计算机信息检索智能化的新篇章。
当前,问答系统的运作流程关键是围绕“对象问题分析”、“信息检索”与“答案抽取”三个方面展开,其中对象问题分析主要是指针对提问主体提出的一个问题,开展该问题的语言表达形式——问句的构词、句法、类型以及问句形式化等文本分析。
其中疑问句的类型分析是对象问题分析的子模块,也是有研究起点作用的基础模块,疑问句类型分析是实现对象问题分析以及信息检索的前提,也是提高答案抽取正确率的先决条件。
然而,由于人类自然语言中使用问句结构复杂,对象问题分析中的疑问句类型分析仍是问答系统的理论与实验研究中不断探索的领域。
一、计算机中文问答系统中的疑问句类型分析研究随着当今计算机技术智能化水平的不断提升和互联网的快速发展,为了满足人们获取信息的需求,上世纪八十年代计算机人工智能领域与疑问句密切相关的“问答系统”孕育而生。
一些著名公司和科研院,如MICROSOFT、IBM、MIT等已研究出了不少较成熟的问答系统,涉及了英语、法语、西班牙语和日语等多语种。
中文问答系统中问题理解的研究
FENG a bo LILe , U ng u Xi o , i LI Do x e
( e t rne iec c ne n eh oo yR sac C S R , C ne f tlg neS i c d c n lg eerh( IT ) ro I l e a T
Abta t QA ytm cna s tre man po e ue : et n u d r a dn , fr t n sr c : ss e o ti he i rcd rs u s o n es n i i omai n q i t gn o
rte ea da s r xrcin Qu s o n es n igi tef s a dtev r otn at f er v n nwe t t . et nu d r a dn rt n eyi r t r o i e a o i t sh i h mp a p Q y tm. hsp p rue to frl—ae o c si h u s o , n rp ssa A ss e T i ae ssame do eb sd t l s y teq et n a d po oe l h u a f i l
1引 言
随 着互 联 网上信 息 的 日益膨 胀 ,人 们仅仅 通过 搜索 引擎 来获取 想 要 的信 息 变得 越来 越 困难 ,传统 的搜 索 引擎 都仅仅 是针对 用 户提供 的索 引关键 词 来进 行机 械 的模 式 匹配 ,用 户
提 供 的关键 词过 于粗 糙 ,搜索 的结 果就 会过 多 ,而 用户提 供 的关 键词 过于精 细 ,搜 索 的结 果就 会 过少 ,很 有 可能得 不 到用户 想要 的信 息 。这 就要求 基 于信 息检 索系 统 的高级 形式 ,
一种基于形式概念分析的问答系统答案抽取的研究
种基 于形 式概 念 分 析 的 问答 系统 答 案抽 取 的研 究
唐 娟 杜 亚军 王可 亮 , ,
(. 1 西华大学 数学与计算机数理学院, 四川 成都 60 3 ; 2 10 9 .毅仁科技有限公 司 技术部 , 上海 200 ) 00 1
(u n t g @1 3 cm ja —a g .o ) n 6
答 案。对 于不 同的问题 , 用 不 同的策 略进行 匹配和抽 取 答案 。 使 关键 词 : 式概 念分析 ; 念格 ; 形 概 问答 系统 ; 案抽取 答
中图分类号 : P 1 . T 3 15 文献 标识 码 : A
An p o c t x r c n we n q e to n we i g b s d o a pr a h o e t a ta s r i u si n a s rn a e n FCA
a e t o a s e r o l ae u sin , i i e s n ilt a e a p i cp e t o o y a c ly g n r t g d f r n t mp w rmo ec mp i t d q e t s t s se t o h v rn i ld meh d f rd n mia e e ai i e e t t t n c o a l n
Ke r s or a o c p n y i; c n e t at e q e t n a s e n ;a s e xr c o y wo d :fm l c n e t a ss o c p t c ; u si w r g n w re t t n al l i o n i a i
Abt c:A en m e f vibepoes got n ot u st go n u uso s e n Q )ss m sr t st u bro a al rcsi pi scn ne o rw ado r et na w r g( A yt s a h a l n o i q i n i e
基于“为什么”问句的中文问答系统研究
陈 玉
( 大学商 务学 院信 息 中心 ,太原 003 ) 山西 30 1
摘 要 : 目前 的 中文 问答 系统 主要 是针对 有 关命名 实体 的 问句进 行 回答 ,而对 “ 什 么”开 头 的 问句研 究并 不 多。本 研 为
究主 要是 以搜 索引擎 返 回的 网络摘 要 ,从摘 要 中取 得 因果关 系 的句 子 ,再 根据 预 先设 定好 的 因果 模 式进 行权 重 计算 ,将 权 重 大的句 子返 回给用 户。 实验 结 果表 明 ,该 系统 效果 显著 ,对测 试 问句 集 的 MR R值 达到 了 0 2 .。 5 关键 词 : 问答 系统 ;模 式 ;距 离
年 T C开 始 提 出 问 答 系 统 的 评 测 ,问 答 系统 取 得 了 RE 长 足 的发 展 。
本 研 究 中 的 问 答 系 统 ,由 于 系 统 只针 对 单 一 问句 类 型 ,即 以 “ 什 么 ”开 头 的 问 句 ,所 以 不 需 对 问句 为 类 型 进 行 分 类 处 理 。系 统 首 先 将 问 句 转 换 为 关 键 词 的 组 合 ,去 掉 问句 中 的 停 用 词 ,最 后 将 关 键 词 组 合 提 交 给 搜 索 引 擎 , 系 统 所 用 搜 索 引 擎 为 “ 度 ” 当 搜 索 百 。 引 擎 返 回 的相 关 摘 要 很 少 时 ,可 以 对 关 键 词 进 行 一 定
CHEN YU
( f m t n C ne B s es C l g f h n iU i r t, a u n 0 0 3 ) I o a o et ui s ol e o S ax nv s y T i a 30 1 nr i r n e ei y
问答系统的答案优化方法研究
问答系统的答案优化方法研究随着互联网的快速发展,人们对于获取各种知识的需求越来越大,而问答系统正是一种能够快速、准确地为用户提供信息的方式。
然而,由于不同用户提问方式的差异,往往会导致问答系统的答案不够准确或清晰,因此,如何优化问答系统的答案是一个值得研究的问题。
本文将介绍一些常见的答案优化方法,并分析其优缺点和应用实践。
问答系统的发展经历了多个阶段,从最早的基于规则的方法到现在的基于深度学习的方法。
随着技术的不断进步,问答系统的性能也不断提高,但仍存在一些问题。
例如,对于一些模糊或抽象的问题,系统往往无法理解用户的真实意图,导致答案不够准确;另外,由于语言差异,不同用户对同一问题的表达方式可能不同,这也增加了问答系统答案优化的难度。
优化答案对于问答系统的发展至关重要。
优化答案可以提高问答系统的准确性和可信度,使更多的用户愿意使用系统;优化答案可以增强问答系统的用户体验,提高用户对系统的满意度;优化答案可以帮助问答系统更好地理解和处理自然语言,推动自然语言处理技术的发展。
机器学习算法:通过机器学习算法对大量的训练数据进行学习,让系统能够自动识别和过滤不准确、不合适的答案。
常用的机器学习算法包括朴素贝叶斯、支持向量机、决策树等。
这种方法的优点是可以自动学习和优化答案,但对于大规模的训练数据和复杂的语义理解问题来说,效果可能有限。
深度学习:深度学习算法可以更好地处理复杂的语义理解问题,例如使用循环神经网络(RNN)、长短期记忆网络(LSTM)和变换器(Transformer)等。
这些算法可以学习更加复杂的模式,从而提供更准确的答案。
但是,深度学习需要大量的计算资源和训练数据,而且训练过程可能很复杂,需要更多的技术知识和经验。
应用实践方面,可以采用基于规则的方法对答案进行过滤和筛选,例如通过语法分析和语义分析来识别和纠正错误答案;也可以采用基于机器学习的方法对答案进行分类和排序,例如使用协同过滤、内容推荐等算法来提高答案的准确度和相关性;还可以采用基于深度学习的方法对答案进行生成和重构,例如使用生成式对抗网络(GAN)等技术来生成更加自然和准确的答案。
受限领域中文问答系统问句分析研究
28 58
21, 1) 00 1 3 1(
计 算 机 工程 与 设计 C m u r n i en d e g o pt g er g n s n eE n i a D i
・开 发 与 应 用 ・
受限领域中文问答系统问句分析研究
蒋 昌金 , 彭 宏 , 马 千里 , 林正 春 , 王 成
n u s e s n jcie e x atd h s od t ce o te u so r d n nt lu r co ̄T iiiaq ey on ,vr da et sni t c .T ee rs xr td rm et nf me iaq e v tr hsnt lu r ba d v i t er e r a w e a f hq i o a i i y e i
A sr c :Q et np rig s e ot t a a u s o s r g y tm a d t a g i cn e t n h l wig e rhn b ta t u s o s v r i r n r o e t n n wei s s inf a t f c o e ol n ac i i a n i a y mp a p t f q i a n s e n ih s i e t f o s g
S u y o u si npasn f e titd d m anCh n s ue to ns e ig s se t d n q e to r ig o srce — o i i e eq si na w rn y tm r
中文问答系统中答案抽取的研究与实现ppt课件
1
目录
2
提要
在答案抽取的研究中,本文采纳了一种基于规则改进 的问题分类方法,而后提出了一种基于依存树的语义匹 配相似度算法,对问题句与候选答案句进行相似度计算, 根据相似度的高低对答案进行抽取,最后通过具体的实 验实现了答案抽取的全过程。
实验结果表明,在保证问题分析模块问题分类准确的 情况下,得到用户所需答案的准确率可以达到92%以上, 相比其它算法有效地提高了答案抽取的准确度。
23
展望
在今后中文问答系统研究中,还有很多工作要做: (1)问题分析模块中分词和词性标注准确度的提高 (2)问题分类算法的研究 (3)答案抽取算法的研究
句法分析研究需要深入 答案抽取算法改进
24
Thank You!
25
子,作为候选答案集。 ②根据问题的类型,对候选答案集进一步处理,排除兀余的句子,减
少候选答案的空间。 ③应用相似度计算算法,计算候选答案句与问题句的相似度。 ④根据相似度的高低对候选答案进行排序,返回相似高的句子。 对于答案为一个词的问题,根据问题的类型,采用相应的抽取策略,
对返回的答案句进行分析,可能需要进行命名实体的识别工作,来返回 精确的答案。
3
绪论—背景与意义
➢人们期待更快速准确的搜索技术出现; ➢据统计,人们花费在答案抽取的时间很长; ➢传统的搜索引擎有很多弊端; ➢问答系统因此产生。
4
绪论—背景与意义
问答系统主要包括问题分析、信息检索和答案抽取3个 主要模块。
问题分析模块的主要工作包括对问题进行分类、抽取 问题的关键词、对关键词进行扩展等;
8
基于句法分析的答案抽取算法
答案抽取模块的工作流程如下: ①把从信息检索模块得到的候选文档或网页切分成句子,作为
基于网络的中文问答系统的研究
相 似 度 计 算 的答 案 抽 取 算 法 并 且进 行 了改 进 。 实验 结 果 表 明该 系统 对 人 名 及 时 间类 型 的 问题 效 果 显 著 。 对测 试 问题 集 的
1 弓 言 l
虽 然 现 在 的 检 索 系 统 如 G ol 已 经 取 得 了 很 大 的 成 og e等 功 , 是 这 些 搜 索 引擎 是 被 设 计 用 来 获 取 与 用 户 查询 请 求 相 关 但
的 文 档 的 . 询 序列 是 一 系列 关 键 词 的 组 合 而 不 是 以 自然 语 言 查 的 形 式 提 供 的 . 同 时其 返 回 的结 果 是 与 查 询 相 关 的 网 页 的 列 表 . 中 只 有 - i 分 是 用 户 需 要 的 信 息 , 且 用 户 必 须 自己 其 b部 而 从 这 些 文 档 中找 到 相 关 的信 息 。
维普资讯
基于网络的中文问答系统的研究
王 字 战学 刚 蔡 建 山
( 山科 技 大 学计算机 科 学与 工程 学院 , 宁鞍 山 14 4 ) 鞍 辽 10 4
E maltt r ri@1 3c m — i:nf b an 6 .o o
摘 要 文章设计并 实现 了一个基 于 网络的 中文问答 系统 。该系统只利用 网络搜 索引擎返 回结果 中的摘要部 分作为答
P S d NUMBE te MRR falq e t n s 04 . ER ON a n R,h o u si s i .7 l o
Ke wo d :q e t n a s r g s se s n e e i lrt i fr a in e t c in, n we xr c in y rs u si n we n y t m, e t n e smi i y, o o i a n m t xr t o a o a s ret t a o
中文问答系统中答案抽取的研究与实现.
绪论—问答系统
问答系统包含三个核心模块:问题分析、信息检索和答案抽取。模块之 间的关系如图所示:
基于句法分析的答案抽取算法
答案抽取模块的工作流程如下: ①把从信息检索模块得到的候选文档或网页切分成句子,作为 候选答案集。 ②根据问题的类型,对候选答案集进一步处理,排除冗余的句 子,减少候选答案的空间。 ③应用相似度计算算法,计算候选答案句与问题句的相似度。 ④根据相似度的高低对候选答案进行排序,返回相似高的句子。 ⑤对相似度高的句子进行重新分析,根据问题的类型所对应的 抽取策略,返回给用户需要的答案。
绪论—背景与意义
人们期待更快速准确的搜索技术出现;
据统计,人们花费在答案抽取的时间很长;
传统的搜索引擎有很多弊端; 问答系统因此产生。
绪论—背景与意义
问答系统主要包括问题分析、信息检索和答案抽取3个 主要模块。 问题分析模块的主要工作包括对问题进行分类、抽取 问题的关键词、对关键词进行扩展等; 信息检索模块的主要任务是对文档库或网络搜索引擎 进行检索,返回一些与问题相关的文档或网页; 答案抽取模块的主要任务则是对信息检索模块得到的 候选文档或网页进行处理,得到问题的候选答案集,并 通过一定的算法从候选答案集中抽取出正确答案。
绪论—简介
答案抽取的基本步骤一般如下: ①把从信息检索模块得到的候选文档或网页进行处理,切分成单个句 子,作为候选答案集。 ②根据问题的类型,对候选答案集进一步处理,排除兀余的句子,减 少候选答案的空间。
③应用相似度计算算法,计算候选答案句与问题句的相似度。
④根据相似度的高低对候选答案进行排序,返回相似高的句子。 对于答案为一个词的问题,根据问题的类型,采用相应的抽取策略, 对返回的答案句进行分析,可能需要进行命名实体的识别工作,来返回 精确的答案。
基于关键词距离的中文问答系统研究
t eie so h o h d a ft ec mmo e t n An we igS se a dt ec aa trsiso h tr e no ma in, n a e e ea fe t e n Qu si s r y tm n h h rce itc ft ei e n tif r t o n n o a dt k ss v r l fci e v
【 关键 词】 问答 系统 ,信 息检 索 ,距 离
中 圈 分 类 号 :T 3 1 1 P 9 . 文 献 标 识 码 :A
ABS TRACT Thsp p rd s rb st eQu sin An we igS se b s do h n e n tifr to n e rt st i s se wih i a e e cie h e t s rn y tm a e n t eitr e n o main,itg a e hs y tm t o
ba e n t s a c f Ke wo ds s d o he Di t n e o y r
陈 玉
( 山西大 学商务 学 院信 息 中心 太原
00 3 ) 3 0 1
【 摘 要】阐述 的 中文 问答 系统是 以 网络信 息为支 撑 ,结合传 统 问答 系统 的思想 和 网络信 息资 源 的特 点 ,采取 切
K EYW O RDS que to a werng s t m ,i f m a in e re a ,dit nc s in ns i ys e n or to r t iv l sa e
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中文问答系统答案抽取的研究作者:何鹍叶昕李巍黄波来源:《商情》2010年第28期[摘要]中文问答系统是随着互联网的迅速发展和普及而产生的一项新的应用研究。
针对传统搜索引擎存在的诸多弊端,问答系统要求用户以自然语言的形式进行提问,并将精确的答案快速地返回给用户,而不是包含大量无关信息的文档和网页。
问答系统包含三个核心模块:问题分析、信息检索和答案抽取,作为问答系统中的一个核心模块,答案抽取模块性能的优劣直接影响着整个问答系统的性能,所以本文将对答案抽取进行重点研究。
[关键词]问答系统答案抽取依存树语义匹配1 引言随着互联网的迅速发展和广泛普及,互联网上的信息越来越丰富,人们足不出户就能利用互联网得到自己所需要的各种信息,而搜索引擎便是人们快速获取信息和资源的重要手段之一。
例如Google、百度等搜索引擎都能帮助人们快速地找到所需要的相关信息,用户只需要输入一些关键词的组合,它们就会马上返回大量的文档和网页,提供给用户所需要的相关信息。
但传统的搜索引擎也存在着诸多弊端。
首先,它主要采用基于关键词的查询,通过关键词的逻辑组合来表明用户的查询意图,但是人类的查询意图一般是难以理解的,不可能通过几个关键词的简单组合就能表达出来,因此如果没有将用户的查询意图明确表达清楚,搜索引擎肯定不会返回令用户满意的答案;其次,对于用户的某一次查询,传统的搜索引擎返回大量与问题相关的信息,这给用户想要快速准确地获得所需要的信息带来了极大的困难。
例如,用户在搜索引擎上输入几个关键词,它有可能返回很多所谓的相关文档和网页,这样用户将浪费大量的时间在这些文档和网页中查找自己所需要的信息;再次,基于关键词的匹配算法虽然操作方便容易实现,但毕竟只停留在语言的表面层次,并没有触及到句子的语义信息和句法结构等自然语言处理比较深层次的东西,因此查询的效果很难进一步提高。
上述问题均成为了制约搜索引擎性能提高的瓶颈,问答系统正是为了克服传统搜索引擎的这些弊端而产生的。
与传统搜索引擎基于关键词的查询不同,问答系统要求用户以自然语言的形式进行提问,并将精确的答案快速地返回给用户,而不是包含大量无关信息的文档和网页,因此问答系统非常好地解决了用户的需求,节约了时间,提高了效率。
用户不需要再把问题拆分成关键词的组合,而是直接以自然语言的形式把整个问题输入到问答系统,问答系统通过问题分析,信息检索和答案抽取的处理返回给用户所需要的答案。
例如,用户提交一个问题“是谁发明了电话?”,问答系统将会直接给出问题的答案“亚历山大贝爾”。
由此可见,问答系统就像一个学识渊博的专家,可以回答用户所提出的任何问题,不仅快速而且准确。
目前,国外已经有一些相对成熟的问答系统问世,但由于中文的语法结构比较复杂,中文自然语言处理的基础资源相对匮乏,应用于国外一些比较成熟的问答题系统中的技术还不能应用到中文问答系统中,因此中文问答系统的研究还处于发展阶段,还有很多工作有待解决。
2 问答系统概述问答系统包含三个核心模块:问题分析、信息检索和答案抽取。
如何在问题分析模块充分理解用户的查询意图,如何在信息检索模块找到与用户所提问题相关的文档信息,如何在答案抽取模块把问题的正确答案从候选答案集中抽取出来,这些问题是问答系统的关键和核心,需要我们进行深入的研究。
问答系统的主要模块以及每个模块之间的关系如下图1所示:图1 问答系统的主要模块以及每个模块之间的关系下面介绍以下问答系统三个模块的重要作用和主要工作:(1)问题分析模块:目前,问答系统对于用户提出的问题所得到答案的准确率还不是很高。
通过研究发现,一个很重要的原因是问答系统对于用户所提出的问题分析理解不是很准确,而问题分析又是问答系统的第一个模块,通过问题分析模块处理后得到的结果将成为后两个模块进行工作的重要依据。
因此问题分析模块对用户提问的不精确分析甚至错误理解,会导致后面的工作变得毫无意义,最终使得用户得不到要需要的答案。
在问题分析的阶段中对用户所提问题通过自然语言处理进行分析,明确用户的正确意图,识别出问题的疑问词,根据一定的规则对问题进行分类,抽取出用于信息检索模块的关键词,明确答案抽取规则和约束条件,这样才能为问答系统后续模块的正确进行提供重要依据。
问题分析模块的主要工作包括:①对问句进行分词和词性标注,为问题的分类做好准备工作。
②问题分类:按照疑问词制定一定的规则对问题进行分类,确定问题的类型,根据问题的类型选取答案抽取的策略,可以帮助用户缩小可能候选答案的范围;③抽取关键词:关键词即所谓的查询词,在用户所提交的问题中,抽取对后面信息检索有用的关键词,为得到问题的候选答案集做准备。
④关键词扩展:在候选答案句中的一些词语一般和问题中的关键词表面形式不同,但是它们的语义是一样的,这样就需要对关键词进行扩展,来提高关键词的查询成功率。
⑤如果有必要的话还要对问句进行重写,移动组成句子的词语,使问句成为和答案句相同的句式,便于进行相似度的计算。
(2)信息检索模块:信息检索模块是问答系统承上启下的模块,它把大量的文本信息逐步转化为与问题相关的精确信息,从而减少了答案抽取模块的工作量,有利于答案抽取模块抽取更加精确的答案。
由于问答系统中信息量很大,如果信息检索的效率不高,那么问答系统想要快速的为答案抽取模块提供一些有效的信息就比较困难。
信息检索模块的主要工作就是利用问题分析模块抽取出来的关键词,通过网络搜索引擎进行查询,返回一些与用户问题相关的文档和网页。
信息检索模块输入关键词的布尔组合,在返回与问题相关文档和网页中,只有很少一部分才是问题真正的答案,所以在答案抽取模块中,还要把检索出来相关文档和网站进行去除冗余信息和断句处理,得到答案抽取的候选答案集。
(3)答案抽取模块:答案抽取模块是问答系统最终产生正确答案的关键模块,是问答系统的核心部分,答案抽取算法的优劣直接影响着问答系统的性能。
问答系统前面的处理都是为答案抽取准备的,答案抽取的对象是对相关文档和网页处理后所形成的候选答案集。
在信息检索模块通过网络搜索引擎查询出与问题相关的文档和网站,有太多与问题不相关的信息,因此需要对相关文档进行处理,得到问题的候选答案集。
答案抽取算法就是要在候选答案集中选取一个最符合用户需求的句子,作为问题的答案,返回给用户。
对于那些询问时间、地点的问题,就可以用简短的词语来给出答案,而对于询问原因、方法等问题就需要给出一个完整的句子进行回答,因此答案抽取时还需要利用问题分析模块的得到的问题类型,选择相应的答案抽取策略来进行答案的抽取。
作为问答系统中的一个核心模块,答案抽取模块性能的优劣直接影响着整个问答系统的性能,所以本文将对答案抽取进行重点研究。
3 答案抽取算法研究句子相似度计算是自然语言处理中的一个核心技术,在本文所研究的中文问答系统中尤为重要,它采用的计算方法直接关系到答案抽取的准确度。
下面就具体介绍以下目前所有关于相似度的各种计算方法。
(1)基于关键词的相似度计算这种计算方法采用空间向量模型进行计算,只依靠句子的表面信息,对句子进行分词处理,然后把句子看成词的线性序列,并不对语句进行更深层次语法结构分析,只是根据句子中单词出现频率等相关信息计算句子的相似度。
(2)基于语义的相似度计算这种计算方法采用基于语义词典进行计算,由于同义词的存在,所以这种方法能够进一步提高句子之间的相似度。
这种算法对句子中单词进行更深层次的分析处理,并识别出表面上毫不相干,但是实际上意思相同的词语,通过语义的方法来计算句子之间的相似度。
(3)基于句法的搭配词对相似度的计算这种算法将句子里面词语之间的相互依存关系应用到了相似度的计算中,较简单的算法就是根据句子里的有效搭配词对来进行计算。
有效搭配词也就是经过句法分析后得到的句子关键词,整个句子可被表示成一个依存树,这个句子的核心词也就是树的根节点,下面举例说明两个句子之间的相似度计算:句子1:许多优秀的人才都被送往国外学习。
句子2:越来越多的人才都被送到了国外。
通过句法分析得到的依存树,如图2所示:图2 句子的依存树句子的依存树,如图3所示:图3 句子的依存树经过对依存关系的分析和一些词语的处理后,得到句子中有效词搭配对:送往-人才,送往-国外,送往-学习。
句子中有效词搭配对:送到-人才,送到-国外。
由于有效词搭配对基本反映了句子的主要意思,因此对于句子相似度的计算就可以用有效词搭配对之间的相似度计算来表示,具体的计算公式如下所示:通过对两个结果进行比较,很容易看出加入语义的处理后,它们的相似度又有了一定程度的提高。
(4)基于依存树的语义匹配相似度算法前面提出的这几种算法,有的只考虑了句子的关键词,而没有进行语义处理,有的又没用到句子句法结构,综合上述方法的各种优缺点,作者考虑提出一种基于语义和句法分析相结合的相似度的计算方法,用来计算问句和候选答案句之间的相似度,这样可以很大程度的提高答案的准确程度,将这种算法称为基于依存树的语义匹配相似度算法。
在这种算法中,通过对句子句法分析和词语间的语义相结合的方法,并不是单纯的考虑相互依存的有效词搭配对,也并没有对有效词搭配对进行全部的计算,对那些表面看来毫不相关的词,也计算它们之间的词语相似度,这样使得相似度的计算更加精确。
4 总结与展望本文研究的主要是中文问答系统以及其中的答案抽取算法,详细的介绍了中文问答系统的由来以及它所包括的三个核心的模块,并且选取了其中的答案抽取模块作为重点来进行了分析和研究。
通过对目前已有的几种答案抽取算法的比较和分析,发现普遍的准确率并不是很高,由此作者考虑提出了自己的一种方法以及改进算法,这种算法在理论上可以使得相似度的計算更加精确。
在以后的研究中,作者考虑继续在本文提出的算法的基础上通过计算机的编程来详细的验证和计算本文的这种算法的可行性以及精确度,这些都是以后需要继续深入研究的。
参考文献:[1]郑实福, 刘挺, 秦兵, 李生. 自动问答综述[J]. 中文信息学报, 2002, 16(6): 46-52.[2]王树西.问答系统:核心技术、发展趋势[J].计算机工程与应用, 2005, 4l(18): 1-3.[3]曹志娟, 李祖枢, 刘朝涛. 自动问答系统中问题理解的研究[J].计算机科学, 2005, 32(11): 158-230.[4]李素建. 基于语义计算的语句相关度研究[J].计算机工程与应用, 2002, 38(7): 75-83.[5]李彬,刘挺, 秦兵, 李生. 基于语义依存的汉语句子相似度计算[J]. 计算机应用研究, 2003, 12(12): 15-17.。