基于句法分析和机器学习的中文自动问答系统研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于句法分析和机器学习的中文自动问答系统研究自动问答系统是为了应对信息爆炸的客观挑战和满足信息时代人们对于快速、准确地获取信息的主观需求而发展起来的。它逐渐成为自然语言处理和自然语言理解领域的前沿。
本文首先对问答系统的整个框架结构进行了剖析,对问答系统的三个关键模块的实现任务和解决方案进行了细致的综述。其次本文提出了基于汉语问句句型分析和支持向量机相结合的中文问题分类方法。
本文还提出了基于最大熵模型对候选答句进行二分类的方法对答案进行抽取。综述部分全面介绍了问答系统三个关键模块的实现任务和解决方案,着重剖析和总结了问答系统中两个最关键的子模块:问题分类和答案抽取的实现方法。
本文分析指出,对问句进行句法分析的分类特征抽取和基于机器学习的分类方法成为问题分类的技术发展趋势;句法分析和机器学习成为答案抽取里面两个最重要的组成部分。问题分类模块中,本文首次提出根据距离疑问词最近原则确定问句中的谓语动词,根据疑问词和谓语中心语的距离信息对汉语问句进行句型分析。
然后,在此分析的基础上,提取出疑问词、谓语动词、主语和宾语作为问题分类的特征。最后采用支持向量机作为问题分类的机器学习算法,取得了良好的实验结果,准确率达到95.87%。
答案抽取模块中,本文首次提出把答案的抽取问题转化成一个对候选答句进行二分类的问题。首先,在对问句进行句型分析的基础上,提取出问句词及词性序列、查询关键词、疑问词、主语、谓语和宾语作为问句特征集;然后,对候选答句进行浅层句法分析,提取出候选答句词序列,候选答句词性序列和正确答案词性
标记作为答句特征集;基于问句特征集和答句特征集得到组合特征集;最后,引入最大熵模型,在组合特征集的基础上训练答案抽取的分类器。
良好的实验表现证明了这种方法的可行性。