智能答疑系统的设计与实现

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

智能答疑系统的设计与实现

作者:宋万里卜磊

来源:《电脑知识与技术》2017年第36期

摘要:教师不能有效及时的回答学生学习过程中遇到的问题,会影响学生的学习兴趣及学习效率。该文通过自然语言处理技术、模板分类技术、支持向量机技术构建智能答疑系统,对问题和答案进行分词处理、模板匹配和分类训练,自动对问题和答案进行课程类别判断。再通过余弦相似性算法对问题和答案计算相似度,返回相似度最大的答案。如用户对系统反馈答案不满意,可以将问题抛入公共问答区,来寻求其他用户帮助。系统将对用户答案进行审核,审核通过则将此问题答案对添加到题库中,使得题库中的问句不断扩充。该文是以网络论坛中的用户提问作为问题库,通过此库进行答案的反馈。测试结果表明,该系统能够很好地服务于大学生,体现出教学的智能化。

关键词:智能问答;学科分类;问句分类;相似度;智能教学

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2017)36-0163-03

Abstract: This is a tough task for teachers to answer questions from students effectively and timely. In this paper, we design and implements an intelligent question answering system using Natural Language Processing, template classification, support vector machine. The system processes the questions and answers by word segmentation, template matching and classification training, and automatically classifies the questions and answers by subject category. This system also calculates the similarity between the questions and answers by cosine similarity algorithm, and returns the most similar answer. If the answer given by the system is not satisfied with the user, the system will write the question into the public question and answer area to seek help from other users. The system will evaluate the answer given by the user, then add the passed answer and the corresponding question to the QA base, so that the questions and answers in the QA base continue to expand. We use the QA base of a network forum as the basic to carry out the experiments. The implementation and experimental results indicate that the proposed approach is achievable.

Key words: intelligent question and answer; subject classification; question classification;question similarity; intelligent teaching

1 背景

智能答疑系统又叫做QA系统,随着互联网技术以及自然语言处理技术的不断发展,对智能答疑系统的研究也在不断的推进[1]。它允许用户以自然语言进行提问,而系统通过推理分析,从一定的信息来源提取文本信息,反馈给用户有效答案。智能问答系统被分为开放领域和

封闭领域两类,封闭领域将用户问句限定在某一领域内;而开放领域不设定问题的范围,提问者可以提问自己感兴趣的任何问题,并且能够从系统中获得满意的答案。目前流行的问答机器人多是基于开放领域的,如基于互联网预料及用户点击日志的微软小冰,基于百度搜索日志的百度语音助手等。这些开发性的机器人无法针对特定领域(如政府、金融、保险、教育)给出准确的回答。银行问答系统,金融问答系统,电商机器客服等问答系统则是针对特定领域的。如北京理工大学自然语言处理实验室开发的银行领域的智能问答系统BAQS,哈尔滨工业大学研究生开发的面相金融的问答系统,它们随时都能回答用户的问题,极大节省了人力资源。

学生在学习过程中会遇到各种问题,需要及时的被解答。本文研究设计了一套针对计算机基础知识领域的问答系统,该系统能够满足用户对该领域问答的需求。智能问答系统主要包括三个部分:问题分析、信息检索和答案抽取[2]。本文是基于FAQ(Frequently Asked Questions)库的限定领域的答疑系统。主要对课程关键词提取,中文问句课程分类,中文问句类型分类,中文问句相似度计算进行研究与实现。本系统的价值在于提高学生学习的兴趣和学习的效率,并促使教学往智能化的方向发展。

2 系统流程设计

系统流程从用户提出问题开始,首先使用分词工具对问句进行处理,包括去停用词和用户自定义词的提取。根据基于规则的中文问句分类方法对问句类型进行判断,然后通过训练好的SVM模型来判断问句所属课程类型,最后在FAQ库同类问句中进行余弦相似度计算,取出相似度最高的问句答案反馈给用户。由于FAQ库不可能包含用户提问的所有问题,在此情况下相似度将会很低,即系统反馈的答案不能使用户满意。此种情况下,用户可以将问句发往公共问答区寻求其他用户帮助,并由用户自己选出满意的回答。最后系统将对此问题和答案审核,如果审核通过则将此问题答案对添加到FAQ库中。在使用的过程中,FAQ库将会被不断完善,那么系统反馈正确答案的能力也将越来越强[3-5]。问答流程如图1所示。

3 系统实现

3.1 利用TF-IDF算法提取课程关键词

本文将问题所属课程分为四类,“数据结构”、“数据库概论”、“计算机网络”、“其他课程”。每个课程都有其关键词[6-7],关键词是判断问句所属课程的关键。例如:TCP、路由器、交换机、网络协议等很明显是属于计算机网络这门课程的关键词。本文就采用TF-IDF算法来收集每门课程的关键词,再结合人工收集对关键词进行补充完善。如果一个词在其他文章中很少出现,但在该文章中多次出现,则我们就认为该词就是我们所要找的关键词。这个重要性调整系数就是逆文档频率(IDF),它的值和一个词的常见程度成反比。知道了词频(TF)和逆文档频率(IDF),将它们相乘就能得到一个词的TF-IDF[8]。如果TF-IDF值越大,则说明该词对这篇文章越重要,即为关键词。

相关文档
最新文档