基于藏语句多特征融合的主观题自动评分算法
基于相似度融合算法的主观题自动阅卷机制
第34卷 第1期 2019年2月天津科技大学学报Journal of Tianjin University of Science & TechnologyV ol. 34 No. 1 Feb. 2019收稿日期:2018–03–06;修回日期:2018–06–07基金项目:国家自然科学基金资助项目(61702367);天津市教委科研计划资助项目(2017KJ033) 作者简介:李纪扣(1960—),男,天津人,教授,lijikou@基于相似度融合算法的主观题自动阅卷机制李纪扣,韩建宇,王 嫄(天津科技大学计算机科学与信息工程学院,天津 300457)摘 要:主观题自动阅卷可以通过计算文本相似度实现.本文从分析文本结构特征的角度出发,在Trie 树搜索匹配理论的基础上提出基于相对距离的词序相似度算法,并通过统计回归方法将关键词相似度与词序相似度进行融合得到文本的综合相似度,从而实现主观题自动阅卷.最后,进行了实验,证明通过该方法可以实现在规定场景下基于文本结构特征的主观题自动阅卷.关键词:主观题;自动阅卷;字符匹配;键树;相似度中图分类号:TP391.9 文献标志码:A 文章编号:1672-6510(2019)01-0076-05Automatic Grading of Subjective Qusetions Basedon Similarity Fusion AlgorithmLI Jikou ,HAN Jianyu ,WANG Yuan(College of Computer Science and Information Engineering ,Tianjin University of Science & Technology ,Tianjin 300457,China )Abstract :Auto-scoring of subjective questions can be realized by calculating the similarities of the texts. Taking the fea-tures of texts into consideration and based on the Trie tree search matching theory ,a word order similarity algorithm accord-ing to relative distance is proposed ,and the statistical similarities between words and the word order can be obtained by us-ing statistical regression method. Finally ,an experiment was conducted ,which proved that this method can realize automatic grading of subjective questions based on text structure features in the specified scene.Key words :subjective questions ;automatic grading ;character match ;Trie tree ;similarity主观题目阅卷自动化是目前机考领域的前沿课题之一.主观题目答案中不同种语言、字符、语言模式差异所导致相似度计算中的复杂性和准确性问题是研究的重点方向[1].文本结构差异、语义的不一致导致了相似度刻画的多样性,而且语义依存树下的相似度、基于知网的语义相似度等算法均对应用环境有较严格的要求[2].基于语义依存树的相似度计算方法要先将语句的主干语义信息抽取成为语义表达式,再通过计算该语义表达式的相似度用以代替语句的相似度[3–4];基于知网的相似度计算通过维护一个大规模语料库来得到文本的相似度[5].通过挖掘独立词对(word to word )之间潜在语义关系的方法的必要条件是能够在语料库中找到词对的最优搭配[6–7].这些方法均从语言学角度去分析语法特征,从语法上解决相似度问题.而对于理工科教学中题目答案的正确性判定,答案文本的关键词特征比其语法特征具有更高的重要度,并且基于关键词特征的相似度计算不需要大量的语法分析,能够降低相似度计算的复杂度[8]. 在这种以文本结构作为切入点的模式下,有人提出了一种基于人工指定参数的相似度计算方法,该方法将关键词特征通过人为指定参数的方式组合得到文本的综合相似度[9].以上的分析研究表明,对文本结构特征进行计算能够得到文本相似度,但计算过程中很少考虑语序特征.针对特定背景下的主观题目自动阅卷,本文提出了一种基于相似度融合算法的相似度模型,在关键词DOI:10.13364/j.issn.1672-6510.201800562019年2月李纪扣,等:基于相似度融合算法的主观题自动阅卷机制·77·匹配的基础上根据相对距离计算语序相似度,进而用统计回归分析方法对关键词相似度与词序相似度特征进行融合,得到文本的综合相似度,从而实现基于文本结构特征的主观题自动阅卷.1 主观题目阅卷原理主观题目阅卷采用基于文本结构的相似度模型实现,模型结构见图1.模型主要包含关键词相似度计算方法、词序相似度计算方法以及相似度融合方法.由于文本中关键词同时代表着语义与结构特性,所以文本的相似度通过文本关键词特征来进行计 算[10].关键词特征相似度通过关键词相似度与词序相似度两维度分别进行计算,最后通过基于样本数据的二元回归分析实现不同维度的相似度融合,得到文本的综合相似度.图1基于文本结构的相似度模型结构Fig. 1Similarity model structure based on text structure 在关键词特征相似度计算过程中,通过将答案关键词在标准答案关键词序列空间中进行搜索匹配,得到关键词的命中信息用于计算关键词相似度,得到位置信息用于计算词序相似度.其中,关键词相似度通过求解关键词序列的余弦向量夹角值得到[11],词序相似度通过计算关键词在不同文本中的位置差的相对距离来得到.关键词不同维度的相似度可以抽象为影响文本综合相似度的因子,通过线性回归分析得到不同因子对于因变量的权重关系,即得到不同维度的相似度对于文本综合相似度的影响程度.将关键词特征相似度与文本综合相似度的二元线性回归函数作为题目答案评分准则函数进行题目评分.2 方法设计与实现2.1 关键词搜索匹配在关键词搜索匹配前,通过数组Trie树构建标准答案序列空间.数组Trie树是将树形节点状态通过数组保存的一种字符前缀树,Trie树节点定义[12]为typedef struct{Py_ssize_hash;PyObject * key;PyObject * value} PyDictEntry;其中:key用于存储节点字符;value用于存储该节点的子节点以及当前节点的状态、子节点相对于当前节点的偏移值(数组base)、当前节点的父节点状态(数组check)以及当前节点的位置标记值(index).基于Trie树的序列空间构建过程包括初始状态确定、字符编码读取、状态转移、结果存储.在状态转移过程中,对于每一个关键词,从状态s到t满足base[s]+code=t、check[t]=base[s].字符编码用code 表示,状态转移中选取字符的GBK2312编码集的十进制数取哈希映射后的值作为该值.序列空间构建过程如下:(1)初始化root节点为根节点,并设置base [root]=1作为起始状态.(2)初始化base和check两个状态转移记录数组.(3)找出root节点的子节点集合root.childs,并修改base数组和check数组,使得check[root.childs]=base[root]=1成立.(4)对于每一个子节点,找到一个初始值begin,使得每一个子节点经过状态转移后均有空间进行存储.此时,设置当前的base值为该begin值.(5)根据得到的begin值与字符code,通过状态转移方程对节点进行插入,同时修改字符的check值.(6)对于每一个子节点,循环调用步骤(3)、步骤(4),如果状态i对应某一个关键词,且base[i]=0,那么令base[i]=(-1)*i;如果base[i]!=0,那么令base[i]=(-1)*base[i].即使得关键词词尾(叶子节点)其base值为负值.通过状态转移插入得到的Trie 树如图2所示.(7)经过逐个插入得到关键词字符的i、base、check以及index数组列表.在进行关键词搜索匹配时,首先对待评分答案进行分词、去停用词等操作,得到待评分答案的关键词·78·天津科技大学学报第34卷第1期集合.然后读取根据标准答案文本构建好的序列空间,根据当前状态与转移规则,通过字符编码进行状态转移,根据命中条件进行命中判定.图2Trie树示意图Fig. 2Diagram of Trie tree命中条件:定义当前状态为p,如果base[p]==check[base[p]] && base[base[p]]<0则查找命中.关键词搜索匹配流程见图3.图3关键词搜索匹配流程Fig. 3Matching process of keywords关键词搜索匹配的具体步骤如下:(1)读取待匹配关键词,并将其拆解成为单个字符.(2)读取构建好的关键词序列结果数组,并将root节点定义为起始状态p.(3)读取第一个字符的编码code,根据转移规则验证是否满足条件base[p]==check base p]] && base[base[p]]<0.如果满足,则当前字符的查找命中,继续读取下一个字符进行验证;如果不满足,修改位置记录数组值为0并退出查找过程.(4)如果字符串中最后一个字符满足步骤(3),则该字符串查找命中,修改对应位置记录数组的值为其index值并退出.将待评分答案关键词集合中的每一个关键词都进行搜索匹配后,根据记录关键词位置情况的数组进行相似度特征计算.2.2 相似度求解相似度求解包括关键词相似度求解与词序相似度求解.在计算关键词相似度时,首先通过词袋模型对文本进行量化,将关键词结构特征转化为向量特征.在向量空间模型中,文本被拆解成单字或者词语组成的特征项集D(T1,T2,…,T n),其中T k(1≤k≤n)是特征项,对应的是关键词.两个文本s1和s2之间的相似度可以用其特征项集对应的向量V1,V2间夹角的余弦值表示.那么,标准答案文本与待评分答案文本的关键词相似度C可以通过式(1)进行求解.121212cos(,)||||==C V VV VV V(1)词序相似度通过相对距离进行计算.其中关键词的位置标记为关键词在文本特征项集中的序号;同一关键词在不同文本特征项集中的位置差值定义为相对距离,用于刻画其在语句内部的位置差异,相对距离越小,相似程度越大.关键词相对距离的计算方法见式(2),其中d n2和d n1分别代表第n个关键词在两个不同文本s2、s1中的位置标记.21||=−n n nd d d(2)文本相对距离D的计算公式见式(3).1nnD d=∑(3)将文本相对距离进行归一化,得到表示文本词序相似度的相对距离系数R,记为式(4).max1=−DRD(4)其中,D max为文本s1与文本s2间的最大相对距离.未命中关键词的相对距离d记为(n-1),当s2中关键2019年2月 李纪扣,等:基于相似度融合算法的主观题自动阅卷机制·79·词全部缺失时,文本s 1与文本s 2间达到最大相对距离D max =(n -1)n .n 为s 2中的元素个数,也就是集合长度. 2.3 相似度融合在得到答案文本基于结构的相似度特征后,采用统计回归方法将不同维度的相似度以最优的权重融合成为文本的综合相似度.基于文本二维的结构相似度特征,将关键词相似度与词序相似度定义为自变量,学生答案得分与题目满分比值定义为因变量,定义二元线性回归方程012+i y =b +b C +b R μ (5)式中:b 0为常数项;b 1、b 2为回归系数;C 、R 分别代表关键词相似度与词序相似度;y 为答案得分与题目满分的比值;μi 为随机误差.多子句文本的相似度选取各子句相似度的平均值作为其相似度,计算公式见式(6).S i 为文本第i 个子句的综合相似度. 1=/ni S S n ∑ (6)3 实 验首先需要采集特定学科背景下的主观题目人工阅卷结果作为样本数据,通过统计分析方法获得其相似度回归函数.本次实验采集“计算机体系结构”课程的500道已阅试题作为样本数据,数据来源为天津科技大学课程考试试题,试题类型包括简答题、名词解释题和论述题,每条数据包含题目、标准答案、学生答案与得分四项内容.根据相似度算法求得学生答案与标准答案的关键词相似度C 、相对距离系数R ,并对得分与满分比值进行二元回归分析,得到回归函数见式(7)(随机误差忽略不计).0.6830.3170.034=++y C R (7)对回归函数进行显著性检验F 检验(显著性水平取α=0.05)得F 0.05=2.735<F (2497)=3.014,接受线性回归显著假设.T 检验得T =2.003,查表得2.003>0.025/497T =1.965,接受函数回归参数显著有效假设.即该回归方程具有统计学意义,可以用来进行题目评分.选取200道“计算机体系结构”主观题目作为测试数据,其中包含100道简答题、50道名词解释题、50道论述题.将题目满分标准化为100分.对样本数据进行阅卷,首先调用中科大分词系统(NLPIR )进行分词与去停用词处理,将文本字符串处理成为关键词序列集合.然后通过数组Trie 树将关键词集合构建成为可供搜索的序列空间,在关键词搜索匹配的基础上计算关键词相似度与词序相似度作为文本不同维度的相似度,进而通过二元线性回归进行融合,得到答案文本的综合相似度.实验对比方法采用人工指定参数的相似度计算方法[9].该方法在关键词集合的基础上通过计算关键词相似度与集合贴近度,得到文本最终的相似度并将其作为题目得分权重.其中人工指定关键词权重参数P =0.7作为可信参数,语义贴近度阈值选取0.15作为可信参数,(,)ψA B 表示关键词相似度,(,)δA B 表示文本A 、B 贴近度,0S 为题目满分.方法2中的得分计算公式见式(8).0((,)(1)(,))ψδ=×+−××S P A B P A B S (8)本文方法、对比方法及人工评阅的结果见图4,分段统计结果见表1.图4 阅卷结果对比Fig. 4 Comparison of grading results 表1 分段统计结果Tab. 1 Results of section calculation简答题数量 名词解释题数量 论述题数量 评分偏差/分 本文对比本文 对比 本文对比0~5 87 80 40 41 37 33 6~10 4 8 8 4 3 7 11~15 6 6 1 2 4 3 >15361367统计评分结果误差在10分以内的题目数量,本文方法为89.5%,对比方法为86.5%.不同答案的用词差异导致关键词匹配命中率较低,致使相似度差异较大;论述题中包含较多子句,句子整体相似度求解时子句权重平均分配导致差异增加;简答题与名词解释题等短文本答案中的关键词特征明显,评阅效果较好;由于答案中的语序关系通过关键词的相对距离系数得到了更准确的描述,所以,对语序关系突出的题·80·天津科技大学学报第34卷第1期目评阅效果较好.评阅准确率整体较高,说明该模型方法对于主观试题有较好的评阅效果.虽然在个别题目上存在评分偏差较大的情况,但是整体来看,本文方法的阅卷结果更加贴近人工阅卷结果,与人工评阅结果的两条评分曲线也更加吻合,阅卷结果基本一致.对于某些特定需求下的阅卷工作,该相似度模型可行有效.4 结 语对于学科背景下的主观题阅卷,本文通过Trie 树实现关键词匹配下的二维相似度模型,有效地避免了传统阅卷模式的句法树分析与向图分析的复杂性,节约了系统开销.其方法对于主观题目的快速阅卷具有一定的现实意义.参考文献:[1]刘伟,亓子森,王目宣. 主观题自动测评研究[J]. 北京邮电大学学报:社会科学版,2016,18(4):108–116. [2]朱新华,马润聪,孙柳. 基于知网与词林的词语语义相似度计算[J]. 中文信息学报,2016,30(4):29–36. [3]张翠萍. 基于模糊理论的在线智能阅卷系统的研究与应用[D]. 石家庄:石家庄铁道大学,2013.[4]王正. 主观编程题自动阅卷算法的研究与实现[D]. 南昌:东华理工大学,2017. [5]韡魏,﹒向阳基于2008版《知网》的词语相似度计算方法[J]. 计算机工程,2015,41(9):215–219.[6]Islam A,Inkpen D. Semantic text similarity using corpus-based word similarity and string similarity[J]. AcmTransactions on Knowledge Discovery from Data,2008,2(2):1–25.[7]Tsatsaronis G,Varlamis I,Vazirgiannis M. Text related-ness based on a word thesaurus[J]. Journal of ArtificialIntelligence Research,2014,37(4):1–39.[8]Fellbaum C,Miller G. Combining local context and wordnet similarity for word sense identification[M]//Dagobert S. W ordNet:An Electronic Lexical Database.Cambridge,Massachusetts:MIT Press,1998:265–283. [9]倪应华,于莉,吕君可. 一种参数可调的主观题自动阅卷实现[J]. 浙江师范大学学报:自然科学版,2008,31(4):428–431.[10]张均胜,石崇德,徐红姣,等. 一种基于短文本相似度计算的主观题自动阅卷方法[J]. 图书情报工作,2014(19):31–38.[11]罗海蛟,柯晓华. 基于改进的LDA模型的中文主观题自动评分研究[J]. 计算机科学,2017,44(S2):102–105,128.[12]杨文川,刘健,于淼. 基于双数组Trie树的中文分词词典算法优化研究[J]. 计算机工程与科学,2013,35(9):127–131.责任编辑:常涛。
基于语句相似度的主观题自动评分系统
丝路视野【摘要】计算机考试系统中,单项选择题和多项选择题等客观题的自动批改技术已经很成熟。
但是,针对简答题等主观题的自动批改技术,由于受到自然语言理解等限制,至今没有实用的系统。
本文采用语句相似度的计算对主观题进行自动批改。
通过对语句相似度的定义,计算模型的建立,同时借鉴机器翻译、自动文摘、信息检索等对语句相似度的研究,提出了基于多层次融合的语句相似度计算模型。
通过对句子词形、词态、词义三个层次计算相似度,从而使句子的相似度计算更加准确。
实验测试表明,本文的主观试题自动评分方法基本可以满足系统设计的需求,是有效可行的方法。
【关键词】主观题自动评分;自然语言处理;语句相似度;知网基于语句相似度的主观题自动评分系统南铉国(延边大学工学院智能信息处理研究室,吉林 延吉 133002)一、引言随着计算机辅助教学、多媒体处理以及计算机网络等技术的飞速发展和推广应用,网络教学将成为一种极具应用前景的远程教育模式。
为了提高在线网络教学质量,各种相关技术得到了越来越多的重视和研究,其中自动评分技术是难点技术之一,被广泛关注。
对不同的试题类型,试卷自动化评分的难易程度相差很大。
客观题的自动化评分易于实现,主观题的自动评分实现起来则相当复杂。
对于主观题,由于它的答题特点和复杂性,目前还没有一种考试系统能很好地完成自动阅卷。
早在20世纪60年代,国外就已经开始研究如何对学生用自然语言书写的文章进行自动评分,第一个实现类似功能的系统是1966年开发的(PEG)。
之后出现了LSA ,Educational Testing Servicel ,Erater ,ATM ,AutoMark 等先进的自动评分系统,但是都不是很完善。
Educational Testing Servicel 的系统实现时包含了大量的预处理和一些人工干预。
Erater 采用的是整体评分策略,从写作风格、修辞等角度整体评判作文得分情况。
ATM 引入了同义词词典,这样系统就可以对概念的同义词、替代词进行识别,增加了系统的识别能力和准确性。
主观题自动评判算法研究综述
主观题自动评判算法研究综述一、研究背景与意义随着信息技术的飞速发展,教育领域也在不断地进行改革和创新。
在教育评价体系中,主观题一直是教师评分的主要方式,主观题评分存在一定的主观性和不公平性,这对学生的学习成果和教育质量造成了一定的影响。
为了解决这一问题,学术界和教育界对于主观题自动评判算法的研究越来越重视。
自动评判算法的研究具有重要的理论意义和实际应用价值,通过研究自动评判算法,可以提高主观题评分的客观性和准确性,有助于减少教师评分过程中的主观因素对学生成绩的影响,从而提高教育质量。
自动评判算法可以帮助教师减轻评分负担,提高评分效率,使教师能够将更多的精力投入到教学和学生指导中。
自动评判算法还可以为学生提供更加公正、客观的评分结果,有助于激发学生的学习积极性和自信心。
自动评判算法的研究已经取得了一定的成果,美国的一些高校已经开始尝试将自动评判算法应用于课程作业的评分中,取得了较好的效果。
自动评判算法的研究也逐渐受到关注,许多学者开始在这一领域进行探索和研究。
目前我国在自动评判算法的研究方面还存在一定的不足,需要进一步加强理论研究和实践应用。
1.1 主观题自动评判的现状与问题随着人工智能技术的不断发展,自动评判技术在教育领域得到了广泛的应用。
特别是在主观题领域,自动评判算法的研究已经成为了教育信息化的重要方向。
尽管目前已经取得了一定的成果,但主观题自动评判仍然面临着一些挑战和问题。
主观题的评分标准相对复杂,由于主观题往往涉及到对学生思维过程、观点表达等方面的评价,因此评分标准的制定和调整需要充分考虑这些因素。
现有的评分标准往往过于简单,难以准确地反映学生的实际情况。
由于主观题的特点,评分标准往往具有一定的主观性,这也给自动评判带来了困难。
主观题的语义理解难度较大,由于主观题往往涉及到对学生观点、论述等方面的评价,因此在进行自动评判时,需要对学生的表述进行语义理解。
由于语言表达的多样性和复杂性,目前的自然语言处理技术在处理主观题方面的效果尚不理想。
主观题自动评分算法分析与实现
主观题自动评分算法分析与实现摘要:利用网络进行考试将成为考试方式发展的必然趋势。
针对网络考试系统中主观题自动评分这个技术点展开研究,提出基于关键词与语法相似度的主观题自动评分算法,详细阐述了实现的关键技术,并通过实验数据得出语法相似度阀值与阅卷比例参数的最佳参考值。
关键词:语法相似度;自动分词;模式匹配;模糊匹配1 主观题人工阅卷思路与步骤教师在人工批改主观题如名词解释与简答题时,一般按照如下的思路与步骤:(1)确定主观题标准答案的得分点,每一个得分点所对应的关键词,每一个关键词的权值。
(2)教师开始对学生答案进行评阅,将学生答案中出现的词汇与标准答案中的关键词进行比对,如果两者相同或是近义词,那么学生取得该得分点的分值,该题最后的总得分为所有得分点的总和。
(3)为了防止学生在答题时只答关键词,而出现语句不通的情况,教师在查找学生答案得分点的同时,也会查看学生答案语句的组织是否符合题目的要求,最后将根据实际情况作扣分处理。
2 主观题自动评分算法设计思路人具有自己的思想,能独立思考问题,并发执行许多事情,但这对计算机来讲就不行了。
它只能模拟人工阅卷过程。
以下为主观题自动评分算法的设计思路:(1)评分结果是否正确合理与标准答案的确定有很大的关系,所以首先对标准答案进行如下处理:对标准答案进行分句处理,确定每一个分句的句子模式;确定每一个分句中的关键词及每一个关键词对应的权值;建立关键词的近义词表。
以上工作可以在出卷时完成,也可以在阅卷之前完成。
(2)阅卷时通过程序对学生答案进行如下处理:对学生答案进行分句预处理与处理,确定每一个分句的句子模式;将标准答案中的分句与学生答案中的分句进行模式匹配,保留有用的分句,删除无用的分句,并得到该句语法相似度的值;对保留下来的有用分句采用最大正向匹配算法与现有词库进行对比,作自动分词处理;将学生答案分词处理后的关键词与标准答案中的关键词作模糊匹配处理,并得到关键词得分;该题的最后得分为关键词得分与语法相似度得分之总和。
主观题自动评分算法分析与实现
3 1 词 库 的 建 立 .
标 准 答 案 与 学 生 答 案 在 进 行 自动 分 词 时 都 需 要 与 词
库 中 的 词 进 行 比对 来 提 取 关 键 词 , 此 词库 的 建立 在 网络 因 考 试 系 统 中 占有 重 要 的 作 用 。为 了 提 高 自动 分 词 的 效 率 , 本 算 法 在 建 立 词 库 时 附 加 两 个 字 段 分 别 为 首 字 编 码 字 段
() 师开始对 学生答案 进行评 阅 , 学生 答案 中出 2教 将
现 的词 汇 与 标 准答 案 中 的关 键 词 进 行 比对 , 果 两者 相 同 如 或 是 近 义 词 , 么学 生 取 得 该 得 分 点 的 分 值 , 题 最 后 的 那 该
总 得 分 为所 有 得 分 点 的 总 和 。 ( ) 了 防止 学 生 在 答 题 时 只答 关 键 词 , 出 现 语 句 3为 而
生 答 案 进 行 分 句 预 处 理 与处 理 , 定 每 一 个 分 句 的句 子 模 确 式 ; 标 准 答 案 中 的分 句 与 学 生 答 案 中 的分 句 进 行 模 式 匹 将 配 , 留有 用 的分 句 , 除无 用 的分 句 , 得 到该 句 语 法 相 保 删 并 似 度 的值 ; 保 留下 来 的有 用 分 句 采 用 最 大正 向 匹 配算 法 对
相似度得分之总和 。
从 上 述 处 理 过 程 不 难 看 出 , 算 法 的 句 子 相 似相 似 度 即关 键 词 匹配 语
得分 。
( ) 定 主观 题 标 准 答 案 的 得 分 点 , 一 个 得 分 点 所 1确 每 对 应 的关 键 词 , 每一 个 关 键 词 的权 值 。
主观题自动评分算法模型研究
方德坚
Ke y wo r d s :Au t o ma t e d a s s e s s me n t o f s u b j e c i t v et e s t ;T e x t c l a s s i i f c a i t o n;De c i s i o nt r e e ;Te x t s i mi l ri a t y
I 一 掌 熏型研 究
Re s e a r c h o n Au t o ma t e d As s e s s me n t Al g o r i t h m Mo d e l o f S u b j e c t i v e Te s t s
福建师范大学福 清分校
De j i a n F a n g ( De p a r t me n t o f Ma t h e ma t i c s a n d Co mp u t e r S c i e n c e .F u q i n g B r a n c h o f F u j i a n No r ma l Un i v e r s i t y)
【 摘 要 】 本 文 提 出 7基 于 文 本 分 类 的 主 观 题 自动 评 分 模 型 。 模 型 采 用 文本 词 性 相 似 度 和 文本 浅 层相 似 度 作 为分 类器 的 条 件属 性 ,在 一 定 程 度 上 提 高 7文 本 的 语 义 理 解 。 通 过 对 已有 文 本 的 学 习 ,使 用 考 生分 数 作 为 分 类 类别 构 建 决 策树 分 类器 。 将 待 测 文 本 输 入 决 策树 分 类 器 从 而 实 现 答 案 的 分 类 , 即 完 成 自动 评 分 。 通 过 与 人 工 阅卷 过 程 对 比 ,验 证 了 系统 是 有 效 可 行 的 , 符合 人 工 阅卷 的过 程 。 【关键 词 】 主观 题 自动 评 分 ;文 本 分 类 ; 决 策树 ;文 本 相 似 度
主观题判卷算法
主观题判卷算法
主观题判卷算法是一种用于评估主观题答案的方法。
以下是一般的主观题判卷算法的基本步骤:
1. 专家标注:首先,需要有一组专家对一些样本主观题进行标注,给出每个答案的得分。
2. 特征提取:从专家标注的数据中提取出一些特征,例如答案的长度、关键词出现的频率等。
3. 模型训练:使用机器学习算法,例如朴素贝叶斯、支持向量机或神经网络等,基于标注数据和提取的特征进行模型训练。
4. 模型应用:将待判卷的主观题答案输入到训练好的模型中,模型会根据输入的特征给出相应的得分。
5. 人工审核:最后,需要人工审核模型给出的得分,确保得分的准确性和合理性。
需要注意的是,主观题判卷算法的准确性和可靠性取决于标注数据的质量、特征的选择和模型的性能。
因此,在实际应用中,需要不断优化和改进算法,以提高判卷的准确性和公正性。
以上是一个简要的描述,具体的实现方式可能因应用场景和需求的不同而有所差异。
基于自然语言处理的智能评分系统
3、用户界面设计
该系统的用户界面采用简洁明了的设计风格,能够清晰地展示题目和答案内容。 同时,用户界面还提供了多种交互功能,如提交答案、查看答案解析等,方便 用户使用。
四、实验结果与分析
为了验证该系统的性能和准确性,我们进行了多次实验。实验结果表明,该系 统能够准确地对主观题的答案进行评分和分析,且性能稳定可靠。同时,该系 统还具有较高的可扩展性和可维护性,能够方便地添加新的功能和优化性能。
基于自然语言处理的智能评分 系统
目录
01 一、基本原理
03 三、发展前景
02ห้องสมุดไป่ตู้二、应用场景 04 参考内容
随着技术的快速发展,自然语言处理(NLP)技术也得到了广泛应用。其中, 基于自然语言处理的智能评分系统成为了许多领域的重要工具。本次演示将介 绍这种智能评分系统的基本原理、应用场景以及发展前景。
该主观题自动评分系统采用B/S架构,主要由用户界面、评分引擎和数据库三 部分组成。其中,用户界面用于展示题目和答案,评分引擎用于对答案进行评 分和分析,数据库用于存储题目和答案数据。
2、评分引擎
评分引擎是该系统的核心部分,采用自然语言处理技术对答案进行评分和分析。 具体来说,评分引擎首先对答案进行分词和词性标注,然后提取答案中的关键 词和短语,并使用机器学习算法对答案进行语义理解和情感分析。最后,根据 预设的评分规则对答案进行评分。
6、可解释性增强:为了让更多的人信任和使用智能评分系统,提高其可解释 性将是一个重要的发展方向。未来的研究将致力于开发出更具有可解释性的模 型和方法,让人们更好地理解智能评分系统的运作原理和决策过程。
7、应用场景拓展:随着技术的不断进步和应用需求的增长,基于自然语言处 理的智能评分系统将在更多的领域得到应用和发展,如智能客服、智能家居、 自动驾驶等。这些新的应用场景将为智能评分系统带来更多的挑战和机遇。
主观题自动评阅算法的设计
随着 网络 的普 及 , 在线考试快速高效 , 具有广 阔的应用 发展 前 调整 。 从上 面阅卷过程 中看 , 影响评分最重要有三个因素 : 第一就是 景。 客观题 自动评 阅技术 已经相 当的成熟 , 也得到了广 泛的应用 , 但 得分点 , 第二就 是相似度 , 第三就是语义正确 。 可 以按得分点给出每 是主观题 的评 阅由于涉及语 义分 析、 分词技术 、 人工智能等相 关技 道题 目的得分高低 。 每个得分 点就是一个 关键字 , 关键字 的相似 度 术, 因而发展 比较缓慢 。 本文利用答案的相似度 以及相似 度所 占的 可 以采用数据挖掘 中语义相似度 的方法进行描述 , 再根据相似度的
算法分析
I f 敦 日 啦 术
主观题 自动评阅算法的设计
陈 伟 张 琳 娜
( 1 . 成 阳师范学院信息工程 学院 陕西成阳 7 1 2 0 0 0 ; 2 . 陕 西省礼 泉 县 实验 中 学 陕 西成 阳 7 1 2 0 0 0 )
摘要 : 主观题 自动评 阅是 智能化考试 系统 中的难 点, 由于 文本层 次结构 的复杂性, 表述 方式的 多样性 , 词 语词义 的丰富性, 使 得计 算机 自动评 阅的准 确 性很 难达 到人 工评 阅的 水平, 本 文提 出 了一种基 于模 糊 贴近度 匹配法的 主观题 自 动 评 阅算 法。 并通过 实验 证 明其算 法的优 良性 。 关键 词: 多样 性 模糊 贴近度 自 动评 阅 中图分 类-  ̄ - : T P 3 0 1 . 6 文 献标识 码: A 文章 编号 : 1 o 0 7 — 9 4 1 6 ( 2 0 1 3 ) 0 9 . 0 1 1 6 — 0 2
定义2 :
设A、 B 是字符 串 , A中包含n 个 字符 , ( A, B ) 表示A贴近于B的 单 向贴近度 , 按 照从左到右的顺序 , 集合A中的每个元素在集合B中 出现 的有效次数和记 为m, 则 ( A, B ) = m/ n . 定义 3 : 相 似 度 匹配 系数 定义 如 下
主观题自动评阅算法设计
龙源期刊网 主观题自动评阅算法设计作者:穆炜炜王国才来源:《电脑知识与技术》2012年第15期摘要:该文运用多特征融合进行文本相似度的计算,并利用决策树算法C4.5进行文本分类,构建决策树分类器,完成对主观题的自动评阅。
通过实验结果表明,该算法准确率高,与人工阅卷相接近,具有一定的应用前景。
关键词:多特征;相似度;决策树;文本分类;评阅中图分类号:TP391.2文献标识码:A文章编号:1009-3044(2012)15-3579-04Algorithm Design of Subjective Question Auto AssessmentMU Wei-wei1,2, WANG Guo-cai1(1.College of Information Science and Engineering, Central South University, Changsha 410083, China; 2.Hunan Chemical Vocational Technology College, Zhuzhou 412004, China)Abstract: This paper use the multi-features combinaion forr text similarity computing, and take use of the C4.5 decision tree algorithm for text classification to build a decision tree classifier. In this way, to complete the review on the subjective question automatically. Experi mental results shows that the algorithm accuracy rate close to the manual scoring, It has a certain degree of application prospect.Key words: multi-features; similarity; decision tree classification; text classification; assessment1)数据样本复杂,表达方式多样化,关键词的提取存在偏差;2)多特征相似度匹配具有一定的优势,但基于特征的多样性,匹配程度还达不到100%;3)文本分类算法还需进一步优化。
基于格助词和接续特征的藏文自动分词方案
基于格助词和接续特征的藏文自动分词方案
随着藏文文本海量数据的进一步收集和提取,藏文自动分词已经成为藏文自然语言处理领域的重要分支。
藏文自动分词是语音识别、信息检索和机器翻译等藏文自然语言处理研究中的基础性技术应用,但是由于藏文的特殊情况,存在的大量噪声文本和缺乏标注样本,使得分词效果无法令人满意。
为了解决这一问题,文献[1]提出一种基于格助词和接续特征的藏文自动分词方案,该方案采用统计模型建立分词规则,分析藏文句子中重要的接续特征,并利用格助词帮助模型更准确地解析连接特征,从而实现分词目的。
该方案建立的模型,由于利用了藏文中的接续特征和格助词,因此将藏文句子分成若干部分并非难事,该方案主要分为两步:格助词识别和接续特征分析。
第一步,识别格助词,藏文有11个格助词,它们具有不同的类型,在藏文句子中均表示特定的概念,即形容词格助词、位格助词、名词格助词和其他格助词等,可以有效帮助模型甄别出分词之间的关系。
第二步,利用上述识别的结果,分析句子中的接续特征,通过对句子中的结构化特征(如词序、元音重叠)和字音特征进行分析、预测,计算出最大的前向概率,以实现最优的切分结果。
通过该自动分词方案,可以提高藏文语料中语句分词准确率,有效改善由于噪声文本或者缺少精确分词标注而导致的分词问题,并减少对语料标注的依赖,有助于藏文自然语言处理的发展和深入研究。
本文研究了一种基于格助词和接续特征的藏文自动分词方案,由于该方案利用藏文有11个格助词以及接续特征,因此能有效改善藏文文本分词准确率的问题,有效提高藏文自动分词的效率。
将有助于藏文自然语言处理的发展和深入研究。
基于多因素语义相似度的主观题自动评阅方法研究
基于多因素语义相似度的主观题自动评阅方法研究作者:党丽琼刘文辉来源:《计算机时代》2012年第05期摘要:主观试题自动评阅系统涉及人工智能、模式识别以及计算机自然语言理解等复杂的系统知识,是无纸化考试中自动阅卷系统的设计难点。
为此,仿照传统考试过程中人工阅卷的基本思路,把主观试题的自动评阅问题分解为知识库的构建、概念相似度的计算以及语句结构的处理等三部分,并把一种改进的多因素语义相似度算法引入到概念相似度计算,详细设计了主观试题的计算机自动评阅模型。
实例运行结果表明,占总数70%的计算结果在可接受误差范围内。
关键词:主观试题;多因素;自动评阅;语义相似度中图分类号:TP399 文献标志码:A 文章编号:1006-8228(2012)05-09-04Study of automatic marking method of subjective questions based on semantic similarityDang Liqiong1,2, Liu Wenhui3(1. Sha n Xi Spaceflight Employee University School of Computer Science, Xi’an, Shanxi 710100, China;2. Xi’an Shiyou University;3. 95092 units)Abstract: It is because of the automatic marking of the subjective questions involving artificial intelligence, pattern recognition and computer understanding of natural language that has become a difficulty of the automatic marking in the design of paperless examination. By simulating the basic train of thought of the manual marking in traditional test, automatic marking of the subjective questions is divided into three parts which are construction of knowledge, calculation of concept similarity and handle of sentence of structure, then a kind of improved multi-factor semantic similarity calculation is introduced to solve the concept similarity, finally a computer automatic marking model of subjective questions is designed in detail. Practical operation results show that seventy percent of the total results within the acceptable error range.Key words: subjective questions; multi-factor; automatic marking; semantic similarity0 引言随着计算机网络技术的飞速发展,无纸化考试逐渐成为一种新的发展方向。
多特征融合的电气领域主观题自动评分方法
多特征融合的电气领域主观题自动评分方法
王金水;郭伟文;陈俊岩;唐郑熠
【期刊名称】《贵州大学学报:自然科学版》
【年(卷),期】2022(39)2
【摘要】智慧教育运用人工智能等技术来实现教育的智能化,将智慧教育应用到电气类高校教学、注册电气工程师考试和电网员工入职培训等领域,有助于学生和工作人员快速掌握电气专业知识。
基于电气领域本体和自然语言处理技术,探索了电气领域主观题自动评分方法。
针对通用词语相似度计算存在的不足,设计了一种融合《同义词词林》和《知网》的词语相似度方法,并结合文本的表层结构信息以及语义信息,提出了一种结合句子的词序、词形和搭配词对三种特征的电气领域主观题自动评分方法。
试验表明,该方法能够有效解决传统评分算法对专业术语的识别不全面和未考虑文本中句子的语义关系等问题,有效地提升了评分结果的准确度。
【总页数】6页(P77-82)
【作者】王金水;郭伟文;陈俊岩;唐郑熠
【作者单位】福建工程学院计算机科学与数学学院;福建工程学院大数据挖掘与应用技术重点实验室
【正文语种】中文
【中图分类】TP314
【相关文献】
1.基于藏语句多特征融合的主观题自动评分算法
2.基于领域本体和依存句法分析的主观题自动评分方法
3.基于ALBERT和同义词词林的主观题自动评分方法
4.基于多特征融合的汉英口语翻译自动评分方法研究
5.基于多特征融合和机器学习理论的英语机考作文自动评分系统
因版权原因,仅展示原文概要,查看原文内容请购买。
基于领域本体和依存句法分析的主观题自动评分方法
基于领域本体和依存句法分析的主观题自动评分方法作者:王金水郭伟文唐郑熠来源:《贵州大学学报(自然科学版)》2020年第06期摘要:現有主观题自动评分方法大多无法识别电力系统领域的专业术语,且在评分过程中易遗漏文本间的语义关系,进而导致其评分结果与人工评分结果偏差较大,无法满足实际考试的要求。
针对这些问题,本文提出一种基于领域本体和依存句法分析的主观题自动评分方法。
该方法综合了节点距离相似度、节点信息相似度、通用词语相似度和依存句法搭配词对相似度等因素,并将电力系统领域本体引入到评分过程中,进而提高评分结果的有效性。
实验结果表明:与现有方法相比,本文评分方法在主观题自动评分中更贴近人工评分结果,在MAE、RMSE和SMAPE指标上优于其他方法。
关键词:自动评分;主观题评分;领域本体;依存句法分析;语义关系中图分类号:TP314文献标识码: A随着大数据、物联网和人工智能的新兴技术不断向教育领域、工业领域等渗透,在教育领域中人工智能技术愈发普及使得其发挥着不可或缺的作用。
在教学过程中,将人工智能应用到教学辅助学习中,可以有效地提高工作效率并提高教学质量。
通过自动评分系统的应用,教师不仅可以减少阅卷的工作量,而且可以使阅卷结果更加公平公正。
主观题自动评分系统的实现也是目前广大学者研究的重点和难点[1-2]。
现有的自动评分系统已经解决了客观题的评分问题,但对于主观题评分的实现,困难更多且要求更高。
一方面,主观题自动评分系统的建立需要较为成熟的自然语言处理技术以及人工智能技术等;另一方面,答案文本的多样性和灵活性造成计算机对于文本的理解和人类对于文本的理解出现偏差。
因此,构建具有普适性的主观题自动评分系统的难度系数非常大。
研究者通过分析现有的主观题自动评分系统中的运用技术和评分模型,可以更深入地理解自动评分系统。
而且自然语言处理以及本体和知识图谱的快速发展也为研究者提供了新的研究思路和研究方式。
主观题自动评分方法基于学生答案文本与参考答案文本的相似度进行评分。
基于语句结构及语义相似度计算主观题评分算法的研究
基于语句结构及语义相似度计算主观题评分算法的研究贾电如;李阳明
【期刊名称】《微型机与应用》
【年(卷),期】2009(028)005
【摘要】文字类主观题的自动评分是实现远程教育中在线考试系统的一个关键技术,由于其自动评判具有相当难度,使自动评分系统中在对语句结构、关键字匹配、词性、词义以及语义方面的判断还存在很多问题.通过对已有的算法分析,提出了一种方法,采用浅层次句法结构分析和深层次语义分析相结合的算法计算相似度,该方法可以提高主观题自动评分的效率和准确度,具有一定的实用价值.
【总页数】3页(P5-7)
【作者】贾电如;李阳明
【作者单位】燕山大学信息科学与工程学院,河北,秦皇岛,066004;燕山大学信息科学与工程学院,河北,秦皇岛,066004
【正文语种】中文
【中图分类】TP301.6
【相关文献】
1.基于语义脉络的主观题自动评分算法探讨 [J], 马昌威
2.基于分词算法&VSM的文本主观题自动评分算法研究 [J], 李学俊
3.基于语义相似度的主观题评分算法研究 [J], 张立岩;张世民
4.基于分词算法&VSM的文本主观题自动评分算法研究 [J], 李学俊
5.基于余弦文本相似度计算的英语作文评分算法的应用研究 [J], 许浩;周亚萍;赵亚慧
因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3.3
句子长度相似度计算
假设学生答案和标准答案的句子文本字符串分别
SentMeanSim(S1 S 2) =
å åWeight x y å β ´ vz
z=1
k
Nx
=
为 S1 和 S 2 令 Length(S1) 和 Length(S 2) 为字符串长度, 其 中在计算句子长度时, 不排除格助词和虚词, 则句子长 度相似度为:
于洪志, 夏建华, 万福成, 等: 基于藏语句多特征融合的主观题自动评分算法
2014, 50 (5)
217
键词语, 即考试答案以指定教材为参考。比如, 名词解 释: , 其中, 、 和 为关键词内 , 由于句中关键 词部分是该名词解释的主要意思的表达, 因此, 句子中 的主要关键词是不能变化的。简答题的答案是由多个 知识点构成, 可以分为多个句子或者多个段落组成, 比如: (1) (2) (4) (5) 。本算法所使用的藏语主观题既具有主 观性又具有客观性, 主观性体现在学生可以根据自己对 教材知识的理解, 组织语言进行解答; 客观性体现在学 生答案中必须包括客观题所包含的具有客观性的关键词 部分, 比如名词解释的举例中 为关键词内容。 由于在藏文句子相似度计算等信息处理方面缺乏 类似 《知网》 和 WordNet 的藏文详细知识词典, 本文以藏 语主观题的标准答案与学生答案 (二者皆为文本内容) 为计算内容, 根据二者之间的关键词词形、 词序、 句长、 句子和段落语义相似度的多特征融合计算来实现主观 题自动评测。 算法基本思想: 首先, 自动评分算法对参考答案和 学生答案进行分句处理, 即标准答案和学生答案被切分 成多个子句, 形成句集; 其次, 根据藏语词库和自定义关 键词, 将藏语子句集进行分词处理 [6-7], 形成藏语词集合; 再次, 进行藏语词相似度计算, 然后, 根据词相似度计算 藏语句子相似度; 最后, 对藏语主观题的标准答案与学 生答案进行自动评分。其算法思想流程如图 1 所示。 、 和 (3) 容, 当句子发生了不同句子但意思相同的情况时, 比如:
语等其他语言考试系统都已经相对成熟, 但是, 在藏语 主观题的自动评测中, 大部分考试试题的评分策略仍然 采用教师手动评阅, 所以, 藏语主观题自动评分策略成 为藏语在线考试系统的关键技术难点, 其涉及到藏语分 词, 人工智能和模式识别等多方面的交叉知识点。藏语 主观题的自动评分算法主要是通过计算藏语句之间的 相似度, 并根据其相似度和相关权值, 给出评阅分值。 在计算语句相似度方面, 文献 [1] 采用动态规划算法计 算短语相似度, 并将其应用于主观题自动评阅。文献 [2] 采用散列单词倒排索引的粗选算法, 进行藏语句相似度 的计算。文献 [3] 采用倒排索引表和句子长度表计算语 句相似度, 以及其他自动评测算法
Keysim(S1 S 2) = 2 ´ |S1 S 2| |S1| + |S 2|
(1)
其中,P1 P 2 表示标准答案与学生答案之间关键词集 合的相同元素的序列集合。
3.2
词序相似度计算
在藏语语法和藏语句子结构中, 句子的词序变化
则会引起句子的语义变化。如, 同一个词位置发生改 变则词性和词义则会发什么一定的改变。所以, 词序 的 变 化 会 影 响 句 子 的 相 似 度 。 假 设 句 子 S1 和 S 2 ,
WordOnce(S1 S 2) 表示在句子 S1 和 S 2 中仅出现一次的词
3 藏语句子相似度计算模型 3.1 关键词词形计算
关键词是指针对问题的求解, 其能够主要表达问题 主要解答内容的词语或者短语 (注意: 这里的关键词不 是指所有的名词、 代词、 动词或者形容词) 。为了保证标 准答案中关键词的正确切分, 对藏语词库添加标准答案
W i 为 S1 中的划分词,S 2 为从 设 S1 为藏语词集合, S 2 中提取出来的关键词序列集合。
(1) for (i = W ; i len(S1); i + + ) { If (藏语词 i 为关键词) 提取藏语词 i, 写入到 S 2 中; } (2) 形成藏语关键词序列集合 S 2 。 藏语关键词相似度计算: 在计算关键词相似度时, 设置某些专业名词、 专有 名词或者其他短语不可以用同义词替代, 设 S1 和 S 2 分 别为标准答案和学生答案的关键词序列集合, 则关键词 相似度为:
1
引言
藏语在线考试系统的客观题的自动评分策略与汉
计算策略在主观题评阅方面有所进步, 但在计算语句相 似度方面, 其缺乏对语句、 词语、 关键字和短语的语义关 系, 导致评阅效果不佳。本文在已有的语句相似度计算 策略的基础上, 针对藏语名词解释和解答题等主观题, 设计和提出了基于藏语语句相似度的主观题自动评分 算法, 并结合藏语同义词库, 融合藏语句子多特征计算 模型来计算句子相似度, 实验结果表明, 相对于其他自 动评分算法, 本文算法更加有效可靠, 误差更小。
x = 1y = 1 M
素的逆序数。因此, 句子 S1 和 S 2 的词序相似度计算 公式如下:
[10-11]
ReveseOrder (S1 S 2) ì ï1 - |WordOnce(S S )| - 1 if |WordOnce(S1 S 2)| > 1 ï 1 2 OrderSim(S1 S 2) = í (2) ï1 if |WordOnce(S1 S 2)| = 1 ï0 if |WordOnce(S S )| = 0 1 2 î
中自定义藏语词或藏语短语。然后, 根据藏语词库和停 用藏语词表, 对标准答案和学生答案进行关键词的划 分, 并 设 置 关 键 词 的 权 值 [8-9]。 例 如 : , 按照藏文分词, 则其中 , 而 被划分成 是作为专有名词, 也是该名词
解释的关键词, 本文所使用的藏语词库和藏语同义词库 由本研究院语言监测技术研究中心提供。 关键词相似度计算流程: 首先, 提取藏语句中的关 键词, 形成关键词序列集合; 再次, 计算关键词相似度, 其中, 关键词相似度计算分为词形相似度计算和词序相 似度计算。 藏语关键词提取算法描述如下:
算模型、 句子长度相似度计算模型和句子语义相似度计算模型。该算法将计算模型与最大相似度矩阵相结合, 计算 主观题的标准答案与学生答案之间句子、 段落的相似度, 最终做出自动评分。实验结果表明, 与其他方法比较, 该算 法能有效降低平均误差值。 关键词: 藏语主观题; 多特征融合; 语义相似度; 相似度矩阵 文献标志码: A 中图分类号: TP301.6 doi: 10.3778/j.issn.1002-8331.1209-0275
[4-5]
2
藏语主观题的自动评分算法思想
藏语主观题 (本 算 法 所 涉 及 的) 包括名词解释和
简答题。学生对主观题的解答主要是根据对指定教 材 内 容的理解和掌握, 对问题答案的解答中可以自行 组织句子的结构, 但句子中必须包含教材所指定的关
。上述语句相似度
基金项目: 国家科技支撑计划基金项目 (No.2009BAH41B01, No.2009BAH41B04) 。 作者简介: 于洪志 (1947—) , 女, 教授, 博士生导师, 研究方向: 中文信息处理; 夏建华 (1984—) , 男, 硕士研究生, 研究方向: 计算机 软件与理论; 万福成 (1986—) , 男, 博士研究生, 研究方向: 中文信息处理; 陈新一 (1957—) , 男, 教授, 硕士生导师, 研究 方向: 复杂网络与舆情监测。 E-mail: xiajh2008@ 收稿日期: 2012-09-25 修回日期: 2013-01-18 文章编号: 1002-8331 (2014) 05-0216-05 CNKI 网络优先出版: 2013-02-21, /kcms/detail/11.2127.TP.20130221.1108.001.html
216
2014,ቤተ መጻሕፍቲ ባይዱ50 (5)
Computer Engineering and Applications 计算机工程与应用
基于藏语句多特征融合的主观题自动评分算法
于洪志, 夏建华, 万福成, 陈新一
YU Hongzhi, XIA Jianhua, WAN Fucheng, CHEN Xinyi
西北民族大学 中国民族信息技术研究院, 兰州 730030 China Institute of Information Technology for Nationalities, Northwest University for Nationalities, Lanzhou 730030, China YU Hongzhi, XIA Jianhua, WAN Fucheng, et al. Automatic scoring algorithm for Tibetan subjective questions based on multi-features combination. Computer Engineering and Applications, 2014, 50 (5) : 216-220. Abstract:This paper proposes an automatic scoring algorithm for Tibetan subjective questions based on multi-features combination, which establishes similarity computing model that consists of keyword-form, word-order, sentences length and semantic of sentence. This algorithm combines computing model with maximum similarity matrix to compute the result between standard answer and student’ s answer, in the end, scores automatically. The results of experiment prove, comparing with other algorithm, that this algorithm can effectively reduce the average deviation. Key words: Tibetan subjective question; multi-features combination; semantic similarity; similarity matrix 摘 要: 提出了一种藏语句多特征融合的主观题自动评分算法, 构建了关键词词形相似度计算模型、 词序相似度计