题库系统试卷自动生成算法研究

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

#
"’- , ’- 0
"-- , ’- 0
（ * +） :（ + 0 ( "， ’， &， $， %）；
%
/ (
/0 ； $ 0 ("
) （ / 0 为 0 级难度的试题出现的概率）当试卷的期望值 ! 改变时，图 " 中的正态分布曲线向左或向右平移，正态分布曲线在［ -， "-- ］区间内的面积会随之减少，即五级难度对应的概率和减少，此时为了保证五级难度的试题的概率和仍近似为 "--C ，须做如下调整：将 "/ ( " , / 按各难度所占概率的比例分别加入各难度 /0 区间，则调整后的概率 / 0 $ ( / 0 - "/・，此时 / 0 $ / 即为第 0 级难度的试题在试卷中所占分值的比例) 由此可以得出各难度类型的试题在试卷中所占的百分比矩阵 #$，再根据试卷的卷面总分 #，就即 # ( # ! #$) 其中 !1"0 " # （0 ( 可以得出 #"+% ， "， ’， &， $， %），为第 0 级难度的试题在试卷中所占的分数) "+ ’! ’# 各章的题分分配矩阵的生成输入：试卷中出现的各章节及它们所占的百
应该使试卷的期望值与考生平均成绩大致相当，这样如果假设试卷中各级难度的试题分数也与之相应大致成正态分布，就可以通过改变试卷中各级难度试题分数的分配达到控制考试平均成绩的万方数据目的，反过来也可以按用户设定的试卷的期望值，
・ &((・
哈$ 尔$ 滨$ 工$ 业$ 大$ 学$ 学$ 报$ $ $ $ $ $ $ $ $ $ $ $ $ 第 &) 卷$
分比! 输出：各章的题分分配矩阵 !"!" （ " 为试卷中出现的章节数） # （ " ）由已知直接得到各章试题在试卷中所占的百分比矩阵 !$# （ # ）! % & " !$$ $ ’ ’ # 为试卷的卷面总分# 其中 !(") " ! （ ) % "， #， …， "），为第 ) 章的试题在试卷中所占的分数# "% #% &$ 各难度类型的试题在各章中的题分分配矩阵的生成 * ! + ! , ! *- 生成原则首先根据用户的命题要求将所有在试卷中出现的章节划分为重点章和普通章，即超过平均水平的为重点章，其余为普通章! 对于试卷中出现的某章 .（ #， …， "， " 为本次试卷中出现的总 ) ) % "，章节数），设它在本试卷中所占的比例为 ( )（ $ ) % "， #， …， "），即若 ( ) $ / "’’ ’ " 则 . ) " 重点章；否则 . ) " 普通章# 由矩阵 ! 可知试卷中各章的题分，不失一般性地假设 ("" ， ("# ， …， (" 0 为重点章在试卷中的题分， (" 0 1 " ， (" 0 1 # ， …， ("" 为普通章在试卷中的题分# 不难看出，各难度类型的试题在各章中的题分分配矩阵 $ 应同时满足矩阵 ! 和矩阵 %，并且在分配时应考虑如下原则：（ " ）难度大的试题比难度小的试题对试卷的整体指标影响大；（ # ）重点章的试题比普通章的试题对试卷的整体指标影响大；因此要优先考虑难度大的试题和重点章的试题的分配! * ! + ! , ! +- 生成算法下面以难度为 & ， (， ) 级的试题在所有章节中
第 !" 卷# 第 ! 期 $ % % ! 年! 月 # # # # # #
#
哈# 尔# 滨# 工# 业# 大# 学# 学# 报 &’()*+, ’- .+)/0* 0*1202(23 ’- 234.*’,’56
#
789: !"
*8: !
;<=> ， $%%!
题库系统试卷自动生成算法研究
王宇颖，侯# 爽，郭茂祖
!"#$%&’() *$% +,’$)+’&- ’./’ 0+0.% #.1.%+’&$1
E+*5 6FGHIJK，.’( 1LF<JK，5(’ ;<8GMF
（ 1NL889 8O 48PQFRS= 1NISJNS <JT 2SNLJ898KH，.<=UIJ 0JVRIRFRS 8O 2SNLJ898KH，.<=UIJ ?"%%%? ， 4LIJ<）
；二是用户只给出有关
试卷命题的整体要求，此时由于组卷问题是一个典型的约束满足问题，因此可以采用回溯法找到满足全部约束条件的一个解，但是在强约束下，经常会出现无法组成满足性能要求的试卷
［ $， !］
>本
文提出的组卷算法，首先根据用户的命题要求计算出本次试卷的量化模型，包括各种题型的试题题分分配矩阵和各难度类型的试题在各章中的题
［ *］的分配为例说明具体的分配算法，其中涉及的
（ # ）+,- 4 % " ., 0 /, 2 % 2 1 ("4 ；（ & ）+,- 4 % 0 1 " ., " /, 3 % 3 1 ("4 ；（ ( ）随机生成难度为 & ， (， ) 级的试题在重点章中的分配系数 !& ， !( ， !) ，并使 !& ， !( ， !) 的值在 " ］范围内；［ ’% ) ，（ ) ）+,- ) % & ., ) /,；（ 0 ）2 ) % 5") 6 ! ) ；（ * ）3 ) % 5") 6（ " 7 ! ) ）；（ 1 ）23456 （ 2& 1 2( 1 2) / 2）/,；（ 7 ）89 2& / 2 :36; 3) % 3) 1（ 2) 7 2）， 2) % 2 ， 3& % 3& 1 2& ， 2& % ’ ， 3( % 3( 1 2( ， 2( % ’$ ’ ’ 首先满足难度为 ) 的试题在重点章中的分配； $ $ （ "’ ） <5=6 49 （ 2( / 2 ,- 2) 1 2( / 2）:36; 3( % 3( 1（ 2) 1 2( 7 2）， $ $ 2( % 2 7 2) ， 3& % 2& 1 3& ， 2& % ’ ’ ’ 其次满足难度为 ( 的试题在重点章中的分配；（ "" ） <5=6 3& % 3& 1（ 2( 1 2) 1 2& 7 2）， 2& % 2 7 2( 7 2) ；（ "# ） 23456 （ 3& 1 3( 1 3) / 3）/,； 89 3& / 3 :36; 2& % 2& 1（ 3& 7 3），（ "& ） 3& % 3 ， 2( % 2( 1 3( ， 3( % ’ ， 2) % 2) 1 3) ， 3) % ’$ ’ ’ 首先满足难度为 & 的试题在普通章中的分配； $ $ （ "( ） <5=6 49 （ 3( / 3 ,- 3& 1 3( / 3）:36; 2( % 2( 1（ 3& 1 3( 7 3）， $ $ 3( % 3 7 3& ， 2) % 3) 1 2) ， 3) % ’ ’ ’ 其次满足难度为 ( 的试题在普通章中的分配；（ ") ） <5=6 2) % 2) 1（ 3& 1 3( 1 3) 7 3）， 3) % 3 7 3& 7 3( ；（ "0 ） +,- ) % & ., ) /,； +,- 4 % " ., 0 /, 8 )4 % 2 ) 6 （ "* ） (" 4 ； 2 (" 4 # 3
"# 试卷的量化模型
试卷的量化模型，是指经过量化的用户的命题要求! 用两个矩阵来描述，矩阵 ! 表示各种题型的试题题分分配，矩阵 " 表示各难度类型的试题在各章中的题分分配! 其中各种题型试题的难度值分成五级
［ $］
式中：（, ! 为均值， " 为正态分布的方差) 当 + 在，）区间内移动时，正态分布函数的概率和 / / 恰好为 "--. ) 由概率论知，在［ ! , & "，区 ! - & "］间内概率和已达到 00+ 01. ，现假设 " ( "-，则在［- ， "--］区间内概率和近似为 "--. ) 如图 " 所示)
，其难度系数分别为 % （难题）、 $
（较难的题）、 & （中等难度的题）、 ’ （较容易的题）、 " （容易的题） ! 题库建立时，每题难度系数应由专家组共同商讨或根据有关资料确定，做到尽量准确，以保证生成试卷的质量! !" !# 各种题型的试题题分分配矩阵的生成输入：试卷中允许出现的题型及各种题型所占的百分比输出：各种题型的试题题分分配矩阵 !" !" （" 为试卷中出现的题型数）（ " ）由已知直接得到各种题型在试卷中所占的百分比矩阵 !( （ ’ ）! ) # * !$# # % % # 为试卷的卷面总分其中：（ ’ ( "， ’， …， "）为第 ’ 类题型在 !&"’ " ! 试卷中所占的分数) !" $# 各难度类型的试题在各章中的题分分配矩阵的生成计算各难度类型的试题在各章中的题分分配矩阵 " 分为以下三个步骤：（ " ）根据试卷的期望值计算各难度类型的试题题分分配矩阵 #；（ ’ ）根据用户的命题要求（& ），（$）计算各章的题分分配矩阵 $；（ & ）由矩阵 $ 和 # 计算各难度类型的试题在各章中的题分分配矩阵 "! "+ ’+ "# 各难度类型的试题题分分配矩阵的生成一套试卷的期望值决定了其难度，期望值越高，说明试卷中的题难度越小! 因此可根据用户指定的试卷期望值计算出各级难度的试题所占的百分比! 根据数理统计的结果，在一次考试中，考生
生成一套使考生的平均成绩大致与试卷的期望值
［ ,］相同的试卷 ! 现假设用户希望某次考试试卷的
期望值为 %- 分（满分为 "-- ），即所生成的试卷应使考生的成绩满足 ! ( %- 的正态分布! 已知正态分布函数（ * +） (
’ , （ + , !） " ・ . ’ "’ ， # +" （, /， - /） ) ’ !" !
!2/’%+-’：/H <J<9HVIJK RLS NF==SJR IRSP Q889 VHVRSP <J <9K8=IRLP L<V USSJ Q=8Q8VST O8= <FR8P<RIN KSJS=<RI8J 8O RSVR Q<QS=V WIRL LIKLS= SOOINISJNH <JT VFNNSVV =<RS R8 V<RIVOH RLS =SXFI=SPSJR <VVIKJST UH RLS FVS=V> 2LS <9K8G =IRLP OI=VR KSJS=<RSV < XF<JRIM<RI8J P8TS9 8O RSVR Q<QS=V ，RLSJ RLS RSVR XFSVRI8JV <=S VS9SNRST O=8P IRSP Q889 <NG N8=TIJK R8 RLS XF<JRIM<RI8J P8TS9> 2LS =<JT8P VS9SNRI8J <JT <QQ=8YIP<RS P<RNL R<NRINV <=S FVST IJ RLIV <9K8G =IRLP> 3.4 5$%6/：R<NRIN 8O KSJS=<RIJK RSVR Q<QS=；XF<JRIM<RI8J P8TS9；<QQ=8YIP<RS P<RNL # # 自动组卷是题库系统的一个重要组成部分，如何在庞大的试题库中选出符合用户要求的试题，并使组卷具有较高的效率和成功率是试题库设计的一个难点> 现行的试题库系统组卷时一般有两种方法：一是让用户详细地提出每一道试题的题型、难度、章节分布等要求，然后利用随机函数在试题库中进行选题，这种方法选出的试题的确能满足用户的要求，但对使用者来说过于繁琐，工作量太大，并不实用
收稿日期： $%%$ C %D C ??>
万方数据作者简介：王宇颖（ ?ZD!G），女，教授>
来自百度文库
第& 期
王宇颖，等：题库系统试卷自动生成算法研究
・ &$&・
求（如试卷的期望值这样的全局指标）进行分解，得到有关试卷的各项局部指标（如各类试题的分数及难度）；然后在试题库中有目的性地选题，这样可以大大提高组卷的效率和成功率!
［ %］的成绩应大致成正态分布 ! 一张高质量的试卷
图 "#
! ( %- ，" ( "- 的正态分布
234! "# 567869 :3;<73=><3?@ A3<B ! ( %- 6@: " ( "-
# # 其中阴影部分表示本次考试学生成绩落在区内的概率) 由假设知五级难间（ %- , "+， %- - "+）度的试题的题分分布也服从正态分布，将［- ，区间分为 % 个区间，分别对应于 % 级难度，则 "-- ］他们对应的概率应为 /0 (
（哈尔滨工业大学计算机科学与技术学院，黑龙江哈尔滨 ?"%%%? ）
摘# 要：组卷是题库系统的一个重要组成部分，试卷自动生成算法的好坏直接影响到试题库的性能> 分析了目前题库系统进行自动组卷时存在的一般问题后，通过对用户命题要求的研究，提出了一种效率和成功率都比较高的试卷自动生成算法> 这个算法首先产生试卷的量化模型，再根据这个模型在试题库中进行抽题组卷，组卷算法中采用了随机抽取和近似匹配的策略> 关键词：组卷策略；量化模型；近似匹配中图分类号：2@!?? 文献标识码：+ 文章编号： %!AB C A$!D （ $%%! ） %! C %!D$ C %"
［ ?］
分分配矩阵，然后采用随机抽取和近似匹配的策略进行抽题组卷> 此种方法不仅能够生成满足用户命题要求的试卷，而且减轻了用户的工作量，并在一定程度上提高了组卷的效率> 本文提出的组卷策略中提到的用户的命题要求主要包括：（ ? ）试卷的卷面总分 !；（ $ ）试卷的期望值；（ ! ）考试范围，试卷所涉及的章节；（ D ）章节覆盖情况，各章节在试卷中所占的比例；（ " ）题型，试卷中允许出现的题型；（ A ）题型覆盖情况，各种题型在试卷中所占的比例> 用户的命题要求通过人机交互的方式给出，它反映了用户对试卷的整体难度、各章节分布情况以及各类型试题的比例要求> 为了避免题库系统盲目地选题：首先将用户对试卷整体的命题要