数学建模网评公正和优化模型
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数学建模网评公正和优化模型
关于某竞赛网评结果的建模与分析
摘要
本文针对竞赛的评卷系统进行分析,并提出一整套的合理优化的方案,这其中包括,论文进入集中评审阶段的比例和每位专家所评通过率之间的关系,网评成绩与最终成绩的相关性,评分公平性的检验,改变评审方案所能减少的工作量和一些其他相关问题。
在分析问题一时,我们采用了取特殊值法和概率法两种方法得到相同的两个关于α和λ的表达式,即3
)1(1a --=λ,也符合现实的情况,即随着进入集中评审阶段的论文数量比例λ的增大,评委将打通过比例控制α也在增大。
对于问题二,我们采用研究两组变量之间相关关系的多元统计方法——典型相关分析,识别并量化了两组变量——网评成绩与最终成绩——之间的关系。
同时,采用了F 检验法与T 检验法验证变量与因变量之间的关系能否用一个线性模型来表示。
分析结果显示:评委A 、B 、C 分别对各论文的评分情况与最终成绩的存在相关性,且每篇论文的网评的总体评价结果相关性更大。
对于问题三,由于评卷时有百分制和等级制的区别,因此我们建立了描述百分制下的评分公正性模型——基于夏皮罗一威尔克检验法的公平性检验,和等级制下的评分公正性模型,结合本题数据中的论文A 题,我们应用等级制下公正性模型得到可得68号评委的公正性最大,82号,58号,84号等评委的公正性也比较高。
问题四中,要求不同题目的评委的整体表现是否存在差异性,首先通过单样本K-S 检验等方法确定不同题目评分数据的概率分布,从而确定了显著性差异模型的建立,接着引用F 检验法和T 检验法来进行显著性差异的假设检验。
结果显示,对于不同题目的评委的评价结果均存在差异,其中A 题和B 题评委的整体表现差异性最为显著,B 题和C 题评委的整体表现差异较小。
对于问题五,我们采用分步走方法简化考虑减少的工作量,在评
价论文的评审结果的差异是我们采用排列组合的思想,认为在假设评委打分是公平性的前提下,他们的评审结果无显著差异。
关键字:夏皮罗一威尔克检验法排列组合
一、问题重述
竞赛是选拔人才,培养人才的一种方式,随着时代的发展,竞赛的评阅方式也越来越多,某竞赛的评阅过程分两阶段进行,分别称为网评阶段与集中评审阶段。
在网评阶段,竞赛论文被随机平均分配给每位评委,每份竞赛论文由三位评委评阅,每位评委以“通过”、“不通过”记分,若一篇竞赛论文获得3个“不通过”,则被淘汰,不再进入集中评审阶段的评审。
集中评审阶段不考虑论文的网评成绩。
为了控制进入集中评审阶段的论文数量比例λ,需要确定一个参数α,要求评委将“通过”比例控制在这个参数α左右。
请完成以下建模任务:
1.请建立模型描述参数α与λ之间的关系。
如果希望λ=1/2或2/3,
α分别应取什么值?
2.确定网评成绩与最终成绩的相关性,并根据附件中的评审结果,给出
结论。
3.建立评价评委的公正性以及评阅水平的数学模型,并将其运用于附件
中的评审数据,给出结论。
4.附件中ABCD表示不同题目,分析不同题目的评委的整体表现之间是否
存在差异?如果存在,分析出现差异的可能原因。
5.为了减少网评工作量,有人建议网评分两步进行:第一步,每篇论文
由两位评委评审,获得一个以上“通过”的论文直接进入集中评审阶
段,而获得两个“不通过”的论文进入下一步,请第三位评委评
审,
根据评审结果确定是否进入集中评审。
显然这样做能减少评审工作量。
试问:这样能减少多少工作量?两种评审方案的评审结果的差异如
何?
6.如果集中评审阶段要参考网评成绩,应如何应用网评信息?给出评审
方案,并做出评价。
二、模型假设
1.所有评委需具备一定的专业水平,并且能够客观的对各位选手打分;
1、假设评委的经验和知识背景都足够的丰富,避免造成评阅的明显的不公平性;
2.该比赛至少应有大致评分原则;
3.各评委在评分过程中尺度把握严格,不受到其他评委评分的影响;
4. 每组评委的打分不受论文内容不同的影响,即各评分数据间独立;
5、假设每个评委在评卷过程中不会交流讨论评卷信息,独立自主的评出每份试卷的分数,对于同一份试卷其他评委不会相互透露各自所评的分数;
三、符号说明
四、数据的预处理和分析
4.1通过数据绘图可得
由此图可以看出未拿奖的人数占一半多,第一名和第二名的人数差不多,第三名的人数最少,也符合一般的事实,即一个比赛获奖的
人数占少数
4.2.通过分析数据可得:
102篇论文在网评阶段评委的给分都是通过却在集中评审阶段只拿了成功参赛奖,有55篇论文在网评阶段只得了一个通过却在集中评审阶段获得了三等奖。
问题出现的原因:由于大型比赛一般有很多参赛者,因此论文也多,评委在网评阶段每看一篇论文的时间是有限的,即不排除在网评阶段只考虑论文的整体框架,论文的格式,整体给评委的映像,而没有太多地考虑论文的内容,所以导致了在网评阶段获得了三个通过却最终的结果是成功参赛奖。
结合本文采用的是等级制,出现这种情况的可能性就更得了,例如,如果卷三与试卷四,两张试卷相差一分,采用用等级制,就会评试卷三为通过,试卷四就会被评为不通过,两人分数相当,却相差一个等级,不知道分数的人,就会误认为他们有很大差距呢。
而实际上,他们的分数相差无几。
所以出现了有些论文在网评阶段三个通过,而在集中评审阶段只得了成功参赛奖。
五、模型的建立与求解
5.1问题一模型的建立与求解
5.1.1问题一的分析
问题一要求:为了控制进入集中评审阶段的论文数量比例λ,需要确定一个参数α,要求评委将“通过”比例控制在这个参数α左右。
而进入集中评审阶段的论文数量比例λ运用在一篇论文上则是每一篇论文进入集中评审的概率为λ,我们可将进入和不进入集中评审的论文分为以下几种情况
通过的概率.
5.1.2.问题一的理论支撑:
1.定义:在相同的条件下,进行了n 次试验,在这 n 次试验中,
事件 A 发生的次数 nA 称为事件 A 发生的频数。
比值 n A / n 称为事件 A 发生的频率,并记成)(A f n 。
实践证明:当试验次数n 增大时, )(A f n 逐渐趋向一个稳定值。
可将此稳定值记作P (A ) 作为事件A 概率
2.若事件 A 包含 k 个基本事件,即A ={ω1, ω2 , … ωk }, 则有:
5.1.3问题一模型的建立与求解 5.1.3.1.方法一(特殊值法): 我们可以将问题简化考虑,假设评委人数为三的倍数,首先将三个评委分为一组,则每篇论文只在一组中看完,假设有x 个评委,有y 篇论文,则评委有3÷X 组,每组专家看
()()3÷X ÷y 篇论文,通过分析可得,进入集中评审阶段的论文数
量比例λ,即为每篇论文通过的概率,而每一篇论文不通过是三位专家都打不通过,每位专家打不通过的概率P 为1-α,则a 与λ之间的关系为:
=--3)1(1a λ
5.1.3.2方法二(概率法)
利用概率的知识来求解,由问题一已知每位专家打通过的概率为α,则不通过的概率为1-α,则一篇论文不通过为三位专家的评分都为不通过,它的概率为:
λ
-=X ?X ?X P 1)(321
其中x1,x2,x3为不同专家对一篇论文的评级情况,,它们都代表不同专家对某一篇论文打不通过的事件,且它们之间是相互独立的,由X1,X2,X3独立可得
)()()()(321321X P ?X P ?X P =X ?X ?X P
又α-=X P 1)(1
.)(中基本事件总数包含的基本事件数
Ω=
=A n k A P
则λ-=X ?X ?X P 1)(321 可化为:
λα-=-1)1(3 和方法一的建立的模型一致
5.1.4当λ取不同值a 对应的值当λ=1/2时,a=0.2063 λ=2/3,a=0.3066
5.1.5运用给出的数据检验模型的可信度由已给出的数据可知
5.1.5.1.论文总数为2510
5.1.5.2.进入集中评审阶段的论文为1736 5.1.5.3,则λ为0.69135802469
5.1.5.4.理论上每位评委打通过的篇数35 看的篇数79
5.1.5.5.通过把评委所评论文和通过论文做比较,运用matlab 可画出如下图型
0510
152025
0.4
0.45
0.5
0.55
0.6
0.65
0.7
0.75
评委
经过每位评委的论文通过率
(附件1的程序画出来的图形)
可知题目已给数据不符合每位评委的通过率在α左右,它是波动的。
5.1.5.6.上述问题出现的原因:
评委打通过与不通过,有自己主观因素的影响,也有客观方面的原因。
可能有些评委主观上对论文的要求比较严格,导致通过率较低,而且客观上也不可能要求评委的所打论文的通过率一定要控制在某个很小的范围之内,因为评委所看的论文是随机分配的,不可避免有些评委评阅的论文,论文质量高于另一个评委,如果严格要求评委打的通过率在一个定值左右,则可能比较好的论文没有进入集中评审阶段,而较差的论文却进入了集中评审阶段,导致公平性得不到保证。
5.2问题二模型的建立与求解
5.2.1 问题二的分析
为研究网评成绩与最终成绩的相关性,我们首先将评委的打分情况以及最终成绩进行量化(评委打分通过记为1,不通过则记为0;一等奖记为3,二等奖记为2,三等奖记为1,成功参赛奖记为0),由实际情况可知,评委打分情况是集中在一个稳定的范围之类且评委打分是相互独立的,我们可使用经典的回归分析。
回归分析是研究客观事物间关系的,建立在对客观事物进行大量试验和观察的基础上,寻找统计规律性的统计方法。
5.2.2 模型的建立
(1)为揭示被解释变量与其他多个解释变量之间的关系。
则可建立模型;
ε+=),,(21n x x x f y (1)
其中y 是因变量,亦称为被解释变量;n x x x ,,,21 是自变量,亦称为解释变量;
),,(21n x x x f y =是回归函数,ε是随机误差,表示受随机因素影响而未能察觉
到的偶然因素。
y 由自变量和随机误差共同决定,表达出了y 对各个自变量间既有的联系,又有不确定性的特点。
线性回归方程确定后的任务是利用已经收集到的样本数据,根据一定的统计拟合准则,对方程中的各参数进行估计。
普通最小二乘就是一种最为常见的统计拟合准则。
最小二乘法将偏差距离定义为离差平方和,即
2
110))((),,(∑=-=n
i i i p y E y Q βββ (2)
最小二乘估计就是寻找参数n βββ,,,10 的估计值n
βββ?,,?,?10 使式子达到极小。
通过求极值原理(偏导为零)和解方程组,可求得估计值,SPSS 将自动完成。
(2)回归方程的显著性检验(F 检验)
一般地,回归方程的假设检验包括两个方面:一个是对模型的检验,即检验自变量与因变量之间的关系能否用一个线性模型来表示,这是由F 检验来完成的;另一个检验是关于回归参数的检验,即当模型检验通过后,还要具体检验每一个自变量对因变量
的影响程度是否显著,而多元线性回归方程显著性检验的零假设是各个偏回归系数同时为零,检验采用F 统计量,其数学定义为:MSE
MSA
p n y
yi p
y y
F n
i i
n
i =
----=
∑∑==1
2
121
)
1/()?(/)?( (3)即平均的SSA/平均的SSE ,F 统计量服从(p ,n-p-1)个自由度的F 分布。
SPSS 将会自动计算检验统计量的观测值以及对应的概率p 值,如果p 值小于给定的显著性水平α,则应拒绝零假设,认为y 与x 的全体的线性关系显著。
5.2.3模型求解
首先,通过SPSS 对网评成绩与最终成绩进行相关性验证,是否存在关系式
ε+=),,,(321x x x x f y ,其中x 为网评阶段评委评分总体情况,现得到结果如下:
b Dependent Variable: y
表一
由表一结果可知:y 与x x x x ,3,2,1整体的线性关系显著。
Coefficients(a)
表中显示偏回归系数检验有x1、x2、x 是显著的,只有x3不显著,
即与0无显著差异。
Correlations
Pearson Correlation Y
1.000 .555 .516 .528 .669 X1 .555 1.000 .466 .434 .795 X2 .516 .466 1.000 .453 .803 X3 .528 .434 .453 1.000 .790 X .669 .795 .803 .790 1.000
Sig. (1-tailed) Y . .000 .000 .000 .000
X1 .000 . .000 .000 .000
X2 .000 .000 . .000 .000
X3 .000 .000 .000 . .000
X .000 .000 .000 .000 .
N Y 2510 2510 2510 2510 2510
X1 2510 2510 2510 2510 2510
X2 2510 2510 2510 2510 2510
X3 2510 2510 2510 2510 2510
X 2510 2510 2510 2510 2510
表三
表三反映了各变量之间的相关系数矩阵,y与x的全体的线性关系式可得
ε
+
+
+
+
=x
x
x
x
y669
.0
528
.0
516
.0
555
.0
3
2
1。
因此,网评成绩与最后成绩存在显著的相关性。
5.3问题三模型的建立与求解
5.3.1问题三的分析
一般的大型比赛,由于题目的灵活性和参赛学生的多样性, 使得答案多种多样, 评委在评卷时对评分标准的尺度也就难以把握,对考生的评分就不可避免地存在误差. 产生评卷误差是客观存在的, 只能控制, 不能消灭. 对于控制评卷误差, 有关专家学者做了大量的研究, 采取过很多措施,例如网上评卷模式、基于神经网络技术的评卷模式等[1~ 3 ].
通过分析题目数据可知,102篇论文在网评阶段评委的给分都是通过却在集中评审阶段只拿了成功参赛奖(具体哪些试卷是这种情况见附录2),有55篇论文在网评阶段只得了一个通过却在集中评审阶段获得了三等奖(具体哪些试卷是这种情况见附录3)可见评委的公正性以及评阅水平值得商榷。
5.3.3模型的建立
5.3.3.1百分制下的评分公正性模型
5.3.3.1.1基于夏皮罗一威尔克检验法的公平性检验: 1、问题分析
在分析公平性时,当评委所给出的分数所属总体服从正态分布,我们就认为其不存在公平性问题。
当评委评评委分普遍偏低多普遍偏高,但其评分服从正态分布,只是属于尺度偏差,不是公平性问题,我们仍认为其服从公平性。
目前,正态分布的样本的检验方法大致有矩法,W 检验法,Q-Q 图法,P-P 图法,考虑到竞赛评卷时每位评委评卷数量的样本容量较小情况,因此可以采用夏皮罗一威尔克检验法对其检验,具有灵敏度高,计算简便,所需样本容量较小等优点。
2、建立模型
对于一个符合容量为n 样本(
n
x x x x ,...,,,321)样本均值为
∑==n
i i
x n x 11 样本标准差为:
∑=-=n i i x x n S 1
2)(1
将样本观测值(n
x x x x ,...,,,321)按从大到小的次序排列,处在第i 个位置的数记作
)
(i x ,i=1,2,...,n 。
W 检验所用统计量的计算公式为:
2
2
nS L W =
)
()()1(1
k k n l
k k x x a L -=-+=∑
k
a 是W 检验必须的系数,而
=-为偶数为奇数,n n n n l ,221
W 与样本值的分布有关,其值在(0,1)之间,如果所作“样本值来自正态总体”的统计假设的正确的,样本值的分别应近似对称的,这时W 值应接近于1,反之,如果样本值不是来自正态总体,则样本值分布是不对称的,W 越偏离于1,样本值分布偏离正态性越远,不对称性越大;W 值越接近于1,表示样本值分布的正态性越好。
若1≤<="" 若wa="" ,则接受正态性假设。
="">
具体的检验的步骤如下:
1)将测定值由小到大顺序排队。
2)根据样本容量的大小,即测定值的数目,由夏皮罗—威尔克检验系数表中查出相应于不同i 的时的
i
a 值。
3)计算W 值,并将其与临界a
W 比较,若W>
a
W ,则认为样本值来自非正态
总体。
接下来便可以评价评委公平性:W 越偏离于1,样本值分布偏离正态性越远,不对称性越大,认为该评委在试卷评阅时出现尺
度偏差。
4)当对评委评分的样本数据做检验后得到W 值,我们定义偏离度
a i
i w w h --=
11(i=1,2,3,4)
当i h
越小证明该评委公平度越高,当所得值大于1,则证明该评委的评卷的公平
性存在问题
5.3.3.2等级制下的评分公正性模型该模型引入几个统计量,根据各评委的评分特点在这些统计量上表现出来的不同特征,对不同特点的评委进行分类,从而实现评分一致性或公正性的检验。
偏高偏低。
用流程图表示如下:
具体模型如下:
1)先求出第i 份试卷所有评委的平均等级L
T S iJ
l
L
j ∑==
1
2)根据l S 求出N 份试卷的平均等级
L
Si
S
L
j ∑==
1
'
3)求第j 个评委所评试卷的平均等级
'
1'Nj
Tij
T Nj j J ∑
==
4)求第j 个评委的尺度偏差
'S Tj Rj =
5)根据尺度偏差J R 调整该评委所有评分等级,J IJ IJ R T T *' =
6)求第j 个评委的公平度
∑
-=
=2
'1
)(1
'Si Tij a Nj i j
7)根据求得的公平度,公平度越大,对应的评委公平性越高,反之越小 8)在公平度较高的里面再根据尺度偏差J R 来判断是属于普通偏高。
普通偏低还是客观公平型
9)在公平度低的里面根据j D 判断是否大于波动型还是作弊型。
2
'
1
1
)|
|('
'Nj Si Tij Tij Dj Nj i Nj i --
=∑∑
==
5.3.3.2模型的求解(基于题目所给数据)
通过分析可得,每位评委在ABCD 论文中所评论文数量大致一样
由图可以得出,每位评委都担任A 、B 、C 评委但每位评委担任不同的评委次数不相同,并且每位评委总的当评委的次数大致一样,这个也使最终评审结果对考生更公平。
为了问题的简便,我们选取了A 题目的评委评分情况,按照问题二的量化,根据上述等级制模型,一步一步分别计算1)-6)步(具体
计算过程数据见附件4,题目三的有用数据)可得如下表格排序得:
A的分析,可得68号评委的公正性最大,82号,58号,84号等评委的公正性也比较高,由上表可知3号评委的公正性最低。
公正性也从侧面反映了评委的评卷水平,如果一个评委连公正性都得不到保证,那么他的评阅水平也不会好很多,它们之间应该是呈同方向变动的,其他情况,可以根据问题三的数学模型,把要求的数据对应代到模型中即可得到结果。
5.4问题四的模型建立与求解
5.4.1问题四的分析
问题四要求不同题目的评委的整体表现之间有无差异,我们由以下三个步骤组成:
(1)论文样本评分概率分布的确定,以便确定显著性差异模型的
类型。
(2)不同题目的评委评价结果的显著性差异模型的建立,主要通过Wilcoxon符号秩检验法进行显著性差异的假设检验;
(3)建立秩相关分析评价模型,并通过该模型判断不同题目的评委评价结果在可信度方面的优势。
5.4.2各论文样本评分数据概率分布的确定
分别对A、B、C、D的评委网评差异性评价的假设检验一般要求数据符合正态分布。
统计规律表明,正态分布有极其广泛的实际背景,生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述[2]。
因此,对评委评分进
行正态性检验有助于我们分析得出该评分是否科学、合理。
利用SPSS 统计软件中的P-P 图对数据集四组评委分别对A 、B 、C 、D 得到的四组评价结果(见附录8.1.2)进行了正态分布检验,若样点在正态分布P-P 图上呈直线散布,则被检验数据基本上成一条直线[3]。
One-Sample Kolmogorov-Smirnov T est
图2 A 题评价结果的正态P-P 图
从该图2可以看出A 题数据的散点分别近似为在一条直线上,与对角线很接近,故A 题评委网评差异性评价的假设检验大致符合正态分布,也就验证了我们上述单样本K-S 检验法的合理性。
类似的,B 、
C 、
D 评委评价结果也成正态分布(见附录)。
5.4.3 模型的建立
由于不同题目的评委网评情况大致属于正态分布,为了进一步说明评委评分的科学性,检查不同题目评委给出的评分是否有显著差异,即对数据进行显著性检验。
5.4.4 差异性检验
F-检验,验证各不同题目得分方差有无差异,运用excel 对A 、B 、C 、D 四组的论文的总分进行F-检验。
F-检验法步骤如下:
(1)计算统计量方差之比:)(*)/()(*)(2211S S S S F =,)(*)/()(*)(3311S S S S F =,
)(*)/()(*)(4411S S S S F =,)(*)/()(*)(3322S S S S F =
其中)(*)(),(*)(2211S S S S 分别为A 、B 两题分数的方差(同理求C 、D 方差)。
(2)查F 分布表;
(3)当计算所得的F 值大于F 分布表中的相应显著水平a 和自由度21,f f 的临界值
a F ,),(21f f ,即F 大于a F ,),(21f f 时,则两组方差之间方差之间有显著性差异;
当F 小于a F ,),(21f f 时,则两组无显著性差异。
在编制F 分布表时,是将大方差做分子,小方差做分母,所以,在由样本值计算统计量F 值时,也要将样本方差,11*s s 、22*s s 中的较大一个作为分子,较小一个作为分母。
t 检验法
用以比较一个平局值和标准值之间或两个平均值之间是否存在显著性差异。
进行t 检验的称许如下:
(1)选定所用的检验统计量,当检验样本均值X 与总体均值 u 是否存在显著差异时,使用统计量。
))(//()(n sqrt s u x t
-=,式中s--标准
差。
当检验两个平均值之间是否存在显著性差异时,使用统计量
))*/(*(*/)(2121221n n n n sqrt s x x t -=;
其中2s 为合并标准差,按下试计算
)
4(**)1(**)1(**)1(**)1(43214
443332222112-+++-+-+-+-=n n n n s s n s s n s s n s s n sqrt
s
式中11*s s --第一个样本方差
22*s s --第二个样本的方差 1n --第一个样本的测定次数
2n --第二个样品的测定次数
(2)计算统计量,如果由样本值计算的统计量大于t 分布表中相对应显著性a 和相对应自由度f 下的临界值ta ,f 则表明被检验的均值由显著性的差异;反之差异不显著。
应用t 检验时,要求被检验的两组数据具有相同或相近的方差,因此,在进行t 检验之前必须进行f 检验,只有在两方差一致性的前提下才能进行t 检验。
5.4.5模型求解根据四组数据,分别计算平均值x 、标准偏差s 及获奖比列。
1x =0.498889,1s =0.500138; 2x =0.492754,2s =0.50004 3x =0.492716,3s =0.500161; 4x =0.479167,4s =0.499699
计算合并标准差
)
4(**)1(**)1(**)1(**)1(43214
443332222112-+++-+-+-+-=n n n n s s n s s n s s n s s n sqrt
s
代入解得
1871
116626901800499699/0*1871500161.0*116650004.0*26905 00138.0*18002
2222++++++=sqrt
s =0.078
由于四组方差很接近,可以继续进行t 检验:
)]/(*[*/)(2121221n n n n sqrt s x x t +-=
代入:
)]26911801/(2691*1801[*078
.0492754.0498889.01+-=sqrt t =33.11
)]11671801/(1167*1801[*078
.0492716.0498889.02+-=sqrt t =2.11
)]18721801/(1872*1801[*078
.0479167.0498889.03+-=sqrt t =7.66
)]11672691/(1167*2691[*078
.0492716.0492754.04+-=sqrt t =0.014
)]18722691/(1872*2691[*078
.0479167.0492754.05+-=sqrt t =5.79
)]18721167/(1872*1167[*078
.0479167.0492716.06+-=sqrt t =4.66
根据分别计算出的AB 、AC 、AD 、BC 、BD 、CD 的统计量,可以检验两组平均值之间是否存在显著性差异,根据上述结果,可以很直观的显示出
5.5问题五的模型建立与求解
5.5.1问题五的分析
题目中所说的获得一个以上“通过”的论文直接进入集中评审阶段,而获得两个“不通过”的论文进入下一步,请第三位评委评审,题目引起歧义,如果把一个以上理解为两个,则对于一篇论文一个评
委打通过另一个评委打不通过的情况,没有说清楚。
因此,我们把一个以上“通过”理解为获得一个和两个“通过”的论文直接进入集中评审阶段,减少的工作量定义为减少网评阶段评委平均所看论文的数量,实际上减少的工作量有多方面的理解,可以是在论文数量和评委人数
不变的前提下,减少网评阶段评委平均所看论文的数量;也可以是为了评价通过调整评委的阅卷规则来减少工作量,为了减少其他因素对工作量的影响,我们假设除了规则改变外,其它因素保持不变,例如进入集中评审阶段的论文数量比例λ,评委将“通过”比例控制在这个参数α左右等都保持不变。
5.5.2问题五模型的建立与求解5.5.2.1原文意思图解
图一
图二 5.5.2.2具体建模过程 5.5.2.2.1第一阶段
减少的工作量可以分为两个阶段来比较,第一个阶段只考虑三位评委看一篇论文和两位评委看一篇论文。
1) Avgp=(M*k )/N ……… 则每位评委的平均评卷工作量为 2) P1=(M*3/N)-(M*2/N)……… 结合本题,减少的工作量为
第二个阶段,当两个评委都评不通过时,则每个评委的平均工作量增加,由假设可知:
3) a ………. 每位评审打通过的概率 4)1-a ………不通过的概率
5) ()2
1a -………则一篇论文两个评委都打不通过的概率
则还需进入下一个阶段,即由第三位评审来评阅 6) M*()2
1a -………三位评审来评阅的概率
这也是在只有两位评委评审的基础上增加的工作量,
7) ()[]
N ÷-*M -P =P 2
11a ……总的每位评委的平均工作量减少
5.5.2.3模型的求解
当M=2510 ………论文总篇数N=93 ………评委总人数
a=0.2063 ………评委打通过的概率则p=9.9871 ………每位评委减少的工作量
通过以上分析可得,如果评委的评卷方案由题目所给情况改为先由两个评委评审,获得两个不通过则由第三位评委评审,则在论文篇数为2510,评委人数为93时,平均每位评委可减少10篇左右的论文的评审。
4.5.2.2.3排列组合的原理:
排列的定义及其计算公式:从n个不同元素中,任取m(m≤n,m 与n均为自然数,下同)个元素按照一定的顺序排成一列,叫做从n个不同元素中取出m个元素的一个排列;从n个不同元素中取出m(m≤n)个元素的所有排列的个数,叫做从n 个不同元素中取出m个元素的排列数,用符号A(n,m)表示。
A(n,m)=n(n-1)(n-2)……(n-m+1)= n!/(n-m)! 此外规定0!=1。