测试学复习资料

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

知识点

●语言测试类别

➢根据测试目的分类

①水平测试(Proficiency Test)NRT

学生整体语言水平theory-test selection tests

②学业测试(Achievement Test)CRT

看学生学的怎么样,本门课是否已过关期中期末学业水平考试syllabus-based

③能力倾向测试(Aptitude Test)

能力倾向测试被认为是一种预测措施,表明一个学生是否可能很容易地学习第二语言

④分级测试(Placement Test)NRT

将能力水平相似的同学分到一组,帮助每个学生选择更符合自己水平的课程,一般教学前⑤诊断测试(Diagnostic Test)CRT

教学开始或中间进行诊断了解学生的强弱项反馈信息

➢根据考分解释分类

①常模参照考试(Norm-referenced tests/ NRT)

测试的分数是相对于参加该测试的所有其他学生的分数进行解读的/结果呈正态分布比较好

(normal distribution)

②标准参照考试(Criterion-referenced

tests/CRT)

衡量明确和相当具体的目标;分数的解

释被认为是绝对的,不涉及其他学生的

分数;分数的分布不必正常;学生事先知道考试的问题、任务和内容;

➢其他标准分类

形成性评价(Formative assessment )/ 终结性评价(summative assessment)

根据测试方式分类直接测试(Direct test)/ 间接测试(Indirect test)

根据测量形式分类分离式测试(Discrete-point Test)/ 综合式测试(Integrative Test)

根据考试时间分类速度测试(Speed Test)/ 难度测试(Power Test)

根据影响力度分类高风险测试(High-stakes Test)/ 低风险测试(Low-stakes Test)

●Test usefulness测试的有效性

➢Test usefulness = Reliability+ Construct validity + Authenticity + Interativeness + Impact +

Practica

lity

➢Reliability:信度主要是指测量结果的可靠性、一致性和稳定性,可以视为测试结果受随机误差影响的程度。信度指的是回答这样一个问题:“一个人在测试中的表现有多少是由于测量误差,或者除了我们想要测量的语言能力之外的其他因素?”尽量减少这些因素对考试成绩的影响。

validity:效度与这样一个问题有关:“一个人在考试中的表现在多大程度上取决于我们想要衡量的语言能力?”并最大限度地发挥这些能力对考试成绩的影响。效度是指测试是否测量了被设计用来测量的东西。

信度是效度的基础和必要条件。

➢经典测量理论(CTT)亦称“真分数理论”。该理论假设观测分数X 是由真分数T 及测量误差 E 所组成,即X= T+ E

➢各种信度

1.Test-retest reliability (重测信度): consistency over time

parallel-tests reliability(复本信度) :consistency in form

indicator: reliability coefficient Rxy 取值范围:0-1

2.Internal-consistency reliability (内部一致性信度):是指用来测量同一个概念的多个计量指标的一致性程度。Cronbach alpha (α) (适用于非0,1计分或连续计分)

plit-half reliability (分半信度) :K-R20 /K-R21 (库德--理查逊信度),适用于0,1计分,即所有的题目都是客观题)Rater consistency (评分一致性)

3.Inter-rater reliability

Intra-rater reliability评分员内部信度: rate the same papers at two different times

➢各种效度

1.Construct validity (构念效度)

测验能测到某一理论构念或特质的程度,我的试题是否围绕要考的内容来命题

2.Content validity (内容效度)

说明测试的内容是否符合本课程的教学目标,是构念效度的具体体现,内容咋样一般由专家评定,代表性/抽样的适当性/相关性。

3.Criterion-related validity (效标关联效度)

①Concurrent validity (共时/ 同期效度)

关注一个测试(通常是一个新开发的测试)所测量的内容与另一个已经存在的标准测量之间的关系,后者可能是一个完善的标准化测试。如果这两种测量方法的作用相似(即,它们以相同的方式对候选人进行排名),那么它们就被认为具有并发有效性。

②Predictive validity (预测效度)

从测试中得出的预测被后来收集的证据所证实的程度。e。托福、雅思等。

4.Face validity (表面效度)

由未经训练的观察者判断的一个测试似乎在衡量它声称要衡量的知识或能力的程度。

➢测试的各种属性程度及相关知识

1.Authenticity (真实性)

The degree of correpondence between a given language test task and a target -language-use task . test task---target language use task(TLU) 如口语测试要求真实性强

2.Interactiveness (交互性)

The level of interactiveness will be a function of the characteristics of the test takers--- personal characteristics, language ability, topical knowledge, and affective schemata ---and of the characteristics of the test tasks. 考生特征与考试活动的互动性,考生特征在考试任务的参与度,如选择题交互性弱,小组讨论交互性强

3.Impact/ consequence(后效作用)

根据测试所作出的决定以及这些决定产生的影响

4.Stakeholders(利益相关者)

指最直接受到测试方式以及测试结果和决定的人,政府/学校/老师/学生/家长/用人单位

5.Backwash/Washback(后效作用)

考试对教学的作用,教师的教和学生的学

6.Practicality(考试的可操作性)

7.Test Fairness(考试公正)--专家评定/实证评定

考试中不能有偏见,一道题难对所有人都难,只是能力有差别,与性别、民族、种族无关。

8.High-stakes tests/Low-stakes tests

●考试大纲和考试规范

➢基本概念

1.考试大纲(Test Syllabus):教育部门/考试机构,“考什么”及“如何考”的纲领性文件,宏观层面,考试的内容和方法,为考生和教师。

2.考试规范(Test Specification):考试大纲,具体的、可操作的规定,考试对象/目的/目标/内容/方法/时间/施考流程/评分标准/试卷结构与分值等,命题人员和考试评估人员

●项目分析-经典测试理论(CTT)

➢难度

①概念:难度就是考生在试题/卷上的得分率,指所有考生的得分之和占试题/卷满分总计的比率(均值与满分之比)计为P[0-1]

②难度实指易度,值越大试卷越容易;常模参照测试:试题难度应体现平均水平,应在0.3~

0.7之间标准参照测试:题目难度应反映达标水平,值越大越好

③水平考试(平均水平)期望值0.5比较好,0.3-0.7正常,达标成就考试期望值(达标或录取标准)越接近标准越好,成就(测试学习内容的掌握程度)考试值越大越好

➢区分度

①概念:区分考生的力度,为高分组和低分组的得分率/P之差,计为D [-1~1]

②小于0.2差,重写或淘汰/0.2-0.29中,可写较差,通常需要重写/0.3-0.39良,但仍有改进/≥0.4优

③分组方法对鉴别指数有直接影响。常见分组方法有:50%(二分)、33%(三分)、25%(四分)或27%(大规模测试)

➢项目干扰度

①概念:干扰项干扰力度的大小。选择它的人数越多,干扰力就越强。

②理想干扰度为理想答错比率的均值(1-0.5/3),理想答错比率为0.7~0.3,四选一项目的

相关文档
最新文档