测试学复习资料 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

测试学复习资料

知识点

●语言测试类别

根据测试目的分类

① 水平测试（ Proficiency Test ） NRT

学生整体语言水平 theory-test selection tests

② 学业测试（ Achievement Test ） CRT

看学生学的怎么样，本门课是否已过关期中期末学业水平考试 syllabus-based

③ 能力倾向测试（ Aptitude Test ）

能力倾向测试被认为是一种预测措施，表明一个学生是否可能很容易地学习第二语言

④分级测试（ Placement Test ） NRT

将能力水平相似的同学分到一组，帮助每个学生选择更符合自己水平的课程，一般教学前

⑤ 诊断测试（ Diagnostic Test ） CRT

教学开始或中间进行诊断了解学生的强弱项反馈信息

根据考分解释分类

① 常模参照考试（ Norm-referenced tests/ NRT ）

测试的分数是相对于参加该测试的

所有其他学生的分数进行解读的 / 结果呈正态分布比较好（ normal distribution ）

②标准参照考试（ Criterion-referenced tests/CRT)

衡量明确和相当具体的目标；分数的解释被认为是绝对的，不涉及其他学生的分数；分数的分布不必正常；学生事先知道考试的问题、任务和内容；

其他标准分类

形成性评价（ Formative assessment ） / 终结性评价（ summative assessment ）

根据测试方式分类直接测试（ Direct test ） / 间接测试（ Indirect test ）

根据测量形式分类分离式测试（ Discrete-point Test ） / 综合式测试

（ Integrative Test ）

根据考试时间分类速度测试（ Speed Test ） / 难度测试（ Power Test ）

根据影响力度分类高风险测试（ High-stakes Test ） / 低风险测试（ Low-stakes Test ）

● Test usefulness 测试的有效性

Test usefulness = Reliability+ Construct validity + Authenticity + Interativeness + Impact + Practicality

Reliability ：信度主要是指测量结果的可靠性、一致性和稳定性，可以视为测试结果受随机误差影响的程度。信度指的是回答这样一个问题:“ 一个人在测试中的表现有多少是由于测量误差，或者除了我们想要测量的语言能力之外的其他因素?” 尽量减少这些因素对考试成绩的影响。

validity ：效度与这样一个问题有关:“ 一个人在考试中的表现在多大程度上取决于我们想要衡量的语言能力?” 并最大限度地发挥这些能力对考试成绩的影响。效度是指测试是否测量了被设计用来测量的东西。

信度是效度的基础和必要条件。

经典测量理论 (CTT) 亦称“ 真分数理论” 。该理论假设观测分数 X 是由真分数

T 及测量误差 E 所组成，即 X= T+ E

各种信度

1. Test-retest reliability ( 重测信度 ): consistency over time

parallel-tests reliability （复本信度 ) :consistency in form

indicator: reliability coefficient Rxy 取值范围： 0-1

2. Internal-consistency reliability ( 内部一致性信度 ) ：是指用来测量同一个概念

的多个计量指标的一致性程度。Cronbach alpha (α) ( 适用于非 0,1 计分或连续计

分 )

plit-half reliability ( 分半信度 ) : K-R20 /K-R21 ( 库德 -- 理查逊信度 ) ，适用于 0,1 计分，即所有的题目都是客观题） Rater consistency ( 评分一致性 )

3. Inter-rater reliability

Intra-rater reliability 评分员内部信度 : rate the same papers at two different times 各种效度

1. Construct validity ( 构念效度 )

测验能测到某一理论构念或特质的程度，我的试题是否围绕要考的内容来命题

2. Content validity （内容效度）

说明测试的内容是否符合本课程的教学目标，是构念效度的具体体现，内容咋样

一般由专家评定，代表性 / 抽样的适当性 / 相关性。

3. Criterion-related validity ( 效标关联效度 )

① Concurrent validity （共时 / 同期效度）

关注一个测试 ( 通常是一个新开发的测试 ) 所测量的内容与另一个已经存在的标准

测量之间的关系，后者可能是一个完善的标准化测试。如果这两种测量方法的作用相似 ( 即，它们以相同的方式对候选人进行排名 ) ，那么它们就被认为具有并发有

效性。

② Predictive validity （预测效度）

从测试中得出的预测被后来收集的证据所证实的程度。 e 。托福、雅思等。

4. Face validity （表面效度）

由未经训练的观察者判断的一个测试似乎在衡量它声称要衡量的知识或能力的程度。