5、教育评价常用的工具与方法(1)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
教育评价工具是指对评价对象进行评价时 所采用的方式和手段。
教育评价方法是指评价的程序和角度;
巴登(BUVTON,W.H.)在《活动指南》 (THE GUIDANCE OF ACTIVICE)一 书中,把教育评价工具列出了以下12种: 1.传统的论文式考试 2.改良的论文式考试 3.标准测验(智能测验、学习能力测验、 人格测验、性向测验) 4.教师自制的客观测验(填空法、完成法、 真伪法、选择法) 5.问题情景测验(直接方法、间接方法)
二、标准测验的质量要素(P127) 1、信度。是指测验的一致性、稳定性或可靠性。 可从以下几方面来提高测验的信度 : ( 1 )适当延长测验的长度 : 测验的长度主要指量表所包含的题目多少。对 一个测验来说 , 测验的题目越少 , 得分越容易 受偶然因素的影响 , 故测验的信度越低。 反之 如果测验题目较多 , 即测验长度延长 , 扩大了 被试得分范围 , 可在一定程度上排除偶然因素 的影响 , 从而提高测验信度。但是测验信度的 增加并不是等比例提高信度系数。当信度系数 较小时 , 延长测验长度信度系数增加较大 ; 当 信度系数已经较大时 , 延长测验长度对信度系 数的影响就较小了。而且 , 在延长测验长度时 , 还需考虑其他因素的影响 , 如被试在回答问题 时是否疲倦或产生厌烦情绪 , 是否节省时间、 物力和财力 , 测题是否附合测验目的等。
第二节 第三节 第四节 第五节
问卷法 访谈法 观察法 文献法(略)
第六节 轶事记录法 实际上是行动观察法的延续。一般用于评价学 生。 轶事记录是指把学生在日常生活中出现的具有 典型意义的事件记录下来。籍以对学生的思 想品德进行评价。 在做轶事记录时,教师一定要克服偏见,既不 能对“好学生”的坏事不记,也不能对自己 认为的坏学生的好事不记。记录认真做起来 很费时间,但对于学生思想品德评价来说, 能够获取较多的信息。
(5) 正确处理好信度与效度的关系 : 信度是效度的 必要条件 , 但信度高的测验 , 效度不一定高 ; 而效度高的测验 , 信度却比较高。但是 , 既要 有高效度 , 又要有高信度是不容易做到的。 “最大可靠度(信度)要求测验项目之间有高 度的组间相关; 最大预测有效度却要求低度的 组间相关。最大可靠度(信度)要求项目等同 的难度; 最大预测有效度却要求项目的难度有 所区别。中等程度的组间相关( 0.10 ─ 0.60), 通常可产生良好的效度 (0.30 ─ 0.80), 并且产 生满意的信度 (0.90) 。” ( 郝德员 : 《教育与 心理统计》 , 教育科学出版社 ,1962 年 版 .P429)
(6) 适当增加测验的长度 : 增加测验的长度 可提高测验的信度 , 也可以提高效度 , 但 增加测验的长度对信度的影响大于对效 度的影响。
信度与效度不仅是标准测验的重要标准, 也是非标准测验、乃至所有评价的重要 标准
3、难度(Difficulty) :简单说是指测验的难易程 度 , 通常是以题目的通过率来表示大小的 , 通 过率是指被试正确回答或通过题目的人数与所 有被试之比 4、区分度 (Dscimination) 是指测验项目对被试 实际水平的区分程度 , 又称鉴别力。具有良好 区分度的测验 , 实际水平高的被试应得高分 , 水平低的被试应得低分。
第七节 人物推定法
这也是主要用于学生评价。人物推定法是在教师指引下, 在学生集体中相互进行的评价。这种方法很像选举,但 并非选举。例如,要了解学生在班级日常生活中的表现, 可制作成下列人物推定卷:
•它对于人格、 态度、习惯之 别人有困难主动帮助, 2、 类的测定有较 大扫除时认真负责,这 高的信度和效 样的同学是谁? 3、 度。
案例:投射性测验之主题统觉测验(TAT)
TAT由30张具有情境但主题含糊的图片构成,要 求被试根据卡片上的情境编故事,故事内容应 该包括:
(1)图中显示的是一种什么样的情境,即发生
了什么事?
(2)什么原因导致此情境的发生? (3)可能会有什么样的结果? (4)当事人的思想感受如何?
总之,标准化测验具有命题标准化、题型标准化、 评分标准化、计分标准化等特点,因此; 标准化测验不会因测验实施者的不同而不同 受测者的成绩可以相互比较 可以客观地了解个人在集体中的相对位置。
常用的标准化测验有标准化考试、智力测验、学 力测验、人格测验和性向测验等。
然而, 建立参照量表通常需要以有代表性的总体为基 础,因此,标准化样本容量必须足够大,通常 是2000以上,对于应用很广的测验样本通常要 上万。因此,标准化测验的设计与实施不是教 师个人能完成的。
编制和实施标准化测验的要求: 1.要有测验大纲和测验指导书,规定测验的范围、 内容、要求、方式、题型和评分计分方法。 2。要按照测验大纲制定出“命题细目表”,具 体规定每一考察目标和教学内容在整份试卷中 占的比重。 3.进行预测,计算各题的难度、区分度和整份试 卷的信度及效度,调整试卷的整体难度,使学 生的测验成绩呈正态分布。 4.实施过程中要统一规范、统一时间、统一环境, 测验后要统一阅卷步骤和要求,严格规定评分 标准 5.建立参照量表,提供解释分数的常模,以便把 测验的原始分数转换成标准分数,使测验结果 有明确的统计学意义
劳动中不怕脏、不怕累,1、
……
一个关于理科学习兴趣的案例 (写出三人的名字)
1、喜欢采集并调查植物、昆虫标本的是谁?
2、喜欢收集并研究各种奇形怪石的是谁? 3、喜欢饲养并研究小鱼、小鸟等小动物的是谁? 4、喜欢制作、摆弄各种机械器具的是谁? 5、有不明白的问题,自己动手做实验,并进行研究 的是谁? 6、对天文等感兴趣,经常在夜晚观测星星的是谁?
6.行动观察记录(自然观察、时间样本观 察、情景样本观察、真相观察) 7.自我诊断测验(自陈法) 8.问卷法 9.接谈法 10.创作,作品分析 11.实验报告、研究报告,作品,实演及其 他业绩之分析 12.个案研究 以上这些工具,在我国基本上以采用,只 是名称不同,有的常用面不广
第一节 测验法
一、标准测验(正式测验) 标准测验,又称标准化考试,,是根据现代考试理论, 运用现代统计手段,严格按照科学程序设计与实施, 并且有统一标准的考试。它一般是由专家在对优秀测 验的诸种条件进行研究的基础上,亲自编制而成的, 除了测验试题外,还应经过科学手续制定一定的评价 标准即常模。当使用这种测验试题进行考试时,只要 把测验后的结果同这一常模作对比分析,便可判断被 试者的程度。由于这种考试的试题和常模是经过科学 程序制作而成的,故测验分数比较稳定,可靠性强, 测验分数不会因考试地点、时间及工作人员的不同而 发生变化。而且这种考试的代表性很高,适用范围很 广,小到一个地区,大到全国,甚至全世界。如美国 专为外国留学生设计的英语水平考试(TOEFL),就 是一种适用于全世界范围所有国家和地区考生的标准 化考试。为了保证考试的有效性,同时也为了保证考 试的稳定性和代表性,这种考试的题置一般都很大, 且以客观性试题为主。
使用时需注意下列几点: 1、对于小学一二年级不适用,因为一二年 级判断力弱;对于高年级学生(特别是 高中以上的学生)在细节上要多加注意, 因为他们很敏感。否则信度效度会受影 响。 2、如果考察对象中既有男生又有女生,统 计时需将二者分开 3、这一技术只适用于经常在一起的人群。
第八节 投射法
是对被评价者给予一定的刺激让其自由反应 (回答及表情),透过各个不同的反应以把 握人的个性和心理状态。 例如:为测验某种心理状态,可以给被评价者 看若干张图画,然后要求被评价者按按要求 编出一个故事。 编造的故事需要包括过去、现在和未来。从编 造的故事中可以看出一部分被评价者内心的 动向和某些心理特征。
二、教师自编测验(非标准化测验、非正式测验) 非标准化测验:在学校教育中,大量的、经常使 用的测验都是由教师自己编制的非标准化测验, 如单元考试、期中考试、期末考试及毕业考试 等。根据考试题目类型的不同,非标准化测验 又可分为论文式测验、客观式测验、问题情境 测验、问卷测验等。属于非标准化测验,多用 于平时教学中的学业成就评价。 标准化测验不一定比非标准化测验更优越。如, 当我们有意比较不同班级和不同学校的学生成 绩时,标准化测验与评估是合适而且有效的, 否则没有太多必要。
虽然原画面上只有一个妇女站在敞开的门口,
看着房间,但被试的反应却暴露出他与母亲 的某种关系,并引出了这一母亲支配儿子的 故事。后来事实证实了临床医生的解释,即 这一故事确实反映了被试自己的问题
再如: 我在……时感到幸福。 我在……时会说谎。 令我烦恼的是…… ……的时候,我最得意。 注意:投射法提出的问题,初看起来都和被评价 者没有直接利害关系,否则就不易得出真实信 息。
( 4 )测验的时间要充分 : 对某一测验而言 , 应 保证绝大多数被试在规定时间内完成测验 ; 否 则 , 如果被试不能从容回答所有问题 , 就不能 反映被试的真实水平。 ( 5 )测验的程序要统一 : 包括测验的题目统一 , 指导语、 回答问题的方式、分收试卷的方法、 测验时间等都要统一。 ( 6 )评分要客观 : 评分是否客观对测验信度有 直接的影响。对于客观性题目 , 评分标准明确 , 评分容易做到客观 ; 但对于主观性题目 , 受评 分者影响较大 , 不易做到客观。为了尽可能客 观评分 , 应制定明确而易掌握的评分标准 , 尽 量做到一卷多评 , 或一人只评一题等。
•例如,当把下图呈现给一位21岁的男青年时,他讲述了 如下的故事:
她正在收拾屋子以迎接某人的到来,她打开
门,最后一遍扫视房间。也许她正在盼望儿 子回家。她试图把所有的东西恢复到儿子出 门时的原样。她的性格似乎十分专横,支配 着儿子的生活,一旦儿子回来她还要继续控 制他。这仅仅是她的控制的开始。她的儿子 一定被她的专横态度所吓倒,将顺从滑入她 的井然有序的生活方式之中。他将按照母亲 规定的单调乏味的生活道路走下去。所有这 一切都意味着她完全主宰着他的生活直至她 死去。
( 2 )测验的难度要适中 : 难度即测验的难易程 度 , 当测验难度太大时 , 被试得分普遍太低 , 呈负偏态分布 ; 当测验难度太小时 , 被试得分 普遍较高 , 呈正偏态分布。太难太易的测验都 使被试得分差异减小 , 使实得分数方差减小 , 从而降低测验信度。
( 3 )测验的内容尽量同质 : 性质相同的测验内 容 , 对被试也要求相同的能力、知识和技能 ; 而内容不同质的测验 , 则要求被试不同的能力、 知识和技能。因而为了提高测验信度 , 测验内 容应尽量同质。
2、效度。是指测验的有效性或准确性。它 是获得高质量的、有意义评价的决定性 要素。没有效度的话,测量数据就不能 带来正确的评价。 提高测验效度的方法 : (1)控制系统误差 : 系统误差是影响测验 效度的主要因素。它主要包括仪器不准 , 题目和指导语有暗示性 , 答案安排不当 ( 被试可以猜测 ) 等 , 控制这些因素可以 降低系统误差 , 提高效度。
(2) 精心编制测题和测验量表 : 首先测题内容要适 合测验目的 , 如知识性测题就不能全面反映被 试的智力水平 , 它主要测量其知识水平。其次 , 测题要清楚明了 , 用语要让被试理解 , 排列由 易到难。第三 , 测题的难度和区分度要合适。 (3) 严格按照测验程序进行测量 , 防止测量误差 : 要严格按照测验手册进行测量 , 不能作过多的 解释 , 按标准评分 , 两次测验间隔要适当。 (4) 样本容量要适当 : 当样本容量增大时 , 样本 对总体的代表性提高 , 样本大 , 被试的内部差 异增大 , 扩大了真分数的方差 , 使效度Hale Waihona Puke Baidu高。 样本容量一般不应低于 30 。另外 , 抽样方法 也很重要 , 一般用随机抽样 , 当群体很大时 , 可分层抽样 , 样本容量扩大时 , 其代表性才随 之增大。
教育评价方法是指评价的程序和角度;
巴登(BUVTON,W.H.)在《活动指南》 (THE GUIDANCE OF ACTIVICE)一 书中,把教育评价工具列出了以下12种: 1.传统的论文式考试 2.改良的论文式考试 3.标准测验(智能测验、学习能力测验、 人格测验、性向测验) 4.教师自制的客观测验(填空法、完成法、 真伪法、选择法) 5.问题情景测验(直接方法、间接方法)
二、标准测验的质量要素(P127) 1、信度。是指测验的一致性、稳定性或可靠性。 可从以下几方面来提高测验的信度 : ( 1 )适当延长测验的长度 : 测验的长度主要指量表所包含的题目多少。对 一个测验来说 , 测验的题目越少 , 得分越容易 受偶然因素的影响 , 故测验的信度越低。 反之 如果测验题目较多 , 即测验长度延长 , 扩大了 被试得分范围 , 可在一定程度上排除偶然因素 的影响 , 从而提高测验信度。但是测验信度的 增加并不是等比例提高信度系数。当信度系数 较小时 , 延长测验长度信度系数增加较大 ; 当 信度系数已经较大时 , 延长测验长度对信度系 数的影响就较小了。而且 , 在延长测验长度时 , 还需考虑其他因素的影响 , 如被试在回答问题 时是否疲倦或产生厌烦情绪 , 是否节省时间、 物力和财力 , 测题是否附合测验目的等。
第二节 第三节 第四节 第五节
问卷法 访谈法 观察法 文献法(略)
第六节 轶事记录法 实际上是行动观察法的延续。一般用于评价学 生。 轶事记录是指把学生在日常生活中出现的具有 典型意义的事件记录下来。籍以对学生的思 想品德进行评价。 在做轶事记录时,教师一定要克服偏见,既不 能对“好学生”的坏事不记,也不能对自己 认为的坏学生的好事不记。记录认真做起来 很费时间,但对于学生思想品德评价来说, 能够获取较多的信息。
(5) 正确处理好信度与效度的关系 : 信度是效度的 必要条件 , 但信度高的测验 , 效度不一定高 ; 而效度高的测验 , 信度却比较高。但是 , 既要 有高效度 , 又要有高信度是不容易做到的。 “最大可靠度(信度)要求测验项目之间有高 度的组间相关; 最大预测有效度却要求低度的 组间相关。最大可靠度(信度)要求项目等同 的难度; 最大预测有效度却要求项目的难度有 所区别。中等程度的组间相关( 0.10 ─ 0.60), 通常可产生良好的效度 (0.30 ─ 0.80), 并且产 生满意的信度 (0.90) 。” ( 郝德员 : 《教育与 心理统计》 , 教育科学出版社 ,1962 年 版 .P429)
(6) 适当增加测验的长度 : 增加测验的长度 可提高测验的信度 , 也可以提高效度 , 但 增加测验的长度对信度的影响大于对效 度的影响。
信度与效度不仅是标准测验的重要标准, 也是非标准测验、乃至所有评价的重要 标准
3、难度(Difficulty) :简单说是指测验的难易程 度 , 通常是以题目的通过率来表示大小的 , 通 过率是指被试正确回答或通过题目的人数与所 有被试之比 4、区分度 (Dscimination) 是指测验项目对被试 实际水平的区分程度 , 又称鉴别力。具有良好 区分度的测验 , 实际水平高的被试应得高分 , 水平低的被试应得低分。
第七节 人物推定法
这也是主要用于学生评价。人物推定法是在教师指引下, 在学生集体中相互进行的评价。这种方法很像选举,但 并非选举。例如,要了解学生在班级日常生活中的表现, 可制作成下列人物推定卷:
•它对于人格、 态度、习惯之 别人有困难主动帮助, 2、 类的测定有较 大扫除时认真负责,这 高的信度和效 样的同学是谁? 3、 度。
案例:投射性测验之主题统觉测验(TAT)
TAT由30张具有情境但主题含糊的图片构成,要 求被试根据卡片上的情境编故事,故事内容应 该包括:
(1)图中显示的是一种什么样的情境,即发生
了什么事?
(2)什么原因导致此情境的发生? (3)可能会有什么样的结果? (4)当事人的思想感受如何?
总之,标准化测验具有命题标准化、题型标准化、 评分标准化、计分标准化等特点,因此; 标准化测验不会因测验实施者的不同而不同 受测者的成绩可以相互比较 可以客观地了解个人在集体中的相对位置。
常用的标准化测验有标准化考试、智力测验、学 力测验、人格测验和性向测验等。
然而, 建立参照量表通常需要以有代表性的总体为基 础,因此,标准化样本容量必须足够大,通常 是2000以上,对于应用很广的测验样本通常要 上万。因此,标准化测验的设计与实施不是教 师个人能完成的。
编制和实施标准化测验的要求: 1.要有测验大纲和测验指导书,规定测验的范围、 内容、要求、方式、题型和评分计分方法。 2。要按照测验大纲制定出“命题细目表”,具 体规定每一考察目标和教学内容在整份试卷中 占的比重。 3.进行预测,计算各题的难度、区分度和整份试 卷的信度及效度,调整试卷的整体难度,使学 生的测验成绩呈正态分布。 4.实施过程中要统一规范、统一时间、统一环境, 测验后要统一阅卷步骤和要求,严格规定评分 标准 5.建立参照量表,提供解释分数的常模,以便把 测验的原始分数转换成标准分数,使测验结果 有明确的统计学意义
劳动中不怕脏、不怕累,1、
……
一个关于理科学习兴趣的案例 (写出三人的名字)
1、喜欢采集并调查植物、昆虫标本的是谁?
2、喜欢收集并研究各种奇形怪石的是谁? 3、喜欢饲养并研究小鱼、小鸟等小动物的是谁? 4、喜欢制作、摆弄各种机械器具的是谁? 5、有不明白的问题,自己动手做实验,并进行研究 的是谁? 6、对天文等感兴趣,经常在夜晚观测星星的是谁?
6.行动观察记录(自然观察、时间样本观 察、情景样本观察、真相观察) 7.自我诊断测验(自陈法) 8.问卷法 9.接谈法 10.创作,作品分析 11.实验报告、研究报告,作品,实演及其 他业绩之分析 12.个案研究 以上这些工具,在我国基本上以采用,只 是名称不同,有的常用面不广
第一节 测验法
一、标准测验(正式测验) 标准测验,又称标准化考试,,是根据现代考试理论, 运用现代统计手段,严格按照科学程序设计与实施, 并且有统一标准的考试。它一般是由专家在对优秀测 验的诸种条件进行研究的基础上,亲自编制而成的, 除了测验试题外,还应经过科学手续制定一定的评价 标准即常模。当使用这种测验试题进行考试时,只要 把测验后的结果同这一常模作对比分析,便可判断被 试者的程度。由于这种考试的试题和常模是经过科学 程序制作而成的,故测验分数比较稳定,可靠性强, 测验分数不会因考试地点、时间及工作人员的不同而 发生变化。而且这种考试的代表性很高,适用范围很 广,小到一个地区,大到全国,甚至全世界。如美国 专为外国留学生设计的英语水平考试(TOEFL),就 是一种适用于全世界范围所有国家和地区考生的标准 化考试。为了保证考试的有效性,同时也为了保证考 试的稳定性和代表性,这种考试的题置一般都很大, 且以客观性试题为主。
使用时需注意下列几点: 1、对于小学一二年级不适用,因为一二年 级判断力弱;对于高年级学生(特别是 高中以上的学生)在细节上要多加注意, 因为他们很敏感。否则信度效度会受影 响。 2、如果考察对象中既有男生又有女生,统 计时需将二者分开 3、这一技术只适用于经常在一起的人群。
第八节 投射法
是对被评价者给予一定的刺激让其自由反应 (回答及表情),透过各个不同的反应以把 握人的个性和心理状态。 例如:为测验某种心理状态,可以给被评价者 看若干张图画,然后要求被评价者按按要求 编出一个故事。 编造的故事需要包括过去、现在和未来。从编 造的故事中可以看出一部分被评价者内心的 动向和某些心理特征。
二、教师自编测验(非标准化测验、非正式测验) 非标准化测验:在学校教育中,大量的、经常使 用的测验都是由教师自己编制的非标准化测验, 如单元考试、期中考试、期末考试及毕业考试 等。根据考试题目类型的不同,非标准化测验 又可分为论文式测验、客观式测验、问题情境 测验、问卷测验等。属于非标准化测验,多用 于平时教学中的学业成就评价。 标准化测验不一定比非标准化测验更优越。如, 当我们有意比较不同班级和不同学校的学生成 绩时,标准化测验与评估是合适而且有效的, 否则没有太多必要。
虽然原画面上只有一个妇女站在敞开的门口,
看着房间,但被试的反应却暴露出他与母亲 的某种关系,并引出了这一母亲支配儿子的 故事。后来事实证实了临床医生的解释,即 这一故事确实反映了被试自己的问题
再如: 我在……时感到幸福。 我在……时会说谎。 令我烦恼的是…… ……的时候,我最得意。 注意:投射法提出的问题,初看起来都和被评价 者没有直接利害关系,否则就不易得出真实信 息。
( 4 )测验的时间要充分 : 对某一测验而言 , 应 保证绝大多数被试在规定时间内完成测验 ; 否 则 , 如果被试不能从容回答所有问题 , 就不能 反映被试的真实水平。 ( 5 )测验的程序要统一 : 包括测验的题目统一 , 指导语、 回答问题的方式、分收试卷的方法、 测验时间等都要统一。 ( 6 )评分要客观 : 评分是否客观对测验信度有 直接的影响。对于客观性题目 , 评分标准明确 , 评分容易做到客观 ; 但对于主观性题目 , 受评 分者影响较大 , 不易做到客观。为了尽可能客 观评分 , 应制定明确而易掌握的评分标准 , 尽 量做到一卷多评 , 或一人只评一题等。
•例如,当把下图呈现给一位21岁的男青年时,他讲述了 如下的故事:
她正在收拾屋子以迎接某人的到来,她打开
门,最后一遍扫视房间。也许她正在盼望儿 子回家。她试图把所有的东西恢复到儿子出 门时的原样。她的性格似乎十分专横,支配 着儿子的生活,一旦儿子回来她还要继续控 制他。这仅仅是她的控制的开始。她的儿子 一定被她的专横态度所吓倒,将顺从滑入她 的井然有序的生活方式之中。他将按照母亲 规定的单调乏味的生活道路走下去。所有这 一切都意味着她完全主宰着他的生活直至她 死去。
( 2 )测验的难度要适中 : 难度即测验的难易程 度 , 当测验难度太大时 , 被试得分普遍太低 , 呈负偏态分布 ; 当测验难度太小时 , 被试得分 普遍较高 , 呈正偏态分布。太难太易的测验都 使被试得分差异减小 , 使实得分数方差减小 , 从而降低测验信度。
( 3 )测验的内容尽量同质 : 性质相同的测验内 容 , 对被试也要求相同的能力、知识和技能 ; 而内容不同质的测验 , 则要求被试不同的能力、 知识和技能。因而为了提高测验信度 , 测验内 容应尽量同质。
2、效度。是指测验的有效性或准确性。它 是获得高质量的、有意义评价的决定性 要素。没有效度的话,测量数据就不能 带来正确的评价。 提高测验效度的方法 : (1)控制系统误差 : 系统误差是影响测验 效度的主要因素。它主要包括仪器不准 , 题目和指导语有暗示性 , 答案安排不当 ( 被试可以猜测 ) 等 , 控制这些因素可以 降低系统误差 , 提高效度。
(2) 精心编制测题和测验量表 : 首先测题内容要适 合测验目的 , 如知识性测题就不能全面反映被 试的智力水平 , 它主要测量其知识水平。其次 , 测题要清楚明了 , 用语要让被试理解 , 排列由 易到难。第三 , 测题的难度和区分度要合适。 (3) 严格按照测验程序进行测量 , 防止测量误差 : 要严格按照测验手册进行测量 , 不能作过多的 解释 , 按标准评分 , 两次测验间隔要适当。 (4) 样本容量要适当 : 当样本容量增大时 , 样本 对总体的代表性提高 , 样本大 , 被试的内部差 异增大 , 扩大了真分数的方差 , 使效度Hale Waihona Puke Baidu高。 样本容量一般不应低于 30 。另外 , 抽样方法 也很重要 , 一般用随机抽样 , 当群体很大时 , 可分层抽样 , 样本容量扩大时 , 其代表性才随 之增大。