14影响效度的因素

合集下载

心理测量

中国的心理学思想中国古代的心理测量思想：首先在心理测量最重要的基础方面，即关于心理的差异性方面，中国先哲们有深刻的认识，儒学创始人孔子提出：性相近习相远其次关于这些差异的可测量性，中国古代先贤也有明确的论述，孟子权，然后知轻重；度，误解然心为甚。

第三中国古代不仅有关于心理特征差异性及其可测量性的理论阐述，而且还产生了真正意义上的心理测量活动。

1、心理测量的完整实践至少应包括三个前提：一是肯定心理的可测性，正视心理的个别差异；二是要确定对何种心理特征进行测量，即所谓测量的内容方面，与此相关的就是要对这些待测或可测的内容有某种理论加以说明；三是要在对心理内容的特性或差异性阐述的基础上，形成具体的测量方法，即把内容操作化，这些操作化的手段还必须以某种适当形式呈现出来，这就是心理测量的心理侧面。

2、在测验领域，19世纪80年代是高尔顿的10年，90年代是卡特尔的十年，20年代头十年则是比奈的十年。

高尔顿堪称直接推动测验运动发展的第一人，也是最早从事测验活动的学者，他实际上是一个持有从生理的、感觉的和知觉的材料里求出人类许多品质，特别是推测智力的设想的人。

他相信通过对感觉器官辨别力的测量可以估量一个人的智力。

卡特尔与高尔顿基本上持有相同观点，即认为唯有通过对感觉器官的辨别力与感应时的测量才能测得智力之功能，在卡特尔看来，这些测验内容都与人们的高级心理活动有关，或与人们的神经活动有关。

比奈逐渐认识到，只有从智力本身入手，才能真正认识智力，比奈在《智力的实验研究》中讲到的智力是广义的，它包括一切高级的心理过程，表现在推理、判断以及运用旧知识解决新问题的能力上。

他经过研究形成的观点，智力是人所具有的极其复杂的能力，非简单的方法所能测量，因此要直接选择广泛而复杂的课题才能测量智力。

这在当时是一种对智力本质认识的一大进步。

3、1904年法国教育部委托比奈研究教育智力落后儿童的方法，比奈接受，比奈主张用测验方法发现和鉴别智力落后儿童，他与志同道合的西蒙合作完成了世界上第一个智力测验量表——比奈—西蒙量表。

心理测量学重点知识整理

1、著名美国学者波林指出；在测验领域中．“19世纪80年代是高尔顿的10年，90年代是卡特尔的10年，20世纪头10年则是比奈的10年。

2、比奈与其助手西蒙发表《诊断异常儿童智力的新方法》，在这篇文章中介绍的就是第一个智力量表——比西量表。

3、心理测量的性质：（1）心理测量的间接性（2）心理测量的相对性（3）心理测量的客观性4、心理测验的种类：(一)按测验的功能分类1．能力测验2．学绩测验3．人格测验(二)按测验的对象分类1．个别测验2．团体测验(三)按测验材料分类1．文字测验2．非文字测验(四)，按测验的目的分类1．描述性测验2．诊断性测验3．预示性测验(五）按测验的难度和时限分类1．速度测验2．难度测验(六)按测验的要求分类1．最高作为测验2.典型作为测验(七)按测验的性质分类1．构造性测2．投射性测验(八)按测验的应用分类1．教育测验2．职业测验3．临床测验5、下面是两种常见的排列方式：1．并列直进式2．混合螺旋式6、对测验项目的分析包括定性分析和定量分析两个方面。

7、误差的种类：一种是随机误差，又叫可变误差，这是由与测量目的无关的偶然因素引起而又不易控制的误差，它使多次测量产生了不一致的结果。

此种误差的方向和大小的变化完全是随机的，无规律可循。

另一种是系统误差，又叫常定误差，这是由与测量目的无关的变因引起的一种恒定而有规律的效应，稳定地存在于每一次测量中，此时测值虽然一致，但不正确。

8、经典测量理论的基本思想：把任何一个测验成绩都看做是真分数和测量误差的和，即：X=T+E （这里X为实得分数或观测分数，T是假设的真分数，E是测量误差）9、估计信度的方法：①再测信度②复本信度③分半信度④同质性信度⑤评分者信度10、信度系数有两个实际用处：一是用来评价测验，二是用来对分数作解释。

11、效度分为内容效度、构想效度和校标效度。

12、测验间法：①相容效度②区分效度③因素效度13、分数的合成类型：①项目的组合②分测验或量表的组合③测验或预测源的组合14、根据测量对象的性质和特点，不同形式的测量可分为：物理测量、胜利测量、社会测量（对社会现象的测量)、心理测量。

影响内在效度的因素

1、影响内在效度的因素内在效度是实验者所操纵的实验变量对因变量所造成的影响的真正程度。

美国坎贝尔和斯坦利认为下列八项因素是影响内在效度的无关变量。

（1）历史或同时事件。

例如：研究者想试验一种新的阅读教学方法的效果，他对一组受试者实施阅读测验，经过一个学期的新的阅读方法教学后，再以同样的阅读测验测量他们的阅读能力，结果发现后一测验的分数显著高于前一测验的分数。

因此，他们得出结论新阅读方法是较好的方法。

这个结论可能不正确，因为在实验进行期间，一些影响因变量的事件，可能和实验处理同时发生作用而混淆实验结果。

（2）成熟。

受试者在实验期间，不论是生理或是心理均会发生变化，在上述例子中，受试者因年龄增长而在认识能力方面的自然发展和成熟，或词汇的自然增长，都可能干扰实验处理的效果。

（3）测验。

有很多实验，为了比较实验前后的情况，往往有前测，但前测的经验，却常常有助于后测分数的提高。

所以，即使没有实验处理的效果，也可能因前测的经验的影响，而导致后测分数的提高。

（4）工具。

因测量工具不同，评量者身心发生变化如评卷人员变得比前测时较为疲劳、粗心或严格，也可能改变实验的结果。

（5）统计回归。

是指受试者的测量分数在第二次测量时，有向团体平均数回归的倾向。

如，研究者选择一些测验分数最低的学生作为实验，经过一段时间的实验后，再以相同或相似的阅读测验题测量他们，由于统计回归的现象，这些受试者的分数会后升高的倾向。

（6）差异的选择。

由于未用随机抽样和随机分派之故，多选择的两组或几组受试者，在未实验处理之前，本来各方面能力就有所偏差或不相符，那么实验结果的两组成绩不同，就不能说这种差异是单纯由于实验处理所造成的。

（7）受试者的流失。

研究样本在实验期间流失，如迁居、退学等，则可能使实验结果难以解释。

（8）选择和成熟的交互作用。

上述七项因素的彼此交互作用，将士构成影响内在效度的的另一因素。

选择和成熟的交互作用就是常见的例子。

上述八项影响实验内在效度的因素，必须加以适当的控制，才能正确解释实验结果单纯由实验处理所造成。

测量效度的因素

测量效度的因素
测量效度的因素包括:
1. 内部一致性：测量工具内部各项指标之间的一致性。

可以使用统计分析方法（如Cronbach's alpha）来评估内部一致性。

2. 鉴别效度：测量工具与其他相关测量工具之间的区别。

可以使用相关系数、卡方检验或因子分析等方法来评估鉴别效度。

3. 重测信度：在不同时间点或不同条件下进行的测量结果之间的一致性。

可以使用相关系数或回归分析等方法来评估重测信度。

4. 同质性：测量工具能够准确地测量所要衡量的特定概念或构念。

可以使用专家判断、文献回顾或因子分析等方法来评估同质性。

5. 外部效度：测量工具与相关理论或其他已经验证的测量工具之间的一致性。

可以使用相关系数、回归分析或结构方程模型等方法来评估外部效度。

6. 预测效度：测量工具对未来事件或结果的预测能力。

可以使用回归分析或结构方程模型等方法来评估预测效度。

7. 有效因子提取：测量工具能够提取和衡量所要测量的目标概念的有效因子。

可以使用因子分析或确认性因子分析等方法来评估因子提取效度。

8. 可信度: 测量结果的稳定性和一致性。

可以使用可信度系数（如Cronbach's alpha）来评估可信度。

测量测量与评价重点

名词解释测量：根据某些法则与程序，用数字对事物在量上的规定性予以确定和描述的过程。

教育测量: 针对学校教育影响下学生各方面的发展，侧重从量的规定性予以确定和描述的过程。

评价：衡量、判断人物或事物的价值。

教育评价：按照一定的价值标准和教育目标，利用测量和非测量的种种方法系统地收集资料信息，对学生的发展变化及其影响学生发展变化的各种要素进行价值分析和价值判断，并为教育决策提供依据的过程。

测量单位：用于表示与其相比较的同种量大小的约定定义和采用的特定量。

（度娘）参照点：用数字对事物在量上的规定性予以确定，就需要有一个测量或计算的起点，这个起点叫参照点。

命名量表：最低水平的一种量表，这种量表是用来对事物或人的心理现象进行分类的。

P4 顺序量表：用于对事物或人的心理现象进行分类，但这种分类是以所测属性的数量大小为基础进行的。

比率量表：除了具有量的大小和相等单位外，还具有绝对的零点。

最高水平的量表是比率量表。

等距量表：比顺序量表高一个层次，它不但能在一个连续体上表示事物量的大小，而且具有相同的测量单位。

等距量表的零点是相对的。

形成性测量与评价：在教学过程中经常实施的，在性质上大致相当于现在的中小学单元测验。

诊断性测量与评价：对经常表现出学习困难的学生所作的测量与评价。

终结性测量与评价：用于教学结束后，在性质上相当于现在学校中所举行的期末考试。

常模参照测量与评价：将被试水平与测验常模相比较，以评价被试在团体中的相对地位的一种测量与评价类型。

标准参照测量与评价：将被试的表现与既定的教育目标或行为标准相比较，以评价被试在多大程度上达到该标准。

潜力参照测量与评价：将被试实际水平与其自身潜在水平（潜力）相比较，以评价被试有无充分发挥自身潜力为目的。

最佳行为测量与评价：以测量被试的最佳行为表现为目的，以成就或能力的高低作为评价基础。

典型行为测量与评价：测量与评价其是否具备某种（或某些）典型行为。

纸笔测验：纸笔测验的内容是以文字的形式表现的，被试也用文字作答，是最为普通的一种测量与评价方式。

效度

效度是针对某个特定的测验目的的
比如，NEO是测量正常人格的，对某些特殊的人格障碍的鉴定不一定有效。

测量的效度只有程度上的差异
有效性程度。不是“全”或“无” 的，而是“很有效的”或 “不太有效的”。
1、什么是效度：信度与效度的对比

信度的理论公式 SX＝ST +SE r信= ST / SX= (SV ＋ SI ) / SX 即信度是一组测验分数真变异与总变异（实测变异）的比值。效度的理论公式 SX＝ SV ＋ SI +SE R效= SV / SX 即效度是与测验目的有关的变异（有效变异）与总变异（实测变异）的比值。
效标效度的类型：－同时效度：比如心理素质与心理健康同时测量。－预测效度：人才选拔中的运用。效标的选择：－外显、客观：智力与学习成绩－简单、省事：案例：社会适应性量表的编制。－科学、权威：比如用心理健康指标作为心理素质的效标。

效标效度的估计方法
1.相关法相关系数回归方程结构方程模型 2.分组法案例：性别对性别角色认知量表的预测 3.命中率法见下页

2.3 结构效度

术语和定义：也称构想效度、构念效度。即测验对理论上的构想或特质的测量程度。确定结构效度的基本步骤首先从某一理论出发，提出某一心理特质的假设，即构成心理特质的成分或因素，然后设计和编制测验并进行试测，最后对测验的结果采用相关或因素分析等方法分析，验证与理论假设的相符程度。案例：大学生心理素质的结构效度的获得
效度
什么是效度效度的类型影响效度的因素
1、什么是效度：真分数模型
个体而言 X＝T＋E X是观测分数，T是真分数， E是测量误差。团体而言 SX＝ST +SE 即观测分数变异数（ SX）等于真分数变异数（ ST ）加上误差分数变异数（ SE ）。这里误差分数变异数只是涉及到随机误差的变异

2018《人员招募》成考试题+答案

一、填空题1、人力资源招募活动在即将做出雇佣决策之前就宣告结束，这时正是（甄选）工作开始之际。

2、人力资源之所以被称为一种战略（资产），是因为确保战略得到良好执行的能力是竞争优势的一个源泉，而人是战略执行过程的关键。

3、劳动者依法享有平等就业和（自主择业）的权利，劳动者就业，不因民族、种族、性别、宗教信仰不同而受歧视。

4、人力资源管理的第一关是（质量）管理。

5、为保护工作中人权应遵守的最基本的标准之一是（反歧视）标准。

6、强调“人力资源规划是什么”是以（结构）导向的人力资源规划。

7、企业中广泛地选择各方面的专家，每位专家都拥有关于人力资源预测的知识或专长，对企业人力资源进行预测的预测方法是（德尔菲法）。

8、人力资源（晋升规划）的目标在于通过尽量将员工放在能够使其发挥作用的工作岗位上。

9、马尔可夫模型所考虑的人员变动主要有调入、上升、下降、（平调）和调出五种情况。

10、能够记录基层员工的技能、研发人员的科研水平和中高管理人员管理能力的种类及所达到的水平的是（技能清单）。

11、全面衡量员工的能力，以薪酬制度来度量员工的工作及（劳动价值）是一个系统工程。

12、岗位工资标准应依据（工作说明书）中所反映的工作内容，通过职位评定专家小组进行科学评定来较为公平合理地确定。

13、科研人员行为效标可以以（技术成果）的数量、质量以及产生的经济效益为效标。

14、行为效标的选择以客观实用为准，工人工作业绩可以选择产品质量、产品（单位成本）为效标。

15、招聘工作的实施是整个招聘活动的核心，也是最为关键的一个环节，包括（招募）、甄选和录用三个步骤。

16、企业招聘人员标准有基本标准和关键标准两大类，基本标准是指他能（胜任）就聘职位的最基本要求。

17、最有效、最便捷、费用率低且当企业出现职位空缺时采用（内部）招聘方式。

18、当企业发生职位空缺时，（主管推荐）是招聘中一种最重要的手段。

19、面试的过程中，应试者与主试者有相似的或不相似之处，会影响主试者对应试的技能和能力的评价是由于（因相似）而引起的偏见。

效度的名词解释

效度的名词解释效度是指一种测量工具或测试的准确性和有效性。

在心理学、教育学、社会科学和医学等领域，效度是评估研究方法和工具的重要指标。

本文将从效度的定义、类型、测量方法和影响因素等方面进行解释。

一、效度的定义效度是指测量工具或测试所测量的概念或现象的准确性和有效性。

简单来说，效度是指测量工具或测试是否能够准确地反映出所要测量的概念或现象。

例如，一份英语考试的效度是指它是否能够准确地反映出考生的英语水平。

如果一份英语考试的效度很高，那么它所测量的英语水平就会比较准确。

二、效度的类型效度可以分为内部效度和外部效度两种类型。

1. 内部效度内部效度是指测量工具或测试所测量的不同项目之间的相关性。

例如，一份数学考试的内部效度是指其中各个数学题目之间的相关性。

如果一份数学考试的内部效度很高，那么它所测量的数学能力就会比较准确。

2. 外部效度外部效度是指测量工具或测试所测量的概念或现象与其他相关概念或现象之间的相关性。

例如，一份英语考试的外部效度是指它与其他英语考试的相关性。

如果一份英语考试的外部效度很高，那么它所测量的英语水平就会比较准确。

三、效度的测量方法效度的测量方法有很多种，其中比较常用的方法有以下几种。

1. 内部一致性内部一致性是指测量工具或测试中的各个项目之间的相关性。

例如，一份数学考试中各个数学题目之间的相关性。

内部一致性可以通过计算各个项目之间的相关系数来进行测量。

2. 重测效度重测效度是指测量工具或测试在不同时间或不同场合下所测量的结果之间的相关性。

例如，一份英语考试在不同时间或不同场合下所测量的英语水平之间的相关性。

重测效度可以通过计算不同时间或不同场合下所测量的结果之间的相关系数来进行测量。

3. 交叉效度交叉效度是指测量工具或测试与其他相关测量工具或测试之间的相关性。

例如，一份英语考试与其他英语考试之间的相关性。

交叉效度可以通过计算不同测量工具或测试之间的相关系数来进行测量。

四、效度的影响因素效度的影响因素有很多，其中比较常见的因素有以下几种。

中小学教师招聘考试《心理健康教育》章节分类练习题(2)-心理统计与测量(含解析)

第五模块心理统计与测量一、单项选择题1.以下各种图形中，表示连续性资料频数分布的是（）。

A.条形图B.圆形图C.直方图D.柱形图2.特别适用于描述具有百分比结构的分类数据的统计分析图是（）。

A.散点图B.圆形图C.条形图D.线形图3.适用于描述某种事物在时间上的变化趋势，及一种事物随另一种事物发展变化的趋势模式，还适用于比较不同的人物团体在同一心理或教育现象上的变化特征及相互联系的统计分析图是（）。

A.散点图B.圆形图C.条形图D.线形图4.以下各种图形中，以图形的面积表示连续性随机变量次数分布的是（）。

A.圆形图B.条形图C.散点图D.直方图5.韦氏儿童智力测验属于（）。

A.自陈量表B.投射测验C.团体测验D.个体测验6.平均数是一组数据的（）。

A.平均差B.平均误C.平均次数D.平均值7.六名考生在作文题上的得分为12，8，9，10，13，15，这组数据的中数为（）。

A.12B.11C.10D.98.有一组数据其均值是20，对其中的每一个数据都加上10，那么得到的这组新数据的均值是（）。

A.20B.10C.15D.309.下列数列4，6，7，11，12的中数为（）。

A.7.5B.15C.7D.810.统计学中最常见，应用最广的一种分布是（）。

A.概率分布B.t分布C.正态分布D.F分布11.若将某班每个人的语文考试分数都加上10分，那么与原来相比其平均数和标准差的变化是（）。

A.平均数减少，标准差不变B.平均数增加，标准差增加C.平均数增加，标准差不变D.平均数增加，标准差减少12.有一研究为完全随机取样设计，需检验两组平均数是否存在显著差异，已知其分布为正态，n＜30，请问用哪种统计方法最合适？（）A.符号检验B.秩和检验C.Ｔ检验D.2检验13.在心理测验中，效度是指一个心理测验的（）。

A.稳定性B.准确性C.可信度D.区分性14.项目的难易程度，用P表示。

P值越（），难度越低。

A.接近于1B.接近于-1C.接近于0D.接近于0.515.在施测常模样本被试后，将被试的原始分数按一定规则转化出来的导出分数是（）。

西南大学网络教育2020年春1203]《人才测评理论与实务》作业标准答案

1、默里和摩根提出了（）。

. C. 智力测验.多项个性测验.主题统觉测验.人格测验2、下面不属于按具体的测验对象对认知测验进行的分类的是（）。

.人格测验.能力倾向测验.智力测验.成就测验3、素质测评的（）原则，即要求素质测评对被测评者素质差异的反映要尽可能精确，在允许的误差范围之内，这是保证人们对素质测评选拔结果信任的前提。

.差异性.可比性.准确性.公正性4、为实现某一特定目标，给自己或他人建立行动方案，做出适当的人员派遣和资源配置规划的能力，其测评指标是（）。

.判断能力.决断能力.分析能力.规划和组织能力5、卡特尔16项人格因素问卷的适用人群是（）.老年人（60岁）.儿童（16岁以下）.成年人（16岁以上）.中年人（45岁以上）6、世界上第一个具有应用价值的心理测验，是法国心理学家比奈制定的（）.个性测验.心理测试.能力测验.智力测验7、目前世界上最通用的智力量表是（）.斯坦福-比奈智力量表.韦克斯勒智力量表.瑞文标准推理测验.比奈-西蒙量表8、以下评价中心所遵循的原则中，表述正确的是（）。

.采用一种评价技术.评价人员先预测，后观察讨论.评价人员可以交流.使用相同的工作模拟技术9、测评可以划分为领导干部测评、中层管理人员测评、一般人员测评等。

这种分类的标准是（）.按测评结果划分.按测评内容划分.按测评客体划分.按测评目的划分10、分析测验结果的核心问题，就是（）。

.对于分数的分析.对于分数的解释.对于试题的解释.对于试题的分析11、用意义不明确的各种图形、墨迹、词语，让被测者在不受限制的情境下自由地做出反应，从分析反应结果来推测测验的结果，这种测验方法为（）。

.镶嵌图形测验.生理学测验.机械倾向测验.投射技术测验12、确定测评指标权重的德尔菲法，又称（）。

.文献查阅法.关键事例法.主管人员分析法.专家咨询法13、下面属于从气氛设计上对面试进行分类的是（）。

.集体面试.个别面试.压力面试.问答面试14、下面那一个是投射测验法的特征。

现代心理与教育测量学系统复习资料

现代心理与教育测量学第一章1.测量：依据一定的法则使用量具对事物的特征进行定量描述的过程。

2.测量的参照点：测量工作中必须有一个量的起点，这个起点就叫做测量的参照点。

3.量表：能够使事物的特征数量化的数字的连续体就是量表。

(测量的量表：等距量表、称名量表、顺序量表、比率量表)4.心理与教育测量：依据一定的心理学和教育学的理论，使用测验对人的心理特质和教育成就进行定量描述的过程。

5.测验的标准化：是编制测验的一个重要步骤，是指测验的编制、实施、记分以及测量分数解释的程度的一致性。

6.测验标准化应具备的条件（或测验标准化的内容是什么）(1)测验内容的标准化。

（2）施测条件的标准化。

（3）评分规则的标准化。

（4）测验常模的标准化。

7.论述心理与教育测验的功能:（1）理论研究功能①收集研究资料②建立和检验理论假设③实验分组（2）实际应用功能①选拔人才②人员安置③心理诊断④描述评价⑤心理咨询第三章1. 测量误差：是在测量过程中由那些与测量目的无关的变化因素所产生的一种不准确或不一致的测量效应。

2. 随机误差：是那种由与测量目的无关的、偶然因素引起的而又不易控制的误差。

3. 系统误差：是那种由与测量目的无关的变因引起的一种恒定而有规律的效应。

4. 真分数：反映被试某种心理特质真正水平的那个数值叫做该特质的真分数。

5. 心理测量的误差来自3个方面，即测量工具（如所测的东西与我们预测的目的之间出现偏差）、被测对象(如被试在接受测量时的心理和生理状态会影响其水平的正常发挥)、施测过程（如实测现场的温度、光线、声音、桌面好坏、空间阔窄，主试者的年龄、性别、外表及其施测时的言谈举止、表情动作等）6.真分数的数学模型与假设: 经典测验理论假定，观察分数（记为X）与真分数（T）之间是一种线性关系，并只相差一个随机误差（记之为E）。

即：X=T+E 这就是CTT的数学模型。

这一模型，引申出三个相关联的假设公理：（1）若一个人的某种心理特质可以用平行的测验反复测量足够多次，则其观察分数的平均值会接近于真分数。

心理测量

心理测量(名词解释与问题)发表时间：2006-9-1 10:18:14 点击 1605 次名词解释(每小题5分，共30分)1.团体测验：是指可以在同一时间内对一组被试进行测试的测验，其优点是短时间内可获得大量资料。

缺点是被试行为不易控制，容易产生误差。

2.指导语：是测验手册中规定的主试如何操作，实施测验以及被试如何对测验作反应等方面的言语描述，对被试的指导语要简单明确，不会误解。

3.成就商数：是将一个学生的教育成就与他的智力作比较，即教龄与智龄或教商与智商之比，即：AQ= ×100= ×100。

因为成就商数是将一个学生的教育成就或学业成绩与同等智力的学生比较，所以它既可以反映学生的努力程度，又能反映教师的教学效果。

4.WAIS-R：即韦氏成人智力量表修订版，该测验包括言语量表和操作量表两个部分，共计11个分测验，其中常识、数字广度、词汇、算术、理解、类同6个分测验构成言语量表，填图、图片排列、积木、物体拼配、数字符号5个分测验构成操作量表，测验结果有分测验量表分、言语智商、操作智商、全量表智商。

5.猜人测验：是一种标准评定量表，主要目的是利用同班同学的长时间相处，互相评定一群学生的各种人格特质。

6.临床测验：有广义、狭义之分。

广义地说，所有有助于临床诊断之用的测验都可以称为临床测验。

狭义地说，临床测验是指专为医学临床诊断而设计的测验，常用的有神经心理学测验、儿童心智缺陷测验、心理健康问卷等。

7.潜在能力：指的是学习能力或从事某种活动成功的可能性，又称性向或能力倾向。

8.项目难度：指测验项目的难易程度。

9.再测信度：用同一个测验，对同一组被试前后两次施测，两次测验分数所得的相关系数。

又称稳定性系数。

10.评定量表：通常由一组描述个体特征或特质的词或句子组成，要求由他人经过观察对某个人的某种行为或特质作出评价。

11.成套成就测验：有时也称做一般教育发展测验，测量内容包括阅读、数学、语言等方面的基本技能以及相应年龄水平的学习能力。

信度和效度名词解释

信度和效度名词解释一、信度1. 定义- 信度是指测验结果的一致性、稳定性及可靠性。

一般多以内部一致性来加以表示该测验信度的高低。

信度系数愈高即表示该测验的结果愈一致、稳定与可靠。

例如，用同一个量表对同一组被试在不同时间进行测量，如果每次测量结果都很相近，就说明这个量表的信度较高。

2. 信度的类型- 重测信度：用同一种测验，对同一组被试者，前后施测两次，再根据被试者两次测验分数计算其相关系数，即得重测信度。

它反映了测验跨时间的稳定性。

例如，在一个月内，对同一批学生使用相同的智力测验进行两次测试，两次测试结果的相关性就是重测信度。

- 复本信度：复本是内容、形式、难度等方面与原测验相似的测验。

复本信度是根据一组被试者接受两个复本测验的得分计算的相关系数。

有A、B两套英语水平测试题，它们在题型、难度等方面相似，对同一组学生先进行A卷测试，过一段时间再进行B卷测试，然后计算两次成绩的相关系数就是复本信度。

- 内部一致性信度：主要反映的是测验内部题目之间的关系，表示测验能够测量相同内容或特质的程度。

例如，在一个包含多个项目的人格测验中，内部一致性信度高意味着各个项目之间测量的是人格的同一个方面，常用的计算方法有克伦巴赫α系数等。

- 评分者信度：用于衡量不同评分者对同一组被试评分的一致性程度。

在一些主观性较强的测验中，如作文评分、面试评分等，评分者信度就非常重要。

如果不同评分者对同一篇作文或同一个面试者的评分比较接近，那么评分者信度就较高。

3. 影响信度的因素- 被试样本：被试样本的同质性（相似性）程度会影响信度。

如果被试样本的同质性高，信度可能会较低，因为他们在测验所测特质上的差异较小；反之，异质性高的被试样本可能会使信度较高。

例如，在一个只针对高智商学生的智力测验中，由于学生的智商都比较高且接近，可能会导致信度系数较低。

- 测验长度：一般来说，测验的题目数量越多，信度越高。

因为较长的测验能够更全面地测量被试的特质，减少随机误差的影响。

效度的概念、分类及影响因素

效度的概念、分类及影响因素研究的信度和效度是教育科学研究设计中应该遵守的标准，也是评价研究设计乃至整个研究结果科学性水平和质量的标准。

就整个研究而言，研究的效度是指研究在揭示所研究内容的本质或其规律方面的准确、客观、科学程度，或者说研究结果符合客观实际的程度。

研究必须有效才有意义，所以，教育科学研究设计要以研究的效度为前提，并作为评价研究设计与结果的基本标准。

一、内部效度的概念研究的内部效度是指在研究的自变量与因变量之间存在一定关系的明确程度。

如果自变量和因变量之间关系并不会由于其它变量的存在受到影响，从而变得模糊不清或复杂化，那么这项研究就具有内部效度。

它所涉及的问题是：（1）所研究的两个或多个变量之间是否存在一定的关系？（2）是否确实是自变量的变化引起了因变量的变化？研究设计要对可能涉及的各种变量进行有效的控制与消除，使与研究目标无关的变量对研究结果的影响很小或没有影响，，因而，研究变量之间（如自变量与因变量之间）的关系是确定的和真实的，意味着一项研究的内部效度高。

二、影响内部效度的因素影响内部效度的因素比较多，归纳起来，主要有历史、研究被试、研究手段方法和程序、统计回归效应四方面因素。

三、内部效度的条件研究的内部效度不会自动形成。

内部效度的获得，主要是通过研究设计，认真细致地选择变量，切实控制好各种变量，保证研究变量之间的确定关系，消除与研究目标无关的变量对研究结果的影响。

上述4种方面的因素，都是在研究中应特别注意控制的，最有效的途径是采用随机化程序。

对于教育科学研究的各种具体情况（例如不同的研究活动），影响内部效度的因素种类、数量、作用大小会有一定的差别，应该根据具体情况加以分析、预估、识别、并采取适当措施予以控制或消除，以提高研究的内部效度。

四、外部效度研究的外部效度是指研究结果能够一般化和普遍适用到样本来自的总体和到其它的总体中的程度，即研究结果和变量条件、时间和背景的代表性和普遍适用性。

教育测量与评价1

、单选题（共 30题，每题 1 分）A ） 1、有大小关系和相等的单位，可进行加减运算，不能乘除运算的量表属于A等距量表 B 顺序量表 C 等比量表 D 命名量表B ） 2 、教育评价大发展时期，实证化倾向占主要地位，其中典型的是 A形成性评价 B 系统分析模式 C 比较性评价 D 目标本身的评价B 实际水平高的考生得了高分该题也可能没有区分度8 题主观题（满分 20 分）的总得分 450 分，该题的难度为A 0.75B 0.67C 0.2D 0.65（） 5、教学活动所预期达到的标准，进一步具体化的教育目标称作A 课程目标B 教学目标C 行为目标D 学习目标（） 6、在编制试题时，题型的分类中填空题、改错题、名词解释、简答题都属于A 提供型B 选择型C 开放式D 常用题型（） 7、在《学习的条件》中将认知领域分为言语信息、智力技能、认知策略是A 布鲁姆B 加涅C 梶田叡一D 罗杰斯（） 8、同一范围内同类评价对象，必须用同一标准；评价指标、标准、权数和分值的确定要合理合情，评价等级和打分时也要合情合理。

是指A 方向性原则B 公平性原则C 客观性原则D 科学性原则（） 9、教育评价指标体系结构中不可忽略的部分，分为权数和分数两类，用来反映某一个体在整体中的相对地位的。

叫做A 职责标准B 量化符号C 科学标准D 社会标准（） 10、将评价指标体系的末级指标分为若干因素，将每个因素分为若干等级，每个等级编制相应的期望评语称为A 积分评语式编写法B 期望评语式编写法C 隶属度式编写法D行为目标式编写法（） 11 、在评价对象的集合内选择一个或若干基准，各个评价对象和基准进行比较，叫做A 绝对评价法B 相对评价法C 教育评价方法D 定量分析法（） 12、书面的量表进行收集评价信息的方法有 7 种分为两大类，其中观察、听汇报、访谈、座谈会、问卷法都属于A 定量分析法B 测量法C 定性分析法D 调查法（） 13、以调查方式去访问有关人员，了解情况，从而收集评价信息的方法叫做 A观察法 B测量法C调查访问D问卷法（） 14、各方面的测量结果合并求平均数，但各方面的重要程度不同，不能等量齐观。

效度太高的原因

效度太高的原因
效度太高的原因有多种，以下是一些可能的原因：
1. 样本偏差：如果研究样本不能代表目标总体，那么研究结果的效度就会受到影响。

例如，如果研究只针对某个特定地区或特定人群，而没有考虑到其他地区或人群，那么研究结果可能无法推广到更广泛的群体。

2. 测量误差：测量误差是指研究中使用的工具或方法不准确或不稳定，导致结果出现偏差。

例如，如果研究中使用的问卷调查不够准确或调查人员没有经过足够的培训，就可能导致测量误差。

3. 研究设计不合理：研究设计的不合理也会导致效度问题。

例如，如果研究中的实验组和对照组没有可比性，或者实验条件不够控制，就会导致结果出现偏差。

4. 偏见或偏好：研究者或参与者的偏见或偏好也会影响研究的效度。

例如，研究者可能对某个理论或假设有先入为主的看法，或者参与者可能因为某种原因而选择性地回答问题。

5. 数据分析问题：数据分析问题也可能导致效度问题。

例如，如果研究者没有正确地分析数据或使用不恰当的统计方法，就会导致结果出现偏差。

为了提高研究的效度，研究者需要采取一系列的措施，例如制定合理的样本量、选择合适的测量工具、设计合理的实验条件、控制偏见和偏好、以及使用正确的数据分析方法等。

1。

影响教育实验内在效度的主要因素

影响教育实验内在效度的主要因素【影响信度的因素】影响信度的因素很多，被试、主试、测验内容、施测环境等各方面均能引起随机误差，导致分数不一致，从而降低测验的信度。

下面介绍几个影响测验信度系数的重要因素。

（一）被试的样本影响信度估计的一个重要因素是被试样本的情况。

团体的异质程度与分数的分布有关，一个团体越是异质，其分数分布的范围也就越大，信度系数也就越高。

由于信度系数与样本团体的异质性有关，因此我们在使用测验时，不能认为当该测验在一个团体中有较高的信度时，在另一个团体中也具有较高的信度。

此时，往往需要重新确定测量的信度。

经研究表明，信度系数不仅受样本团体的异质程度的影响，也受样本团体平均水平的影响。

因为对于不同水平的团体，项目具有不同的难度，每个项目在难度上的变化累积起来便会影响信度。

但是，这种影响不能用统计公式来推估，只能从经验中发现。

（二）测验的长度一般来说，测验越长，信度值越高。

这是因为：①测验加长，可能改进项目取样的代表性，从而能更好地反映受测者的真实水平；②测验的项目越多，在每个项目上的随机误差就可以互相抵消。

（三）测验的难度测验的难度与信度没有直接对应关系，但是当测验太难或太易时，则分数的范围就会缩小，从而降低信度。

显然只有当测验难度水平可以使测验分数的分布范围最大时，测验的信度才会最高，通常这个难度水平为0.50。

当题目过难时，被试可能凭猜测作答，从而也会降低信度。

【影响效度的因素】影响测验效度的因素很多，除了前面介绍的影响信度的因素以外，测验本身、测验的实施和被试等都会对效度产生影响。

其中有些因素的影响较为普遍且明显，有些因素的影响却不易察觉。

（一）测验本身1．项目质量测验的指导语和试题的解答说明不明确，试题的编制不符合测量目的，试题难度不合适，试题的编排不合理，试题提供了额外线索，选择题的答案排列具有明显的规律性等，都会影响测验的效度。

2．项目数量增加测验的长度不但能提高测验的信度，在一定程度上也能提高测验的效度。