上海高校自主招生考试的信度和效度分析[J]
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
G 研究的有关数据见表 1. 表 1 给出了各 类效 应的 G 方差估计值和相应百分比, 以及各类效应的 D 方差分量和 G 值. 每个考试 科目中, 被试 代表 考生的知识水平, 从表中的数据可以看到, 在每个考 试的具体科目内容中, 被试的主效应显著低于其他
第 12 期
马 磊: 上海高校自主招生考试的信度和效度分析
1
0. 012 0
26
0. 002 3
26
0. 006 0
1
0. 026 3
20
0. 001 4
20
0. 010 5
1
0. 009 5
100
0. 000 3
100
0. 001 1
0. 623 3 0. 675 4 0. 811 1
察看各考试项目分量表中主效应的 G 方差分 量估计值在实测分数总变异中所占的比例发现, 各 科试题在解释分数总变异方面很不一样, 化学试题 的主 效 应 所 占 比 率 较 小, 仅 占总 分 数 总 变 异 的 11. 811% , 而语文和数学试题的主效应所占比例较 大, 分别占各科分数总变异的 26. 584% 和25. 213% , 这说明由语文和数学试题引起的误差较大.
999 23 21 975
效应 被试 试题 交互
被试 试题 交互
G 方差分量 0. 004 6 0. 039 0 0. 137 1
0. 004 4 0. 036 4 0. 143 8
占比/ % 3. 022 26. 584 59. 011
2. 410 25. 213 66. 157
D 样本量 1 30 30
1. 1 研究样本的结构和内容 本文所选用的研究样本, 来自 2007 年上海某高
校( M 大学) 自主招生考试中使用的考试题本. 该题 本共有 100 道单项选择题, 涵盖了语文、数学、物理、 化学等主要科目, 第 1~ 30 题为语文题目, 第 31~
54 题为数学题目, 第 55~ 80 题为物理题目, 第 81~ 100 题为化学题目. 1. 2 研究数据的采集
Abstract: A im ed at t he reliabilit y and validit y o f t he current independent enro llment ex aminat ion, a sy st em at ic st udy w as conduct ed using em pirical analysis based on t he data o f a cert ain universit y in Shang hai. Som e usef ul conclusions w ere draw n, providing some operat ional and valuable suggestions f or t he perf ect ion of independent enrollm ent ex am inat ion. Key words: independent enrollm ent ; r eliabilit y; validit y
1 83 0
上 海 交 通 大学 学 报
第 45 卷
如果两次评价结果相差很大, 则说明评价不合理, 所 获取的信息不可靠, 招生方式信度较低.
在大多数情况下, 信度指标都是以信度系数形 式呈现的. 信度系数被定义为两次评价得分的相关 系数. 信度系数越大, 说明评价方法的可靠性越强, 评价结果越合理, 系统的信度越高; 信度系数越小, 说明评价方法的可靠性越弱, 评价结果可能越不合 理, 系统的信度越低.
从 2007 年上海地区的考生中随机抽取 M 大学 自主招生考试的有效答卷 1 000 份, 得到每个抽样 试卷的具体分数, 并建立相应的数据库文件; 然后, 根据单面设计的要求, 应用概化理论中的有关公式, 对数据库中的有关数据 进行分析, 利用 GENOVA 分析软件, 计算出试卷中语文、数学、物理、化学 4 科 目的抽样考生的知识水平以及自主招生考试题目的 主要效应, 并分析抽样考生的知识水平与自主招生 考试题目的交互效应的方差分量和其占总变异的百 分比.
表 1 上海 M 大学自主 招生考试各效应的方差分量估计 Tab. 1 Estimation of variance components based on the data of M university in Shanghai
科目 语文
数学
题号 1~ 30
31~ 54
自由度 999 29
25 863
自 2003 年北京大学、清华大学等 22 所高校开 始实行自主招生以来, 这个话题就一直是大家热议 的焦点. 与公 认的最具有公信 力、最成熟 的高考相 比, 自主招生的方式相对灵活, 有利于高校发现具有 创新能力的学生. 在经过前几年的摸索和尝试后, 自 主招生的测试方法及测试内容, 包括招生程序, 监督 机制等环节都在不断完善. 截至 2010 年 11 月份, 全 国具有自主招生资格的高校增加到 80 所, 自主招生 已经成为趋势[ 1] . 从理论上讲, 在我国高校中实行自 主招生有其理论和实践基础, 但在当前的国情之下, 这种招生方式是否能够达到预期目的, 是否可以真 正地招到高校所需的优秀人才, 种种问题还有待论 证. 其中自主招生方式的信度和效度是教育界、家长 和考生最为关注的一个问题.
2 自主招生考试的信度分析
利用概化理论研究信度问题时, 可以采用 X Y 单面设计的方法. 其中: X 代表参加自主招生考试 的学生的知识水平, 这也就是考试的测量目标; Y 代 表试题的主要效应. 根据概化理论的分析程序, 对自 主招生考试的信度分析包括 G 研究和 D 研究. G 研 究也称为概化研究, 研究目的是给出各类效应的 G 方差分量估计值和相应的百分比. 从测量理论的角 度而言, G 研究估计所有侧面和测量目标的变异分 量, 也估计所有侧面和测量目标交互作用的变异分 量, 通过一定的实际测试数据, 得到测量过程中所有 误差来源的变异分数. D 研究也称为决策研究, 研究 目的是计算出概化系数, 尤其是不同条件下概化系 数的变化情况以 便于决 策. G 研究是 D 研究的 基 础, D 研究是在 G 研究的基础上, 参考 G 研究得到 的方差分量值, 改变测量情景关系以得到最小的测 量误差. D 研究所计算出来的概化系数用 G 系数来 表示, 这是用来衡量自主招生考试可靠性的指标, G 系数越大表明测试的可靠性越高.
影响高校自主招生方式效度的主要是被选拔者 的主观感受和发展状况. 对效度的鉴定, 大多通过效 度系数来估计. 效度系数被定义为评价得分同标变 量的相关系数. 效度系数越高说明高校自主招生方 式的有效性越强; 效度系数越低则说明高校自主招 生方式的有效性越弱, 表明尽高校自主招生方式 的可靠性很高, 但决策的相关性不够, 招生过程管理 无效.
被试 试题 交互
被试 试题 交互
被试 试题 交互
0. 014 0 0. 040 5 0. 166 7
0. 026 6 0. 021 3 0. 182 1
0. 008 5 0. 047 9 0. 155 9
4. 577 18. 766 74. 233
10. 011 11. 811 73. 054
3. 204 21. 420 75. 075
信度, 在高校招生管理领域可解释为高校自主 招生方式的可靠性, 主要是指考试和录取制度的可 信性, 同时也包括自主招生系统各个组成部分设计 的科学性和合理性. 本文定义, 高校自主招生方式的 信度就是研究高校的某一自主招生方式在多次招生 过程中有多少次是合理的或公正的, 或每次自主招 生属于合理的或公正的概率是多少. 为了保证高校 自主招生方式具有较高的信度, 首先要对该招生方 式进行合理性测试, 只有系统本身不自相矛盾, 才可 能得出可能合理的或公正的结论; 其次还要对介入 高校自主招生系统的环境和人进行测试. 如果在相 近时间内, 对同一人( 被评价者) 进行两次评价, 前后 得分一致或相似, 则说明评价结果是合理的, 所获取 的信息是可靠的, 招生方式具有较高的信度; 相反,
本文以上海某高校的招生生源为例, 通过统计 分析和统计检验方法对高校现行招生方式是否会提 高大学的招生质量、是否有利于人才的选拔与输送 等选项进行信度和效度检验, 旨在通过自主招生过 程中数据的定量分析, 找出一些定性的结论, 对后续 自主招生工作提出一些具有可操作性和实际价值的 建议.
1 研究方法
第 45 卷 第 12 期 2011 年 12 月
上 海 交通 大学 学报
JO U RN A L OF SH A N GH AI JIA O T O NG U N IV ERSIT Y
文章编号: 1006- 2467( 2011) 12- 1829- 07
V ol. 45 N o. 12 D ec. 2011
上海高校自主招生考试的信度和效度分析
马磊
( 上海交通大学 发展联络处, 上海 200240)
摘 要: 针对目前被广为关注的自主招生考试的有效性和可靠性, 采用实证分析方法, 对上海某高
校自主招生考试的信度和效度进行了较为系统的研究, 得出了一系列有用的结论. 研究结果为自主
招生工作的完善提供了一些具有可操作性和实际价值的建议.
1 24 24
D 方差分量 0. 005 2 0. 003 9 0. 005 3
0. 004 5 0. 001 2 0. 005 4
G 系数 0. 546 5
0. 471 2
物理 化学 综合
55~ 80 81~ 100 1~ 100
999 25 24 972
999 19 14 881
999 99 94 931
关键词: 自主招生; 信度; 效度
中图分类号: D 630. 3
文献标志码: A
Reliability and Validity of the Test for Independent Enrollment
M A L ei ( Alumni Associat ion, Shang hai Jiao t ong U niversity , Shang hai 200240, China)
收稿日期: 2011-04-10 基金项目: 全国教育科学 十一五 规划 2010 年度教育部重点课题阶段性成果( D IA 100309) 作者简介: 马 磊( 1974-) , 男, 天津市人, 博士, 副教授, 研究方向为高校管理. 电话( T el. ) : 021-54741521; E-m ail: l ma@ sjt u. edu. cn.
效度, 在高校招生管理领域是指运用一定的高 校自主招生方式 进行的效果与预期结果 的一致程 度. 它不仅要求高校自主招生方式的设计是科学、合 理的, 而且还要求高校自主招生方式适合高校管理 和人才培养的实际情况, 并能够根据招生结果对招 生政策和招生过程中存在的问题对症下药, 实现高 校管理和人才培养的目标. 一般而言, 效度越高, 则 其信度也较高, 而信度很高, 其效度却未必高. 信度 和效度既相关也有明显不同, 从自主招生考试的角 度讲, 信度是指自主招生考试的一致性, 如果自主招 生考试的信度高, 则对同一个考生重复考核, 每次得 到的考核结果应该一致. 信度强调考试结果的可靠 性和稳定性, 具体地, 可靠性和稳定性既包括跨期考 核能体现出 一致性, 也 包括 考核内 容的 内在 一致 性[ 2] .
效度研究的对象为参加 2007 年上海 M 大学自 主招生并顺利通过选拔的学生. 这类学生最后也参 加高考, 但高考只是作为其录取参考, 并不作为录取 依据. 通过 2007 年上海 M 大学选拔录取测试的学 生共有 323 名, 实际入学报到时有 3 名学生被香港 或海外高校另行录取, 放弃上海 M 大学入学资格. 因此, 本文研究的第一类生源对象样本数为 320 人.
18 31
效应, 仅是分数总变异的很小一部分, 这说明各科目 试题在对相关知识水平测量上的精度不够高, 自主 招生考试的考试分数与考生实际知识水平之间存在 一定的随机误差. 进一步对分量表中不同科目的主
效应进行横向比较可以发现: 化学试题的被试主效 应相对最高, 说明在上海 M 大学的自主招生考 试 中, 化学试题的测试精度比较高.
第 12 期
马 磊: 上海高校自主招生考试的信度和效度分析
1
0. 012 0
26
0. 002 3
26
0. 006 0
1
0. 026 3
20
0. 001 4
20
0. 010 5
1
0. 009 5
100
0. 000 3
100
0. 001 1
0. 623 3 0. 675 4 0. 811 1
察看各考试项目分量表中主效应的 G 方差分 量估计值在实测分数总变异中所占的比例发现, 各 科试题在解释分数总变异方面很不一样, 化学试题 的主 效 应 所 占 比 率 较 小, 仅 占总 分 数 总 变 异 的 11. 811% , 而语文和数学试题的主效应所占比例较 大, 分别占各科分数总变异的 26. 584% 和25. 213% , 这说明由语文和数学试题引起的误差较大.
999 23 21 975
效应 被试 试题 交互
被试 试题 交互
G 方差分量 0. 004 6 0. 039 0 0. 137 1
0. 004 4 0. 036 4 0. 143 8
占比/ % 3. 022 26. 584 59. 011
2. 410 25. 213 66. 157
D 样本量 1 30 30
1. 1 研究样本的结构和内容 本文所选用的研究样本, 来自 2007 年上海某高
校( M 大学) 自主招生考试中使用的考试题本. 该题 本共有 100 道单项选择题, 涵盖了语文、数学、物理、 化学等主要科目, 第 1~ 30 题为语文题目, 第 31~
54 题为数学题目, 第 55~ 80 题为物理题目, 第 81~ 100 题为化学题目. 1. 2 研究数据的采集
Abstract: A im ed at t he reliabilit y and validit y o f t he current independent enro llment ex aminat ion, a sy st em at ic st udy w as conduct ed using em pirical analysis based on t he data o f a cert ain universit y in Shang hai. Som e usef ul conclusions w ere draw n, providing some operat ional and valuable suggestions f or t he perf ect ion of independent enrollm ent ex am inat ion. Key words: independent enrollm ent ; r eliabilit y; validit y
1 83 0
上 海 交 通 大学 学 报
第 45 卷
如果两次评价结果相差很大, 则说明评价不合理, 所 获取的信息不可靠, 招生方式信度较低.
在大多数情况下, 信度指标都是以信度系数形 式呈现的. 信度系数被定义为两次评价得分的相关 系数. 信度系数越大, 说明评价方法的可靠性越强, 评价结果越合理, 系统的信度越高; 信度系数越小, 说明评价方法的可靠性越弱, 评价结果可能越不合 理, 系统的信度越低.
从 2007 年上海地区的考生中随机抽取 M 大学 自主招生考试的有效答卷 1 000 份, 得到每个抽样 试卷的具体分数, 并建立相应的数据库文件; 然后, 根据单面设计的要求, 应用概化理论中的有关公式, 对数据库中的有关数据 进行分析, 利用 GENOVA 分析软件, 计算出试卷中语文、数学、物理、化学 4 科 目的抽样考生的知识水平以及自主招生考试题目的 主要效应, 并分析抽样考生的知识水平与自主招生 考试题目的交互效应的方差分量和其占总变异的百 分比.
表 1 上海 M 大学自主 招生考试各效应的方差分量估计 Tab. 1 Estimation of variance components based on the data of M university in Shanghai
科目 语文
数学
题号 1~ 30
31~ 54
自由度 999 29
25 863
自 2003 年北京大学、清华大学等 22 所高校开 始实行自主招生以来, 这个话题就一直是大家热议 的焦点. 与公 认的最具有公信 力、最成熟 的高考相 比, 自主招生的方式相对灵活, 有利于高校发现具有 创新能力的学生. 在经过前几年的摸索和尝试后, 自 主招生的测试方法及测试内容, 包括招生程序, 监督 机制等环节都在不断完善. 截至 2010 年 11 月份, 全 国具有自主招生资格的高校增加到 80 所, 自主招生 已经成为趋势[ 1] . 从理论上讲, 在我国高校中实行自 主招生有其理论和实践基础, 但在当前的国情之下, 这种招生方式是否能够达到预期目的, 是否可以真 正地招到高校所需的优秀人才, 种种问题还有待论 证. 其中自主招生方式的信度和效度是教育界、家长 和考生最为关注的一个问题.
2 自主招生考试的信度分析
利用概化理论研究信度问题时, 可以采用 X Y 单面设计的方法. 其中: X 代表参加自主招生考试 的学生的知识水平, 这也就是考试的测量目标; Y 代 表试题的主要效应. 根据概化理论的分析程序, 对自 主招生考试的信度分析包括 G 研究和 D 研究. G 研 究也称为概化研究, 研究目的是给出各类效应的 G 方差分量估计值和相应的百分比. 从测量理论的角 度而言, G 研究估计所有侧面和测量目标的变异分 量, 也估计所有侧面和测量目标交互作用的变异分 量, 通过一定的实际测试数据, 得到测量过程中所有 误差来源的变异分数. D 研究也称为决策研究, 研究 目的是计算出概化系数, 尤其是不同条件下概化系 数的变化情况以 便于决 策. G 研究是 D 研究的 基 础, D 研究是在 G 研究的基础上, 参考 G 研究得到 的方差分量值, 改变测量情景关系以得到最小的测 量误差. D 研究所计算出来的概化系数用 G 系数来 表示, 这是用来衡量自主招生考试可靠性的指标, G 系数越大表明测试的可靠性越高.
影响高校自主招生方式效度的主要是被选拔者 的主观感受和发展状况. 对效度的鉴定, 大多通过效 度系数来估计. 效度系数被定义为评价得分同标变 量的相关系数. 效度系数越高说明高校自主招生方 式的有效性越强; 效度系数越低则说明高校自主招 生方式的有效性越弱, 表明尽高校自主招生方式 的可靠性很高, 但决策的相关性不够, 招生过程管理 无效.
被试 试题 交互
被试 试题 交互
被试 试题 交互
0. 014 0 0. 040 5 0. 166 7
0. 026 6 0. 021 3 0. 182 1
0. 008 5 0. 047 9 0. 155 9
4. 577 18. 766 74. 233
10. 011 11. 811 73. 054
3. 204 21. 420 75. 075
信度, 在高校招生管理领域可解释为高校自主 招生方式的可靠性, 主要是指考试和录取制度的可 信性, 同时也包括自主招生系统各个组成部分设计 的科学性和合理性. 本文定义, 高校自主招生方式的 信度就是研究高校的某一自主招生方式在多次招生 过程中有多少次是合理的或公正的, 或每次自主招 生属于合理的或公正的概率是多少. 为了保证高校 自主招生方式具有较高的信度, 首先要对该招生方 式进行合理性测试, 只有系统本身不自相矛盾, 才可 能得出可能合理的或公正的结论; 其次还要对介入 高校自主招生系统的环境和人进行测试. 如果在相 近时间内, 对同一人( 被评价者) 进行两次评价, 前后 得分一致或相似, 则说明评价结果是合理的, 所获取 的信息是可靠的, 招生方式具有较高的信度; 相反,
本文以上海某高校的招生生源为例, 通过统计 分析和统计检验方法对高校现行招生方式是否会提 高大学的招生质量、是否有利于人才的选拔与输送 等选项进行信度和效度检验, 旨在通过自主招生过 程中数据的定量分析, 找出一些定性的结论, 对后续 自主招生工作提出一些具有可操作性和实际价值的 建议.
1 研究方法
第 45 卷 第 12 期 2011 年 12 月
上 海 交通 大学 学报
JO U RN A L OF SH A N GH AI JIA O T O NG U N IV ERSIT Y
文章编号: 1006- 2467( 2011) 12- 1829- 07
V ol. 45 N o. 12 D ec. 2011
上海高校自主招生考试的信度和效度分析
马磊
( 上海交通大学 发展联络处, 上海 200240)
摘 要: 针对目前被广为关注的自主招生考试的有效性和可靠性, 采用实证分析方法, 对上海某高
校自主招生考试的信度和效度进行了较为系统的研究, 得出了一系列有用的结论. 研究结果为自主
招生工作的完善提供了一些具有可操作性和实际价值的建议.
1 24 24
D 方差分量 0. 005 2 0. 003 9 0. 005 3
0. 004 5 0. 001 2 0. 005 4
G 系数 0. 546 5
0. 471 2
物理 化学 综合
55~ 80 81~ 100 1~ 100
999 25 24 972
999 19 14 881
999 99 94 931
关键词: 自主招生; 信度; 效度
中图分类号: D 630. 3
文献标志码: A
Reliability and Validity of the Test for Independent Enrollment
M A L ei ( Alumni Associat ion, Shang hai Jiao t ong U niversity , Shang hai 200240, China)
收稿日期: 2011-04-10 基金项目: 全国教育科学 十一五 规划 2010 年度教育部重点课题阶段性成果( D IA 100309) 作者简介: 马 磊( 1974-) , 男, 天津市人, 博士, 副教授, 研究方向为高校管理. 电话( T el. ) : 021-54741521; E-m ail: l ma@ sjt u. edu. cn.
效度, 在高校招生管理领域是指运用一定的高 校自主招生方式 进行的效果与预期结果 的一致程 度. 它不仅要求高校自主招生方式的设计是科学、合 理的, 而且还要求高校自主招生方式适合高校管理 和人才培养的实际情况, 并能够根据招生结果对招 生政策和招生过程中存在的问题对症下药, 实现高 校管理和人才培养的目标. 一般而言, 效度越高, 则 其信度也较高, 而信度很高, 其效度却未必高. 信度 和效度既相关也有明显不同, 从自主招生考试的角 度讲, 信度是指自主招生考试的一致性, 如果自主招 生考试的信度高, 则对同一个考生重复考核, 每次得 到的考核结果应该一致. 信度强调考试结果的可靠 性和稳定性, 具体地, 可靠性和稳定性既包括跨期考 核能体现出 一致性, 也 包括 考核内 容的 内在 一致 性[ 2] .
效度研究的对象为参加 2007 年上海 M 大学自 主招生并顺利通过选拔的学生. 这类学生最后也参 加高考, 但高考只是作为其录取参考, 并不作为录取 依据. 通过 2007 年上海 M 大学选拔录取测试的学 生共有 323 名, 实际入学报到时有 3 名学生被香港 或海外高校另行录取, 放弃上海 M 大学入学资格. 因此, 本文研究的第一类生源对象样本数为 320 人.
18 31
效应, 仅是分数总变异的很小一部分, 这说明各科目 试题在对相关知识水平测量上的精度不够高, 自主 招生考试的考试分数与考生实际知识水平之间存在 一定的随机误差. 进一步对分量表中不同科目的主
效应进行横向比较可以发现: 化学试题的被试主效 应相对最高, 说明在上海 M 大学的自主招生考 试 中, 化学试题的测试精度比较高.