标准化测验(Standardized_Tests)-
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
性向测验的分类(2/3)
• 多元性向或多因素性向测验 多元性向测验是综合数种性向的测验组合(test battery),可同时测量多方面的潜能,帮助受试者了解个 人能力上的优势和弱势。
性向测验的分类(3/3)
• 特殊性向测验 特殊性向测验测量受试者某方面的特殊潜能,如音乐、 美术、数学、科学、机械、文书等。
测验的分类
• 认知性测验(cognitivetests) • 衡量个人最佳的(best)行为表现,目的在了解受 测者之最高能力水平,又称「最大表现测验」 (maximalperformance tests),通常有标准答案, 分数反映程度高下。 • 情感性测验(affectivetests) • 衡量个人典行型的(typical)行为表现,目的在了 解受测者一般的行为倾向,又称「典型表现测验」 (Typical performance tests) ,受測者依其實況 作答,答案並無所謂的對與錯。
效 度
效度的意義
• 效度是指測驗分數的正確性,也就是測驗 能夠測量到它所想要測量的特質的程度, 亦即是否「名實相符」。 • 測驗能夠達到某種目的的程度(Mehrens & Lehmann 1991)
效度的種類
• 內容效度 (content-related validity) :指測驗內容的代表 性或取樣的適切性。 內容效度最適合於成就測驗的效度考驗。 • 效標關聯效度(criterion-related validity) :指測驗分數與 一些外在效標間的相關。根據效標取得時間分為同
測驗分數解釋—常模參照
• 常模(Norm) :指「一個具有代表性的樣本 團體在測驗上實際得到的分數之分佈」, 換言之,就是將測驗施予一群人(標準化 樣本),這群人測驗得分的分佈就是常模。 • 常模適當性判斷: 時近性、代表性、適切性
測驗分數解釋—常模參照
• 常用常模有兩套系統-- 1.百分等級和百分位數 百分等級以表現可以勝過多少百分比的同儕來解釋。例 如 PR = 90 2.標準分數 以表現相對於平均數上下若干標準差來解釋。例如資優 界定為IQ在平均數上2個標準差,某測驗平均數為100,標 準差為15,學生IQ要達多少方為資優?
智力测验(Intelligence Tests)
• 智力的意义十分分歧 • 普通的能力 • 适应环境的能力 • 抽象思考的能力 • 学习的能力 • 测量记忆、理解(语文、数理等)、判断、推理(语文、 数学、空间等)、顺序思考推理等心智能力。 • 传统智力测验将智力视为一整体性能力,通常以单一 「智商」做为智力的代表。
信度和效度的關係-
信度是效度的必要條件而非充分條件
有信度有效度
有信度但無效度
無信度又無效度
測驗信度和效度研究舉例
以「中學多元性向測驗」為例-- • 信度研究 一、重測信度 間隔2-4週,各分測驗之穩定係數介於0.38~0.88之間,中 位數為0.64,其數值均達 .01顯著水準。 二、內部一致性係數 各分測驗的庫李信度(KR 20)係數值介於0.50~0.90之間, 中位數為0.79。
信度的原理
• 分數構成 X=T+E
– X:實得分數或觀察分數(observed score) – T:真實分數(true score) – E:誤差分數(error score)
真實分數:又稱普遍性分數(universe score),無法正確測 量到,通常以多次重試求取平均數做為真實分數。 誤差分數及測量誤差,可正可負可零,理論上多次重試的 結果誤差平均數為零。
KR20 k pq 1 k 1 SD 2
k (SDi ) 2 1 2 k 1 SD
信度的類型
• 內部一致性係數 反映測量題目的內部同質性,一致性越高,越代表量 表試題是在測量相同的特質。 • 評分者間信度(inter-rater reliability) 估計方法 – 計算不同的評量者間分數的相關係數。 – 計算不同評分者間的同意百分比(percent of agreement)
信 度
信度的意義
• 意義: 信度指測驗分數的一致性、穩定性和 可靠性。信度也表示測驗分數受到測量誤差 的影響程度。
一致性(consistency)─表示測驗內部試題間是否
相互符合 穩定性(stability)─不同的測驗時點下,測驗分數 前後一致的程度 • 測驗分數的一致性或穩定性,反映測驗分數受到測量 誤差的影響程度。
各種信度估計方法的誤差變異量來源
信度估計法 重測法 複本法 複本重測法 折半法 庫李法 或係數 評分者評分法
誤差變異量來源 時間上的取樣 試題內容的取樣 試題內容的取樣+時間上的 取樣 試題內容的取樣 試題內容的取樣 評分者間的差異
測量標準誤 SEM
(Standard Error of Measurement)
True x 1.96SEM
真實分數的95%的信心區間
測量標準誤的應用
• 解釋個人測驗分數的意義---可信賴範圍
– 例如某生智力測驗得到130,此測驗信度為 0.96,標準差為15,該生的真實分數落在的 可信賴範圍為何?.96 3 SEmeas. 15 1 0
• • • • 依據常態分配, 落在127--133(上下一個標準差)的機率為68.26% 落在124--136(上下兩個標準差)的機率為95.44% 落在121--139(上下三個標準差)的機率為99.72%
測驗信度和效度研究舉例
以「中學多元性向測驗」為例-- • 效度研究 一、與「多因素性向測驗」的相關 二、與「高一性向測驗」的相關 三、與學業成績之相關 四、各分測驗之相關 五、年級、組別間之差異分析
測驗分數的解釋
測驗結果解釋
• 常模參照(norm referenced):採相對位置解釋, 即與其他人的表現做比較 • 標準參照(criterion referenced):與明訂的標 準做比較。
测验的分类
• • • •
1.智力测验(Intelligence Tests)这个老婆找到了补充新内容 2.性向测验(Aptitude Tests)没找到的就直接用这个的 3.成就测验(Achievement Tests)这个老婆找到了补充 4.人格测验(Personality Tests)没找到的就直接用这个的不 用每点都讲很细,讲两个很细的可以了
時效度(concurrent validity)與預測效度 (predictive validity) 。
效度的種類
同時效度:效標分數和測驗分數同時取得, 目的使用測驗分數估計個人在效標方面的 目前實際表現。 預測效度:效標分數在測驗實施後一段時 間取得,目的使用測驗分數預測個人在效 標方面的未來表現。
人格测验(Personality Tests)
• 人格测验(Personality Tests) 人格是由个人的认知、思考、动机、价值、性情、情感、 兴趣、信念、态度、自我观念等因素的总和。人格测验内 容相当复制,视编制者界定。 • 兴趣测验 测量对事物、活动、职业喜好的程度 • 态度/价值观测验 测量个人对特定事物的看法或重视程度
性向测验vs智力测验
• 通常智力测验所测得为普通性向, 性向测验所测得为特 殊性向. • 由于智力一词具有天赋的内涵且意义分歧,加上近代常用 智力测验预测学业成就,故逐渐以学业性向测验取代智力 测验的名称. 例如 SAT;GRE
成就测验(Achievement Tests)
• 成就测验的目的在测量个体学习或训练后获得之知识和技 能的程度。 • 国中基测、大学学测和指考、证照考试、检定考试属之
如何閱讀測驗手測 - 測驗評鑑
測驗名稱 編製或修訂者 出版者 出版日期和版本 適用對象(閱讀程度) 測驗功能或目的 編製的依據或理論基礎 測驗內容 (分測驗名稱、題目型式、題數)
• 試題分析過程 (如何抽樣?提供哪些試題指數?) • 測驗實施方式與時間 (團體還是個別?做完全測驗需 多少時間?實施的容易度) • 信度研究 (提供哪些信度數據?數據分佈的情況) • 效度研究 (提供哪些信度數據?數據分佈的情 • 標準化樣本、常模建立時間與常模分數表 (如何抽樣? 建立常模的時間?提供哪些常模對照表) • 是否有評論資料?
• 信度表示測量分數的穩定與可靠性,亦表示測量受到 測量誤差的影響程度
– 測量分數的變異量,受到測量誤差影響的部分,稱為測量誤差 變異量,開方後稱為測量標準誤(σe)
SEM x 1 rxx
rxx X特質的測驗信度
– 測量誤差被假設呈常態分配,因此測量標準誤配合常態化機率 可以用來進行測量分數的區間估計
信度的類型
• 折半信度(split-half reliability)
估計方法 用一次測驗結果,測驗題目依 題目的單雙數或其他方法分 成兩半,計算受測者在兩半 測驗上的分數的相關係數。 相關係數多採斯布校正係數 (Spearman-Brown prophecy formula)
nr rx x 1 (n 1)r
标准化成就测验分类 • 综合成就测验
• 多种客别学科测验所组成 • 单科成就测验 • 测量某一特定学科的成就水平 • 诊断测验 • 分析学生学习困难所在或原因
性向测验vs.成就测验
• 性向测验与成就测验 – 两者取材均为后天学得的 – 性向测验偏重在测量学习新工作的能力,而成就测验偏 重在测量学习过的经验 – 性向测验取样范围广,而成就测验取样仅限于特定的学 校经验
rXX : 估計的信度 r : 原測驗的信度 n : 測驗加長或減短的倍數
信度的類型
• 內部一致性係數
(coefficient of internal consistency ) – KR20(Kuder & Richardson, 1937) 適用於 二元計分題 – Cronbach’s α適用於多元 計分題
信度的類型
•重測信度(test-retest reliability)
估計方法:同一個測驗在不同時間,對同一群受試者重複 測量兩次,兩次分數求得的相關,稱為重測信度,又稱穩定 係數。 重測間隔時間
– 視工具的用途來決定間隔時間
缺點
– 易受練習與記憶影響 – 題目的性質因重測而改變,如推理變記憶
效度的種類
• 構念效度(construct validity) :指測驗能夠測 量到理論上的構念或特質的程度。換言之, 就是指測驗分數能夠依據某種心理學的理 論構念加以解釋的程度。因此凡是根據心 理學的構念,對測驗分數的意義做的解釋, 即為構念效度。 • 簡而言之,型
•複本信度(a1ternate-form reliability )
複本測驗-指在內容、型式、題數、難度、指導說、時間限 制與例題等方面類似或相等的測驗。通常是根據相同測驗藍圖 分別獨立編製而成。 估計方法 •同一時間連續實施 –反應工具內容所造成的誤差,無法反應受試者本身和測驗情 境所造成的誤差,此種複本信度又稱等值係數。 •間隔一段時間實施 –可反應工具內容所造成的誤差與受試者本身和測驗情境所造 成的誤差,此種複本信度又稱穩定與等值係數。
标准化测验
(Standardized Tests)
标准化测验
• 标准化测验从测验蓝图的设计,试题的编拟、分析、选择 和组合,整份测验信、效度的研究和分析,到测验常模的 建立,都经一定的程序和步骤。就实施过程来说,标准化 测验的施测步骤、计分和解释,均受到明订程序的控制, 目的在使不同实施情境(如实施者、地点、时间、计分者、 解释者和使用者)下的受试者,所得到的测验分数能做有 意义和公平的比较。
性向测验(Aptitude Tests)
• 性向是什么? 「性向」指个体在学习某种事物之前,对学习该事物所具有 的潜在能力。 (张氏心理学辞典) 「性向测验」泛指用来测量个体潜在能力的测验,或者预测 个体接受学习或训练后之成就或表现的测验。
性向测验的分类(1/3)
• 普通性向测验或学术性向测验 普通性向测验通常测量语文、数量、抽象思考、逻辑推 理等方面潜能,一般智力测验即属普通性向测验。