测验的信度与效度
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4
6.7
2
3.3
19
31.7
60 100
提高內容效度的方法
列出教材內容各項重點與所要測 量的學習結果或行為
各項教材重點和學習結果要以相 對的重要性來加權
依據雙向細目表來編製測驗,所 編製的測驗越符合細目表各細格 所佔的比重,則內容效度越高。
效標關聯效度意義
(criterion-related validity)
針對測量工具的目標和內容,以系統的 邏輯方法來詳細分析,又稱為邏輯效度 (1ogical validity)
表面效度(face validity),指測量工具 在外顯形式上的有效程度
限制:出於邏輯判斷,缺乏實證的統計 數據評估指標,需以判斷法來進行效度 評估
內容效度的判斷方式
專家效度 雙向細目表
效標關聯效度類型
使用便利 – 複本測驗需要在內容、型式、題數、難度、測驗指導
與時間等都需要與原測驗相等, – 主要誤差來源:內容取樣、時間間隔、練習效果、學
習遷移 – 優缺點?
信度的類型
• 內部一致性係數(coefficient of internal consistency)
– 反映測量工具內部同質性、一致性或穩定度。 同質性越高,代表量表試題是在測量相同的特 質。常用方法有:
信度的類型
• 評分者間信度(inter-rater reliability):
– 不同的評量者的觀察、紀錄、評分的一致性。 – 傳統:相關係數、同意百分比法 – 近代:類推性理論
影響信度的因素
• 影響信度的關鍵因素是測量誤差,可以減低誤差的方法,
即能夠提高信度。
– 基本原理:中央極限定理 、測量標準誤、共變量的計算
根據具體客觀的量化指標來進行評 估
效度的類型
內容效度(content validity) 效標關聯效度(criterion-related validity) 建構效度(construct validity)
內容效度
(content validity)
內容效度
反映測量工具本身內容廣度的適切程度, 強調測量內容(教材內容或預期的行為)的 廣度、涵蓋性與豐富性 ,以做為外在推 論的主要依據。
表格左方表示教學所欲達成的目標, 上方表示教材內容範圍,並逐一檢 視每一試題以考驗整份測驗之內容 效度
雙向細目表
題數
內容範圍
行為目標 知識 理解 應用 分析 綜合 評鑑 情意 技能
簡答題 總題數
分數 百分比
細胞
0 2 1 1 2 0 1 1 1 9 11 18.3
能量代謝
2 0 2 1 1 1 0 0 1 8 10 16.7
• 信度並非「全有或全無」,而是程度的問
題。若多次重複測量的結果都非常接近, 則說明該評量結果信度高;反之,若各次評 量結果的變異大,則信度低。
• 與物質、生理特徵的測量相較,心理測驗
的測量精確度較低。
• 誤差來源
– 個人狀況(身體不適、大意) – 題目本身的合宜性(太難、太容易) – 測驗情境的影響(實施、計分的錯誤)
信度的原理
實得分數與真正分數
• 實得分數(X)=真正分數(T)+誤差分數(E)
• 實得分數變異數(S2X)=真正分數變異數
( S2T)+誤差分數變異數(S2E )
• 信度變異= S2T/ S2X
信度的類型
信度的類型
• 再測信度(test-retest reliability)
– 係指以同一種測量工具,對同一群受試者,前 後測驗兩次的相關係數。又稱穩定係數。通常 時間越長,再測信度越低
– 方法 • 庫李(KR20)(1937)適用於二分變數(對錯)的測量 • Cronbach’s α(1951)適用於多元尺度變數(多元計分)
的測量
• 折半信度(split-half reliability):測驗題目依題目
的單雙數或其他方法分成兩半,計算受測者在兩半 測驗上的分數的相關係數。
– 優缺點?
信度與效度
以打靶為例
信度(reliability)
測驗資料的可靠性
效度(validity)
測驗結果的真確性
信度
信度的意義
• 測量的一致性(就內容而言)或穩定性(就時
間而言),幾次測驗結果Байду номын сангаас否一致的程度
• 範例
– 一天之內以同一磅秤多次測量某人體重 • 結果一:大致相同→測量結果可靠 • 結果二:有顯著性的差異→測量結果不可靠
• 影響信度的因素
– 受試者因素(如受測者的身心健康狀況、動機、注意力、 持久性、作答態度等變動)
– 主試者因素(如非標準化的測驗程序、主試者的偏頗與 暗示、評分的主觀性等等)
– 測驗情境因素(測驗環境條件如通風、光線、聲音、桌 面、空間因素等皆有影響的作用)
– 測驗內容因素(試題取樣不當、內部一致性低、題數過 少等)
光合作用
1 1 1 2 1 1 1 0 1 9 14 23.3
呼吸作用
1 2 1 1 2 2 1 1 1 12 15 25.0
生物分子
0 2 1 1 1 1 1 0 1 8 10 16.7
總題數
4 7 6 6 7 5 4 2 5 46
分數
百分比
4
6.7
7
11.7
6
10.0
6
10.0
7
11.7
5
8.3
– 時間因素
效度
效度的意義
效度的意義
測量的正確性,指測驗或其他測量 工具確能測得其所欲測量的特質或 功能之程度
測量的效度愈高,表示測量的結果 愈能顯現其所欲測量對象的真正特 徵
評估效度的方法
判斷法(informed judgment)
測量特性與質的評估
實徵法
(gathering of empirical evidence)
效標關聯效度 測驗分數與外在效標之間的一致程度 外在效標:測驗所要測量的某些行為或 特質的代表量數 又稱實證效度、統計效度。 以測驗分數和特定效標(criterion)之 間的相關係數,表示測量工具有效性之 高低。 個別測驗效度係數小於.70,團體測驗 效度係數小於.60,就需要謹慎地解釋
– 常見於:智力、性向、人格等測驗 – 通常個別化診斷測驗信度係數須達.90,團體測
驗為.80,篩選測驗為.60 – 優缺點?
信度的類型
• 複本信度(a1ternate-form reliability)
– 同一群受試者接受兩種複本測驗的得分之相關係數。 – 複本常見於團體化測驗,可相互替代使用(例如前後測),