标准化测验(Standardized_Tests)-

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

性向测验的分类（2/3）
• 多元性向或多因素性向测验多元性向测验是综合数种性向的测验组合(test battery)，可同时测量多方面的潜能，帮助受试者了解个人能力上的优势和弱势。
性向测验的分类（3/3）
• 特殊性向测验特殊性向测验测量受试者某方面的特殊潜能，如音乐、美术、数学、科学、机械、文书等。
测验的分类
• 认知性测验（cognitivetests） • 衡量个人最佳的(best)行为表现，目的在了解受测者之最高能力水平，又称「最大表现测验」（maximalperformance tests），通常有标准答案，分数反映程度高下。 • 情感性测验（affectivetests） • 衡量个人典行型的(typical)行为表现，目的在了解受测者一般的行为倾向，又称「典型表现测验」（Typical performance tests），受測者依其實況作答，答案並無所謂的對與錯。
效度
效度的意義
• 效度是指測驗分數的正確性，也就是測驗能夠測量到它所想要測量的特質的程度，亦即是否「名實相符」。 • 測驗能夠達到某種目的的程度(Mehrens & Lehmann 1991)
效度的種類
• 內容效度 (content-related validity) ：指測驗內容的代表性或取樣的適切性。內容效度最適合於成就測驗的效度考驗。 • 效標關聯效度(criterion-related validity) ：指測驗分數與一些外在效標間的相關。根據效標取得時間分為同
測驗分數解釋—常模參照
• 常模(Norm) ：指「一個具有代表性的樣本團體在測驗上實際得到的分數之分佈」，換言之，就是將測驗施予一群人（標準化樣本），這群人測驗得分的分佈就是常模。 • 常模適當性判斷：時近性、代表性、適切性
測驗分數解釋—常模參照
• 常用常模有兩套系統－－ 1.百分等級和百分位數百分等級以表現可以勝過多少百分比的同儕來解釋。例如 PR = 90 2.標準分數以表現相對於平均數上下若干標準差來解釋。例如資優界定為IQ在平均數上2個標準差，某測驗平均數為100，標準差為15，學生IQ要達多少方為資優？
智力测验(Intelligence Tests)
• 智力的意义十分分歧 • 普通的能力 • 适应环境的能力 • 抽象思考的能力 • 学习的能力 • 测量记忆、理解(语文、数理等)、判断、推理(语文、数学、空间等)、顺序思考推理等心智能力。 • 传统智力测验将智力视为一整体性能力，通常以单一「智商」做为智力的代表。
信度和效度的關係－
信度是效度的必要條件而非充分條件
有信度有效度
有信度但無效度
無信度又無效度
測驗信度和效度研究舉例
以「中學多元性向測驗」為例－－ • 信度研究一、重測信度間隔2－4週，各分測驗之穩定係數介於0.38～0.88之間，中位數為0.64，其數值均達 .01顯著水準。二、內部一致性係數各分測驗的庫李信度(KR 20)係數值介於0.50～0.90之間，中位數為0.79。
信度的原理
• 分數構成 X=T+E
– X：實得分數或觀察分數(observed score) – T：真實分數（true score) – E：誤差分數（error score）
真實分數:又稱普遍性分數（universe score），無法正確測量到，通常以多次重試求取平均數做為真實分數。誤差分數及測量誤差，可正可負可零，理論上多次重試的結果誤差平均數為零。
KR20 k pq 1 k 1 SD 2
k (SDi ) 2 1 2 k 1 SD
信度的類型
• 內部一致性係數反映測量題目的內部同質性，一致性越高，越代表量表試題是在測量相同的特質。 • 評分者間信度（inter-rater reliability）估計方法 – 計算不同的評量者間分數的相關係數。 – 計算不同評分者間的同意百分比（percent of agreement）
信度
信度的意義
• 意義: 信度指測驗分數的一致性、穩定性和可靠性。信度也表示測驗分數受到測量誤差的影響程度。
一致性（consistency）─表示測驗內部試題間是否
相互符合穩定性（stability）─不同的測驗時點下，測驗分數前後一致的程度 • 測驗分數的一致性或穩定性，反映測驗分數受到測量誤差的影響程度。
各種信度估計方法的誤差變異量來源
信度估計法重測法複本法複本重測法折半法庫李法或係數評分者評分法
誤差變異量來源時間上的取樣試題內容的取樣試題內容的取樣+時間上的取樣試題內容的取樣試題內容的取樣評分者間的差異
測量標準誤 SEM
（Standard Error of Measurement）
True x 1.96SEM
真實分數的95％的信心區間
測量標準誤的應用
• 解釋個人測驗分數的意義---可信賴範圍
– 例如某生智力測驗得到130，此測驗信度為 0.96，標準差為15，該生的真實分數落在的可信賴範圍為何？.96 3 SEmeas. 15 1 0
• • • • 依據常態分配，落在127--133(上下一個標準差)的機率為68.26% 落在124--136(上下兩個標準差)的機率為95.44% 落在121--139(上下三個標準差)的機率為99.72%
測驗信度和效度研究舉例
以「中學多元性向測驗」為例－－ • 效度研究一、與「多因素性向測驗」的相關二、與「高一性向測驗」的相關三、與學業成績之相關四、各分測驗之相關五、年級、組別間之差異分析
測驗分數的解釋
測驗結果解釋
• 常模參照(norm referenced)：採相對位置解釋，即與其他人的表現做比較 • 標準參照(criterion referenced)：與明訂的標準做比較。
测验的分类
• • • •
1.智力测验(Intelligence Tests)这个老婆找到了补充新内容 2.性向测验(Aptitude Tests)没找到的就直接用这个的 3.成就测验(Achievement Tests)这个老婆找到了补充 4.人格测验(Personality Tests)没找到的就直接用这个的不用每点都讲很细，讲两个很细的可以了
時效度(concurrent validity)與預測效度 (predictive validity) 。
效度的種類
同時效度：效標分數和測驗分數同時取得，目的使用測驗分數估計個人在效標方面的目前實際表現。預測效度：效標分數在測驗實施後一段時間取得，目的使用測驗分數預測個人在效標方面的未來表現。
人格测验(Personality Tests)
• 人格测验(Personality Tests) 人格是由个人的认知、思考、动机、价值、性情、情感、兴趣、信念、态度、自我观念等因素的总和。人格测验内容相当复制，视编制者界定。 • 兴趣测验测量对事物、活动、职业喜好的程度 • 态度/价值观测验测量个人对特定事物的看法或重视程度
性向测验vs智力测验
• 通常智力测验所测得为普通性向，性向测验所测得为特殊性向. • 由于智力一词具有天赋的内涵且意义分歧,加上近代常用智力测验预测学业成就,故逐渐以学业性向测验取代智力测验的名称. 例如 SAT；GRE
成就测验(Achievement Tests)
• 成就测验的目的在测量个体学习或训练后获得之知识和技能的程度。 • 国中基测、大学学测和指考、证照考试、检定考试属之
如何閱讀測驗手測 - 測驗評鑑
測驗名稱編製或修訂者出版者出版日期和版本適用對象（閱讀程度）測驗功能或目的編製的依據或理論基礎測驗內容 (分測驗名稱、題目型式、題數)
• 試題分析過程 (如何抽樣？提供哪些試題指數？) • 測驗實施方式與時間 (團體還是個別？做完全測驗需多少時間？實施的容易度) • 信度研究 (提供哪些信度數據？數據分佈的情況) • 效度研究 (提供哪些信度數據？數據分佈的情 • 標準化樣本、常模建立時間與常模分數表 (如何抽樣？建立常模的時間？提供哪些常模對照表) • 是否有評論資料？
• 信度表示測量分數的穩定與可靠性，亦表示測量受到測量誤差的影響程度
– 測量分數的變異量，受到測量誤差影響的部分，稱為測量誤差變異量，開方後稱為測量標準誤（σe）
SEM x 1 rxx
rxx X特質的測驗信度
– 測量誤差被假設呈常態分配，因此測量標準誤配合常態化機率可以用來進行測量分數的區間估計
信度的類型
• 折半信度（split-half reliability）
估計方法用一次測驗結果，測驗題目依題目的單雙數或其他方法分成兩半，計算受測者在兩半測驗上的分數的相關係數。相關係數多採斯布校正係數（Spearman-Brown prophecy formula）
nr rx x 1 (n 1)r
标准化成就测验分类 • 综合成就测验
• 多种客别学科测验所组成 • 单科成就测验 • 测量某一特定学科的成就水平 • 诊断测验 • 分析学生学习困难所在或原因
性向测验vs.成就测验
• 性向测验与成就测验 – 两者取材均为后天学得的 – 性向测验偏重在测量学习新工作的能力,而成就测验偏重在测量学习过的经验 – 性向测验取样范围广,而成就测验取样仅限于特定的学校经验
rXX : 估計的信度 r : 原測驗的信度 n : 測驗加長或減短的倍數
信度的類型
• 內部一致性係數
（coefficient of internal consistency ） – KR20(Kuder & Richardson, 1937) 適用於二元計分題 – Cronbach’s α適用於多元計分題
信度的類型
•重測信度（test-retest reliability）
估計方法：同一個測驗在不同時間，對同一群受試者重複測量兩次，兩次分數求得的相關，稱為重測信度，又稱穩定係數。重測間隔時間
– 視工具的用途來決定間隔時間
缺點
– 易受練習與記憶影響 – 題目的性質因重測而改變，如推理變記憶
效度的種類
• 構念效度(construct validity) ：指測驗能夠測量到理論上的構念或特質的程度。換言之，就是指測驗分數能夠依據某種心理學的理論構念加以解釋的程度。因此凡是根據心理學的構念，對測驗分數的意義做的解釋，即為構念效度。 • 簡而言之，型
•複本信度（a1ternate-form reliability ）
複本測驗－指在內容、型式、題數、難度、指導說、時間限制與例題等方面類似或相等的測驗。通常是根據相同測驗藍圖分別獨立編製而成。估計方法 •同一時間連續實施 –反應工具內容所造成的誤差，無法反應受試者本身和測驗情境所造成的誤差，此種複本信度又稱等值係數。 •間隔一段時間實施 –可反應工具內容所造成的誤差與受試者本身和測驗情境所造成的誤差，此種複本信度又稱穩定與等值係數。
标准化测验
(Standardized Tests)
标准化测验
• 标准化测验从测验蓝图的设计，试题的编拟、分析、选择和组合，整份测验信、效度的研究和分析，到测验常模的建立，都经一定的程序和步骤。就实施过程来说，标准化测验的施测步骤、计分和解释，均受到明订程序的控制，目的在使不同实施情境（如实施者、地点、时间、计分者、解释者和使用者）下的受试者，所得到的测验分数能做有意义和公平的比较。
性向测验（Aptitude Tests）
• 性向是什么? 「性向」指个体在学习某种事物之前，对学习该事物所具有的潜在能力。（张氏心理学辞典）「性向测验」泛指用来测量个体潜在能力的测验，或者预测个体接受学习或训练后之成就或表现的测验。
性向测验的分类（1/3）
• 普通性向测验或学术性向测验普通性向测验通常测量语文、数量、抽象思考、逻辑推理等方面潜能，一般智力测验即属普通性向测验。