第五章--社会科学研究中的测量
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第五章社会科学研究中的测量
用工具检测事物的某个性质并用数字或其他符号表达它的大小叫做测量。
测量是把该性质量化的过程。
日常我们用直尺、衡器、仪表等各种工具测量物体的长度、重量、体积、温度等物理性质。
在自然科学中,研究者们用更为精确、可靠的测量工具,对许多事物进行更缜密更细致的测量。
一般说来,社会科学需要测量的是比自然科学更为抽象的事物,如“智商”、“工作业绩”、“幸福感”等。
为了分析比较,我们用数字把它们量化。
社会科学中有些概念如“智商”已有了较为成熟的测量工具,更多的则没有,这就需要运用我们的创造力、设计出新的测量工具,将原本无法测量的事物量化。
社会科学的测量在不断发展。
对很多事物人们还缺乏透彻的了解,对怎样界定这些事物科学工作者们还未达成一致的意见。
测量什么、怎样测量、用何种工具、工具的有效性和可靠性如何,都是社会科学研究方法中的重大课题。
准确界定待测量的事物并建立准确有效的测量方法是研究人员孜孜以求的目标。
本章论述什么是测量,测量的精度、信度和效度,并说明在研究中运用测量的一些方法。
5.1 测量简介
5.1.1 什么是测量
在生活中,人们经常对事物的性质评头论足。
如我们说小李聪明,说老王脾气不好,说哪家饭店很棒,或者说昨晚的电影糟透了。
这些评论都认为事物的某个性质有大小、高低之分,并可加以比较。
把事物分类,或进而比较,这是测量的雏形。
类似的评判有时至为关键,与人们利益攸关。
比如需要确定员工的“工作业绩”,考察科研人员的“科研成绩”,等等。
以前在给职工分房的时候,还要对“分房的资格”进行综合打分,然后排队。
这些都需要量化,需要由简单的判断发展成为比较准确的测量。
到底什么是测量?简单地说,测量是根据规则将数字或其他符号赋予事物或性质的过程。
如语文教师改作文,可根据文章的质量分别打上“优、良、中、差”。
这个等级评定就是一种测量,是用语词打分。
语词是一种符号,我们也可用另一套符号如字母A、B、C、D打分。
再比如我们打算买汽车,发现各种车的价格相差无几,于是决定根据车的外观、油耗和售后服务这三点进行比较。
我们用数字给这三点分别打分,最满意的打5分,次之打4分,最不满意的打1分,以此排序。
结果如表5.1。
测量是赋值行为。
什么需要赋值、赋值用什么样的符号或数字、以及怎样赋值,事先都必须有说明,即必须有规则。
赋值后的数字有的可用于比较,用来观察事物之间的关系。
如上面买车的例子,车与车就外观、油耗或服务任一方面或三个方面都可比较,此外,外观和油耗、外观和服务、油耗和服务之间也可以比较。
上述表明,测量有三个要素:数字或符号,赋值以及规则。
分别来看。
数字或符号可以是阿拉伯数字、罗马数字、语词和其他任何可表示区分的符号。
数字或符号可用于代表人、物、性质、现象等。
然而同是数字,其意义不尽相同,并非所有数字都具有可加、减、乘、除的数学性质。
有时数字只是识别的标记,如车牌号码、身份证号码、旅馆房间号码等,这时数字和其他符号的作用相似。
唯一不同的是,用作符号的数字在帮助组织和记忆事物方面有长处,如房间、车厢等号码模拟自然数的序列,便于寻找相应的房间和车厢。
只有具有数学性质的数字才能用于量化分析。
这类数字揭示量的信息,可用于剖析事物之间大小、多少、高低等关系。
测量中的赋值是一种映射关系。
数字或符号被映射到事物之上,事物都给贴上了标签。
图5.1表示了这一过程。
凡是圆形都被赋予1,方块都被赋予2。
图5.1:映射
测量的第三个成分是规则。
规则说明怎样进行赋值,即根据什么标准、将哪些符号赋予事物的哪些方面。
如对汽车的耗油情况,我们规定“单位时间耗油从高到低依次打1、2、3、4、5分。
”这就是一条规则。
5.1.2 为什么要进行测量
测量的目的是为了对事物进行量化,以便对事物进行分析比较。
测量延伸我们的感官,测量帮助我们发现原本不易察觉的信息。
科学的测量比人们日常的判断更准确、可靠和客观,并且提供量化的信息。
温度计显然比人们的触觉要可靠。
用衡器称重无疑比估摸要准确。
除了精确和客观,科学的测量还使人们观察到平常看不见摸不着的东西。
科学测量可以延伸我们的视觉、听觉、触觉等感官。
如天文学家和生物学家用天文望远镜和显微镜延伸视觉。
从微观的分子到宏观的星系,科学使我们见到了无数从前见不到的事物。
社会科学工作者感兴趣的事物有些是有形的,如性别、肤色。
但很多是无形的,如态度、个性、能力,智商,又如凝聚力、逆反行为、青少年犯罪、综合国
2
1
力、消费水平、生活满意度,等等。
社会科学的任务之一就是创造出测量这些事物或性质的方法,用适当的数字或其他符号加以表述并进行量化分析。
正如自然科学不断创造出新的测量工具,社会科学也在努力寻找量化事物的新方法、新技术。
拥有高效度、高信度的测量工具是学科发达的标志。
在社会、经济、教育、法律等各个领域,发达国家已发展形成各种卓有成效的指数、量表、测验等测量工具,可用于考察现状,解释现象或做出预测。
这些测量技术和手段已成为社会和经济发展的晴雨表。
5.1.3 量度、度量和指标
为了便于讨论,我们有必要对有关测量的一些词汇做出界定。
根据《现代汉语词典》,“量度”是对“长度、重量、容量以及功、能等各种量的测定”。
“量度”显然指的是测量过程,描述动作,本书用作同一意义,但把它引申于对社会科学中事物的测量。
“度量”是描述事物的名词。
根据《辞海》,它是“计量长短和容积的标准”。
本书把“度量”一词用作抽象的计量标准或单位,相当于英语的measure,其意义超出长度和容积的范围,覆盖任何可以测量的事物。
如“厘米”是长度的一种度量(measure),“克”是重量的度量,“智商”是智力的度量等等。
测量学中“指标”一词视情景有不同意义。
有时它与“度量”同义,指某种常见的测量单位,表示测量的结果。
如白血球总分是血液中白血球数量的一种度量,同时也是血液常规的一个指标。
再如美国大学接受外国新生要看TOEFL成绩。
TOEFL成绩既是对英语能力的一种度量,也可看作一个指标。
在另外的情况下,测量学中的“指标”指测量使用的工具、方法,或指测量的方面,不一定是测量的结果。
如诊断疾病可用多项指标:主诉、症状、各种生化和物理检查(血液、小便、超声波、CT)以及医生的判断。
再如考查人们的英语作为外语的能力,可测试听力、阅读、口语、写作、翻译多个方面,每个方面即一个指标。
而且每个方面(如阅读)又可用不同的方式进行测验,这些不同的方式同样可称作指标。
5.2 测量精度
生产生活中,根据不同要求,测量重量、长度等物理性质可使用不同的测量精度。
称石头,讹错几千克不成问题,然而称金子就要精确到百分之几克甚至更小的单位。
社会科学研究中也有测量精度问题。
对有些事物的测量需要使用精确、高级的层次,另一些则可使用较粗疏、精确性略差的层次。
例如职称评定委员会遴选教授,这是一种测量行为。
如够条件的候选人人数和待聘职位的数字相差不大,评委们只需给候选人排序;但如僧多粥少、竞争激烈,则评委们必须按能力和业绩仔细打分,用更精确的测量进行比较。
测量精度与变量是连续还是离散的性质有关。
待测量的变量可以设想为连续的或离散的。
连续变量有无数个值,铺陈在一个连续统(continuum)上。
这些值在理论上又是无限可分的。
连续变量的例子如收入、学业成绩等。
对它们的测量精度相对要高。
离散变量有数量相对固定、并且是分立的值,实际上是界限分明的类别。
例子有性别、年龄、职业、婚姻状况等。
对离散变量的测量只是分类行为,精度自然就低。
5.2.1 四级测量
社会科学研究的测量水平一般分为四级。
它们是称名测量(nominal measurement)、顺序测量(ordinal measurement)、等距测量(interval measurement)
和比率测量(ratio measurement),分别代表了不同的测量精度。
测量的精度与数字的意义密切相关。
数字与数字,意义可能迥异。
如朋友告诉你他住在某宾馆某楼15号房间,他的女儿15岁,今天的温度是摄氏15度。
同是15,意义显然不同。
差异不仅在于它们表达不同的事物,而且在于它们表示量的方式大相径庭。
5.2.2 称名测量
称名测量是把事物划归各个类别。
这实际上是一种分类并取名的做法,因此叫做称名测量。
比如我们把人分为男性和女性,左撇子和右撇子,内向的和外向的。
类别之间有性质的区分而不是量的差别。
称名测量使事物具有归属性。
称名测量本来与量无关,但我们不妨用数字来表示类别或归属。
日常生活中的称名量数有邮政编码、电话号码和球员号码等。
在社会科学研究中,为了方便输入数据和计算机处理,我们常把称名量数用数字代替,如把男性定为1,女性定为2。
把事物分类然后取名或赋值是最粗疏的测量。
用于称名测量的变量是离散变量,其类别分立,相互间没有量的关系。
5.2.3 顺序测量
称名测量确定事物的类别。
顺序测量不仅确定事物的类别,而且把所有的类别排列成连续的序列,并有一种量贯穿始终。
学生考试成绩排名、流行歌曲排行榜、体育比赛的名次,都是顺序测量的例子。
这些序列包含了量的信息,使类别具有程度上的不同。
考试成绩排名显示学生掌握知识的不同程度。
流行歌曲排行榜反映歌曲受欢迎的程度。
体育比赛名次则表示运动员能力和即时发挥水平的高低。
与顺序测量不同,称名测量中的数字不表示次序。
如四班和一班,四班不能因数字大说自己班比一班强;一班也不能因数字在先而声称比四班好。
仅仅表示类别的数字没有量的意义,自然不包含强弱、高低、大小的区分。
需要注意的是,顺序测量只说明事物类别的次序,相邻类别之间的差异不一定等同。
第一名和第二名之间的差异与第二名和第三名之间的差异不可同日而语,换句话说,它们间隔的距离可能而且通常不一样。
在同一次数学竞赛中,一个中学有两个学生分获第一名和第四名,另一个中学有两个学生分获第二名和第三名。
我们不能说这两个中学棋鼓相当,因为1+4等于2+3。
这个等式在此没有意义。
顺序测量中的数字除了标明类别和次序以外,不再具有其他数学性质。
同一事物,因分析的角度不同,可使用不同的测量水准。
比如今天你吃的午饭。
一种方式是你说出食品的名称:米饭、排骨、豆腐和菠菜鸡蛋汤。
这个食谱在某个饭店可能用代号来称呼,米饭为1,排骨为2,豆腐为3,而菠菜鸡蛋汤是4。
这样做的目的是为了方便外间与厨房的通讯。
然而饭店的代号与你的称呼没有本质的不同,只是饭店用一套符号置换了另一套符号而已。
你也许愿意根据自己的喜欢程度给这些食品排一排队,把排骨列为1,米饭列为2,菠菜鸡蛋汤列为3,把最不喜欢的豆腐列为4。
这套数字显然比饭店的代号多了一个量的维度。
这个量就是你喜欢的程度。
在这个量的连续体上,排骨的位置先于米饭,米饭的位置先于蛋汤,豆腐名列最后。
这时你使用的是顺序测量。
米饭与排骨之间,排骨与蛋汤之间尽管都是一个间隔,这两个间隔不可进行比较。
假如你不仅是美食家,而且是营养师,你对食品所能提供的热量感兴趣。
你发现那顿饭的排骨所能提供的热量是600大卡,米饭是400大卡,豆腐是200大卡。
你知道,排骨与米饭、米饭与豆腐之间在提供热量方面的差别是相同的。
这时你使用的度量(measure)即热量具有间距相等的性质,也就是说,任何给定的差
异,只要数值相同,它们的意义就相同。
换句话说,从一种食品得到的热量可与其他任何食品的热量相比较。
一份排骨的热量相当于三份豆腐的热量,一份米饭的热量相当于两份豆腐的热量。
有关食品的热量还有一个绝对零值的问题。
比如你饭间喝了一杯矿泉水,它能提供的热量可能是零,即不提供任何热量。
类似的还有重量、长度等。
重量为零表示没有重量,长度为零表示没有长度。
至此我们涉及了有关数量的四种性质:类别、贯穿类别的连续的量、等间距和绝对零值。
我们可以用这四种属性来定义四种不同精度的测量。
它们分别是:称名测量、顺序测量、等距测量和比率测量(见表5.2)。
与顺序测量相同的是,等距测量的值有一个连续的量贯穿其间。
不同的是,等距测量具有间距相等的性质。
我们可用一把带有刻度的直尺来标示不同的值。
刻度1至4,6至9或12至15,它们之间的差别是相等的。
同样的道理,在等距测量中,1加4和2加3是相等的。
温度是等距测量的一个例子。
5.2.5 比率测量
与顺序测量和等距测量一样,比率量表具有连续量的性质。
它与等距测量一样还具有间距相等的性质。
此外,比率测量还具有绝对零值的性质。
最常见的比率量值是物体的物理性质,如重量和长度。
测量时,当这些性质的读数为零时,表明这些性质不复存在。
这一点不同于温度。
温度为零时,并非没有温度。
零度是温度这个性质的一个读数,而且零度以下仍然有读数。
表5.3举例说明测量的层次。
)选取合适的测量等级要考虑两点:一是如何表述这个构念,二是打算使用何种测量指标。
构念本身的性质制约着精确水平,另一方面,研究者如何表述一个构念也决定了测量的精度。
原先用连续变量表述的构念,换一个角度,可转用离散变量。
如温度可以是连续的,多少度或者是几点几度,甚至是零点几度。
但如果我们不
需要那么精确,温度可以粗略地分为“热”、“凉”、“冷”三级。
年龄也一样,可以用多少年多少月甚至多少天来表示,但也可粗略地描述成幼年、少年、青年、中年和老年。
转换后,如果不考虑顺序问题,这些变量都改用了称名测量。
一般来说,连续变量可转换为离散变量,而大部分离散变量不可转换为连续变量。
但有少数离散变量可转换成意义相近的连续变量。
如性别不能表述为连续变量,但“女性气质”(Femininity)就可以。
我们可以找到合适的测量方法来判定一些妇女比另一些妇女女性气质更高。
同理,宗教、婚姻状况只能是离散性变量,然而信教程度、对婚姻关系的信守程度就可以是连续变量。
测量层次制约了可以运用的统计学手段。
精度高的测量可选用多种功能强大的统计技术,而用于低精度测量的统计方法则相对要少。
出于实际的考虑,在表述和测量变量的时候,好的做法是先设想用高层次的测量。
这是因为,高层次的测量很容易归并(转换)为低层次的测量,反之则不可以。
换句话说,开始时可收集较为精确、具体的数据,然后可忽略一些不必要的精度要求,对数据进行合并。
但假如一开始收集的数据不够具体、较为粗略,期待以后再提高精度是不可能的。
如年龄这个变量,可要求被调查人给出具体的年龄(比率测量),然后在分析时把它们归并至各个年龄段(顺序测量)。
假如一开始就让他们按年龄段对号入座,事后就无法知道他们具体的年龄。
5.3 信度和效度
任何测量都有信度和效度问题。
信度和效度是判断测量质量的标准,决定测量的成败。
用通俗的话来说,测量的信度是指测量的可靠性,而效度是测量的准确性。
提高效度意味着找准要测量的东西,而改进信度是确保测量中不出偏差。
从逻辑上看,效度应先于信度。
效度不仅是成功进行测量的必要条件,而且也是否定测量结果的充分条件。
效度差的研究即便信度很高也毫无价值。
从方法上看,对效度的判别比信度困难。
信度的评价在技术上比效度容易操作。
我们先介绍信度,然后再看效度。
5.3.1 信度
简单地说,信度(reliability)指的是测量的可靠程度。
测量的可靠与否取决于测量工具和测量过程两个因素。
测量工具必须精确可靠,测量过程本身必须准确无误。
测量结果是否可信可用重复的方法来检验。
高信度的测量应经得起重复检验。
无论次数多少,对相同事物的每一次重复测量,其结果都应与先前的结果高度一致。
有关信度最简单的例子莫过于称重。
用一台磅秤给孩子称体重。
在间隔不长的情况下,连续多次称得同一重量,如15千克,则说明测量可靠。
反之,如果称三次分别是15、14.5和16千克,则测量就不可靠,信度就低。
原因可能有二:一是磅秤已坏,二是操作有误,如孩子在磅秤上不安分,影响了测量的准确程度。
后者属于使用工具不当,即测量过程有误。
社会科学研究中的测量信度问题要比称体重复杂得多。
举一个教育方面的例子。
最常见的信度问题出现在改作文试卷的时候。
改题的标准常常定得模棱两可,不好把握(工具不精确)。
改卷人主观性介入太多,互相之间尺度把握不同,判定的成绩有差异;即便是同一个人,由于已定的判题标准不好掌握,前后的判定也会不同(测量过程的问题)。
因此,作文改卷的信度往往很低。
5.3.2 三类信度
恒定信度(stability reliability)。
恒定信度是一种跨时间的信度。
它回答的问题是:“在相隔不久的时间内重复测量同一事物,结果是否相同?”对同一个受试
群体用同一个工具进行两次测试,看结果是否一致。
假如测量的是一个恒定的性质,而且工具可靠,测量的结果应高度一致。
在考试这类测量中,这种方法叫做测验再测验,测量工具可以相同或不同,但不同的工具必须在形式和性质上相等,即两次或多次测验可用不同的试卷,但试卷性质必须等同。
信度高的测量,两次或多次测验的结果应该高度一致。
代表性信度(representative reliability)。
代表性信度是一种跨人群的信度。
它回答的问题是:“假如对不同的人群使用同一个度量或指标,结果是否相同?”人群指不同的社会阶层、种族、性别、年龄甚至国籍等。
用一个测量工具对这些不同的人群进行测量,假如结果一致,则测量的代表性信度高。
比如设计一个问及人们年龄的问题。
假如刚过二十的年轻人在回答时总是高报自己的年龄,而过了五十的人则总是低报自己的年龄,这个问题的代表性信度就不高。
理想的应该是无论年龄大小都能准确报出自己所属的年龄段。
有一种叫做次人群分析(subpopulation analysis)的方法可以决定一种度量是否具有代表性信度。
测量以后,在不同的人群之间比较结果,并参照别的信息来源确定信度。
如调查问卷中有一道有关受教育程度的问题,调查者想了解一下男女在回答时是否同样诚实。
他可参考独立的信息来源,如对照这些被调查人的学校档案。
如果男女间出错的程度一样,亦即误差相同,则题目的代表性信度是可靠的。
等同信度(equivalence reliability)。
等同信度适用于多种指标测量同一个构念的情形,即这个构念的操作定义包含多项操作的时候。
如测试学生的外语能力,可通过词汇、语法和结构、阅读理解等多方面进行考查。
这种信度所问的问题是:“用各种指标测出的结果,能否达到高度的一致?”如果各种指标测试的是同一个构念,可靠的量度应表现为所有指标显示一致的结果。
研究者通常用分半的方法来检测考试和调查问卷的等同信度。
做法是把试卷或者问卷的题目随机分成两半。
如果这两半题目结果表现一致,则等同信度不差。
比如把一份20道题的试卷分成两半各10题。
在考查同一批学生以后,这两半所反映的学生水平是一致的,即在一个半卷上答得好的学生在另一半也答得好;在一个半卷上做得不好的学生在另一半也做得不好。
这说明这份试卷总的等同信度是好的。
检查量度的等同信度未必需要进行两次测试或在考完后用手工将试卷分成
两半。
可用统计学中的克朗巴哈α(Cronbach’s Alpha)方法在一次测试的情况下获得结果,前提是把考试成绩全部输入计算机,然后用统计软件进行分析。
另一种等同信度是跨评价人信度。
在观察或者测量一个指标时,有时我们用两个以上的观察者。
对同一个指标的观察或者量度可在相同时间相同地点对相同的对象进行,一如体操比赛中的打分,众多裁判给一个运动员记分,如跨评价人信度高,打出的分应高度一致。
再如一项访谈性调查,其中包括让被调查人回答开放性的问题,不同调查员对同一个被调查人回答的判定高度一致,则说明等同信度是好的。
5.3.3 如何改进信度
达到完美的信度几无可能。
提高信度可采取以下措施:(1)准确界定要测
量的事物,(2)运用尽可能精确的测量水准,(3)使用多个测量指标,(4)先行试验。
前三点互有关联。
准确界定。
待测量的构念其性质越是单纯,测量的信度就越高。
这就像测量化学物质,这种物质越是纯净,就越容易测定其性质。
如有其他物质搀杂其中,
则必然难以测准。
社会科学测量首先就是要找准要测量的东西,形成清晰准确的定义,把它从杂乱的背景中分离出来。
如果要测量的构念很复杂,则必须使用多个度量。
每一种度量只能测量单一的性质或单一的方面,各司其职。
如若检测学生听懂英语的能力,则所使用的解题说明就不能太难,否则分不清到底是考了听力还是考了阅读能力。
目的是考听力就只能考听力,不可兼考阅读。
提高测量精度。
测量精度与上述四级测量有关。
一般说来,测量水准越高,越是精确,信度就越好。
应尽可能获得详尽、具体的信息。
例如我们可用“满意”“不满意”两个类别来了解人们对生活的满意程度,也可用更多的类别,如加上“非常满意”、“较满意”等。
再如测试学生的某项能力,可以打“优、良、中、差”,也可按百分制打分。
打分细致意味着必须注意所检测能力的细节,而不是依据笼统的印象。
测量水准高,获取的信息多,测量的可靠程度就增加。
用多个测量指标。
准确界定、用尽可能精确的测量水准都意味着对要测量的事物仔细分析,一是为了凸显最想检测的东西,二是为了分离出尽可能多的方面。
在后一种情况下,我们可用多个指标一一进行测量。
如听懂外语是一项综合能力,考生要有抓住要点、把握整体、分析推理等本领,有时还需要有关的文化知识。
我们可使用针对不同方面的题目来测量,得到更为准确的结果。
用多指标进行测量还意味着从不同的角度观察同一事物,看能否达到一致的结论。
如对精神性疾病的诊断,可同时参照主诉、症状、专家判断、人格测验、亲朋诉说以及物理生化检查等多方面来确定。
5.3.4 效度
效度(validity)一词意义较多,这里要讲的是测量效度,我们在下面的章节里还要论及实验研究的效度。
我们说某个度量具有效度,是就特定的目的和理论而言。
对其他目的和理论,这一度量并不一定有效。
由于研究的分析单位或所适用的领域不同,同一种度量不会对它们同时有效。
比如,对教师队伍凝聚力适用的度量并不一定适用于研究体育运动队的凝聚力。
效度的基本意义是,正在测量的东西与想要测量的东西是否吻合。
举个简单的例子。
我们想测量人的智力。
有人说人的脑袋的大小反映智力的高低。
脑袋大的智力高,反之智力小。
测量脑袋的大小简便易行,操作性非常强。
我们只要用软尺,甚至只要检查帽子的大小,就可以测得有关的数据。
然而这一测量显然没有效度。
研究业已表明,脑袋的大小与智力无关。
测量脑袋的大小并不能测得人的智力水平。
从这个例子可以看出,对要测量的事物做出正确的理论定义非常重要。
对事物认识不够,下错了定义,对测量有根本性的影响。
上例的理论定义是智力大小与脑袋大小呈正相关,这显然是错误的。
第二步,从理论定义到操作定义的转换也很重要。
操作要准确无误地反映理论定义的含义。
如果我们把听懂外语的能力正确定义为能够抓住要点、把握整体、分析推理、了解文化内涵四个方面,考试题目就应相应地考查这四点。
考题没能覆盖这四点或考了别的内容,那就是操作定义出了问题,考试效度就低。
至于用软尺测量脑袋大小,操作定义与理论定义吻合,但理论定义是荒谬的。
5.3.5 四类测量效度
表面效度(surface validity)。
最基本的效度、也是最容易获得的效度是表面效度。
这是科学群体对量度能否真正测量一个构念所做出的评判。
换句话说,测量是否真正反映想要测量的东西有时至少从表面上就可以判断,即内行们可以达。