批判性思维第7章

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第七章归纳论证
古文献《内经·针刺篇》记载了这样一个故事:一个患头痛病的樵夫,上山砍柴时不慎碰破足趾,出了点血,但头部不疼了。

他并未在意。

后来,头疼复发,又偶然碰破原处,头疼又好了。

这引起他的注意。

后来再头疼时,他就有意刺破该处,结果都有相同的效应。

在针灸学中,这个樵夫所碰的地方,称作“大敦穴”。

樵夫根据自己经历的多次个别经验,得出了“碰破足趾能治好头痛”的一般结论。

他所运用的推理就是归纳推理的“简单枚举”推理。

第一节归纳论证概述
除了数学等少数几个领域之外,几乎所有其他人类活动的领域,如自然科学、社会科学、历史、文学批评、伦理判断以及关于日常事务的实际知识,都要仰仗归纳论证。

一、归纳推理的特征
归纳论证是运用归纳推理的论证。

归纳推理是那种其前提仅仅给予结论某种概率等级的而非必然支持的推理。

例如,
某幸运抽奖在10000 张彩票中设一张中大奖彩票
甲买了x 张这种彩票
所以,甲可能会中大奖
也许甲中大奖的可能性微乎其微,也许报有较大的期待是合理的,也许甲敢夸下海口,他中大奖十拿九稳。

正常情况下,“可能”究竟多可能,这取决于x的数量。

随着x在量上的增加,甲获奖的机会也会增加。

如果他买了9999张这样的彩票,他夸海口也不为过。

演绎推理具有保真性,即在使用它时,我们相信,前提真时结论不可能假。

如果我们接受前提而否认结论,那么,一个有效的演绎推理将使我们陷入矛盾。

但使用归纳推理时,我们只是期待,当所有前提真时,结论较大可能真。

但是,即使我们接受前提而否认结论,也不会陷入矛盾。

这就是说,一个好的归纳推理并不排除其结论为假的可能性。

即使甲买了9999张彩票,也不能保证他一定中奖,空手而返仍是可能的。

演绎推理结论所涉及的内容实际上并没有超出其前提的内容,其结论只是前提中所包含的信息的彰显化。

但归纳推理的结论却显然超出其前提的内容,因而具有某种扩展性。

它能扩展我们的实际知识,结论包括新信息。

谁能从前提中读出“甲会中大奖”的信息?
128
所有有效演绎推理的前提对结论的支持力量或强度完全相同,即结论和前提一样真,所有有效的演绎推理的有效性不存在程度的区别。

一个演绎推理只能是,要么有效,要么无效。

但归纳推理的前提对结论的支持强度可以有所不同,论证的强弱,可以有程度上的区别。

当x的值由1一直增加至9999 时,“甲会中大奖”得到的支持越来越大,即论证的强度不断增高。

对于一个有效的演绎推理,添加新的前提之后,对其有效性毫无影响。

即使加上一个与原前提矛盾的前提,也不会因此使其变成无效的。

但归纳推理的强度则有可能因新增的信息或前提而变化。

当x为9999 时,彩票论证十分强,但若我们得到新信息:此抽奖有人作弊,论证的强度自然下跌。

二、归纳推理的类型和评估
古典意义上的归纳推理包括完全归纳推理、简单枚举推理和求因果方法(弥尔式的),有时人们还把类比推理也归于其中。

现代意义上的归纳逻辑包括概率推理、统计推理、条件因果推理以及归纳决策。

从现代观点来看,完全归纳推理和其他归纳推理有完全不同的性质,因而可排除出去;弥尔式的求因果方法难以确定不同性质条件下的因果关系,可用新的条件因果推理取代。

本书讨论的归纳推理的类型共有4种:简单枚举推理、统计推理、归纳决策和条件因果推理。

从演绎论证的评估标准来看,所有归纳论证都是无效的。

因为,满足有效性标准必须使得一个论证的形式没有反例,或者肯定论证的前提而同时否定其结论会导致矛盾。

然而,我们使用归纳论证的意图并不在于使自己的主张或决策得到完全正确的担保。

我们只是想得到某种程度的担保,如果这种担保程度较高则正中下怀。

归纳论证的评估面对的是不同的结论指示词。

就如图尔敏所要求的,结论应该有某种模态限定。

有了这种限定,就等于做出某种退却,即达不到无可置疑的境界,转而追求不太可疑的局面。

这就如同选择终身伴侣一样,既然我们不可能挑选出才貌双全的天仙般的公主,那么,五官端正也是可以接受的选择。

无效但有支持力的论证,只要满足特定语境对充分支持所要求的标准,仍是令人满意的论证。

我们将用“强的”或“合理的”来刻画一个归纳论证的逻辑特征。

一个归纳论证是强的,仅当其前提为真时,结论为真是很可能的。

这也等于说,一个强的归纳论证,其前提真而结论假是不大可能的。

这种“可能”也许能用数值来表示,也许不能。

需要注意的是,归纳论证的强与弱,不只是由论证的形式来决定。

事实上,归纳论证的形式由两部分组成。

一部分是显示论证结构的,这是某一类归纳论证的所有实例都具备的,如所有简单枚举归纳的结构都是:“S1是P,S2是P……S n是P,没有反例(即不是P的S),S1-S n只是S类的部分对象,所以,可能所有S是P”。

但是,具有这种结构的枚举推理并非都是同等强的。

129
有另外一些因素制约这种结构所产生的支持力。

例如,同样具有枚举归纳这种结构的两个论证,它们的强度可能有很大差异,甚至一个是合理论证,另一个却是谬误。

这就要看是否满足诸如此类的条件:考察了各种条件下的、大量的S,在最有可能存在反例的地方努力寻找反例而未果等等。

这些条件也可以反映为一系列批判性问题,对这些批判性问题予以满意回答的论证是合理的,否则是谬误的。

第二节枚举推理
枚举推理是根据在各种条件下对大量S的观察发现S无例外地具有性质P,得出所有S很可能有P性质的结论。

例如,
游览桂林的人,到七星岩、芦笛岩看到了仙境般的洞府,到伏波山又看到了布满石刻的还珠洞,到叠彩山又看到了清风徐来的风洞。

于是,游客很自然地产生了一种想法:桂林的山是不是个个都有洞?有的游客则干脆说:桂林的山都是有洞的。

郭沫若游桂林时就写了“请看无山不有洞,可知山水贵虚心”的诗句。

游客从有限的单称观察陈述,推导出或猜想一个普遍规律。

推理的形式是:
S
1
是(或不是)P
S
2
是(或不是)P
S
3
是(或不是)P
……
S
n
是(或不是)P
S 1-S
n
为S类部分对象
所以,可能所有S是(或不是)P
如果某些条件被满足,利用这种推理从有限的单称观察陈述中概括出普遍性定律是合理的。

例如,可以合理地从涉及石蕊试纸浸在酸中变红的一系列有限观察陈述中概括出普遍性定律“酸使石蕊变红”,或者从一系列受热金属的观察中概括出定律“金属受热膨胀”。

但合理的概括必须满足若干条件:
(1)形成概括基础的观察陈述的数目必须要大。

(2)观察必须在各种各样的条件下予以重复。

(3)没有任何公认的观察陈述和推导出的普遍性结论发生冲突。

只在观察一根或少数几根金属棒膨胀的基础上就做出所有金属受热膨胀的结论,显然是不合理的,正如在观察一两个酒醉的陕北人的基础上就做出所有的陕北人都是酒徒的结论是不合理的一样。

要证明这两个概括是正确的,必须有大量独立的观察。

就我们所提到的那些例子而言,增加观察数目的一个方法可以是,反复地加热一根金属棒或连续地观察某一
130
个陕北人夜夜醉归。

显然,用这种方法得到的一系列观察陈述,不能为相应的概括形成一个令人满意的基础。

这就是为什么条件(2)是必要的。

“所有的金属受热时膨胀”,只有在它所根据的膨胀现象的观察涉及各种各样的条件时才是合理的概括。

应该加热各种各样的金属,长铁棒、短铁棒、银棒、铜棒等等。

应该在高压和低压、高温和低温下加热,如此等等。

如果在所有这些情况下,所有受热的金属样品都膨胀,那时,也只有在那时,从所得的一系列观察陈述中概括出普遍性结论才是合理的。

而且,很显然,如果观察到一个特定的金属样品受热后不膨胀,那么,这个普遍性概括就失败了。

所以,条件(3)更是必不可少的。

对于枚举归纳来说,条件(3)即没有发现反例(不具有性质P的S)是攸关的。

正是这一点既构成枚举归纳的合理基础,也成为它始终面临威胁的源泉。

因为,没有发现反例,不等于反例不存在;现在不存在反例,并不等于将来不产生反例。

因此,我们的正确策略是,应该在最可能有反例存在的地方去努力寻找反例,如果经过这种锲而不舍的努力,仍然没有发现反例,那么,我们所得出的普遍概括就得到更大的支持。

违反这三个条件的枚举归纳,将犯“仓促概括”、“偏倚概括”和“躲避反例”的谬误。

但是,即使在满足这三个条件时,错误结论的危险依然存在。

这可从一个有趣又颇令人怜悯的例子看出。

伯特兰·罗素在论说“归纳主义者”时描述了一只火鸡的故事。

这只火鸡发现,在火鸡饲养场的第一天上午九点钟给它喂食。

然而,作为一个卓越的归纳主义者,它并不马上做出结论。

它一直等到已收集了有关上午九点给它喂食这—事实的大量观察。

而且,它是在各种情况下进行这些观察的:在星期三和星期四,在热天和冷天,在雨天和晴天。

它每天都在它的表中加进另一个观察陈述。

最后,它的归纳主义的良心感到满意,它进行归纳推理,得出结论:“总是在上午九点给我喂食。

”哎呀,在圣诞节前夕,当没有给它喂食,而是把它宰杀时就毫不含糊地证明这个结论是错误的。

第三节统计推理
反例的出现使枚举归纳寿终正寝。

但这并不能阻止我们推理的步伐。

因为还有其他类型的归纳推理可以在有反例的情况下得出对我们有用的结论。

这时,统计推理成为我们的有力工具。

试看以“男性,健康的弱者”为题的一个报道,如何通过统计数据来证明它的观点:
男女寿命差距从20世纪20年代的1岁,扩大到今天的5岁;
美国15种最主要致命疾病中都是男性死亡人数比女性多;
死于交通事故或谋杀的概率是女性的2倍多;
诊断出艾滋病的概率是女性的3倍多;
自杀的概率是女性的4倍多;
131
女性更易接受医疗保健,更愿意寻求社会和感情上的支持;
男性从受精一刻起就十分脆弱,在怀孕期间和童年,当我们还不能控制自己的健康时,男孩的死亡数字就比女孩多,即便有了最精心的照顾和喂养,男人早死的机会也更大;
美国男性26%抽烟;酗酒的概率几乎是女性的2倍;
在美国从事30种高危活动的机会男人比女人高;
男人占美国入狱犯的94%……
统计推理已渗透到我们的全部日常生活。

一、统计概括
当我们的概率推理以频率理论为基础时,就可以从总体中抽取一部分对象作为样本,考察样本中的每一对象,得出样本中某一性质出现的概率,然后再根据样本的概率推测总体的概率。

这种概率预测推理就是统计推理。

例如,为了解男女出生率,对不同时代、不同地区、不同民族的婴儿出生情况进行抽样调查,结果发现,男女出生比均在105∶100上下波动。

于是,得出结论:男孩的出生率约占22/43。

统计概括的一般形式是
随机样本中有N(百分数)的S是(或不是)P
所以,可能总体P中有(±M) N的S是(或不是)P
这种推理实际就是所谓的“抽样统计”。

当有限的人力、时间及财力等资源不允许我们对研究对象的每一个分子进行考察时,采用抽样统计方法便成为必要。

一个准确和可靠的抽样统计,就是要保证从对样本搜集的数据的分析结果必须能够推广到总体(整个研究对象的集合)上。

然而,怎样的抽样统计才能保证达到这个目标呢?基本条件是:样本有代表性;考虑抽样误差;正确理解数据的意义。

(一)样本的代表性
也即样本是否典型,能否代表总体。

无代表性的样本是偏颇的或有偏见的。

总体是由人还是其他对象构成,要考虑不同的因素来确定样本是否典型。

一般要考虑三个因素:1.样本是否被随机选出;2.样本的大小;3.心理因素。

随机抽样可以保证总体中的每一个分子都有同等机会进入样本。

反之,非随机抽样得到的样本是偏颇的,即总体中的某些分子比其他分子有较大机会被抽中,因此所得的数据未必能够推广到总体本身。

例如,假设天文台只在香港岛装置雨量器作为收集香港降雨量的资料,则这个抽样方法就有偏差,因为香港岛只是香港其中一个主要地域,所以香港岛的降雨量(样本)未能代表香港的降雨量(总体)。

假若现在香港岛、新界、九龙和大屿山各区都装置了雨量器以收集雨水,这样的抽样是否就免于偏差呢?若果雨量器所处的地方有些在野外空地、有些在树荫下、有些在瀑布或溪涧旁边等等,那么在某些地点落下的
132
雨水被雨量器收集的概率会比其他地点的高(位于某些地点的雨量器甚至连并非来自降雨的水也收集下来)。

样本被随机选出的要求适用于所有的样本,不过,有时它被认为是理所当然。

例如,当医生为检验血糖而抽取血样本时,不必要从被检测者的手指、胳膊和腿分别抽取一点。

因为血是循环流动的,能够假定它与血糖的关系是同质的。

但是,当总体由离散的单元组成时,必须更多地注意随机性要求。

例如,一个机械公司的质量控制工程师需要确定某个特定的传送带上的零件符合规格。

如果该工程师每次都取第10个进行测量。

假若零件并不是随机地安排在传送带上,用这样的程序获得的样本并不是随机的。

因为有这样一种可能:由于机械过程的某个故障,每到第10个零件就产出优等品,其余均为非优等品。

如果工程师碰巧选择的只是那些优等的,该样本就是偏颇的。

更可能确保挑选随机样本的程序是,抛掷一对骰子,每当出现10点时就对应选取一个零件。

由于掷骰子的结果是随机的,因此这种挑选也是随机的。

在考虑到难度和经济代价时,分层抽样作为纯随机抽样的替代品。

这是按照事先知道的优势比例将总体划分为不同的组,再在每一层内部进行随机抽样。

例如,按经济收入的多少,将全国或某一区域的居民家庭分为四层:月收入在5000元以上的;在3000元到4999元的;1000元到2999元的以及1000元以下的。

然后在于每一层中进行随机抽样。

但分层抽样可能遇到分组比例的信息的正确性问题。

例如,在收入分组时就可能遇到麻烦。

即便这样,这种方法在实际运用中仍然留给调查人员随意性。

例如,如果采用这种方法进行市民安全感调查,访问员往往不去肮脏的老城区,往往也只愿意在白天进行访问,这样一来,他们就可能系统地排除了经济地位低下的居民、上夜班的居民等。

因此,调查结果的准确性就可能因忽略了这部分群体的意见而受到影响。

样本的大小在决定样本是否有代表性上也是一个重要因素。

在样本随机选出的情况下,越是大的样本,越接近于复制总体。

在统计学中,这种接近性的程度用“抽样误差”来表示。

抽样误差是样本中某性质出现的频率与总体中该性质出现频率之间的差距。

样本越大,抽样误差越小。

人们根据实践经验总结出了在95%的置信水平上样本大小和误差范围及置信区间的关系,即在有代表性的样本的大小确定的情况下,考虑到抽样误差所得到的关于总体的结论可以有95%的概率为真。

样本大小和抽样误差
考察数量误差范围(百分点)
4000 ±2
1500 ±3
1000 ±4
750 ±4
600 ±5
133
400 ±6
200 ±8
100 ±11
当样本是由人所构成的时,随机性要件可能更多地出现问题。

一个较少偏颇的样本似乎可能通过从电话簿随机选择电话号码而获得。

但该程序也不会产生完全随机的样本。

打电话的时间影响所获得的回答的种类。

那些上全班的大多数人在白天无法接听电话;即使电话在晚上打,未列入的号码也大约占总体的30%。

调查表随杂志的某一期发出,回收后得到的样本也有局限性,得出的统计数据很难推广到比该杂志读者更大的群体上。

通过互联网主页点击进行的投票也存在类似的问题,需处处小心。

当总体是人组成的时,心理因素可能有重大作用。

首先,如果构成样本的人们认为由于他们提供的回答而获得或损失某些东西时,可以想像,他们的受牵连的事务将影响回答结果。

例如,如果一项研究需要调查居民的收入,以便决定能否承担得起提高的所得税,那么,人们会低估收入。

其次,对所要回答的问题也可能有心理负担。

像“你多长时间刷一次牙?”“一年内你读多少书?”可以期望得到高估的回答。

而“你被灌醉过多少次?”“你有过多少婚外情?”将可能得到低估的回答。

类似的夸大也可能是一个提问的措词的后果。

比如,“你赞成减少福利作为对猖狂欺骗的回应吗?”比直接问“你赞成减少福利吗?”期望得到更为肯定的回答。

第三,另一个产生心理影响的来源是调查者和回答者之间的个人互动。

显然,许多人宁愿回答令人喜欢(愉快)的人提出的问题。

美国1988年大选,报纸曾对杰西·杰克逊作过一次民意测验。

统计数据表明,他最多能获得黑人中约50%的选票。

可投票时发现,有90%的黑人支持他。

原来,在民意测验中,黑人不愿意把自己真正的想法告诉那些白人调查员。

我们在日常经验中遇到的大多数统计证据并不提及诸如随机性、抽样误差以及样本是在何种条件下获得的等因素。

缺少这样的信息,面临评估这种证据的人必须使用他的最好判断。

数字和科学术语并不是无偏颇样本的代用品。

(二)区间估计
抽样误差本质上并非错误,因为只有对总体的每一个分子都进行调查(然而这就不是抽样统计)才会得到与总体完全相等的数据,所以再完善的抽样统计程序和方法都无法避免有抽样误差。

一般说来,一个随机样本中的频率同总体中的百分比恰恰相当的概率是很低的,但样本频率同总体的百分比靠近的概率却可以是很高的。

由上述讨论可知,统计推理得出的结论不是一个和样本频率相等的数值,而是一个和样本频率相靠近的区间。

由于这个缘故,人们常把对总体百分比的估计叫“区间估计”。

这个区间通常叫置信区间,其大小与样本的容量N的大小有关。

N小时,误差范围便大,置信区间也就大;N大时,误差范围便小,置信区间也就小。

如果某选举候选人支持率统计调查有3%的误
134
差幅度,如果该调查的结果是选民对候选人甲的支持率为52%,则具有95%可靠性的置信区间等于52 ± 3%,即49%-55%,换句话说,选民中49%到55%的人支持甲,这一结论的概率达到95%。

所以,我们可以说,所有统计推理得到的结论,都应是以两个数为边际数的区间。

假若一个统计推理的结论不是一个区间估计,而是一个孤零零的数字,那么,我们得小心思量一番。

(三)数据的意义
统计推理中最常提及到的统计数字是平均数。

例如,
本公司职员月平均收入是2500元
我们杂志读者的平均年龄是34岁
这个居民区中家庭的年均收入为2万元
但是,“平均数”有三个不同的意义:均数(算术平均数mean)、中位数(median)和众数(mode)。

在评估依赖平均数的论证时,知道被使用的“平均数”一词的精确意义常常是重要的。

一个拥有N个数字的集合的均数就是该集合全部数字的总和除以N。

例如,列出某个班级一组学生的年龄,
人数年龄
1 18
4 19
1 20
221
322
所有人的年龄相加除以人数就得到该组人的平均年龄(均数),也即算术平均数。

平均年龄=
11
)
22
3(
)
21
2(
)
20
1(
)
19
4(
)
18
1(⨯
+

+

+

+

≈20.2 把集合中的数字由小到大排列出来,而位于正中间的那个数字便是该集合的中位数。

上列年龄表的数字集合可写为{18,19,19,19,19,20,21,21,22,22,22},一共有11个数,第6个便是中位数,即20。

如果N是偶数的话,中位数便等于正中间那两个数字的平均数,例如{2, 5, 5, 8, 10, 12}的中位数就是(5+8)÷2 = 6.5。

一个中位数比平均数优胜的地方是前者不会受因某些异常情况而出现的极端数值(它对于所要研究的对象不具代表性)的不必要影响。

譬如,由于一些不寻常的情况,数据{2, 5, 5, 8, 10}改变成{2, 5, 5, 8, 100},这个数据的均数会由6增加到24,但中位数就不受这个异常情况所影响而维持在5不变。

众数是以最大频率出现的那个值。

例如,上表中出现次数最多(4次)的年龄是19
135
岁。

而在{2, 5, 5, 8, 10, 12}中,众数是5,因为它出现的频率最高。

在年龄例子中,均数、中位数和众数相互不同,但很接近。

但是,当在这些不同的平均数值之间存在重大差距时,归纳的问题就出现了。

例如,关于薪水问题的平均数。

职位人数年薪(人民币元)
经理 1 275000
高级主管 2 150000
主管 2 80000
高级工程师 1 65000 (均数)
工程师 4 55000
高级绘图员 1 45000 (中位数)
绘图员10 30000 (众数)
该公司有21个职员,年总薪酬额为1365000元,均数是1365000/21,即65000元;年薪中位数为45000元,因为有10个职员的年薪比这多,10个比这少;由于挣30000元的人数最多,所以该数值是众数。

这三个数值都表示该公司的平均年薪酬,但是在不同的意义上。

平均数使用的目的不同,不同的数字可能被引证作为一个论证的基础。

比如,高级工程师要求提高薪水,经理可能回答说,他的薪水早已超过平均水平(在中位数和众数的意义上),因此不能再高了。

如果绘图员提出同样的要求,经理也许回应说,他们现在已挣到公司的平均薪水(在众数的意义),而对于绘图员来说,挣到平均薪水就是很不错的了。

假如公司之外的人认为,该公司付的只是维持生活的工资,那么经理可以回应说,本公司的平均工资是非常高的65000元。

经理的所有回答都是真的,但如果读者或听者不能熟练地区别“平均数”的各种意义,那么,他或许被经理的论证所说服。

这就表明,三种平均数有不同的功用。

当然有可能存在三种平均数是同数值的情况。

这就是对应于随机现象的数据组。

例如,成年男女的高度,某个区域的风速,某种照明灯泡或汽车轮胎的使用寿命,某种牙膏或洗发精的周销售量等随机样本的结果。

那些对应于这些现象的数据通常接近正态分布,它在图表上的曲线呈钟形。

统计推理是一种有力而常用的论证方法。

但不谈取样方法,不言样本容量,不考虑误差范围,不澄清数字含义,都可能使推理变成谬误或失去意义。

二、统计谬误
数字和图表本身不会说谎,但人们有可能利用它们说谎。

面对统计资料和论证,我们应该经常提出5个批判性问题:
1.谁说的?——验证资料来源的正当性和权威性;
2.如何知道的?——检验样本;
3.
136。

相关文档
最新文档