思考,快与慢
第10章 大数法则与小数定律

一项研究对美国3 141个县的肾癌发病率进行了调查,调查显示该病的分布模式很值得注意。发病率最低的县差不多都位于中西部、南部和西部人口稀少的乡村,这些区域按照惯例由共和党管辖。对此,你有何看法?

刚刚过去的几秒钟里,你的大脑处于非常活跃的状态,这主要是因为系统2在运行。你谨慎地在记忆中搜寻着并作出假设。在这个过程中你也付出了一定的努力,你的瞳孔会扩张,心跳会适度加快。系统1也没有闲着,因为系统2的运行需要从联想记忆中获取事实和建议。你很可能会否认共和党的政策提供了肾癌防控方法这个想法,却会关注肾癌发病率低的县大多是乡村这个事实。这个例子是我从机智的统计学家霍华德·维纳(HowardWainer)和哈里斯·泽维林(HarrisZwerling)那儿得到的,他们对这一案例的评论是:“人们很容易作出推断,认为肾癌发病率低主要是由于乡村的生活方式很健康—没有空气污染和水污染,食品没有添加剂,保证新鲜。”这一点完全说得通。

现在,考虑一下肾癌发病率最高的县的情况吧。假设这些易发病的县差不多都位于中西部、南部和西部人口稀少的乡村,这些区域按照惯例由共和党管辖。霍华德·维纳和哈里斯·泽维林半开玩笑地评论道:“人们可以很容易作出推断,导致肾癌高发病率的直接原因是乡村生活的贫困—医疗条件差、高脂肪饮食、酗酒、嗜烟等。”当然这种说法肯定有问题,因为乡村生活方式不可能既是肾癌发病率高的原因又是其发病率低的原因。

问题的关键并不在于这些县处在乡村地区或是由共和党掌管,而在于乡村地区人口少。我们通过这个例子学到的不是流行病学知识,而是我们的大脑和统计数据之间的复杂关系。系统1非常擅长一种思维模式—自动且毫不费力地识别事物之间的因果联系,即使有时这种关系根本就不存在,它也会这样认定。当听到肾癌高发地区的情况时,你立刻会想当然地认为这些县与其他县不同是有原因的,一定有个理由可以解释这种不同。然而,正如我们所见,当系统1面对“纯统计学”的数据时是束手无策的,因为这些数据虽然可以改变结果出现的概率,却不能直接导致结果的发生。

根据定义,一个随机事件是不需要解释的,但一连串的随机事件就有规律可循。想象有一个装有大理石弹球的瓮,其中有一半的弹球是红色的,另一半弹球是白色的。然后,再想象有一个非常有耐心的人(或一个机器人)随意从瓮中取出4个大理石球,记录其中的红球数,再把球放回去,重复这样的做法数次。总结记录结果时,你会发现“2红2白”的结果出现的次数(几乎刚好)是“4个全红”或“4个全白”这种结果的6倍。这一倍数关系是个数学事实。你可以对这种从瓮中反复抽样的结果作出自信的预测,就像你能预测到用锤子砸鸡蛋的结果一样。尽管你无法预见蛋壳破碎的具体细节,但大概结果还是很确定的。两件事的不同之处在于:你想到锤子砸鸡蛋时感受到的那种明确的因果联系,在瓮中取样的设想中是找不到的。

相关的统计学事实与癌症那个例子也有联系。两个耐心的计数者轮流从瓮中取大理石球,杰克每次拿出4个球,吉尔拿出7个。他们都记录了每次拿到相同颜色弹球的次数—要么全白,要么全红。如果他们取球的做法持续的时间足够长,杰克拿到同颜色大理石的次数会是吉尔的8倍(两人的预期概率分别为12.5%和1.56%)。这个结果与锤子无关,也与因果联系无关,这仅仅是一个数学上的事实:一次拿4个弹球与一次拿7个相比,出现极端结果的概率更大。

现在,将美国人口想象成一个巨大的瓮中的弹球。有些球上标有KC(即KidneyCancer的简称)字样,表示肾癌。你抽取弹球样本,并依次按照所在县摆放,你会发现乡村地区的样本要比其他地区的少。如同杰克和吉尔所做的那个游戏一样,极端的结果(非常高或非常低的癌症发病率)容易出现在人口稀少的县,这个故事告诉我们的就是这些。

我们从一个令人费解的事实说起:肾癌的发病率在各县有所不同,且是有规律的,我用统计学理论对此作了解释:相比于大样本,极端的结果(高发病率和低发病率)更容易出现在小样本中。这样的解释不存在因果联系。某县的人口稀少既不会引发癌症,也不能避免癌症,只会使癌症的发病率比人口稠密地方的发病率更高(或更低)。这就是真相,没什么可解释的。在某个人口稀少的县,癌症发病率并非真的比正常情况更低或更高,只是这个县正好在某个特殊的年份赶上了抽样调查罢了。如果我们在第二年重复这样的分析,也能预测到在小样本中出现极端结果的一般模式,但在前一年癌症发病率高的县,这一年发病率并不一定高。如果是这样的话,则人口稠密或稀少的因素就无法对发病率作出解释了:这些表面因素就是科学家眼中所谓的假象,即观察结果完全依赖于调查方法的某一方面,在这个案例中,则依赖于样本大小。

我刚才说的例子也许会令你惊讶,但这并不是真相初次大白于天下。你早就知道应该更相信大样本,并且即使是对统计学一无所知的人也听说过大数法则。但是“知道”并非是非抉择问题,你可能会发现下列陈述放在自己身上很合适:

• 当你阅读这个关于流行病学的例子时,并没有立刻注意到“人口稀少”这一特点与此次调查有何关联。• 对于采用4个样本还是7个样本所产生的不同结果,你至少会感到有一点惊讶。• 即使是现在,想要确定下面两个陈述句所说的完全是一回事,你也要费些脑力:(1)大样本比小样本更精确。(2)小样本比大样本产生极端结果的概率大。

第一个表述清晰地陈述了一个事实,但直到感受到第二个表述传达给你的意思,你才意识到自己并没有真正理解第一个表述的意思。

上述内容概括起来就是:没错,你知道大样本的结果更精确,但你现在可能才意识到你并不清楚为什么它们更精确。不仅你一人如此,阿莫斯与我在一起进行的第一个研究表明,即使是经验丰富的研究人员对样本效应也缺乏直觉,要么就是理解不到位。

小样本的出错风险可能高达50%

没有接受过统计学方面训练的人是出色的“直觉性统计学家”。我与阿莫斯在20世纪70年代早期的合作便始于对这个观点的讨论。他对我(在大学)的研究班及我本人讲过,密歇根大学的一些研究人员对直觉性统计抱有乐观态度。我个人对那个观点有种强烈的感觉:那段时间我发现自己并不是一个出色的直觉性统计学家,但是我也不相信别人会比我好多少。

对于一个研究型心理学家来说,样本变差没有什么特别的。它是个烦人且损失又大的麻烦事,会把每项实验都变成一场赌博。试想你希望证明6岁女孩的平均词汇量比同龄男孩的词汇量更丰富的假设。这个假设从整体来说是成立的,女孩的平均词汇量确实要比男孩的丰富一些。然而,尽管男孩与女孩差别很大,但你很可能会抽取到男女相差不太明显的样本,甚至会抽到一个男孩比女孩词汇测试成绩还要好的样本。如果你是那个研究者,这个结果对于你来说代价就太高了,因为它浪费了你的时间和精力,却无法证实一个实际正确的假设。使用一个足够大的样本是降低这种风险的唯一方法。选择小样本的研究者只能看自己是不是能选对合适的样本了。

想要对样本错误的风险作出评估,只需通过一个相当简单的步骤就可以实现。然而按照惯例来看,心理学家并不是通过计算来选定样本大小的。他们听从自己的判断,但这些判断往往是错的。在与阿莫斯发生意见分歧不久之前,我读过一篇文章,文章通过生动的观察结果展示了研究人员所犯的错误(他们现在仍在犯这种错误)。该文作者指出心理学家选择的样本通常都很小,致使他们有50%的风险不能够证实其正确的假设,而任何研究人员都不会在头脑清醒的情况下接受这种风险。对此有一个貌似正确的解释,即心理学家对于样本大小的决定反映了他们普遍存在的一个直觉性错误观念,即对于样本变差范围的错误看法。

这篇文章令我十分震惊,因为我在自己的研究中碰到了一些问题,却在这篇文章中找到了相关解释。与大多数研究型心理学家一样,我也墨守成规地选择了一些过小的样本,因此得到的实验结果毫无意义。现在,我知道了原因:那些奇怪的结果实际上就是我这种研究方法的典型产物。我的错误特别令人尴尬,因为我教过统计学,也知道该怎样计算样本的大小,以便将风险降至可以接受的程度。但是,我从未通过计算来确定样本大小。和我的同事一样,我被传统所禁锢,相信自己设计实验的直觉,也从未认真考虑过样本选择会带来的那些风险。阿莫斯来参加研讨会时,我已经意识到自己的直觉是错误的。在研讨会中,我们很快达成共识—密歇根的那些乐观派是错误的。

我与阿莫斯开始调查一个问题:只有我自己这么愚蠢还是我只是众多愚蠢的人之一,我们通过一项测试来证实这个问题,测试对象为一些数学家,想看看这些人是否也会犯类似的错误。我们设计了一份调查问卷,其中描述了真实的研究情境,包括一些成功实验的复制。问卷要求研究人员选择样品大小,对其决定可能带来的失败风险进行评估,并为那些正在设计自己实验的研究生提供建议。在 “数学心理学协会”的一次会议上,阿莫斯收集了一组资深受试者(包括两本经济学著作的作者)的反应。结果很明显:我并不是唯一一个愚蠢的人。大多数受试者都会犯和我一样的错误。显然,即使是专家,在选择样品大小时也无法充分集中注意力。

我和阿莫斯将我们合写的第一篇文章命名为“对小数定律的盲信”。我们半开玩笑地解释道,“对于随意取样的直觉似乎符合小数定律,由此可以断言大数法则对于小数定律同样适用”。在文章中,我们还收录了一个措辞有力的建议,即研究人员认为他们“对于统计直觉应抱有一些怀疑,只要条件允许,都应采用计算方法来确定样本规模,而不是依靠直觉印象作决定”。

信任多于质疑的普遍性偏见

在一次面向300名老年人的电话民意调查中,有60%的人支持总统。

如果你只能用三个词来总结这句话,该怎么说呢?几乎可以肯定的是,你会说“老年人/支持/总统”。这些词概括了这句话的要点。这次民意调查被省略掉的细节—媒介为电话,样本为300人—本身意义不大,它们提供的背景信息并不怎么引人注意。即使样本数量变了,你的结论也不会发生变化。当然,一个完全荒谬的数字倒可能会引起你的注意。(例如一项对6名或6亿名老年选民的电话民意调查……)除非你是专业人员,否则不管样本是150还是3 000,你都不会有什么不同的反应。这就是“人们对样本大小没有足够的敏感性”这一表述的意义。

这项民意调查包含了两方面的信息:新闻本身和新闻的来源。当然,你关注更多的是新闻本身,而不是其结果的可信度。但当可信度明显很低时,新闻所包含的信息也就不足为信了。如果得知“某党派小组操纵一项错误且带有偏见的民意调查,使结果显示老年人支持总统……”你当然会排斥这项调查的结果,不会相信这条新闻,这项由某党派进行的民意调查以及其错误结果不但没有令你信服,反而会成为另一条关于政治骗局的新闻。在这样清晰的案例中,你可以选择不相信其中的信息。但是你能把“我在《纽约时报》读到……”和“我在办公室闲聊中听到……”这两种说法完全区分开来吗?你的系统1能够区分出信息的可信度吗?眼见即为事实的原则表明:不能。

如前所述,系统1并不善于质疑。它抑制了不明确的信息,不由自主地将信息处理得尽可能连贯。除非该信息被立刻否定,不然,它引发的联想就会扩散开,仿佛这条信息就是千真万确的。系统2能够提出质疑,因为它可以同时包含不相容的多种可能性。然而,保持这种质疑会比不知不觉相信其真实性更加困难。小数定律是普遍性偏见的一种表现,即对事物的信任多于质疑。类似这样的偏见在下面的章节中还会出现。

相信小样本能反映调查对象的整体情况,这一强烈偏见也是一个较大问题的一部分。这个问题就是,我们常夸大所见事物的相容性和连贯性。许多研究人员过于相信通过有限的几次观察得出的结果,这一现象与光环效应紧密相连。我们常常会觉得自己对某个人很熟悉也很了解,但事实上,我们对他却知之甚少。系统1在了解事实之前就根据零散的证据拼凑了一个饱满的形象。如果相信小数定律,急于下结论的机制就会运作起来。通常情况下,它会建构一个言之成理的说法使你相信自己的直觉判断。

对随机事件作出因果解释必然是错的

联想机制会搜寻原因。在统计规则方面,我们面对的困难是这些规则要求使用不同的方法处理问题。依据统计学观点,我们不应关注当前事件的成因,而应当关注其未来走向。这件事的发生并没有什么特殊原因,一切只是机缘而已。

因为偏好进行因果思考,我们在估测真实的随机事件的随机性时就会犯严重的错误。以在某家医院依次出生的4个婴儿的性别为例,男女出生次序明显是随机的。每个婴儿的出生是各自独立的。在前几个小时内出生的男婴女婴数量并不会影响到下一个出生婴儿的性别。现在,请考虑一下可能的序列:

男男男女女女

男男男男男男

男女男男女男

出现这些序列的可能性是一样的吗?人们的第一反应都是“肯定不一样啊”。但是,这样的反应是错误的。因为每个婴儿的出生都是独立的事,并且生男生女的概率也几乎相等,6个婴儿任何一种可能的性别顺序都与别的顺序概率相等。即使是现在,你仍然认为这个结论是正确的,但它实际上是反直觉的,因为只有第三种顺序是随机的。如我们所料,“男女男男女男”比其他两种顺序更有可能发生。我们追求模式,相信所处的是一个各方面都相互联系的世界。在这个世界里,规律(例如6个女婴的顺序)并不只是偶然发生的,它还是机械的因果联系或是人的意志的结果。我们并不期待在一个随机的过程中找到规律。但当探寻到一个可能的规则时,我们就会抛开这个过程是真正随机的想法。随机过程会产生许多序列,以使人们相信这个过程完全是不随机的。如此你就可以看出来为什么假设的因果关系有进步发展的优势。它是我们从先辈那里继承的一般警觉性的一部分。我们会习惯性地搜寻环境变化的可能性。狮子可能随时都会出现在平原上,但注意到狮子出现频率的明显增长并采取行动则会安全许多,即使这种增长只是由于随机过程的波动而发生的。

对于随机性的广泛误解有时会带来重大影响。在我和阿莫斯合作的一篇代表性文章中,我们引用了统计学家威廉·费勒(WilliamFeller)的阐述,他说,人们很容易在根本没有模式的情况下创建模式。“二战”期间,火箭弹在伦敦密集地轰炸。人们普遍相信爆炸不可能是随机的,因为地图显示,爆炸点在各地的分布有明显区别。一些人猜测没有被炸的地点住有德国的间谍。一份严谨的统计分析显示,爆炸点的分布是随机程序的一个典型代表,同样也是令人产生它并不是随机的这一强烈印象的典型代表。费勒评论道:“在没受过专业训练的人看来,这一连串轰炸行动就好像具有某种规律或趋势了。”

很快,我得到一次机会可以把我从费勒那儿学到的知识派上用场。1973年爆发的赎罪日战争中,我作出的唯一一项重大贡献就是建议以色列空军的高级官员停止一项调查。一开始,由于埃及地对空导弹表现出色,空战对于以色列来说很不利。以色列方面人员伤亡惨重,其人员分布也不均衡。有人告诉我说,有两支来自同一基地的空军中队,其中一支被击落了两架飞机,而另一支一架也没有被击落。为了弄明白那支不幸的空军中队到底做错了什么,相关人员对此展开了调查。我们没有理由认为其中一支空军中队比另一支更有效率,也并未发现他们在操作上有何不同。当然,飞行员的生活在很多方面会有所不同,据我回忆,其差异包括他们在任务之间回家的次数以及报告任务的执行情况等。我当时给出的建议是,司令部应该明白之所以出现不同结果仅仅只是因为他们运气不同而已,应该停止对飞行员的调查。我推断这次事件很可能是由于运气不佳,对不明显的原因进行随机调查必定是劳而无功的。与此同时,空军中队不断有人员损失,没有必要再给他们增加额外的负担,让他们觉得那些去世的伙伴做错了什么。

几年以后,阿莫斯和他的同学汤姆·季洛维奇(TomGilovich)、罗伯特·瓦隆(RobertVallone)对篮球随机性的错误直觉所作的研究引起了轰动。运动员有时投篮顺手的“事实”普遍被运动员、教练和球迷们所接受。这样的推断是顺理成章的:如果一个运动员连续进了三四个球,你就会不由自主作出判断:这个运动员正处于“投篮顺手”的状态,得分率暂时增加。两队队员都持这种判断—队员也更爱将球传给打得顺手的人,对方球队则会用两位防守球员防卫这位进攻球员。然而,对上千个投篮动作的分析结果却十分令人失望:在职业篮球比赛中,无论球是从球场上投出还是从罚球线投出的,根本没有“投篮顺手”这回事。当然,一些球员会比其他球员投篮更准,但进球与投篮未中都只是随机的。“投篮顺手”完全只是旁人所见,而且他们太快作出评判了,以至于感知不到随机事件中的顺序和因果关系。“投篮顺手”是一个影响深远的认知错觉。

公众对于这项研究的反应也是这项研究的一部分。这个发现令人惊讶,很快就受到了媒体关注,而大家普遍的反应都是不相信。当著名的波士顿凯尔特人队教练瑞德·奥尔巴赫(Red Auerbach)听说了季洛维奇及其发现(研究)时,他回应道:“这人是谁呀?他做了个实验是吧?不过我对他的观点不敢苟同。”在随机性中发现规律的想法往往不可逆转,肯定比某个人作了一项研究更有说服力。

对规律的错觉在方方面面影响着篮球赛场。你要用多少年的观察才能肯定一个投资顾问是有真才实学的?一个执行总裁实现多少次成功的兼并,董事会才能确定他对这项工作有着非凡的才能?简单说来,如果你听从自己的直觉,就常常会因为把随机事件看做是有规律的事件而犯错。我们都非常愿意相信生活中大多数事情并不是随机的。

在本章开头,我引用了一个美国癌症发病率的例子。这个例子本来是有意写给统计学老师看的,我是从前文中提到的两位统计学家霍华德·维纳和哈里斯·泽维林所写的一篇有趣的文章中看到这个例子的。他们写这篇文章得到了盖茨基金会17亿美元的赞助,用以调查那些最成功的院校有哪些特点。许多研究人员在那些名声显赫的院校中作调查,希望发现这些学校的与众不同之处,从而寻求成功教学的秘密。这项研究的结论之一是,这些著名院校规模普遍较小。例如在宾夕法尼亚州对1 662所院校的调查中,排名前50的院校里有6所规模都较小,是(普通院校)的3倍多。这个数据使得盖茨基金会积极投入大量资金建立小规模的院校,有时会采取将大的院校拆分成小的院校的方法。另外,其他著名的机构中至少有一半也采取了同样的做法,例如爱林伯格基金会和皮尤慈善机构也采取了同样的做法,美国教育部还启动了“小型学习社区计划”。

你可能会觉得上述做法很有道理。我们很容易从因果关系角度去解释小规模的院校为什么可以提供优质的教学。我们认为,比起大规模院校,小规模院校可以给予学生更多的关注及鼓励,因此能培养出成就卓越的学者。但不幸的是,这样的因果分析是无意义的,因为得到的结论都是错误的。如果那些向盖茨基金会提交报告的统计学家们调查过最差学校的特点,他们会发现那些较差的学校也比水平一般的学校的规模小一些。事实上,规模小的学校办学水平并一定更高,他们只不过更懂得变通而已。维纳和泽维林说,如果真有什么区别的话,那就是大规模院校可以提供多种多样的课程,所以容易收到好的效果,特别是学生能拿到高分。

多亏了几年来认知心理学的发展,我们现在才能清楚地知道阿莫斯和我所瞥见的不过是冰山一角:小数定律包含在大脑工作的两个重要部分中。

• 夸大对小样本的信任只是众多错觉中的一种—比起信息的可靠度,我们会更加注重信息本身的内容,其结果就是我们会将周围的世界变得比数据所能证明的更加简单和统一。在想象的世界中过早下结论比在现实中更有把握。

• 统计学家的很多观察研究都可归结到因果关系的解释上,但他们却不承认是这样的。许多事实其实只是巧合,包括事件的采样。对偶发事件作出因果关系的解释必然是错误的。

示例—小数定律

“没错,自从这个新执行总裁接手后,电影制片厂已经制作了3部优秀电影。不过,现在说他老练还为时过早。”“统计学家能够估算出这个交易新手表现出来的强劲势头是否是偶然的,所以在咨询统计学家之前,我不会相信他就是个天才。”“观察的样本太小,所以不能作出任何推断。我们不要遵从小数定律。”“在我们有足够大的样本之前,我计划对实验结果暂时保密。否则,我们会有过早下结论的风险。”












财经大咖
大咖评论