说到选择或者决策,我们大都把注意力放在“选”这个动作以及选择过后所产生的结果上,很容易忽略掉构成选择的关键要素——选项。有的时候,选项显而易见,就像菜单上的小吃和甜点,但大部分生活中的选项都隐藏在伊西斯的面纱之下,而这些选项是自然给我们设下的陷阱还是凭人类自身的理智所构建出来的路径的区别,也是困扰了哲学家多年的决定论与自由意志之争。
姑且放下形而上的争执,如今越来越多的人认识到好的问题比答案更重要,也可以由此扩展到,好的选项比选择本身更关键。那么什么又是洞见选项的基本能力呢?说起来并不复杂,它就跟我们日常的生活紧紧的关联在一起,那就是——分类。
想要将某个人归入某一类别(朋友或敌人:值得信任或不值得信任)是人类与生俱来的天性,对事情的归类也是如此,这种渴求为智力发展提供了基础。如果我们不去构成类别,我们就只能注意到个例,而触及不到任何总体性思考。
可以设想,如果一个常人缺乏分类的能力,他就会迷失在浩如烟海的日常事务中——他无法识别朋友和敌人,甚至都不会构建“朋友”这样的词语,他身边只能是一个个独特的个体;他也无法识别苹果,他只能认识到一个个长得略有不同的能吃的东西。以此类推,在在他的头脑里,是无法想象“人类”、“世界”、“宇宙”这样的存在的,因为只有分类,才能让我们借由个体达到总体。
从形式上看,选项就是在某一些规则之下的分类。所以在做选择之前,学会更好的分类,可能比在选项之间比来比去更加重要。在《分类思维:不确定情境中合理决策的科学与艺术》这本书中,作者就将最佳选择的探索延伸到分类上,探究在不确定的世界里构建一种好的分类方式以获得优秀决策的方法。
“分类是指根据线索使用分类规则将个体分配到各个类别”。不过分类并不是看起来这么简单,当我们深入去体会这个概念,即可找到分类的两种层次动作:一种是构建分类规则,另一种是根据分类规则将具体的事物分配到各个类别当中。很明显,构建分类规则相对来说更基础,也更重要。
如果我们能够找到最佳分类方法,那么就可以避免掉大多数因为选项错误所导致的决策失误。比如,如果我们希望车辆可以在红绿灯前面自动决策的话。那就要根据红绿灯的规则来构建一系列的决策分类,这个相对来说比较简单,考虑到直行、左转和右转在三个灯下的状态,无非也就是九种分类而已。但问题在于现实世界中任何一个路口,都不会仅仅只有红绿灯,还有着众多的交通参与者,这样规则就变得复杂起来,即便不考虑所有情况,规则也会乘法级的增长。
所以近些年自动驾驶的研发逐渐放弃了规则算法,转而寻找适应性更强的方式。本质上就是在现实情境中,未来可能以不可预知的方式不同于过去,最佳分类规则是不可知的。在一个稳定、可控的世界中,根据过往的经验进行微调的规则很可能会成功。微调往往会导致统计数据和机器学习的标准库提供复杂的分类规则。相反,在动态、不稳定的现实环境中,变化可能会突然发生,对过往经验进行微调可能会导致巨大的预测错误。在这里,规则的复杂性可能需要在一定程度上减少而不是增加:现实情境中,简单规则表现良好。
在分类思维这本书中,就提出了一个鲜明的观点:简单规则反而在现实情境中表现良好。在国际象棋、围棋或人脸识别等稳定的情况下,如果有大量数据可用,复杂算法的表现优于快速节俭启发式。相比之下,在现实情境中,未来是不确定的,而且未来可能以一种不可预测的方式不同于过去,无论可用数据规模是大是小,简单的启发式都可以胜过复杂的方法,并称此为“不稳定世界原则”。
“启发式”这个词源自于古希腊,意思是“积极主动地发现或探索”。18世纪被引入到英语中,是指代解决那些难以用逻辑和概率论加以处理的问题、有用甚至不可缺少的认知过程。分类思维这本书关注两类启发式,这两类启发式开发了人类智力的两个核心能力:计数和排序。计数启发式只计算将个体分配至某一类别的原因。快速节俭树对原因进行排序,并使得使用者基于其中一个或几个原因就能做出快速决策。
这听起来可能有些学术,可以通过两个例子来分别理解计数法和快速节俭树。
每四年一次的美国大选,不仅关乎美国人的日常生活,甚至还会影响世界政治、经济走势。所以人们往往希望在大选结果产生前预测谁能够入主白宫。当然这其中最常用的就是传统的民意调查法,如果想要获得更精准的结论,就要耗时耗力,扩大样本所涵盖的类别等等,而准确度也难以保证。有一位历史教授,通过一个简单的方式,就能够轻松地使得自己预测的准确度超过大多数民调。
这个方法就是“13把进入白宫的钥匙”:拿到6把(即问题结果为否),挑战者获胜,否则执政党获胜。以下就是这13个问题。
1、执政党授权。中期选举后,执政党在美国众议院比之前的中期选举后持有更多的席位。
2、提名竞赛,现任党内没有激烈的提名竞争。
3、在任,执政党候选人是现任总统。
4、第三党。没有重要的第三方或独立参选人。
5、短期经济。竞选期间未陷入衰退。
6、长期经济。在这一总统任期内,实际的年人均经济增长等于或超过前两个总统任期的平均增长。
7、政策变化,现任政府对国家政策产生重大影响。
8、社会动荡。任期内没有持续的社会动荡。
9、丑闻。现任政府没有受到重大丑闻的影响,
10、外交、军事失败。现任政府没有在外交、军事事务上出现重大失败。
11、外交、军事成就。现任政府在外交、军事事务上取得了重大成功。
12、在位者个人魅力。执政党候选人具有超凡魅力或是一位国家英雄,
13、挑战者个人魅力。在野党候选人既没有个人魅力也非国家英雄。
这13把钥匙有一些特别之处——所有的钥匙都聚焦在执政党、执政党过去的表现、执政党当前的候选人上,唯一的例外是钥匙13关注的挑战着个人魅力。(答案是,执政党拿到钥匙,答案否,在野党拿到钥匙)。而且这13个问题没有权重,一视同仁,拿到一个积一分,最后计算总分即可。
这就是计数法的本质:在不确定的情况下,人应该简单地计数,而不要试图权衡比重。
再看一个快速节俭树的例子。在美国快速的HIV筛查一般分为三步,先做一次酶免疫测试,阴性则停止,并确认无HIV,阳性则继续再做一次酶免疫测试,阴性则确认无HIV,阳性则再进行一次蛋白质测试,阴性则确认无HIV,阳性则确认HIV感染。
其实这并不是一种“最佳”的规则,如果“最佳”的定义是最大化的检测出HIV感染者以及最小化误诊。因为第一次酶免疫测试,一定有一些没有被检测出来的HIV感染者,最后被宣布无HIV。但是,因为这个概率比较低,如果为了找出那些遗漏的HIV感染者,将会耗费大量的人力物力。所以最终采用了一种更为“节俭”的决策树。
如果用符号K表示线索(检测次数)的数量,这里K等于3。如果一条线索只有两个值,如“正/负”(即阴性阳性),则这条线索称为二元线索。快速节俭树中,可以进行分类的空间称为“出口”,一个快速节俭树正好有K+1个出口,跟完整决策树的检索出口数量即2的K次方相比,当K大于2的时候,节俭树就有优势,K越大,优势越大。所以使用快速节俭树来替代完整决策树?可以大大减少检测上的时间,减少医疗系统所承受的负担,同时可以用相对较少的漏报为代价保护大量个体不被误诊。
在此补充一些医疗检测当中的关键定义。首先大前提是,任何一种针对性的检测,都不是百分之百准确的,这意味着有一部分真实的病人未被检测出来,同时还有一部分健康的人被误诊。所以针对真实阳性和真实阴性情况,对应检查出来阳性和阴性,就会有四种情况:
真实阳性被检测出阳性称为命中,也叫做真阳性;真实阳性被检查出来阴性则成为漏报,也叫做伪阴性。命中与命中和漏报的总和的比称为命中率或灵敏度。真实阴性被检查出阴性称为正确拒绝,也叫做真阴性;真实阴性被检查出阳性称为误报,也叫做伪阳性。误报与误报和正确拒绝之和的比例被称为误报率。
当我们再听到,比如一个乳腺癌检测命中率为75%时,先不要着急下结论说这个检测很管用,看看它的误报率,比如平均误报率为46%,意味着大约每隔一个人就会出现没有患乳腺癌的女性被该测试诊断为患有乳腺癌的情况。这种高命中率的代价是将更多的为患病的人误报作为基础的。相比之下,正常的乳房X光检测筛查的命中率约为80%,但误报率在10%以下。
这是一个小小的题外话,分类思维这本书,核心就要告诉我们的是,真实世界中存在着线索的不确定性,线索权重的不确定性以及最佳分类规则的不确定性。因此,如果去构建一个“最佳”分类规则去尽可能准确地描述过往的分类,就可能会引起错误的判断,与此相反,我们认为,简单启发式(例如计数和快速节俭树)可以在现实情境中表现良好,因为它们依赖于稳定的原则来减少错误。
快速节俭分类最典型的特征是简单。简单是由两种方式实现的:首先,分类使用的线索相对较少;其次,各条线索以简单的方式组合。因此,分类可以快速进行,要理解和解释分类背后的逻辑推理也很简单,考察了两种最简洁的方法,第一种方法称为“计数”,在同一时间使用各条线索,赋予他们相等的权重。第二种方法称为“快速节俭树”,按顺序使用各条线索,一次使用一个,对线索施加优先级顺序。
虽然这本书中陆续介绍了很多计数法和快速节俭树的构建方法,但很多都需要过硬的数学功底和相应的计算工具的辅助,对程序开发可能有比较大的帮助,但对于普通人来说,只需要记住,它反对了一种普遍的观念,即复杂的分类方法总是更好,更多的数据总是导致更高的准确性,尽管在确定的和完全控制的情况下(未来和过去相似),这种观念是正确的,但是在不确定的和缺乏控制的情况下,这种观念就不见得成立了。在这样的情况下,简单的规则可以根据较少的信息进行更准确的预测,并且,简单的规则更加透明、更易懂,以便启动操作。