聪明如你,请做题:

一个盲人有5双白袜子和5双黑袜子,除了颜色差异,其它一模一样,弄混了,请问如何分开?

这是一个简单而有启示的智力题。

答案很简单:拿到太阳下去晒。‍‍‍‍

在阳光下,黑袜子吸热更快,所以通过触摸,盲人可以感知到袜子的温度差异,从而将白袜子和黑袜子分开。

最初,盲人只能通过触摸袜子的材质,但无法区分颜色。因此,我们可以引入“温度”这个维度,通过阳光加热,创造了一个新的识别维度(温度差)。

这就类似于在复杂问题中引入额外的信息维度,以便更好地理解问题。

我曾经写过“灰度认知,黑白决策”,本文像是下联。

顺着这一点,我想谈及信息的“维度”

最有名的“升维思考”,也许是爱因斯坦的相对论。‍‍‍

在牛顿物理学中,我们处理的通常是三维空间中的物体运动,时间是一个独立的量。

但爱因斯坦在狭义相对论中提出了一个全新的框架,称为四维时空,将时间和空间视为相互关联的统一结构。

在广义相对论中,物质和能量会弯曲时空,而物体在弯曲时空中的运动实际上是沿着时空曲线运动。

由此,人类对物理世界有了更加精确的解释。

就你我而言,我们究竟是如何理解这个世界的?我们如何判断一个未知的事物?我们如何在信息不充分的情况下做出决策?‍‍‍‍‍‍‍‍

也许每个人都是如盲人摸像一般,通过不同角度的特征做出推断。‍‍‍‍

了不起的高手,往往比普通人有更高的认知维度,例如围棋天才独具的“感觉”,杨振宁推崇的“Taste”。‍‍‍‍‍‍‍‍‍‍

AI通过降维简化问题,通过升维来揭示更多的隐藏信息,这一点在深度学习的领域产生了神奇的效果,以至于机器可以获得8年前人类还自以为独具的“感觉”。‍‍

在大模型时代,AI借助于算法、算力和数据,获得了在某些方面超越人类的“高维思考”能力。

而此时,人类的联想和提问能力,就像是构建一个维度,或是在大模型的向量空间里,勾出一段彩虹。

就像扔出一个骰子,对于未来的可能性,我们要升维思考,考虑6个面的概率,可结果只有一面。‍‍‍‍‍‍‍‍‍‍‍

这大概是“升维思考、降维行动”的一个简单隐喻。

《人工智能:现代方法》说:

‍人工智能(artificial intelligence,AI)领域不仅涉及理解,还涉及构建智能实体。这些智能实体机器需要在各种各样新奇的情况下,计算如何有效和安全地行动。

我们需要理性思考,也需要理性行为,尤其要在“存在不确定性时取得最佳期望结果而采取行动。”

升维思考灰度认知,都和概率论有关,再加上基于时间的与外部环境的互动,贝叶斯定律常常现身其中。‍‍‍‍‍‍‍‍‍

更现实一点的场景是:对于一个投资者,需要升维思考。例如芒格的多元思维模型。但是他的模型是通过多个维度的证伪,来切割出钻石的。--本文提及的朴素贝叶斯分类,底层的原理(可感知的那部分)是想通的。‍‍‍‍

而行动本身,往往是降维的。

从数学的角度看,我们需要一个(相对)最优概率;‍‍‍

从物理的角度看,系统需要(相对)最低势能状态;‍‍‍‍‍

从决策的角度看,人类必须采取行动并接受一个黑白分明的结果。

多面骰子在空中飞舞,最终只能选择一面朝上。

投资者最终需要做出“买或不买、卖或不买”的决策,而且行动越少越简单越好。

降维行动的例子:京东说要“多快好省”,拼多多只要一个“省”。‍‍‍‍

那些大事不糊涂的人,那些过得不错并且还能轻松的人,大多是在维度上取得了胜利。

现在做事不容易,许多行业和公司都在谈“转型”。但是,如果没有维度上的突破,可能只是在原路上瞎扑腾。

活在二维世界里的生物的死局,往往要靠超越维度来破解。‍

“井底之蛙”看似是关于视野的隐喻,其实是关于维度的类比。

本文从一个我喜欢的智力题开始,将毒酒问题的二进制解法,类比为更高维度的胜利。‍‍‍‍‍‍

类比可能是鲜活的,但绝不严谨。甚至于在文章的推进过程中,升维和降维都会出现一些概念的交错。

类比和隐喻都是思考的脚手架,请你能用且用,用完后记得拆除。

更广阔的意义上,每个人都是全体人类的一个维度。

所以,请活出你自己。

让我们从一道有趣的题开始:

国王有一百桶酒,比自己的生命还重要。结果有一天其中一桶被投了慢性毒药,喝了以后半个小时就会死掉。国王大怒,命令玩忽职守的侍卫去试毒。酒不能被混合,一个侍卫可以喝多桶酒,一桶酒也可以由多个侍卫喝。

请问:怎么样才能用最少的侍卫、在半小时知道哪桶是毒酒?

解法1:一维法

最简单的方案,是让每个人试一桶酒,用时30分钟,就可以判断出哪一桶酒有毒。

这个是“一维”的直线思维,在现实生活中也未尝不可,好过什么都不干。

这样的解法,答案是:99个人。

解法2:二维法

从二维层面去思考,引入笛卡尔的坐标。

把100桶酒摆成10✖️10的矩阵,如下:


接下来:

  1. 让阿拉伯数字编号的1号侍卫(如上图,黄色),把第1行酒每桶喝一口,一直到10号喝第10行;

  2. 让汉字编号的一号侍卫,把第一列酒每桶喝一口,一直到十号喝第十列;

  3. 由于坐标的定位功能,假如毒酒在图中绿色的位置,那么3号侍卫和二号侍卫都会死,自然可以锁定毒酒的位置。

  4. 但是因为第10行和第十列可以不用安排人,也能获取信息,所以可以减少两个人。‍‍‍‍‍

这样的解法,答案是:18个人。

解法3:三维法

能否再延伸至三维层面去思考呢?

我们很容易想到,搭建一个5✖️5✖️4的三维模型,正好有100个位置放酒,如下:


接下来(和二维解法差不多):

  1. 让阿拉伯数字编号的1号侍卫(如上图,黄色),把黄色箭头这一面墙的酒每桶喝一口,一直到5号喝第5面墙;

  2. 让汉字编号的一号侍卫(如上图,橙色),把橙色箭头这一面墙的酒每桶喝一口,一直到五号喝第五面墙;

  3. 让字母编号的a号侍卫(如上图,蓝色),把蓝色箭头这一层的酒每桶喝一口,一直到d号喝第四层;

  4. 同理,通过三个维度,也可以锁定毒酒的位置;

  5. 以及,每个维度都可以少一个人。‍‍

这样的解法,答案是:11个人。

最笨的方法1,会死一个侍卫;方法2会死两个(或1个,或零个),方法3会死三个(或两个,或一个,或零个),总之一个维度需要获取一个信息,可能会死一个,或者提供零的信息。

所以题目中有含糊的地方,到底是用最少的侍卫,还是死最少的侍卫?考虑到国王的残酷,我们姑且认为是前者。

然而,即使聪明如你想明白了上面三个维度的解法,还是没有找到最优答案。

解法4:二进制

如果用计算机的思维来分析这个问题,那么首先考虑如何存储这100桶酒。100桶酒可以用二进制7个比特来表示(2的7次方>100)。

上面的解法1到解法3,都是用100个位置存储100桶酒,只是描述位置的坐标,从一维到三维,效率越来越高,所以用的侍卫越来越少。

如果用二进制呢?

二进制,是逢二进一的计数编码方法,只有0和1两个数码。那到了2怎么办?只有往前进一位,变成10。

所以,十进制的2、3、4、5,二进制分别表示为10、11、100、101。二进制广泛应用于电子计算机的数据处理。


回到我们的题目,计算如下:

第一步:对于每一桶酒的二进制表示,编码后,最长的数字是7位数,不足七位前面用0表示;

1号桶是0000001,

2号桶是0000010,

3号桶是0000011,

4号桶是0000100,

100号桶是1100100;

第二步:可以找七个侍卫,从左到右,编号“一”至“七”,每人对应一个位数,从第一位到第七位。

第三步:负责第一位数的侍卫“一”,只要这100桶酒中,二进制编码的该位数对应的数字是1,则喝掉此桶酒。

如此类推,每个侍卫喝掉他所负责的位数上数字是1的酒。

第四步:30分钟后,侍卫按照“一”至“七”,死掉的置为1,活着的置为0。

例如,假如第七桶酒为毒酒,其二进制编码是0000111。那么按照上面的喝酒规则,其五、六、七位都是“1”,所以编号五、六、七的侍卫都会死。

前四个侍卫,遇到这瓶毒酒,因为对应的数字是0,所以都会活。

二进制的0和1,正好对应了活和死。

根据7个侍卫喝酒后半小时的生死状态,能够得出毒酒的二进制编码。

这样的解法,答案是:7个人。

以下,请允许我从一个非专业人士的“感知”的角度,来说说这道题的启示:

1、第一种方法,是简单的线性搜索

2、第二、第三两种方法,是增加了维度的线性搜索,可以理解为交叉搜索,等价于坐标系;

3、前三种解法,维度越高,效率也就越高;

4、因为有“半小时”的时间约定,所以不能用简单的二分法来解答。所以,第四种解法用二进制为100瓶酒编码,进而用0和1对应不喝与喝(也对应了撞见毒酒后的生和死)。

5、那么第四种用二进制的解法,是否可以理解为“7维”的解法?

  • 第一种解法有1个维度,该维度上有100种可能。这其中的99种,每种可能都需要1个侍卫去通过喝酒“消除不确定性”;

  • 第二种解法有2个维度,每个维度上有10种可能,每种可能都需要1个侍卫去通过喝酒“消除不确定性”,然后这两个维度的交叉点,就是毒酒的位置;

  • 第四种解法有7个维度,每个维度上有两种可能,每两种可能,只需要1个侍卫去通过喝酒,就可以“消除不确定性”。于是,这七个维度的交叉点(表述为一串二进制数字),就是毒酒的位置。

在这道题目中,使用二进制编码的策略是核心。通过将100桶酒编码为7位二进制数,我们能够用最少的侍卫(7个)来解决问题。

这种方法背后的原因是二进制的指数效应:每增加一位二进制位,就可以表示更多的状态,极大地减少了解决问题所需的资源(在这个例子中是侍卫的数量)。

相比于简单的线性搜索,二进制让我们进入了一个更高效的“维度”空间

在这个空间里,每个侍卫只需要判断一个“0”或“1”的状态,就能为100桶酒中的每一桶赋予唯一的二进制编码。

这种策略不仅有效地消除了不确定性,还展示了通过增加维度解决问题的力量。

这一过程展现了升维和降维的相互配合:

升维思考:通过引入多个侍卫,每个侍卫相当于引入了一个新的维度,让我们能够从更多角度捕捉信息。

降维行动:通过侍卫生死的二值化状态,我们将所有复杂性压缩为一串二进制信息,这一信息指向毒酒的唯一桶号。

在上面递进的解体过程中,将二进制的方法,类比为7维,是一个有趣的想法。‍‍‍

进而,我们可以用一种更直观的方式,来阐述“升维思考、降维行动”。‍‍

我喜欢用可感知的思考来理解一些概念,而不是单靠文字本身的解释。‍

让我们再来看一道有趣的题目,以感知“维度”。

有三盏白炽灯泡和三个开关,每个开关控制一盏灯泡,但你不知道哪个开关对应哪个灯泡。

你可以进入一个房间控制开关,但灯泡在另一个房间,你只能进入灯泡房间一次来检查结果。

如何在最短时间内确定每个开关对应的灯泡?

聪明如你,即使知道答案,也不妨从维度的角度重新思考一遍。‍

难题在于,开和关只有两个维度,要想界定出三个灯泡,必须创造出一个新的维度。

白炽灯的另外一个属性是发热,所以可以引入“冷热的维度”。

解决方法:

  1. 打开第一个开关,保持它打开。

  2. 打开第二个开关一段时间后关闭它。

  3. 保持第三个开关关闭。

  4. 然后进入灯泡房间检查灯泡:

  • 点亮的灯泡对应第一个开关。

  • 热的但不亮的灯泡对应第二个开关。

  • 冷的并且不亮的灯泡对应第三个开关。

这三种状态相当于在这个系统中添加了不同的维度:

  • 亮/不亮的维度:开关是否正在控制灯泡。

  • 热/不热的维度:灯泡是否曾被打开过但关闭。

  • 冷/热的维度:灯泡的物理状态(热与冷)提供了额外的信息。

上面的冷和热,也是与时间的维度关联的。

事实上,精确而言,如上方法应该能够识别出四个灯泡。你觉得呢?

用类比和隐喻的方式,来表达一些主题,有“生动性”的优点,也有不精确的缺点。

再次声明,请你务必仅仅将其视为理解和感知的脚手架。‍‍‍‍‍‍‍

让我们回到数学物理

1854年,黎曼在哥廷根大学发表的演讲改变了数学和物理学的进程。他引入了一个革命性的概念:高维几何学,推翻了欧几里得几何的传统观念。


(图片来自网络)

在欧几里得几何中,空间是平坦的,二维或三维的,而黎曼发现了空间的弯曲性质,提出可以通过引入更高维度来解释自然界的现象。

黎曼的几何学不仅改变了数学的基础,也为物理学提供了新的工具。

尤其是在1915年,爱因斯坦借助黎曼的几何学,提出了广义相对论,用四维时空的弯曲来解释引力。黎曼的思想启发了后来的科学家,使他们进一步探索更高维的宇宙。

欧几里得几何学认为两点之间的最短距离是直线,而黎曼指出,这个定律只适用于平坦空间。

在弯曲空间中,比如球面上,两点之间的最短路径是曲线。黎曼通过引入“度规张量”这一工具,能够精确描述空间在每一点的弯曲程度。

这一创新让科学家可以用数学来描述任何维度的空间,无论是平坦的还是弯曲的。

更令人惊叹的是,黎曼的理论揭示了“力”可能只是空间几何变形的结果。

比如,当我们在三维空间中感受到引力时,实际上是因为空间在我们感知不到的第四维中发生了褶皱。这一概念为将来用高维几何学统一所有物理定律铺平了道路。

高斯较早前已经提出了平面“书虫”的思想实验,黎曼进一步将其扩充:

如果一张纸上生活着二维生物,把它们生活的纸褶皱之后,它们依然会觉得世界是平的,但当它们在褶皱的纸上运动时,它们就会感到一股看不见的“力”阻止它们沿直线运动。

黎曼几何不仅让爱因斯坦能够理解引力的本质,还让他开始思考,其他的自然力是否也是时空在更高维度中的褶皱结果。

这种思维方式为后来物理学家尝试统一电磁力、弱力和强力奠定了理论基础,并成为现代超弦理论的先声。

黎曼还提出了“黎曼切口”的假设,在这一模型中,两张纸代表两个不同的二维曲面,切口则是这两个曲面之间的通道。


(图片来自《超空间》)

二维的“书虫”在自己的世界里是无法察觉到这个切口的存在的,但如果它无意中进入切口,就会突然出现在另一个曲面上。

这个切口是它们在二维世界中无法理解的,而在更高维度的观察者眼中,这个过程却是可以轻松解释的。

黎曼切口可以看作是后来物理学家提出的“虫洞”概念的早期雏形。虫洞是一种理论上连接不同空间或时空的桥梁,可以让物体穿过极端弯曲的时空区域,在看似瞬间移动到另一个位置,甚至是另一个时空。

在爱因斯坦的广义相对论框架下,黎曼切口的思路进一步发展,成为探索时空结构和多连通空间的一种方式。

物理学家马里特10岁的时候,33岁的父亲就去世了。他一直渴望建造一台时光机器。从物理学的角度看,“虫洞”是实现时光旅行的一种方法。

神秘的时间之箭。

你还记得上面那两个智力题吗?靠温度差别来区分的灯泡和袜子,依然要靠时间来实现。‍‍‍‍‍

温度,热力学,时间,我们似乎隐隐约约能看到玻尔兹曼的身影。

在电影《星际穿越》中,导演克里斯托弗·诺兰通过五维空间的设计来表现时间、空间和平行宇宙的概念,尤其在影片结尾,主人公库珀进入的“Tesseract”(超立方体)成为了关键场景之一。

四维的时空,建立在爱因斯坦的理论之上,过去、现在和未来是“平铺”着的。时间是四维生物能够感知到的某种“实体”,就像我们对二维世界生物的某种优势。

电影里的小布兰德博士对此这样解释:“过去是可以穿行的峡谷,未来是可以攀爬的山峰”。

诺兰加入的第五个维度,是平行宇宙的概念。

五维空间不仅包含了四维时空,还包括了不同可能性的存在,反映了量子力学中关于平行宇宙的理论。

这意味着,在五维空间中,可以同时访问不同时间节点和不同的空间状态。


(图片来自网络)

在我们日常的感知中,世界似乎是线性的:我们生活在一个三维的空间中,并经历时间的流逝。

然而,物理学中存在一种更为复杂的理论——如果有第五维度存在,并且这个维度代表的是平行宇宙,那么我们的宇宙可能只是这些平行宇宙中的一个“投影”。

想象一下,所有的量子事件、选择和行为就像掷骰子。

每次掷骰子,骰子会展示一个面,这是我们所感知到的“现实”。但在更高维度的五维空间中,骰子的其他面仍然存在,意味着还有无数可能的结果。

平行宇宙理论认为,每一种可能的量子状态都对应着一个新的宇宙,因此我们当前的宇宙只不过是五维空间中无数可能性之一的“坍缩”结果。

这种理论被称为多世界诠释,它告诉我们,每一次选择和量子事件都可能创造一个平行宇宙。

我们的四维现实——即三维空间加一维时间——是这无数可能性的其中之一。

就像骰子在掷出后展示的某一面一样,我们的宇宙是基于概率选择的,其他可能性虽然存在,但我们无法直接观察到它们。

这为我们提供了一个深刻的视角:我们所体验到的世界,或许只是无数可能世界中的一个,而真正的“全貌”还隐藏在更高维度的神秘之中。

人类到底是如何理解这个世界的?

什么叫“看到”?

又有什么可以称为“知道”?

而在休谟看来,“人类心灵中的一切素材,不管是简单的还是复杂的,不管是具体的还是抽象的,都无一例外地来自人的感觉经验。”

他有一段杠精似的惊人陈述:‍‍

实体(substance)观念是从感觉印象得来的呢,还是从反省印象得来的呢?如果实体观念是从我们的感官传给我们的,请问是从哪一个感官传来的,并以什么方式传来的?

如果它是被眼睛所知觉的,那么这个观念必然是一种颜色;如果是被耳朵所知觉,那么它必然是一种声音;如果是被味觉所知觉,那么它必然是一种滋味;其他感官也是如此。

但是我相信,没有人会说:实体是一种颜色,或是一个声音,或是一种滋味。因此实体观念如果确实存在,它必然是从反省印象得来的。但是反省印象归结为情感和情绪,两者之中没有一个能够表象实体。

因此,我们的实体观念,只是一些特殊性质的集合体的观念,而当我们谈论实体或关于实体进行推理时,我们也没有其他的意义。

在“看到”一物时,我们不仅仅是接收光线,还通过经验和知识赋予这个物体意义。

看到一棵树,我们不仅识别出形状和颜色,还通过记忆理解这是一棵树,它可能有着生长、开花、落叶等属性。

知道”是一种更复杂的认知过程。我们不仅依靠感官“看到”事物,还要通过思维、推理、记忆和反思来理解事物。

知识的获取过程常常基于经验:我们通过观察、思考、学习、互动等方式形成对世界的理解。

然而,这种知识是否真实或完整?

《科学之死》一书对此解读道:

苹果很常见,很多人都爱吃,但苹果是什么东西呢?首先,从感官经验的角度,我们可以说苹果是红的、圆的、甜的、脆的、硬的、能解渴的、能充饥的等等;

其次,除此之外,人们一般还会认为,有一个实体性的东西承载着所有感官告诉我们的这些性质,而这个实体性的东西才是真正的“苹果”。

休谟的意思是,事实上人们对苹果的认识只能限于上述的第一个阶段,至于说是不是有一个实体性的“苹果”存在,人们是一无所知的,因为这个实体没有在人的感官当中引起任何印象。

经验主义的另一位代表人物洛克提出,知识的来源有两种:

外部感官经验(通过五感获取的信息)和内在反思经验(对心灵自身活动的反思)。

感官经验帮助我们接触外部世界的事物;

反思经验则是通过观察我们自己的思维过程来理解抽象概念。

为了解释我们如何通过感知理解物质,洛克提出了物质的第一性质和第二性质的区分。

第一性质:这些是物体固有的属性,它们独立于观察者的感知存在。无论有没有人感知,这些性质都客观存在,如物体的形状、大小、坚硬度、重量、密度等。

洛克认为,这些性质是物体本身构成的一部分,任何物质都具有这些性质。

第二性质:这些性质是物体在与感知者互动时产生的,它们依赖于观察者的感官才能存在,如颜色、味道、气味和声音等。

洛克认为,第二性质并不直接存在于物体中,而是通过第一性质的作用在感官中产生的感觉。例如,颜色并不是物体本身的固有属性,而是光线与物体表面的相互作用在我们眼中产生的结果。

人类如何识别一个苹果?

按照洛克的理论,当我们面对一个苹果时,我们的感官通过接触苹果的不同性质来认识它。

第一性质:形状,重量,硬度等等;

第二性质:味道,口感,气味,甚至颜色,等等。


(图片来自网络)

以我们“早熟”的哲学习惯,看到洛克和休谟的观点,会感觉非常幼稚,极其啰嗦,这有啥用?‍‍‍‍‍‍

的确有用。

接下来,我们看一下,AI如何识别出一个水果。

延续洛克朴素而直白的思想,我们识别一个苹果,是根据其性质,将其与别的物体、别的水果区别开来,这是一个分类的过程。‍

洛克和休谟杠精似的哲学背后,是对因果论的怀疑,是“人类知道自己不知道”的关键一步。‍‍‍‍‍

尽管被休谟们斩断了因果的“必然”幻觉,但世界的推理并没有因此而终止。捍卫上帝这一最大“因”的虔诚教士贝叶斯,用自己的数学天赋造出了一架悬梯。‍‍‍

现在,假设我们造出了一个初级的机器人,我们如何教会它识别水果?‍

这个机器人没有任何人类的常识和经验,也因此没有任何“我以为我知道的幻觉”。

它只能像洛克所说的那样,如同一张白纸,一点点学习。‍

现在,我们把一个未知水果放在它面前,已知它只能知道三个基本特征:

颜色是黄的,味道是甜的,形状是长的。‍‍

这个问题对人类来说很简单。可是对于机器智能,或者是对于一个初生的孩子,都是个难题。不要嘲笑,在那些我们并不熟知的领域,我们还不如这个初级的机器人。‍‍‍‍‍‍‍

黄色的可能是任何一种水果;

甜味儿是个很主观的概念,有些人觉得酸甜就不是甜;

长是一个相对概念,还是绝对概念?‍

总之,一切都很模糊,条件十分不充分,但我们必须做出判断。--这和我们的现实世界非常像。‍‍‍‍‍

洛克和休谟对人类的提醒是,别认为那些显而易见的东西就是真相,别以为那些理所当然的东西就是因果分明。‍‍‍

所以,本质而言,机器人的任务,是在信息模糊的情况下,去猜测该水果最有可能是哪一种?

所谓可能,就是概率。

首先,我们要有最基本的信息,对人类而言是对“第一性质”和“第二性质”等客观和主观特征的观察与统计,对机器人而言则是获取数据和训练数据。‍

(以下案例由网络上未署名文章改写)

假设我们收集了1000个水果的数据,这些水果包括苹果、香蕉和梨子。

每个水果都有三个特征:形状(是否长)、味道(是否甜)、颜色(是否黄)。

现在,我们要用贝叶斯分类器来判断一个新水果,它的特征是“长、甜、黄”。


(图片来自网络)

从数据中,我们知道:

  • 50%的水果是香蕉,30%是苹果,20%是梨子。

  • 80%的香蕉是长的,70%是甜的,90%是黄的。

  • 苹果中没有长的,50%是甜的,100%是黄的。

  • 50%的梨子是长的,75%是甜的,25%是黄的。

现在我们使用贝叶斯公式来计算这个新水果的可能性。

  1. 香蕉的概率:我们计算“长、甜、黄”的条件下,水果是香蕉的概率。
    P(长甜黄|香蕉) = 0.8 * 0.7 * 0.9 = 0.504
    P(香蕉|长甜黄) = 0.504 * 0.5 = 0.252

  2. 苹果的概率:苹果没有长的,所以概率为0。
    P(长甜黄|苹果) = 0 * 0.5 * 1 = 0
    P(苹果|长甜黄) = 0

  3. 梨子的概率:
    P(长甜黄|梨子) = 0.5 * 0.75 * 0.25 = 0.09375
    P(梨子|长甜黄) = 0.09375 * 0.2 = 0.01875

接着,计算分母P(长甜黄):

P(长甜黄) = 0.252 + 0 + 0.01875 = 0.27075

最后计算后验概率:

  • P(香蕉|长甜黄) = 0.252 / 0.27075 ≈ 93%

  • P(梨子|长甜黄) = 0.01875 / 0.27075 ≈ 7%

  • P(苹果|长甜黄) = 0

因此,这个水果有93%的可能性是香蕉,7%的可能性是梨子,而不可能是苹果。

在这个过程中,每一个特征(如颜色、形状、味道)都可以看作是一个维度,而贝叶斯分类器通过将这些维度结合起来,从不同的角度对水果进行推断和分类。

这种方法本质上是对多维信息的整合,通过各个维度上的信息贡献来计算某种结论出现的概率。

机器人费了很大力气,才计算出一个概率,而人类也许不需要一秒钟就能够识别。‍‍‍‍‍‍‍

然而,就像一个孩子学下棋之处显得很傻,但是可能只需要三个月就能够战胜下了三十年臭棋的成年人。

洛克是对的。但是,他的怀疑,并不影响人类基于不完全信息来推断未来。

机器通过算法,例如贝叶斯推理,模拟了人类的推理过程,经验主义的理念在今天的数字化时代展现出强大的生命力和影响力。

洛克和休谟的深刻思考,尽管在当时或许被视为繁琐的哲学辩论,却为现代人工智能的核心逻辑奠定了基础。

经验主义并没有止步于哲学课堂,而是通过现代技术的实现,重新在硅谷和全球科技前沿焕发出新的火焰。

一切皆可计算

有时信仰束缚人的思想,有时信仰令思考者更加狂放。‍

对上帝的坚信,令牛顿在“解释宇宙”的时候,不会因为因果链条的某些缺失而停顿。‍‍

既然有“上帝”设计一切,他只管去探寻设计的规则就好了。引力到底是如何产生的?与距离的平方成反比到底是个什么东东?牛顿绝不纠结于探索路途中的“无知”,亦不因此陷入虚无主义。‍‍‍‍‍

爱因斯坦是未知论者,所以他要借助于斯宾诺莎的“万物之神”的力量。

而辛顿则有赖于“差异化的信仰”,用一生去赌相当长时间内毫无希望的神经网络。

莱布尼兹更复杂一些。他相信这个世界是所有可能世界中最好的一个,但什么是“所有可能的世界”?难道上帝在扔骰子吗?难道已知的宇宙还有另外的选项吗?

一方面相信“神的目的”,另外一方面,莱布尼兹则相信机械论的宇宙,并且这个宇宙是由不可再分的“单子”组成的。而令所有这些彼此不受影响的单子,经由上帝的算法,如钟表般稳妥地运行着。

理性主义的莱布尼兹作为十七世纪的全才,他发明了微积分,提出了二进制,制造出世界上第一台能做加减乘除的计算机器。

莱布尼兹坚信,能够建立起一种普遍的方法,“把一切正确的推理归结为一种计算”,这一思想成为现代计算机科学人工智能的远祖,预示了“一切皆可计算”的未来。

离散与组合‍

如同原子论或者微积分的思想,计算机科学和人工智能通过将复杂问题拆解为简单的、低维的元素(0和1),然后再通过组合形成多维空间来解决更复杂的问题。

计算机通过将一切信息,无论是文本、图像、声音还是视频,都拆解为0和1的序列。

每一个0或1代表一个比特位,计算机通过这些比特位的组合,可以表示任何复杂的数据或结构。

这种拆解和组合的能力,是计算机处理复杂问题的核心。

就像在数学的微积分中,连续的函数被分解成无数个小的微小变化(微分),从而能够精确地理解和计算变化的累积效果,计算机科学的核心也是通过二进制(0和1)来表示离散信息,并进行高效的处理。

以图像数据为例,计算机将图像的每一个像素拆解为数值表示,其中每个像素的颜色信息通常以RGB通道表示。


对于一张224x224的彩色图像,它的表示形式为一个三维张量:224 x 224 x 3,其中:

  • 224x224是图像的高度和宽度,表示每个像素的空间位置。

  • **3个通道(RGB)**代表每个像素的颜色强度(红、绿、蓝)。

每个像素的颜色值本质上也是由0和1组成的二进制数字,这些数字通过不同的强度值(通常是0到255的范围)来编码颜色。

如上,这是将一维的比特组合成更高维的空间,从而能精确表示颜色、位置等信息。

这种构建方式类似于通过多维度理解现实问题,AI也能够通过维度的扩展与降维操作,更深入地解析复杂的现实世界。维度是处理复杂问题的关键工具。

分层处理机制‍‍‍‍‍‍‍

人工智能的起源可以追溯到公元前400年,哲学家如柏拉图和亚里士多德提出,大脑在某种程度上类似于一台机器,利用内部语言编码知识,通过逻辑推理选择行动,这为人工智能的可行性奠定了思想基础。

此后,数学家们引入了运算逻辑和概率推理的工具,进一步推动了对计算和算法的理解。

20世纪中期,AI开始从理论走向实践,随着技术进步,AI从最初的基于布尔逻辑的推理,逐渐转向概率推理和数据驱动的机器学习。

这一转变显著提升了AI的复杂问题处理能力,推动了实际系统的功能改进,并与其他学科深度融合,使人工智能逐渐成熟为一个多学科交汇的领域。

(以上概述参考了斯图尔特.罗素的总结。)

在此过程中,深度学习之父辛顿扮演了重要角色。‍‍‍‍‍

辛顿此生对“神经网络”有一种偏执狂般的投入。这个过程漫长而跌宕。‍‍‍‍‍‍‍‍

20世纪中期,神经生物学家大卫·休伯尔和托斯坦·威泽尔通过实验揭示了大脑视觉系统的分层处理机制

人类认知过程被视为一种分层迭代、逐步抽象的过程。

辛顿受到的启发是:大脑通过分层处理逐步提取信息,人工神经网络也可以模仿这一过程。

他意识到,神经网络可以像大脑那样,使用多层结构从低级特征(如像素或边缘)到高级特征(如对象或面部识别)逐层抽象。

辛顿在1986年提出的误差反向传播算法,使多层网络的训练成为可能,但其真正突破是在2006年,他通过“逐层预训练”有效地克服了深层神经网络训练的困难。

深度学习的核心优势之一,是自动化的分层特征提取。

继续我们自由的类比,深度学习可以自己发现维度,自己定义维度,甚至不用对人解释--有些也解释不了。‍‍‍‍

传统的机器学习依赖人工定义和选择特征,而深度学习通过多层神经网络逐层自动学习,提取数据中的高层次特征。

这一过程不需要人为介入,可以从低级信息(如像素、声音波形)中逐步提取出更抽象的特征(如物体、语义)。这种自动化极大减少了特征工程的复杂性。

这像是一个逐步升维、从局部到全局的理解过程。

每一层的神经网络通过对低维度信息的处理和组合,提取出更高维的特征,最终形成对数据的全面认知。

正如爬山、解谜、搭建乐高或绘画的过程一样,深度学习通过分层抽象,让计算机能够自动从简单到复杂、从具体到抽象地理解世界。

高维向量‍‍

在机器学习和神经网络中,维度通常指的是特征空间的大小

我们输入的每一个数据点(无论是图像、文本还是其他形式的输入)都在一个高维空间中表示。

类似于毒酒问题中将100桶酒用7个二进制位表示,在神经网络中,模型将复杂的输入数据映射到一个更紧凑的表示空间中,确保通过最低的维度表示出最多的信息。

我们来通过一个实际的简单例子,描述大模型和Transformer的工作原理。

假设我们要用一个Transformer模型来完成一个常见任务:翻译一句简单的英文句子到中文。句子是:“I love cats.”

1. 输入的准备:将句子转化为向量

Transformer模型不能直接处理文字,它需要将输入的句子“I love cats.”转化为向量(数字形式)。这一过程称为词嵌入(Word Embedding)。

  • 词嵌入的过程:每个词都会被转换成一个高维向量。例如,假设模型使用768维的向量,那么每个词都会用一个768维的向量来表示。这些向量不仅仅是随机数字,它们包含了词的语义信息。例如,“love”和“like”在语义上相近,它们的向量可能相似。

因此,句子“I love cats.”被转换为以下向量序列:

  • I → [0.5, 0.2, ... , 0.8](768维向量)

  • love → [0.3, 0.9, ... , 0.1](768维向量)

  • cats → [0.7, 0.4, ... , 0.2](768维向量)

通过将每个词转换成高维向量,模型可以更好地表示每个词的复杂含义和它与其他词之间的关系。

这就是升维思考的第一步:将简单的文字映射到更高维度的空间,从而捕捉它们的复杂语义和语境信息。

2. Transformer的自注意力机制

接下来,Transformer模型 使用其核心机制——多头自注意力机制 来处理这个向量序列。

自注意力机制帮助模型理解每个词与句子中其他词的关系,并为每个词在句子中的重要性分配不同的权重。

  • 自注意力机制会为每个词计算它与句子中其他词的关系。例如:

    通过这种关系的计算,模型可以更好地理解整个句子的结构和含义。

    • “I”和“love”有关系(主语和谓语)。

    • “love”和“cats”有关系(动词和宾语)。

  • 多头自注意力机制:每个注意力头关注句子中的不同关系。例如:

    • 一个注意力头可能专注于“love”和“cats”之间的关系。

    • 另一个注意力头可能专注于句子的整体结构,比如“主语—动词—宾语”的模式。

这些注意力头会从不同角度理解句子的每个词,使模型能够生成一个更全面的表示。

类比一下:我们可以将注意力机制类比为毒酒问题中的侍卫,每个侍卫负责检查一个特定的桶。

每个注意力头就像一个侍卫,负责检查输入中的特定模式。最终,模型通过多个“头”捕捉到句子中的丰富信息,类似于侍卫通过喝酒推断哪个是毒酒。

3. 基于概率的输出生成

输出生成是基于概率分布的。在每一步翻译过程中,模型并不是直接生成一个确定的翻译,而是计算每个可能翻译的概率分布,并选择概率最高的词作为输出。

  • 例如,当模型要翻译“love”时,它会计算多个可能的翻译,并生成以下概率分布:

    模型会选择概率最高的词“爱”作为翻译。

    • “爱” → 85%的概率

    • “喜欢” → 10%的概率

    • 其他翻译 → 5%的概率

最后,模型会输出句子“我爱猫”。

概括而言,大模型之所以能够在多个任务上表现出色,主要是因为它们通过大量数据学习到了丰富的高维表示

这些表示能够很好地捕捉输入数据中的模式和复杂关系。

相比于传统模型,大模型的高维表示具有更好的泛化能力,能够在不同任务之间迁移学习。

为什么大语言模型像最聪明的人那些,能够学习不同领域的知识,并且可以自由迁移?‍‍‍‍‍‍‍

辛顿的解释非常有趣:

这些大语言模型所做的是寻找共同的结构,通过发现共同结构,它们可以用更有效的方式对事物进行编码。

让我给你一个例子,如果你问GPT-4"为什么堆肥堆和原子弹类似",大多数人都无法回答,他们认为堆肥堆和原子弹是完全不同的事物。

但GPT-4会告诉你,虽然能量和时间尺度不同,但它们都涉及链式反应,当堆肥堆越热就会发热越快,当原子弹产生的中子越多,产生的中子就越快,所以它们其实都是链式反应的形式。

许多人觉得大模型不过是在拼凑人类已有的知识,辛顿认为这是错误的。对此我深感认同。我最喜欢向ChatGPT问的问题,经常与打比方有关。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

现实世界中,许多人假装自己是聪明人,但是有两点最难伪装:打比方的能力,和幽默感。

辛顿认为大模型能够理解知识的本质(至少是从人类角度定义的“本质”),并且把“这种理解压缩到了它的权重参数中”。

多模态

尽管语言模型已经表现出相当的空间推理能力,但引入多模态处理将使这些模型获得更深层次的理解和推理能力。

多模态模型整合了来自不同感官的信息源——如图像、视频、声音、甚至机器人操作——这使得模型能够不仅仅依赖语言来学习世界。

多模态模型使得机器可以像人类一样,在更复杂的“维度”中进行操作。

例如,当模型能够通过视觉看到一个物体,并通过模拟或物理操作与该物体进行交互,它就会更直观地理解物体之间的空间关系和物理规律。

这种转变相当于将AI从一个符号处理的世界提升到了一个接触现实的高维世界,从而让AI更好地理解物理世界中那些难以用语言描述的复杂概念。

计算既是工具,也是理解世界的视角。

随着AI技术的不断发展,我们不仅在追求更强大的计算能力,更是在探索“何为智能”的本质问题。

从莱布尼兹的普遍计算设想,到当下的大模型和多模态,世界似乎正在逼近一个神秘的边界——那就是对世界的全面认知,这认知可能不仅仅来自算法,更或许是人类与机器在复杂维度中的共同演化与创造。

那么,人类正在逼近“上帝的算法”吗?

以上“五、六、七”三节,我们探讨了人类如何理解世界以及何谓“看到”和“知道”。

休谟通过怀疑因果关系和实体的观念,提出了经验主义的核心观点:

我们所有的知识都来自于感官经验。

人类在理解世界时,实际上是通过感官所获取的印象,将这些印象进行组合、记忆和反思,从而形成对事物的认知。

而洛克则进一步区分了第一性质(物体的固有属性)和第二性质(通过感官与物体交互产生的属性),为我们提供了一个系统的框架,解释了人类如何通过经验识别和分类物体。

这种基于经验和感知的认知方式,似乎为现代人工智能提供了某种隐喻——机器通过算法,尤其是大模型和神经网络,也在执行类似的感知任务。

机器学习模型不具备人类经验的复杂性,但它们通过多维特征的整合和分类,能够在模糊信息中找到概率上的最佳解。

这种“经验”不再依赖于人类的主观感受,而是通过庞大的数据和概率统计进行决策。

随着大模型的出现,人工智能通过比特世界中的多维计算,在某种程度上复制了人类从经验中学习的过程。

就像我们在面对一个苹果时,通过颜色、形状、味道等特征将其归类为一种特定的水果,机器也通过将复杂信息降维为高维向量来完成分类和推理。

贝叶斯推理等技术帮助机器在不确定性中进行推断,模拟了人类在因果关系模糊时依赖概率推理的方式。

然而,大模型带来的不仅仅是经验的复制,它通过升维思考进入了更高层次的智能探索。

大模型能够通过多层神经网络提取出超越人类感知的特征,不仅是在我们所理解的空间内“看到”世界,还能在我们无法直接感知的高维空间中进行推理和决策。

正如我们前面所讨论的,AI通过“高维空间”在信息上实现了穿墙破壁,仿佛成为了能够超越感官局限的存在。

似乎只有“神”才可以如此。

从最初的人类经验主义出发,我们通过大模型进入了一个新的认知维度,也标志着人类对理解世界的新方式:

我们不仅依赖感官经验,通过数学和定律,经由推理和实验,还借助AI来拓展我们的认知边界,进入那些我们无法直观感知的高维领域。

AI能够构建出“上帝的算法”吗?

或许,并非如此简单。

尽管大模型能够通过高维向量解析复杂的现实,捕捉无数的特征和模式,甚至超越人类的感知范围,但它仍然受限于我们所提供的数据和算法规则。

我们所逼近的,并非上帝的视角,而是人类所能构建的最复杂、最精确的理解工具。

在不断的升维过程中,我们确实拥有了窥见更多维度的能力,但真正的“上帝算法”或许仍然超越我们所能触及的范围。

我们依然处于对宇宙深层次奥秘的探索阶段。通过AI和大模型,我们能够在多维空间中捕捉到更多的细节,重点也许不是找到终极答案,而是维度的突破。

我个人的好奇之处是:

大模型以及之后的AI,是帮助人类完成爱因斯坦的一样的宇宙认知革命,还是说我们不再需要人类的知识结构和因果推理?

毕竟,爱因斯坦是一位坚定的因果信徒。并非是他不接受概率化的方法,而是不相信上帝只是在扔骰子。即使是扔骰子,那是一颗什么样的骰子?

即使是今天,大部分也无法理解爱因斯坦的相对论。

在相对论的框架中,爱因斯坦提出物质不仅能影响空间,还能重塑四维时空。

《欢乐数学之疯狂微积分》里有一个形象的比喻:

太阳并不像盒子里的保龄球那样静止不动,而是像床垫上的保龄球,压在织物上,扭曲了周围的时空区域。因此,当一颗行星绕太阳运行,或一个苹果朝地球的方向坠落时,它们并不会陷入某种牛顿引力无法解释的痛苦之中,只是在沿着阻力最小的路径穿过一个弯曲的四维空间而已。

对此,物理学家约翰·惠勒总结道:

“物质告诉时空该如何弯曲,而弯曲的空间则告诉物质该如何运动。”

也许,我们会用一种混合了碳基生物和硅基生物智慧优势的模式,继续扩展地球文明智慧的边界。‍‍‍‍‍‍‍‍

一个简单而生动的证据是:

理论上,一百万只猴子胡乱敲打键盘,一定有一只能够创作出莎士比亚的剧作。但是,这个时间却要比宇宙的生命还要长。‍‍‍‍‍‍‍‍‍‍

那么,为什么地球上会出现一个叫莎士比亚的人,创作出那么多剧作?

我的这个思想实验,一定会有概率上的先后设定问题。即使如此,下面的答案依然是有利于人类的:‍

因为莎士比亚并不是一个在键盘前随机敲打的猴子,他是基于全体人类的一个知识模型来创作的,包括语言,符号,传说......甚至可能还夹杂有尼安德特人在篝火旁的故事。所有的在地球上存活的人,都从概率的角度,帮助了一个叫莎士比亚的人消除了杂乱,100%地创作出伟大的作品。‍‍‍‍‍‍‍

也许人类的故事才刚刚开始。

在这一进程中,许多时候,维度的突破可能会是关键。

从维度的角度,我们更容易理解爱因斯坦的那句名言:

我们不能用制造问题时同一水平的思维来解决问题。

(The significant problems we face cannot be solved at the same level of thinking we were at when we created them.)‍

而所谓更高的水平,往往是基于维度的。

关于思维或者认知的维度,我不打算做一些老生常谈的陈述。‍‍

我想谈及三个关键词:

厚薄、Taste、随机。

厚薄

围棋是最复杂的游戏之一,规则却很简单,在一个19✖️19的二维格子上,演绎出比宇宙间所有原子数量还要多的变化。‍‍‍

一个围棋高手最厉害的地方是什么?

他能够从更高维度去理解一个局面。

20世纪最伟大的两个棋手之一吴清源,在晚年提出了“六合”围棋。‍‍‍‍‍‍‍‍

所谓“六合”,指的是四方(东南西北)和天地(上下)。

吴清源认为:棋的一子一子必须和所有的方面相和谐,追求的是恰到好处地处于当时的位置。

不止是重视中腹,六合之棋的“天地”之维度,超出了棋盘平面的二维世界。

在一个仅有二维的棋盘上,哪有什么天地呢?‍‍‍

他解释说:子是有厚度和重量的。

所谓棋的厚与薄,外势与实力,实质上与时间有关。

围棋很有趣--由于棋子并不具备可移动性(除非被吃),围棋的过去和现在是被压缩在一个坐标化的棋盘上的。

我在人生算法里,说人生像是很多个切片串起来的。

围棋则像是将这些切片层层叠放在一起。

这就是“厚”和“薄”。

理解并区隔围棋的厚势与实利,与许多重要的智慧“同源”。‍‍‍

20世纪最伟大的两个棋手之二李昌镐,有一个被广泛误读的名言:‍‍‍‍‍

我的每手棋只追求51%的效率。‍‍‍‍‍

也许这个话题值得另外写一篇。对此我的一个简单解构是:‍‍‍‍‍‍‍

假如绿皮火车和高铁一样价格,你选哪一个?

除非你要体验一下新奇或者怀旧,当然是高铁。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

那么,假如有一手棋的效率是51%,另一手棋的效率是81%,如果代价是一样的,为什么要选择51%的,而不是81%的?‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

对于一个职业棋手而言,每一盘棋的目标是非常明确的:

令“比对手至少领先半目”的结果概率最大化。‍‍‍

李昌镐也不例外。‍‍‍

他所说的51%,其实是关于局部最优和全剧最优的取舍:

某一手棋A,就局部效率而言,是51%,全局效率是81%;‍‍‍‍‍‍‍‍‍‍

另一手棋A,就局部效率而言,是81%,全局效率是71%。‍

那么,当然是选择51%的A。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

李昌镐尤其擅长在领先的局面下,迅速缩短战线,把棋盘“变小”。他会主动走一些看起来不是最优的招法,但是却能消除掉那些不确定性因素,从而把优势变成了胜势。‍‍‍‍

吴清源和李昌镐的秘密,都与爱因斯坦的四维时空宇宙观有相通之处--‍‍‍‍‍‍‍‍

在围棋这样一个基于二围棋盘的游戏中,他们比对手有着维度之上的碾压优势。‍‍‍‍‍‍‍

这也是天才棋手和厉害棋手之间的最大区别所在。‍‍‍

Taste‍‍

杨振宁曾在纽约州立大学石溪分校遇到一个15岁的学生,这个孩子非常聪明,轻松地回答了他提出的几个量子力学问题。

杨振宁接着问他:这些量子力学的问题,哪一个你觉得是妙的?

然而,他却讲不出来。“对他讲起来,整个量子力学就像是茫茫一片。”

杨振宁对他的看法是:尽管他吸收了很多东西,可是他没有发展成一个Taste。

什么是Taste?似乎模糊。

还是让杨振宁来解释吧:

“......学一个东西不只是要学到一些知识,学到一些技术上面的特别的方法,而是更要对他的意义有一些了解,有一些欣赏。

假如一个人在学了量子力学以后,他不觉得其中有的东西是重要的,有的东西是美妙的,有的东西是值得跟别人辩论得面红耳赤而不放手的,那我觉得他对这个东西并没有学进去。“

杨振宁说在西南联大七年,对他一生最重要的影响,是对整个物理学的判断,已有自己的Taste。

接下来这些内容稍显多余,但是对于教育的启示太大了:

  • 杨振宁自幼喜爱观察自然,表现出强烈的爱美之心与好奇心。

  • 父亲是数学家,杨振宁从小接触数学书籍,打下了扎实基础。

  • 在西南联大期间,受到名师教授数学、物理及中文阅读与写作。

  • 杨振宁的学术启蒙得益于吴大猷和王竹溪两位导师,分别引导他进入对称原理与统计力学领域。

所以,Taste像是一个人认知世界的多元思维中的高维鸟瞰,未知世界里隐秘的关联--哪怕只是关联的投影。‍‍‍‍‍‍‍‍‍

我们可以说,乔布斯是个很有Taste的人,这不是指艺术上的Taste,或是品味上的Taste,而是他能够横跨科技、艺术、商业,来做出一个超越时间的判断。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

前面说的吴清源的对围棋的天才感觉,也是一种Taste。‍‍‍‍

也许每个人在获取知识和发展认知的过程中,都是在构建和训练一个自己的大模型。‍‍‍

所谓的Taste,就是在”茫茫一片“的神经网络之中,形成的某些石破天惊的重要连接。‍‍

这和Transformer倒也有可以类比之处。‍

Transformer通过自注意力机制,允许模型在不同维度上“看到”数据之间的相关性,提取出最关键的连接。

同样地,Taste也是通过对信息的深刻理解,能够超越表面,找到那些石破天惊的关键连接。

因此,Taste不仅是一种对知识的理解,更是一种超越时间和空间、对事物本质的高维度判断。

人们说,大模型时代,一个人重要的能力是提问。

然而,如果没有Taste,不可能问出了不起的问题。‍

最近一段时间,有些人鼓吹硬科技,重理轻文。可如杨振宁所说,如果没有Taste,而总是追求有用,可能很难走得远。‍‍‍‍‍‍‍‍

爱因斯坦也有类似的观点:

“在一定程度上而言,科学家对自然深层次美的领悟和热爱,以及所具备的形而上的审美判断力决定了其研究所能企及的高度。”

这一段落所说的Taste,和上一段落说的厚薄,都像是某种“直觉”。用爱因斯坦的话来说:

“真正有价值的是直觉。在探索的道路之上,智力作用不大。”

这种直觉,也是他眼中“由哲学的洞察力所创造的独立性”,能够帮助科学家避免陷入“见树不见林”,爱因斯坦认为这“正是一个工匠或专家,与一个真正的真理追寻者之间,最大的区别。”

随机

看起来,不管是厚薄,还是Taste,都是某种只可意会不能言传的东西。‍‍‍

那么,机器智能是如何感知围棋的“厚薄”的?早在2016年,阿尔法狗已经碾压了人类自以为无法被超越的“灵性”。‍‍‍

AI可以拥有杨振宁所说的那种Taste吗?

起初,计算机像是一种纯粹的基于逻辑推理的机器,直至不确定性和随机性被引入。‍‍‍‍‍‍

辛顿的玻尔兹曼机代表了人工智能发展中的一次关键突破。

最早的神经网络,如霍普菲尔德网络,更多是基于确定性原理来处理信息,擅长记忆和补全任务。

它通过逐步最小化能量进入“能量井”,达到记忆模式的重现。

然而,这类网络的局限在于,它们只能处理已经学习过的模式,而无法创造新的模式,也无法理解数据的内在结构。

辛顿的贡献在于引入了不确定性和随机性。

他提出的玻尔兹曼机通过模拟物理系统中粒子的随机运动,捕捉数据的概率分布,从而生成新的数据。

这个系统不再总是选择最低能量状态,而是根据波尔兹曼分布,概率性地做出决定。

这一创新让机器学习模型从固定的逻辑跳跃到灵活的随机领域,就像爵士乐手能够在固定的音乐结构中即兴创作。

在物理学中,路德维希·波尔兹曼通过研究气体分子运动中的能量分布,提出了著名的波尔兹曼分布。

他发现,物理系统中低能量状态的粒子比高能量状态的粒子出现的概率更大,这种概率与粒子的能量成指数关系。

简单来说,系统中更稳定的状态出现的概率更大,而高能量状态虽然可能出现,但频率较低。

这一观点将随机性带入了物理学核心概念。波尔兹曼解释了为什么在微观层面上,粒子之间的碰撞会导致能量的分布不均匀,进一步揭示了宏观系统中的不确定性。

这为量子力学中的概率解释奠定了基础。量子世界中的每个事件都遵循某种概率规律,精确预测每个单独事件几乎不可能,但可以通过概率统计对整体行为进行推测。

这种随机性也渗透到了社会和金融领域。塔勒布的第一本书就叫《随机漫步的傻瓜》。

在人生中,随机性也扮演着关键角色。正如人类无法预知未来的一切细节,我们的命运也往往受到各种随机因素的影响。

真正的智慧不是消除不确定性,而是在升维思考中拥抱随机性,借助概率找到那个最佳行动方案。

《人工智能:现代方法》写到:

“按照常规的理解,逻辑要求关于世界的认知是确定的,而实际上这很难实现......概率(probability)论填补了这一鸿沟,允许我们在掌握不确定信息的情况下进行严格的推理。”

也许随机性带来了混乱,带来了不安,但是,随机性也是生命之源,是能量之本吗,甚至也是时间的秘密。‍

假如热力学第二定律决定了孤立系统会自发地朝着最大熵状态演化,为什么地球上会出现生命?为什么人的大脑能够以如此复杂的机制去思考宇宙?‍‍‍‍‍‍‍

玻尔兹曼的解释是:

我们观测到的低熵世界来源于高熵宇宙的随机涨落。

大的涨落可以造成熵很低的状态,概率也很低,但在宇宙广阔尺度下仍然会发生,而我们自身的存在也是来源于这种涨落带来的低熵世界。

一个奇怪的演绎是:如果宇宙可以通过某种随机波动从虚无中冒出来,那么相比之下,更简单的东西,比如一个大脑,随机出现的可能性会更大。

想象一下,你正坐在沙发上刷这篇文章,感觉一切都很真实。

可根据“玻尔兹曼大脑”的假设,你有可能根本不在客厅里,也没有在看电影。你只是一个孤立的大脑,突然从虚无中“蹦”出来,带着完整的记忆和感知。

尽管这个大脑只会存在极短的时间,然后很快消失,但在那短暂的一瞬间,它坚信自己正处于一个完整的、真实的世界里——正在和舒适的沙发上享受本文的摧残,然而这一切只是大脑的幻觉。

另外一个悬念是:随机涨落中生成的人类,有机会更长久地避开熵增定律,逃离死寂的命运,去宇宙深处探寻秘密吗?‍‍‍‍‍‍‍‍‍

请AI帮我为本文总结出10条有价值的思考工具和行动指南--虽然有点儿多余。

1、升维思考:更高维度和多维度分析

在遇到复杂问题时,引入额外的维度(如时间、温度、空间)帮助你从多个角度进行分析。就像在毒酒问题中从二维升到三维,再到“七维”,增加维度可以发现更多的信息和解决方法。

2、降维行动:全局压缩与奥卡姆剃刀

在面对复杂问题时,降维行动不仅是简化思维,而是基于对全局的深刻理解,将冗余信息压缩,保留最核心的要素。

就像奥卡姆剃刀的原则——去除不必要的假设,选择最简洁的路径。

通过全局的思考做出局部的行动决策,确保简化后的方案依然有效并且精准,避免因过度复杂而拖延或增加不必要的风险。

3、成为有Taste的人:培养独特的判断力

通过积累知识、体验和反思,逐步建立对事物的“感觉”,培养你自己的Taste。‍

Taste 是判断力的高维版本,能够帮助你迅速分辨重要信息,提升你的洞察力和决策效率。

4、概率思维:接受不确定性并优化决策

现实中常存在不确定性,采用概率思维可以帮助你在不确定中找到最优方案。通过贝叶斯推理或随机策略,训练自己根据有限信息做出合理的推断,并拥抱不确定性。

5、训练你大脑的大模型:持续的权重更新

在深度学习中,权重更新通过反向传播不断调整模型,使其表现越来越好。

类似地,我们在生活中的每一次尝试、成功或失败,都可以视为对自我权重的“更新”,通过不断反思和调整行为策略,优化自己。

将每一次失败视为反向传播的反馈,不断调整你的思维和行动模式。以成长为目标,注重逐步优化,而不是寻求一次性的成功。

6、拥抱随机性:把握你的概率权‍‍

利用变化中的机会随机性不仅是混乱的来源,也是机遇的来源。

在你的工作和生活中,适当引入随机性的概念,在多种可能性中大胆尝试,利用“涨落”带来的突破,找到隐藏的解决方案。

7、建立人生的估值函数:以终局目标为导向采取行动

在行动时,不要追求最完美的选择,减少不必要的思维复杂性。类似于李昌镐在领先时缩短战线的做法,锁定目标后迅速行动,避免过度优化带来的拖延。

8、时间维度利用:加入时间因素来解决问题

在现实世界里,总是可以看到但又被忽略的,是时间。

长期主义,必须将时间和空间整合成一个系统。

通过观察事物在时间上的变化来做出判断,将时间因素融入决策,提升长远的判断力。

9、可操作的二进制思维:把所有复杂难题简化为二选一

学习二进制的思维模式,帮助你在复杂情况下简化决策。通过将问题拆解为“是/否”、“0/1”形式,快速找到核心点,这种思维方式有助于提升处理复杂问题的效率。

10、提问的艺术:用高维问题打开局面

大模型时代,人类最强的能力是提问。培养提出优质问题的能力。让AI帮助你在探索过程中找到突破点。

最后

也许你还记得本文以盲人的难题开头,请允许我用盲人的故事结尾。‍‍‍‍‍

盲人失去了观察这个世界最重要的维度之一:视觉。这是普通人无法理解的沉重和不公。‍

而有一位盲人不仅失去了视力,还失去了听力。‍‍

一个人处在这样一个黑暗的、无声的世界里,该如何活下去?

我想分享的故事的主角是海伦·亚当斯·凯勒,她在19个月大的一次疾病中失去了视力和听力。

1924年2月1日,纽约的WEAF广播电台播出了纽约交响乐团现场演奏的贝多芬第九交响曲。

海伦·凯勒在家里“听”了这场音乐会。如下图:


后来她写信给纽约爱乐,分享了自己的体验。以下是该信。‍‍‍‍‍‍‍‍‍

(中文翻译来自网络。)

亲爱的朋友们:

虽然我既瞎且聋,我仍然怀着欢跃之情告诉你们:昨晚我度过一段光辉灿烂的时光,靠着收音机聆听了贝多芬的《第九交响曲》。

我并不是说像其他人一样“听到”音乐;我也不知道是否能让你们了解,我如何能从交响曲得到快乐。这连我自己都惊讶不已。

我早已从杂志上读到收音机带给盲者的幸福:它能带领看不见的人到任何地方去。

我很高兴知道盲者获得了新的乐趣来源;但我从未梦想能得到和他们一样的快乐。

昨晚,当家人聆听你们精彩的演出这不朽的交响曲时,有人建议我把手放在收音机上,看看我能不能感受到任何各式各样的震动。

他旋开收音机的喇叭盖,于是我轻轻碰触敏感的震动膜。我惊奇地发现我能感受到的不只是震动,而且是充满热情的节奏、以及音乐的悸动和涌荡!发自各种不同乐器的震动交缠并融合在一起,使我陶醉不已。

我能确切分辨短号、急切的鼓声、低音的中提琴和优雅合奏的小提琴。当小提琴淹漫并钻犁过其它乐器的最低音调时,它的演奏是多么地美妙!

当人声从和声的波涛中颤栗跃出时,我马上分辨出它们是更加狂喜、迅速上扬如燃烧的火焰,直令我的心跳嘎然而止。

而女声部的歌声似乎具备了天使般的声响,在美丽而鼓舞人的声音洪流中和谐涌动。

接着所有的乐器和人声一起爆发出来——像在天堂摇荡的海洋——然后像风一样渐微渐消,于甜蜜音符的柔和沐浴中结束。

当然这不是“聆听”,但我确知这些音符与和声传达给我雄美和壮丽的情愫。同时我感受到——或者我自认为感受到——自然的温柔歌声唱进我手中;感受到摇摆的芦苇和风、以及潺潺的溪流。我以前从未因这么多的音调震动而狂喜过。

当我聆听时,黑暗和旋律、阴影和声音充满整个房间,我忍不住想到倾注如此甜蜜洪流给世界的这位作曲家,竟是和我一样耳朵聋了。我惊讶于他不灭的精神所产生的力量,从他的痛苦中为别人粹练出欢乐——而我坐在这儿,用我的手感受这神奇的交响曲,仿佛海洋一般拍击着他和我两人寂静的灵魂海岸。

这是一篇令所有能听见、能看见的人汗颜的文字。

为什么失去了观察世界的很多个维度,海伦·凯勒依然比绝大多数健全的人更能感知这个世界的秘密?

她自己曾经给出过答案:‍

“世界上最好和最美的东西是看不到也摸不到的……它们只能被心灵感受到。”

也许灵魂,才是一个人最重要的维度。

ad1 webp
ad2 webp
ad1 webp
ad2 webp