两个非常重要的概念:均值和标准差。前者用于根据不同的测量值估计真实值,后者用于度量测量值的离散程度。
单独来看,这两个概念都是有用的;放在一起,它们的威力就更强大了:一起作为正态分布(normal distribution)的参数,这是最著名的概率分布。
来源 | 《趣学贝叶斯统计:橡皮鸭、乐高和星球大战中的统计学》
作者 | [美] 威尔·库尔特(Will Kurt)
译者 | 王凌云
单独来看,这两个概念都是有用的;放在一起,它们的威力就更强大了:一起作为正态分布(normal distribution)的参数,这是最著名的概率分布。
我们将学习如何使用正态分布来确定一个确切的概率。这个概率是一个估计值与其他估计值相比时的可信程度。
参数估计的真正目的不仅仅是估计一个值,而是为一系列可能的取值分配相应的概率。这让我们能够对不确定的值进行更复杂的推理。
均值是一种基于现有数据估计未知值的可靠方法,标准差则可用于度量数据的离散程度。
通过计算观察结果的离散程度,我们可以确定自己对均值的相信程度。观察结果越分散,我们对均值的把握就越小,这是有道理的。
正态分布让我们在考虑观察结果时,可以精确地量化自己对各种信念的确信程度。
度量引火线燃烧时间
假设一家烟花爆竹厂正在做安全测试。测试人员知道,如果离爆炸物 200 英尺远,就能确保安全,而他需要 18 秒的时间才能够走这么远。如果再靠近一些,他就不能保证自己安全撤离。
测试人员有 6 根同样长的引火线,他计划先测试其中 5 根。由于长度都一样,因此这些引火线烧完所需的时间也应该一样。
测试人员点燃每根引火线,测量烧完所需要的时间,以确保自己有 18 秒的撤离时间。以下是他记录的每根引火线烧完的时间(以秒为单位):19、22、20、19、23。
到目前为止结果还不错:没有哪根引火线烧完的时间小于 18 秒。计算这组数据的均值,可以得到 μ = 20.6,计算标准差则得到 σ ≈ 1.62。
但现在需要确定一个具体的概率,即根据观察到的数据,引火线在 18 秒内烧完的可能性有多大。测试人员希望有 99.9%的把握能安全撤离。
给定一组测量值,均值能对其真实值进行很好的估计,但没有给出任何方法来表达自己对这个值就是真实值的相信程度。
可以通过计算标准差来测量数据的离散程度。这似乎也有助于我们计算出替代均值的可能性有多大。
假设你不小心将玻璃杯掉到了地上,玻璃杯碎了。在清理时,你可以根据玻璃碎片的分散程度来决定是否需要去对面的房间检查有没有玻璃碎片。如图 12 - 1 所示,如果这些碎片非常聚集,你就会更确信不需要去对面的房间检查。
然而如果玻璃碎片很分散,如图 12 - 2 所示,你可能就会想到对面房间的门口清扫一下,即使你当时并没有看到那里有碎玻璃。
同样,如果引火线燃烧时间非常分散,即使没有观察到任何引火线的燃烧时间小于 18 秒,最后一根引火线也有可能会在 18 秒内烧完。
当观察结果在视觉上分散时,我们会直观地认为在自己所能看到的范围之外可能还有其他结果。我们也不太确定数据点的中心到底在哪里。
以玻璃杯的例子来说,如果没有亲眼目睹玻璃杯掉落的过程,而且玻璃碎片很分散,那么我们就很难确定这些碎片的位置。
要量化这种直觉,可以用人们研究得最多也最熟悉的概率分布:正态分布。
正态分布
正态分布是一种连续的概率分布(就像第 5 章中的 β 分布一样),在已知均值和标准差的情况下,它最好地描述了对不确定测量值可能信念的强度。
均值 μ 和标准差 σ 是正态分布仅有的两个参数。μ = 0 且 σ = 1 的正态分布呈钟形。
可以看到,均值位于正态分布的中心位置,正态分布的宽度则由其标准差决定。随着标准差的缩小,正态分布的宽度也在缩小。
如前所述,正态分布反映了我们对均值的信心。因此,如果测量值比较分散,我们就会认为有更大范围的可能值,对中心均值的信心也会降低。
相反,如果所有的测量值都差不多(也就意味着 σ 很小),我们就会相信自己的估计是相当准确的。
当对一个问题的了解只有观察数据的均值和标准差时,正态分布就是我们的信念状态的最真实表现。
解决引火线问题
回到引火线问题上,我们有一个正态分布,其中 μ = 20.6 而 σ ≈ 1.62。除了记录的燃烧时间,我们对引火线的其他特性一无所知,因此我们可以利用观测到的均值和标准差对数据进行正态分布的建模(见图12-6)。
我们想回答的问题是:根据观测到的数据,引火线燃烧 18 秒或更短时间的概率是多少?
为了回答这个问题,需要使用 PDF(概率密度函数,我们在第5章中已经学习过这个概念。正态分布的PDF是:
为了得到所求的概率,需要在不大于 18 的值上对这个函数进行积分:
你可以这样想:积分就是直接把曲线下面积作为你感兴趣的区域,如图12-7所示。
阴影区域的面积代表了在给定测量值的情况下,引火线燃烧持续时间不超过 18 秒的概率。
请注意,尽管没有一个测量值小于 18 秒,但由于测量值的离散程度,正态分布表明,引火线燃烧持续时间不超过 18 秒仍然是可能的。
通过对所有不大于 18 的值进行积分,我们就可以计算出引火线的燃烧时间不能保证测试人员安全撤离的概率。
手动进行积分并非易事。幸运的是,我们可以用 R 语言进行积分。
不过在这样做之前,我们需要确定从哪个值开始进行积分。正态分布定义的范围包括从负无穷(-∞)到正无穷(∞)的所有可能值。所以在理论上我们需要计算的是:
但显然,我们不能在计算机上从负无穷开始积分。幸运的是,PDF 很快就变成了一个非常小的值。
我们可以看到曲线在 10 这个位置几乎与横轴重合,这就意味着在这个区域内概率几乎为零,所以只需对从 10 到 18 的区域进行积分。
我们也可以选择更小的值,比如 0,但是因为这个区域内概率几乎为零,所以它并不会影响计算结果。12.4 节将讨论一种启发式方法,使积分下限或上限的选择更容易。
我们将使用 R 语言的 integrate()函数和 dnorm()函数(这是 R 语言针对正态分布 PDF 的函数)进行积分,正态分布 PDF 的计算语句如下:
四舍五入后,我们可以看到 P(引火线燃烧持续时间 ≤18 秒) ≈ 0.05。这告诉我们,引火线燃烧持续时间小于或等于 18 秒的概率约为 5%。
正态分布的威力在于,我们可以对均值的各种可能性进行概率推理,这让我们了解了均值的现实意义。
我们可以在任何时候使用正态分布来推理那些只知道均值和标准差的数据。
然而,这也是正态分布可能出问题的地方。在实践中,如果除了均值和标准差之外还有关于所求解问题的其他信息,那么最好利用这些信息。我们将在后面看一个这样的例子。
一个技巧
虽然使用 R 语言对正态分布进行积分要比手动求解积分容易得多,但是有一个非常有用的技巧,可以在处理正态分布时进一步简化问题。
对任何已知均值和标准差的正态分布,我们都可以用 σ 来估计 μ 两侧的曲线下面积。
例如,从 μ - σ(比均值小一个标准差)到 μ + σ(比均值大一个标准差),这个范围的曲线下面积占分布质量的 68%。也就是说,有 68%的可能取值落在均值 ± 一个标准差的范围内。
我们可以继续看一下到均值的距离为 σ 倍数的范围。距均值的距离为 2σ 时,概率为 95%;距均值的距离为 3σ 时,概率为 99.7% 。
这个小技巧对于快速评估给定值的可能性非常有用,即使是很小的样本也如此。你只需要一个计算器就可以轻松计算出 μ 和 σ。
这意味着你甚至可以在开会的时候做一些相当准确的估计!
举个例子,在第 10 章测量降雪量时,我们有以下测量结果:6.2、4.5、5.7、7.6、5.3、8.0、6.9。
根据这些测量结果,可以得出均值约为 6.31,标准差约为 1.17。
这意味着我们有 95%的把握确定,降雪量的真实值在 3.97(6.31 - 2×1.17)英寸和 8.65(6.31 + 2×1.17)英寸之间。
这既无须手动计算积分,也无须启动计算机来运行 R 语言。
即使我们确实想使用 R 代码来积分,这个技巧也可以用来确定积分范围的下界或上界。
如果我们想知道引火线燃烧时间超过 21 秒的概率,但又不希望从 21 开始积分直到正无穷,那么我们可以用哪个值作为积分上界呢?
答案是,从 21 到 25.46(也就是 20.6 + 3×1.62),即到与均值相差 3 个标准差。
与均值相差 3 个标准差的范围一共占据总概率的 99.7%。剩余的 0.3%位于这个范围的两边,其中只有一半,也就是概率密度的 0.15%,位于大于 25.46 的区域。
因此,如果对 21 到 25.46 这个范围进行积分,那么我们所得的结果只会遗漏极小的概率。
当然,我们可以很容易地使用 R 代码对 21 到一些真正安全的上界(比如 30)进行积分,但是这需要我们弄清楚“真正安全”意味着什么。
“N 西格玛”事件
你应该听说过用西格玛事件(sigma event)来描述某件事情,例如,某股价的下跌是一个 8 西格玛事件。
这种表述的意思是,观察到的数据与均值有 8 个标准差。我们在前面看到了距均值分别有 1 个、2 个和 3 个标准差的概率,分别是 68%、95%和 99.7%。
你很容易根据这些数据做出判断,一个 8 西格玛事件是极不可能发生的。
事实上,如果你观察到的数据与均值相差 5 个标准差,那么这很可能说明你建立的正态分布并没有准确地模拟相应的数据。
为了说明一个事件随着 N 西格玛的增加而变得越来越罕见,我们以你在某一天中可能观察到的事件为例。
有些事件非常常见,例如你在日出时醒来;另一些事件则不太常见,比如醒来后发现那天是你的生日。
可见,一觉醒来发现今天是你的生日,这是 3 西格玛事件。一觉醒来发现一颗巨大的小行星正在撞向地球,这是 6 西格玛事件。
β 分布和正态分布
你可能还记得在第 5 章中学习的 β 分布。
在给定结果总数是 α + β 次的情况下,其中期望的结果出现 α 次而不期望的结果出现 β 次,β 分布可以估计真实的概率。
基于这一点,你可能会质疑,在只知道给定数据集的均值和标准差的情况下,正态分布是否为最好的参数估计建模方法。
毕竟,只通过观察发现出现 3 次 1 和 4 次 0,我们就可以建立 α = 3、β = 4 的 β 分布模型。这组数据的 μ ≈ 0.43,而 σ ≈ 0.53。
现在我们可以将 α = 3、β = 4 的 β 分布与 μ ≈ 0.43、σ ≈ 0.53 的正态分布进行比较。
很明显,这两种分布大不相同。我们可以看到,对这两种分布来说,质心出现在大致相同的地方,但正态分布的边界远远超出了范围。
这说明了一个关键点:除均值和标准差之外,只有当对一组数据一无所知时,我们才可以安全地使用正态分布。
对 β 分布,我们知道要找的值肯定介于 0 和 1 之间;而正态分布则定义在 -∞ 到 ∞ 上,这通常会包括不可能存在的值。
然而,在大多数情况下,这实际上并不重要,因为从概率的角度来看,基本上不可能有那么远的测量值。
但对度量事件发生概率的例子来说,缺失的信息对问题的建模非常重要。
因此,虽然正态分布是一个非常强大的工具,但仍然有必要获得相关问题的更多信息。
正态分布是使用测量值的均值来估计真实值的扩展方法。
正态分布结合了均值和标准差来模拟测量值相对于均值的离散程度。
这很重要,因为它让我们能够以概率的方式分析测量中的误差。
我们不仅可以用均值作为最佳的估计值,还可以从概率角度表述估计值的可能范围。
推荐数学书籍
《趣学贝叶斯统计:橡皮鸭、乐高和星球大战中的统计学》
作者:[美] 威尔·库尔特(Will Kurt)
译者:王凌云
本书用十余个趣味十足、脑洞大开的例子,将贝叶斯统计的原理和用途娓娓道来。你将从直觉出发,自然而然地习得数学思维。读完本书,你会发现自己开始从概率角度思考每一个问题,并能坦然面对不确定性,做出更好的决策。