这种概率,就是先前讲过的,在限定类别场合下的各个检查结果的条件概率。把各个类别作为检查结果的“原因”来看待的话,如果明确了原因(身患癌症或是健康),就可以知道结果(阳性或阴性)的概率。
上一节中共分了两个大类,根据具体信息,每个大类又被分成了两小类,如图表2-3所示。
图表2-3四种互不相同的可能性
如图表2-3所示,你的身体内部存在四种可能性。患癌并呈现阳性(左上区域),患癌并呈现阴性(左下区域),健康状态下的阳性(右上区域)和健康状态下的阴性(右下区域)四种情况。
并且,根据各区域所表示的概率,用乘法计算,得到图表2-4。
图表2-4四种互不相同的可能性各自的概率
2-4检查结果呈阳性,因而排除掉“不可能的情况”
此刻,你已经了解到自己的检查结果呈阳性。而这件事又可以这么理解:你获取一项关于自己身体内部状况的信息,也就为“可能性世界”增添了新的信息。
在现实世界中,因为观察到了“阳性”这一结果,“阴性”这一结果便可以排除了。用图形表示,如图表2-5所示。
图表2-5获得信息之后,可能性受到限定
2-5计算罹患癌症的“贝叶斯逆概率”
在上一节中,因为观察到“阳性”这一诊断结果,因此,可能世界被限定为2个。也就是说,你所处的世界或是“癌症&阳性”的世界,或是“健康&阳性”的世界,只有这两种可能性。
对检查结果的观察,使得可能性从4种减少到2种。这样,概率相加之和(长方形的面积)无法为1。因此,为了恢复标准化条件,需要在保持比例关系的前提下,使“相加之和等于1”,具体如图表2-6所示。
(左边长方形的面积):(右边长方形的面积)=0。095:1。998
0。095+1。998=2。093,用这个数值来分割比率的两侧的话,可以满足标准化条件(相加之和等于1)。
图表2-6根据标准化条件,计算后验概率
如图所示,将长方形的面积标准化处理,则为0。0454和0。9546(四舍五入,保留小数点后第四位)。请确认相加之和为1。
从这个结果可以得知,在得知“阳性”这一检查结果的情况下,罹患这种癌症的概率为4。5%左右,这便是后验概率(贝叶斯后验概率)。
2-6贝叶斯推理过程的总结
本讲中,求癌症检查的贝叶斯逆概率的方法,可用图表2-7表示如下:
图表2-7罹患癌症概率的贝叶斯推理过程
那么,在求罹患癌症的后验概率的过程中,我们能够发现什么呢?这个问题,也是本讲最重要的内容所在。
首先,请注意本讲开头提出的问题——“如果在准确度为95%的癌症检查中,你的检查结果呈阳性,那么,你患癌症的概率是否为95%?”答案是否定的。别说95%了,实际上只有4。5%。不过在这个意义上讲,倒不必过度悲观。
至于为何概率会如此之低,原因在于,患癌症的可能性本来就极其微小,健康人群中所占的比例远高于患癌症的人,健康人被误诊为阳性的可能性也很大,这一部分数值不能忽视。因此,即便检查结果呈阳性,也有很极大的可能性是健康人被误诊。所以,千万不要过度悲观。
不过,即便如此,也不能完全放心。关于这一点,看一看表示先验概率和后验概率的图表2-8就清楚了。
图表2-8关于癌症检查的贝叶斯更新
通过上图我们可以看出,罹患该种癌症的概率,在尚未进行观察的情况下为0。001(先验概率);而得知检查结果呈阳性之后,数值便发生了更新,变为约0。045(后验概率)。也就是说,概率从0。1%一下子上升到4。5%,增大了45倍。