旺仔小说网

旺仔小说网>简单统计学 一本正经的胡说八道 > 第2讲 贝叶斯推理的结果有时与直觉大相径庭① 使用客观数据时的注意事项(第1页)

第2讲 贝叶斯推理的结果有时与直觉大相径庭① 使用客观数据时的注意事项(第1页)

第2讲贝叶斯推理的结果,有时与直觉大相径庭①使用客观数据时的注意事项

2-1计算罹患癌症的概率

本讲是通过一些容易获取客观数据的案例,对于贝叶斯推理进行说明。需要了解的重点是,理解“如果从客观的数据来考虑的话,反而会容易陷入误解之中”的问题。在这里,你会发现概率的不可思议。

下面,用医疗诊查来举例进行说明。

在医疗发达的当今社会,我们能够获得多数病症的统计数据。另外,在发觉自己出现了一定症状之前,就能够发现病情的技术也在不断发展进步。但是,依然存在一个问题:如何判断通过检查得出的“是不是X病情”这一结果的准确性呢?

假设,你接受了一项“如果患了特定的癌症的话,结果有95%的概率为阳性的检查”,并且在之后收到了结果为阳性的报告。此时,你会判断自己患该癌症的概率为95%吗?

答案是“不会”。

如果“自己患癌症的概率真的为95%”的话,你肯定会对这个结果感到非常悲观。实际上,对此做出错误判断的人大概有很多吧。但是,从“阳性”这个结果来推断“你患了癌症的概率”,这也并不是一个特别高的数字。

在该推算中,由于是从“阳性”这一“结果”追溯到“患癌症”这一“原因”,因此可看作贝叶斯推理的典型案例。

在本讲中,我们首先进行问题的设定。以下数据是为了简化计算而假设的虚构数值,并非真实的数据。

问题设定

假设,某种特定的癌症的患病率为0。1%(0。001)。有一个简易的方法能够检查出是否患上这种癌症:患上这种癌症的人中有95%(0。95)的概率被诊断为阳性。但另一方面,健康人群也有2%(0。02)的可能性被误诊为阳性。那么,如果在这个检查中被诊断为阳性的时候,实际患上这种癌症的概率为多少呢?

2-2根据医疗数据,设定“先验概率”

该推算的顺序,与第一讲中进行的推算顺序完全相同。因为具体事例有所区别,带给各位读者的印象可能会不太一样,因此,下文将沿袭第一讲的方式,对推算的顺序进行详细说明。

这个例子的特殊性在于,先验概率是一项客观存在的流行病学数据。第一讲中已经解释过,先验概率,是“在获得信息之前,各个类别的存在概率”。在这个案例中共有两种类别:一种是“罹患癌症的人”,另一种是“健康的人”。

正如问题设定中所述,这种癌症的罹患率为0。001,因此流行病学认为,1000人中有1人会罹患这种癌症。因此,如果要在检查前推测自己是否罹患这种癌症的话,如下面的图表2-1所示。

图表2-1根据癌症罹患率得出的先验分布

下面,重新解释一遍该图。

该图表示的是:在接受简易检查诊断之前,判断你是否罹患了癌症的可能性。你所在的世界分为左侧表示“罹患癌症”和右侧表示“身体健康”的两个“可能世界”,而你一定处在这两个可能世界中的一个当中。所以并不知道到底属于哪一个世界,仅仅是作为推测而已。也就是说,世界分为了两个互不相同的部分(可能性分为了两种)。

但是,并非完全没有办法来推测你究竟处在哪个“可能世界”。通过流行病学数据我们知道,这种癌症的罹患率为0。001。也就是说,统计显示,1000人中有1人罹患这种癌症,所以,这可以作为判断你是否罹患该种癌症的参考。如果直接套用的话,可以推算罹患该种癌症的概率为0。001。也就是说,“你究竟属于两个可能世界中的哪一个”的问题,在没有任何个人信息的情况下,属于左侧世界的概率可被推算为0。001,属于右侧世界的概率可被推算为0。999。

2-3以检查准确率为线索,设定“条件概率”

下一步就是设置为不同类别带来特定信息的条件概率。本例中的信息是指检查结果所呈现出的阳性及阴性。正如第一讲中所述,这一过程离不开客观数据的支撑。在本例中,就使用了与简易检查相关的客观数据。(图表2-2)

图表2-2检查准确率的条件概率

横向阅读这张图表可知:上面一行是癌症患者的情况,检查结果呈阳性的概率为0。95。也就是说,查出患者得了癌症的概率为95%。那么误诊的概率便是1-0。95=0。05了。这表明,每接受检查100人中,其中5人,即使身患癌症,诊断出来的结果也是阴性。

下面一行是健康者的情况,误诊为阳性的概率为2%。因此,准确诊断为阴性的概率就是1-0。02=0。98。

从上面的图表,我们可以得知,简易检查并不是那么完善,它存在着误诊的风险。所谓的风险包含了:“身患癌症,却诊断为健康”和“很健康,却误诊为癌症”这两种情况。

已完结热门小说推荐

最新标签