贝叶斯定理和癌症(吸毒者)检测问题
我们的世界观和因其导致的行为往往是由一个简单的定理促成的,在150多年前,英国数学家贝叶斯(1701年到1761年) Thomas Bayes诞生了。贝叶斯,1701年出生于伦敦,做过神父,1742年成为英国皇家学会会员,1761年4月7日逝世。贝叶斯在数学方面主要研究概率论并创立了贝叶斯统计理论。这个著名的理论其实直到他去世后才得以发表。 天纵检测(SKYLABS)今天给大家简单讲讲有趣的贝叶斯定理和癌症(吸毒者)检测问题。
贝叶斯定理的数学公式其实非常简单:P(A|B) = P(A) x P(B|A) / P(B)。其中P表示概率,P(A)是A为真的概率,而P(B)是B为真的概率。P(A|B)的意思是假设B为真时A的概率,P(B|A)则是假设A为真时B的概率。如果不好理解,把它变成 P(B) x P(A|B) = P(A) x P(B|A) 可能相对就好理解了。
在日常生活中,我们经常使用医学检查这个问题来阐述这个公式。假设接受癌症的检查,癌症在同年龄的人中的发病率为1%。在真实的世界中,检查很少完全可靠。因此假设检查可靠性是99%,也就是说,100个癌症患者中有99个检查结果阳性,100个健康人中有99个检查结果阴性。这仍然是个不错的检查。
如果结果阳性,有多大可能得了癌症?
现在贝叶斯定理显示出它的力量了。大多数人认为答案是99%,或者很接近这个数字。这正是检查的可靠性,对吧?但是由贝叶斯定理得出的即使检测为阳性,其患癌症的真实性只有50%。
将数据代入贝叶斯等式的右边以找到原因。P(A)是0.01,得癌症而且结果阳性的概率,也就是P(B|A),现在是0.99。因此P(A)乘以P(B|A)等于0.01乘以0.99,即0.0099。这是得到真阳性结果,显示阳性结果中得癌症的概率。
分母P(B)是什么?这就是事情有意思的地方。P(B)是无论是否得癌症时结果阳性的概率,换句话说,这里它包括了假阳性和真阳性。
为了计算假阳性的概率,你用假阳性率,也就是1%,或者0.01,乘以没有癌症的人群百分比0.99。结果是0.0099。是的,99%准确率的检查得到的假阳性和真阳性一样多。
让我们完成计算。为得到P(B),将真阳性和假阳性相加,总和为0.0198,然后除以0.0099,得到0.5。所以再说一次,检查结果阳性时你得癌症的概率P(A|B)是50%。
如果再检查一次,可以极大地减少不确定性,因为你得癌症的概率P(A)现在是50%,而不是1%。如果第二次结果仍然是阳性,贝叶斯定理告诉你得癌症的概率现在是99%。
与之类似的还有“吸毒者检测”问题。假设一个常规的吸毒检测结果的敏感度与可靠度均为99%,即吸毒者每次检测呈阳性(+)的概率为99%。而不吸毒者每次检测呈阴性(-)的概率为99%。从检测结果的概率来看,检测结果是比较准确的,但是贝叶斯定理却可以揭示一个潜在的问题。假设某公司对全体雇员进行吸毒检测,已知0.5%的雇员吸毒。请问每位检测结果呈阳性的雇员吸毒的概率有多高?
对这个问题的求导过程其实和前面癌症检测的案例是一样的,天纵检测就不再重复复述了。天纵君在这里直接给出这个吸毒者问题的结论:即使吸毒检测的准确率高达99%,但贝叶斯定理计算得出,如果某人检测呈阳性,其吸毒的真实概率只有大约为33%,不吸毒的可能性其实是更大的。这里假阳性高,检测的结果其实并不可靠。
在医学诊断中一个症状(新证据)可以是多种可能的疾病(假设)的结果,但不同的疾病对于不同的人来说具有不同的先验概率。而目前在线医疗工具无法将个人的先验概率恰当的考虑在内,这也正是目前在线医疗的主要问题。它们对你的个人历史知之甚少,因此会忽略一系列可能的疾病。
贝叶斯定理能够在概率预测时,有非常好的效果。通过使用贝叶斯定理我们可以得到更加谨慎的结论。
像以上两个案例这样,通过贝叶斯定理我们可以得到非常精确但残酷的信息。这其实也很容易解释企业与个人的成功概率,比较残酷的现实是:即使你做对了99%的事情,您的成功概率可能依然是个小概率事件。