抗抑郁药真的有效吗?看完就知道了
抑郁症是一种非常复杂的疾病,没有良好证据表明抗抑郁药可以帮助患者改善症状。
JACOB STEGENGA
封面:Maggie Chiang
PSYCHIATRY精神病学
1
悲伤与愧疚淹没了你。你太累了,以至于无法思考。你的快乐迷失在无形的痛苦中。你的头和背和腹部都在痛——生理上的疼痛。你窒息在自己的灵魂沼泽当中。这全部都是你的错。你毫无价值,不如干脆去死。尽管人们的经历以及症状的严重程度各有不同,这就是抑郁症患者们的感受。这种可怕疾病的发生率大概是十分之一。为了治疗,数百万人在服用抗抑郁药物。不幸的是,我们现在有理由相信抗抑郁药是无效的。
要知道抗抑郁药是否有效,我们需要密切关注这些药物的最佳证据。学界已有许多抗抑郁药的临床研究,而且在过去十多年中也出现了很多涵盖了这些研究的元分析(meta-analysis,一种将多个研究的数据汇集到一个单一的分析中的方法)。然而,这类研究背后有一个问题:专家们不同意这些研究的优缺点,他们也不同意这些研究可以得出怎样的结论。在这个问题上,哲学可以帮忙。
科学哲学是研究科学概念和方法的学科——它可以告诉我们科学证据如何解释世界。在目睹了抑郁症的黑暗,以及一些亲人和朋友与它的斗争之后,我开始利用自己的哲学技能去分析抗抑郁药的证据。在深入挖掘抗抑郁药数据的生成、分析和发表之后,我得出的结论是:抗抑郁药几乎没有效果。
抑郁症影响着许多人。如果你认为本文中的论点令人信服,那么文中的结论可能会令你失望。如果你已服用抗抑郁药,你可能会决定停药,但我建议仍需谨慎。关于停用抗抑郁药,我们几乎没有可靠的证据;但已有的证据表明,停用抗抑郁药可导致戒断反应。此外,我们对于其他干预方式,例如谈话疗法和生活方式改变,也没有可靠证据。因此,患者在考虑改变药物或疗法时,应格外谨慎。
在一篇短文中探讨一个复杂主题,必然需要牺牲深度。所以,如果想更全面地了解文中的论点,请参考我的书《医学虚无主义》(Medical Nihilism)。如果你患有抑郁,你的医生应该已经对你的病情有足够的临床经验和深度认识。尽管大部分医生都高估了抗抑郁药的优点,而低估了其危害,你还是应该继续咨询他们,或许还可以让他们参考这篇文章。
2
关于抗抑郁药有效性的最佳证据,来自于随机试验和这些试验的元分析。这些研究中的绝大多数,都是由抗抑郁药制造商所资助和控制的——其中显然有利益冲突;这些试验通常只持续数周——远远低于大多数人服用抗抑郁药的时长;这些试验中的受试者是经过精心挑选的,通常不包括老年人、患有其他疾病或同时服用其他药物的患者;换言之,受试者中不包含经常使用抗抑郁药的人群——这意味着这些试验结果不能被推论到真正的病人身上;认为抗抑郁药有效的研究能被发表,认为它们无效的研究则通常不能被发表(这种普遍现象被称作“发表偏差”)。举一个著名的例子:2012年英国制药公司葛兰素史克承认,他们促使儿童使用抗抑郁药Paxil(没有证据表明它对儿童有效)以及误报试验数据,并因此遭到刑事指控。
—Dale Crosby Close
每项针对抗抑郁药的试验都使用了量表,来衡量试验前后受试者抑郁的严重程度。这些量表存在严重缺陷,并且导致研究普遍高估抗抑郁药的有效性。汉密尔顿抑郁量表(the Hamilton Rating Scale for Depression)是一种常用的量表。这个量表有17个问题,每个问题都有几个选项,每个选项会得到各自特定的分数;将所有得分求和,就能得出抑郁症严重程度的总值,最高52分。为了测试一种新的抗抑郁药,一个试验需要表明实验组中受试者的评分,比对照组中受试者的评分降低更多。该量表是由英国精神病学家马克斯·汉密尔顿(Max Hamilton)于1960年发明的,并从那时起沿用至今(下文中提到的抑郁症严重程度评分均来自于此量表)。
这种量表的问题在于,受试者实际抑郁程度的微小变化,可能导致得分的大幅变化。例如,有三个关于睡眠质量的问题,总共有6分,还有一个关于慌张的问题,总共有4分。 因此,一种让人睡得更好而且减少慌忙程度的药物就可以将一个人的抑郁评分降低10分。举一个现实生活中的例子:英国最近的临床指南要求药物在这个量表上降低的抑郁评分,平均只有3分。当一种尺度能够衡量我们想要衡量的东西时,我们说该尺度具有“建构效度”(construct validity)。抑郁症量表的一个普遍问题是缺乏建构效度,这会导致我们高估抗抑郁药的有效性。
“
如果一个受试者的体重增加了,她可能会得出“自己在实验组中”的正确结论。
“安慰剂效应”是指患者仅仅因为他们接受的医疗服务,而不是由于其药物的生化特性而改善病征。它的原理在于:仅仅期望在接受医疗服务后自己会有所改善,本身就可以改善症状。有些疾病对安慰剂的反应比其他疾病更敏感,抑郁症便是所有疾病中对安慰剂效应最敏感的疾病之一。由于临床试验旨在发现药物实际的生化作用,所以试验中会包括接受安慰剂的对照组(有时对照组接受市场竞争者的药物),并且实验组或对照组的分配对于受试者来说是未知的(这有时被称为“盲法”)。为了估计药物的活性生化作用,临床试验要将实验组和对照组的测量结果进行比较。
盲试失效(blind-breaking)是指受试者能准确猜测到他们所处的组。这可能是由于副作用的出现和缺失。例如,抗抑郁药的两个常见副作用是体重增加和性功能障碍。因此,如果一项新抗抑郁药试验中的受试者体重增加,并且难以达到性高潮,她可能会准确地猜测到她处于实验组。然后,这种猜测可以使她期待自己的症状会改善;于是,仅通过安慰剂效应,她的症状便能得到改善。关于抗抑郁药试验中盲试失效的实例并不多,但一些专家认为盲试失效是一个常见现象(实际上,一个简单的改进就能给研究者提供试验中安慰剂效应程度的证据:只需要求受试者在试验结束时猜测他们所在的组别即可。这种改进并不常见,但其实在任何试验中都很容易做到)。
因为在抗抑郁药的试验会有盲试失效,而抑郁症本身就对安慰剂效应非常敏感,一些著名研究者(如哈佛医学院的Irving Kirsch和丹麦北欧Cochrane中心的Peter Gtzsche)认为,这些试验中无论多小的症状改善都可能完全是安慰剂效应的结果。
3
一旦研究者完成了一场抗抑郁药试验,他们就得想办法将试验中的数据转化为有意义的证据。 这样做的最佳方法,是测量实验组和对照组抑郁症严重程度降低的分数;两组之间的差异就是所谓的“效应值”(effect size)。它能让现实生活中的病人粗略预估自己的抑郁症状会因药物而改善多少。我会在下文中告诉你详尽试验所得出的结果。不过,我们首先要明白,数据可能成为欺骗的武器。
研究人员有多种数据分析的方法,但其中一些方法得出的证据既不可靠,也毫无意义。一个例子来自2018年在《柳叶刀》(世界上最重要的医学期刊之一)上发表的关于抗抑郁药的元分析。此文由牛津大学精神病学家Andrea Cipriani及其同事撰写,其中包括许多复杂的分析。但其中一个简单的统计数据引起了广泛讨论,那就是抗抑郁药的“比值比”(odds ratio)。在这类研究中,“受益”通常被定义为“抑郁症严重程度下降超过一半”。“比值比”则是“实验组受益者的比值除以对照组受益者的比值”。 结果显示的比值比约为1.5。从表面上看,这是一个非常适度的结果。但事实上,它给我们的信息很少。
我们可以用类比来理解这一点。假设我们正在测试一种减肥药。对于实验组中的每100名受试者,3名受试者减掉1公斤,97名受试者增加5公斤;对于对照组中的每100名受试者,2名减掉4公斤,98名受试者体重没有变化。 这种药物对减肥有效吗?经过计算,我们知道这次试验中减肥的比值比为1.5,然而这个数字并没有告诉我们人们平均增加或减少的重量——实际上,这个数字完全掩盖了药物的真实效果。虽然这是一个极端类比,但它能表明我们在解释元分析时必须谨慎。然而不幸的是,许多领先的精神病学家都拥护这项研究,新闻头条则误导性地声称“药物确实有效”。从这些研究人员的辛勤工作到铺天盖地的新闻报道(民众最经常接触到此类信息的途径)这个曲折过程中,一个简单的数字变成了谎言。
如果分析得当,最佳的证据表明抗抑郁药没有临床益处。值得考虑的元分析,如上文所述,应该尝试从所有抗抑郁药试验中收集证据(包括尚未发表的抗抑郁药试验)。当然,我们不可能知道元分析是否包括所有未发表的证据,因为发表偏差的特征就是欺骗,无论是无意还是有意的。 然而,这些元分析是通过寻找尽可能多的数据来规避发表偏差的重要尝试。那么,这些分析到底发现了什么呢?
在囊括尽可能多数据的元分析中,与接受安慰剂的受试者相比,接受抗抑郁药的受试者抑郁严重程度下降约2分。2分——请记住,如果受试者仅仅是停止了慌张行为,抑郁评分就会下降4分。抗抑郁药的拥护者及批评者都早已知晓,并年复一年地重复了这些结果(参考2008年Irving Kirsch、2010年J C Fournier和2017年Janus Christian团队进行的元分析)。盲试失效、安慰剂效应和发表偏差都能轻松解释这微不足道的2分。
上文提到:临床指南认为药物必须将受试者抑郁严重程度评分降低3分以上才算有效。因此,抗抑郁药并不达标。一些精神科医生甚至认为这个标准太低了——他们认为,一种具有临床意义的抗抑郁药必须将抑郁评分降低至少7分(与安慰剂相比)。没有药物能做到这一点。
“
我们也在治疗生活中的许多正常问题:用咖啡治疗晨起嗜睡,用酒精治疗害羞。
简而言之,我们有充分的理由认为抗抑郁药对抑郁症患者没有临床意义上的好处。相反,我们知道这些药物有许多副作用,包括体重增加、性功能障碍、疲劳和失眠。一些研究表明,抗抑郁药与暴力、自杀、童年和青少年攻击行为以及女性精神病事件之间存在联系。
关于抑郁症的早期理论认为它是由5-羟色胺(serotonin或5-HT)浓度过低而导致的。 由于被称为“选择性5-羟色胺再摄取抑制剂”(Selective Serotonin Reuptake Inihibitors, SSRIs)的抗抑郁药有助于提高5-羟色胺水平,因此人们普遍认为用SSRIs治疗抑郁症有坚实的理论基础。 然而,现在大多数研究人员认为这是一种过度简化和误导性的理论。
—David Crosby Close
5-羟色胺理论的主要“证据”之一是SSRIs可有效治疗抑郁症,其思路如下:前提一,SSRIs调节病态5-羟色胺浓度;前提二,SSRIs治疗抑郁症;结论:抑郁症是由病态的5-羟色胺浓度导致的。请注意:即使这种推理具有说服力,也不能为SSRIs有效提供依据,因为“SSRIs能治疗抑郁症”正是推理的一个前提。因此,我们不能循环论证。而且,上文也已经质疑了前提二。
相反,另一种理论似乎也反对抗抑郁药。一些批评者声称,许多患者被诊断出的“抑郁症”并非真正的疾病,而是正常生活问题的“医学化”——正常的痛楚、压力、焦虑或仅仅是边缘性的悲伤被带入了医学的管辖范围。照这个说法,如果一个悲伤的例子被过度医学化,用药物治疗这种这种也是不恰当的。但是,我认为这种对抗抑郁药的批评并不令人信服。这种批评隐藏着关于“疾病”、“正常”的本质和医学管辖权的种种争议性前提。我们也借助外在帮助来治疗生活中的许多正常问题,例如用咖啡治疗晨起嗜睡,用酒精治疗害羞,用药物治疗勃起功能障碍。因此,简而言之,这两种理论在抗抑郁药的有效性上,并不具有说服力。
也就是说,我们应该怀疑那些将抑郁症归咎于某种化学物质缺乏的简单理论——正如大多数研究人员所认为的一样,抑郁症与坏血病(由维生素C缺乏导致)和1型糖尿病(由胰岛素缺乏导致)不同。我们可以用维生素C治疗坏血病,用胰岛素治疗1型糖尿病,但由于抑郁症是一种复杂的疾病,因此仅通过调控化学物质水平来成功治愈它是不可行的。
4
在本文中,我一直质疑抗抑郁药的试验证据。但虽然这些试验有诸多问题,它们还是我们研究抗抑郁药有效性的最佳方式。然而除此之外,我们还可以考虑另一种方式:真实患者的经验。 你,或你的朋友和亲人,可能已服用抗抑郁药——这可能使你相信这些药对某些人有效。
关注病人对药物的反馈是良好医疗的必要条件,但这种反馈通常不能指导我们进行因果推断。 在确定抗抑郁药是否有效时,第一手报告是不可靠的。这至少有三个原因:首先,抑郁症症状的严重程度随着时间的推移而波动,人们倾向于在症状更严重时寻求治疗。因此,在接受治疗后症状可能会改善,这不是因为治疗有效,而仅仅是因为时间流逝,如同伤口逐渐愈合。
其次,抑郁症对安慰剂反应非常敏感。对于对照组试验中的大部分受试者,抑郁严重程度评分降低多达10或15分。安慰剂的效果是惊人的——例如,更大的安慰剂药片比小一些的药片对患者可以产生更大的影响。第三,证实偏误(confirmation bias)是指人们倾向于注意到那些能证实他们期望的证据,而忽略降低他们的期望的证据。 这种认知会影响我们所有人,服用抗抑郁药后,人们往往更多注意到健康改善的迹象,而不是相反的方面。
认知偏见:大脑中的恶作剧
科学证明自我欺骗的机制根植于我们的大脑,我们有办法改变它吗?
相关阅读 →
因此,如果你听说有人受益于抗抑郁药,这可能是由于疾病的自然过程随着时间的推移产生的波动,而且被安慰剂效应混淆视听,并且被证实偏误夸大了。这并不是在怀疑患者的反馈。他们的第一手经历是医学中最真实、最重要的现象,我们必须听取。但是,当我们远离临床案例,坐在办公桌前用数据、科学和清醒的反思聆听时,我们听到了什么? 安慰剂,而不是百忧解。
翻译:杜璇
审校:阿莫东森
编辑:EON
https://aeon.co/essays/the-evidence-in-favour-of-antidepressants-is-terribly-flawed
Jacob Stegenga
剑桥大学科学哲学系讲师,著有《医学虚无主义》(Medical Nihilism, 2018),现居剑桥。