“神药”克星:随机双盲大样本

文 / 陈思进
2020-02-07 08:09

作者 | 量子君

来源 | 量子学派

引语: 公鸡叫了,太阳升起

因果律一直被认为是指引人类前行的铁律。

然而,18世纪英国哲学家休谟发出了警告之声。

休谟认为,我们看到的永远是两个相继发生的现象,一切因果关系都值得怀疑。

举个例子,公鸡叫了,太阳升起。这两个事件相继发生,但是公鸡叫并不是太阳升起的原因。休谟提出,一切因果关系都应该重新审视。

20世纪的英国数学家罗素沿袭了前辈休谟这个概念,他有一个著名的比喻:农场里有一只火鸡,每次一看到农场主来,就被喂食,这只火鸡就以为农场主和喂食之间有因果联系。但结果有一天,农场主带来的不是食物而是猎枪,他把火鸡杀了。

很多时候,人类认识世界的方式本质和这只火鸡并无两样。

简单的归纳推理有时候是有效的,但有时候是谬误的。

有些谬误难得糊涂可以忽略,但有些因果律必须科学取证。

例如确定药物疗效,这就马虎不得。让患者吃下某种药物治疗,然后观察患者是否痊愈,如果痊愈了呢,这种因果律就得到了证明吗?

不一定,举一个例子说明:你得感冒后,你的权健朋友建议火疗治理,两周后感冒果然好了,真的是火疗治好了感冒吗?很显然不一定。

简单的归纳推理并不科学。现代医学判断疗效有一套完整的实验方法,叫做“随机双盲大样本分组对照试验”,它是对抗传销密码“幸存者偏差”的重要手段。

这种科学实证方法是“神药”的噩梦,也是很多“跳大神”者的死敌。

01、“骗局”克星:随机双盲大样本?

随机双盲大样本是从医学界产生的科学概念。

也是临床试验的基本原则之一,对客观评价治疗结果提供了方法论上的保证。

它是因果判定缺陷的修订者,也是幸存者偏差的纠正者。

一种新药能不能用于临床投入市场,随机双盲大样本是非常重要的“金标准”。

它包括以下三大要素:

随机:样本选取遵循随机原则。

双盲:观察者(医生)和被观察者(病人)双方都不知道被观察者所属的对照组。

大样本:试验选取的样本数要尽可能多。因为统计学的“大数原则”告诉我们,样本越大,统计结果越能稀释掉那些特例,也就越能逼近真实情况。

这套方法是鉴别真伪对错的利器,不仅仅用在医学上,各学科也都可以用:刑侦上的测谎,保健品是否玄妙,气功有无神奇作用……

“随机”与“双盲”是华裔科学家李景均在1950年代中期提出的临床试验的两个基本原则。

1950年代中期,美国东部25家退伍军人医院合作进行一个大型癌症临床试验,用以搞清几种癌症化疗药物在白血病上的疗效。李景均被任命为该团体的生物统计学家。他提出要随机化分配病人,并遵循双盲原则,遭到强烈反对。他坚持己见,毫不让步,美国国立卫生研究院理解了这两个原则的原理之后,支持李景均,并威胁如果不采用李景均的方法,他们将不提供资助。

现在,这两个原则已被普遍接受。随机与双盲,尤其是随机,再加上对照,成了现代医学判断疗效的实验方法。

最近鸿茅药酒、权健保健品的讨论特别多,如果这些公司真的认为自己产品有药物功效,也可以用随机双盲大样本来辨别真伪,看这些产品真的如传说中的那么神奇。

如果真能接受随机双盲大样本的临床检验,那就应该严肃对待而不是随意嘲讽。

02、坏血病:分组对照实验的起源

“随机双盲大样本”最初思想源自大航海中的坏血病,这种病的症状是牙龈出血,直到全身溃烂而死,坏血病当年也是极其恐怖的疑难杂症。

病因是因为水手们长期漂流在海上,没有新鲜蔬菜水果,缺乏维生素C。但当时人们不知道病因,只好胡乱治疗,有喝稀盐酸的,有喝酒的,有直接喝海水的,还有向上帝求助的。但基本都没用,有时碰巧好了,也闹不清究竟是海神的保佑还是上帝的力量。

到了1747年,英国军舰上有一位医生林德,想出一个“分组对照实验”的方法,把16位生病的海员分成4组,每组两人,分别用不同的验方,比如第一组吃橘子、柠檬,第二组喝稀盐酸,第三组喝海水……结果六天之后奇迹发生了,第一组吃橘子、柠檬的好了,其他组都没好,反复试都是这个结果,于是真正对症的药找到了,就是吃水果。

虽然因为当时科学还不够发达,人们并不知道背后的病因(缺乏维生素C),但确切有效的疗法和药有了,这就够了。

这就是“分组对照实验”的神力。坏血病从此在英国海军中被消灭,人们开始信服了林德的“分组对照实验”,这比海神更值得信赖。

03、放血疗法:分组对照实验的反证案例

坏血病的治疗是一个正面案例,再举一个“分组对照实验”论证的反面典型。

1799年12月13日,美国的开国总统华盛顿病了,大夫给华盛顿放掉了近2500毫升血,想让总统快点好起来。2500毫升是人体血容量的一半,结果可想而知,华盛顿死于失血性休克。国不可一日无主,这次医生闹出了个大乱子,人们开始质疑放血疗法,到底是有用还是有害。

华盛顿去世10年后的1809年,苏格兰军医亚历山大·汉密尔顿开始认真研究放血疗法,他采取的手段是分组临床观察,他把366名患病的士兵平均分成3组,3组的病人所患疾病的严重程度类似,所接受的治疗也一样,唯一不同就是两组病人不放血,一组病人接受传统的放血疗法,结果是不放血的两组分别有2和4个病人死亡,而接受放血疗法的组竟然死了35人。

1819年,法国人皮埃尔·路易发表了他7年时间里对近2000名病人的临床观察,发现放血疗法明显增加了病人的死亡率。人们对放血疗法的信念开始动摇,之后发表的很多文章,都证明放血疗法给病人的伤害远远大于给病人提供的帮助。那个稀里糊涂的“放血疗法”,最终也靠“分组对照实验”来被证明不但毫无作用,而且因其治死的病人比不放血多得多。

古代西医所谓“放血疗法”胡扯了千百年,从华盛顿到斯大林,都是放血给放死的。自从有了那套分组对照实验的“金标准”,才产生了真正意义上的现代可验证医学。

04、不可低估的人体“自愈效应”

自愈力是动物生病后与生俱来的自我恢复能力,是人经过亿万代进化自然形成的本能,自愈系统包含免疫系统、愈合再生系统、内分泌调节系统等多个分系统,是人体对抗疾病最重要的防线。

实际上有许多病不治自己也能好,比如有些感冒吃药半个月才好,不吃药两周也好了。这就是自愈,是生物的自我保护机制。男朋友叫你“多喝热水”时,是有医学常识依据的,所以别在这句话上生气。

有一种病叫“急性腮腺炎”,腮帮子肿得像猪脸一样,中国过去的民间疗法是,在腮帮子上画虎或写虎字,取“虎能食猪”之义。过几天病好了,于是人们普遍相信画虎有效。实际上这是一种可以自愈的病,不画虎照样好。

所以,如果要实验一种新药是否有效,必须要在分组中增加一个“对照组”,即不治疗,看看病能否自愈。如果对照组也好了,说明这个病可以自愈,跟吃你那种新药没什么关系。如果对照组好不了,而吃药的那组好了,证明这个病不能自愈,只有吃药才有效。

很多民间偏方主要依赖的其实是人体的“自愈效应”,你的免疫力成了骗子“跳大神”的有效证据。

05、单盲与神奇的“心理安慰剂”

人类是一个神奇的物种,心理暗示有时可以作用到身体层面。

二战中,有一次美军伤员太多,战地医疗的麻醉药用完了,伤员们一个个喊痛不止,军医毕阙在无奈的情况下,只好暂时采用骗术,以生理盐水冒充麻醉剂给伤员注射。没想到凡是注射了盐水的伤员全都不疼了,不叫唤了,毕阙惊得目瞪口呆。

战后毕阙经过研究,终于弄清,这种骗术其实就是心理暗示,但真的有效果,这就是所谓“安慰剂效应”。于是,分组对照实验中必须再增加一个安慰剂组,来验证一种新药的效果。新药到底是真的有效,还是安慰剂式的假有效?

比如给病人分组给药时,安慰剂这组实际上给的是玉米淀粉,但包装得跟真药一样。只有当吃了安慰剂的这组病没好,而吃了真药的那组确实好了,才能证明你这个药确实有效果,不是靠安慰剂效应治好的。

这样,证明一种新药是否有效,起码要有三个组:

一、对照组:不治疗,看能不能自愈;

二、安慰剂组:看吃安慰剂能不能好;

三、治疗组:吃药。

如果一二组都好不了,只有吃药的第三组能好,才能证明新药有效。

安慰剂只能对付一些小毛病小问题,真正的疑难杂症靠安慰剂肯定解决不了问题。

06、双盲:单盲的科学进化

以上三个组的方法总结起来叫做“单盲”,即只有病人不知道真假,是“盲”的,但医生并不“盲”。

后来在实验的过程中又发现了一些问题,尽管把安慰剂包装成真药模样,但大夫的态度也会暴露出真假。因为大夫知道哪一组是真药,哪一组是安慰剂,大夫态度就不一样,对吃真药那组眼神中很自然透出关切,对安慰剂组就比较糊弄,病人就能猜出我吃的原来是安慰剂,安慰治疗效果就没了。

怎么办呢?大夫也得“盲”,把大夫的眼睛也“蒙起来”——所有数据加密,连大夫都不知道自己身处哪一组,药由独立的第三方给大夫,统计工作由第三方来进行。

自己手中的药是真是假,大夫也不知道,这就是所谓“双盲”。

这样一来,就能很好地屏蔽来自大夫的主观影响,让实验更加客观公正了。

07、随机:避免群体的人为分类

后来人们又发现,分组时也不能有偏颇。

比如有意无意中把病轻的分在治疗组,吃真药,而病重的分在对照组和安慰剂组,结果治疗组的病人好了,仍然无法确定是因为他们病轻而痊愈?还是因为吃药而痊愈?反过来病重的分在治疗组也会产生偏差。

再比如,挑选病人时如果多选择比较年轻的,或比较老的,也会产生偏差。因为年轻人抵抗力强,好得快,老人好得慢。等等。

17世纪中期,欧洲荷兰一小镇发生瘟疫。

这种瘟疫未曾被记载过,当时的医生束手无策,只好死马当活马医,先让一个患者尝试新药。患者情况见好后,医生又再次将这种药物注入了一位小孩的身体,而小孩却吐血不止。

幸好,医生立马意识到了生理差异,当机立断对小孩停止了新药的使用。成年人与小孩,对药的使用剂量是完全不一样的。

怎么办?挑选病人和分组时必须要做到随机,不能搀杂任何倾向性,这样才能更公正,更客观。现在电脑上有随机函数,更方便从大量病人中随机挑选实验者。

08、大样本:“大数原则”下的有效数据

在统计学上有个“大数原则”,取样数量越大,偶然性就越不明显,也就越接近真实。

公司A和公司B都生产同一类药物。

两家公司分别对自家药物进行了实验测评,并提交了报告。其中,A公司药物测评得到了70%的有效性,B公司的药物是40%。乍看之下,A公司胜出,但实际上B公司的有效人数更多。因为,A公司只选了10人测试,B公司却测试了1000人。

在挑选病人的过程中,取样不能小,如果人数太少,偶然性就容易起作用。比如某些人免疫力特别强,不怎么用药也能好,有些人免疫力特别弱,即使治疗用药完全到位也好不了。

为什么实验一种新药需要那么长时间?

就是因为实验的病人样本要多,时间要长,花钱也就多。

仅凭一次实验观测结果或单个受试者所表现出来的实验效应说明不了什么问题。

在一种药物的测试过程中,无论是实验组还是对照组都需要有一定数量的受试对象,不同受试对象存在着不同的试验效应,必须通过一定数量的重复观测才能做出客观估计。

结语:

随机双盲大样本是一种科学思维

因父亲重病去世,鲁迅先生曾去日本学医,但后来发现国人的病在精神上,又弃医从文,想从精神层面进行根治。今天,先生已经去世82年,但将鸿茅药酒、权健保健品当作“人血馒头”治病仍大有人在。同样病不在于身体,而在于理性的思辩能力。

那什么才是真正科学、理性的思辨方式?随机双盲大样本是其中要掌握的一种重要工具。Edge.org网站每年都提出一个大问题,用来激发知识界的集体思维碰撞。2011年,它曾经提出一个年度问题:What Scientific Concept Would Improve Everybody’s Ccgnitive Toolkit?(什么科学概念将改变我们的认知工具?)

《自私的基因》一书作者道金斯的回答是:随机双盲大样本实验。

大样本排除了偶然性,随机排除了个体差异,双盲排除了主观偏向。

这样一种大样本随机双盲实验,是一把科学利剑,可以无情地剖开“骗子”的虚假面具。对于那些缺乏独立思考训练,容易被表象所影响的朋友,更应该好好再了解下它。

掌握随机双盲大样本原理,即使不去医学实验,也能在以下6方面提高科学思维能力:

学会不从零星言论中归纳出普遍结论,理解世界的多样性;

学会评估,一个重要的结论可能只是产生于偶然,不再轻信幸存者案例;

我们会知道消除主观偏见有多么困难;

不再迷信权威和个人,相信高标准的实验手段;

我们将 学会看穿非科学疗法和其他江湖郎中的把戏;

从概率思考到批判性思考,练习反直觉思考能力,从内心深处接受自我批判性思维。

因果论很多时候是人类的直觉,也是自以为是的错觉。

一个药品和一门学术一样,如果要成为可靠的理论,就必须接受“随机双盲大样本”类似的高标准实验验证。

一旦它满足了这些硬指标,不管它与我们的直觉冲突有多剧烈,就有责任将它视为可靠的科学接受下来。从日心说到时空相对论,从相对论到量子力学,莫不如此。