用的治疗方法越多,癌症病人活得越长?手术会增加癌症转移风险?
笔者的主业是肿瘤登记,是诸多疾病监测中的一种,经常被称呼为“搞统计的”,如今的调侃已升格为“搞大数据的”。
“搞统计的”这个称呼实在是愧不敢当,因为统计太难搞了,比搞对象还难,至于“大数据”更是连门也没摸到。
如果遇到还知道点的西贝行家,就会补刀问一句:SAS玩得挺溜?
笔者当然是连连摇头的命。
一般情况下,对方就会接下来再来一刀:那平时用SPSS?
因怕中刀太深,就会连忙答应下来:会点简单应用~简单应用~,主要还是Excel~Excel~
至于本人究竟用哪些统计软件,其实并不重要。
作为一名统计工作者,最重要的还是要对基本概念和基本理论熟悉和掌握。
尤其是在目前的工作环境下,流行病学和统计学没有形成明确的分工,大多数需要一肩挑,那么对于流行病学的基本概念和基本原理的掌握可能要比掌握一门统计软件更为重要。
否则,对于统计结果的解释,会产生偏差甚至谬误。
一
先讲个段子是“黑”统计师的。
传说搞统计的人,生命力特别强。
举例为证,一群各种职业都有的探险爱好者,组团徒步穿越撒哈拉大沙漠,不巧就遭遇沙尘暴了。
救援队收到受困求救的信号后,即刻出发搜索,但直到7天后才找寻到目标,结果辣么多人里就一个搞统计的人还奄奄一息的活着。
科学家们就研究了,最后的结论就是:搞统计的水分就是多。
所以还有一句话,常听人调侃,说统计是个Game,搞统计就是玩数据。
要问笔者有没有玩过呢?的确也玩过一次。
曾有小伙伴拿着一堆统计结果全是阴性的数据来商量对策。所谓阴性就是因素之间的不同,造成结局的差异都没有统计学意义,即常说的不是P<0.05。
其实统计老师一再强调:阴性结果也是结果。
但实际上在做研究设计时,总归会提出有差异的假设,并希望得到印证,否则很难展开深入的讨论。
纵观这批数据后,发现还真有门。
怎么发现的呢?并不是小伙伴后来盛赞的“有数据敏感性”。
而是之前就流传有“临界P值”的说法。比如P=0.05,或者在0.05附近,一般不超过0.10,可以想办法调教出有统计学意义来。
首先声明,这种说法是极端错误的,是为专业统计师所不齿的。
但是,那次尝试将几个处于“临界P值”状态的因素,由n组重新均分为n+1组,比如3组重新分为4组,结果就P<0.05了。
这种投机取巧,讲究的就是要碰巧。可不是所有的变量都能这样做,P值就会变小,其实变大的也多了去。
二
大多数情况,小伙伴们是拿着欣喜的统计结果来复核的,结果被本人无情的打击。
临床上的朋友好像特别喜欢用直线回归法,通常是1个因素对应1种结局,画出个散点图,同时点击统计软件的画出“拟合线”的功能。
笔者印象特别深刻的是位医生美眉,研究治疗前红细胞数量和某癌病人无病生存期的关联。
这当然不能用线性回归的方法,而得用生存分析。
结果就是没有结果,治疗前贫血和不贫血,在治疗后没有差异,而且不管怎么将红细胞数量分组都不见差异。
美眉很是失望,一直念叨着自己原来那条拟合线很直很漂亮的,咋就会没有差异呢。
我说妹妹啊,你选这个软件的功能,就是要画出条直线来呀。若是不直,那才奇怪呢。
三
科学研究是最容易被表象所蒙蔽双眼的,统计结果往往都只是幻象,一些先入为主的主观意愿很可能被错误的解释为原因。
再回到撒哈拉大沙漠,又有一批人冒险徒步穿越了,这次职业不再是因素。
这次救援队又晚到了好几步,不过这回探险团中还活着2个人。
他们不是统计师,只是1对情侣。他们被发现时是面对面拥抱在一起的,而且是脸贴着脸做着热吻状。
好事的记者拍下了一张经典的照片,写出了“爱情的力量”的评论员文章,也算火了一把。若是有朋友圈,肯定10万+。
一时大家都纷纷表示又相信爱情了,还说意志力是有作用的等等。
偏偏严谨呆板的科学家最不罗曼蒂克了,很快解开了真相。
他们认为,的确是脸贴着脸做热吻状的姿势救了2人,但绝对不是爱情的力量,而是这样鼻子对着鼻子的呼吸,可以将各自呼出的水气,互相的被对方吸回“利用”,从而减缓了2人的水分丢失。
所以,即便是2个大老爷们,如果能酱紫也能活得长,画面稍显重口味又有什么好怕的。
四
这种表象误导,笔者也有经历。
那年媒体炒作“过度治疗”比较多,有专家就找上门来,希望能够给出个权威说法,予以批驳。可见研究假设带有极端的倾向性。
方法是利用肿瘤登记中随访信息收集到的治疗手段变量做为生存分析的因素,治疗手段用的越多,生存结局是好还是孬呢?
笔者当时也觉得这是个好主意,而且做起来也方便。统计结果还真得非常“理想”,多的和少的差异十分显著。
出idea的专家也很开心,已经将结果做成PPT准备参会献演了。
笔者突然醒悟了,连忙电话阻止,避免了专家的此次“现眼”。
这个研究存在的谬误是因果次序倒置,表面上是治疗手段越多,生存期越长,但也有可能是因为生存期长了,所以有时间和精力接受更多的治疗手段。应该是互为因果的关系。
另一方面,由于治疗手段部分的信息,是通过社区随访调查获得的,而不是诊疗机构报告的。因此存在时间差和信息差。
尤其是生存期越短的病例,社区成功随访到的几率就越小,那么能调查到的治疗手段信息也就越少了。
五
这次虽然阻止及时,但专家并不领情。后来TA给自己的团队专门招聘了一名统计师,学历背景还挺高,结果却是“出师未捷”丢了人。
这回折腾的是专家自家收集的数据,有关手术和生存结局的,结论是做过手术的比没做过手术的生存期长。
由于因素和结局单一,所以整体研究就显得单薄,因此又增加了一个“癌症是否转移”的中间指标。
于是就得出来一个堂而皇之,令人乍舌的结论:做过手术的比没做过手术的,癌症更容易转移。
这下好,参会听讲的观众全都炸锅了。用脑子想一想,如果真是这样,那还给癌症病人开什么刀呀?
专家还在那里捣鼓可能性的理由:什么有可能是普遍存在开不干净的情况,手术刀划来划去会引起种植转移等等。
其实是什么呢?笔者的理解是:没做手术的很可能原发灶就致死了,生存期本来就短,压根没有条件和时间发生转移嘛。而对于前一个结果,也不能下定论,极有可能是做手术相比没做手术的,身体素质和家庭条件等基础水平就好呢,唯有控制变量才能得出结论。
所以,统计有风险,解读需谨慎!
本文是春晓医生参与肿瘤登记项目的心得体会,所有文字仅代表个人观点,用于分享交流。
欢迎参与和关注本项目的同行留言,您的想法和建议,将有助于工作的开展。