美发布“泛癌症图谱”颠覆传统认知
作者:王琪峰 萧野
【日前,美国国立卫生研究院首次发布了“泛癌症图谱”,以27篇论文的形式发表在国际期刊《细胞》上。研究人员对患有33种癌症的约1.1万例患者进行了详细的肿瘤基因测序及分析,“绘制”出了部分癌症的基因组变化图谱。该研究全面而透彻地指出了一些癌症的发病机理,颠覆了癌症的分类方式和治疗方法。有专家评价,它是十多年来开创性癌症研究的“巅峰之作”,为未来选择精准治疗方案、高效开发新药提供了“路线图”。那么,这份癌症图谱何以获得如此高的评价呢?】
癌症研究有了“谷歌地图”
2018年4月5日,美国权威医学杂志《细胞》刊登了该国“癌症基因组图谱研究(The Cancer Genome Atlas)”项目的最新成果——“泛癌症图谱(Pan-Cancer Altas)”。该图谱对33种癌症、11286份肿瘤样本进行了分析,以27篇论文的形式轰炸式发表。
癌症基因组图谱研究项目(英文简称TCGA),是2006年美国国家人类基因组研究所和美国国家癌症中心联合发起的。TCGA的第一阶段为试点项目,以肺癌、卵巢癌和胶质母细胞瘤作为研究重点。TCGA第二阶段计划完成20~25种不同癌型的分析,于2013年截止临床收案,共研究了33种类型的癌症,其中包括10个罕见癌种。这两家牵头机构都隶属于美国国立卫生研究院(NIH)。该项目投入的研究经费多达3亿美元,共有20多家研究机构、超过150名科研人员参与其中。累积的信息量为2.5拍字节(“拍字节”即计算机存储单位PB,1PB等于100万GB),如果用DVD来储存,至少需要53万片DVD。基于这些数据和信息的分析,TCGA形成了“泛癌症图谱”。
泛癌症图谱的内容分为三大类别,每个类别都以一篇摘要论文为基础,描述该主题的核心结果,主题包括癌细胞来源样式、致癌进展以及致癌讯息传递路径,再通过多份研究报告深入探索这些类别中的各个主题。
“关于一种癌症如何与另一种形式的癌症有关的探讨,可能具有真正的临床意义,”美国加州大学圣克鲁兹分校生物分子工程学教授、泛癌症图谱倡议组成员乔什·斯图亚特说,“在某些情况下,我们可以了解的疾病中借用临床实践方案,将其应用于治疗方案不明的癌症。”泛癌症图谱是“是迄今为止最全面的跨癌症分析”,为今后更好地收集抗癌药物临床试验数据信息、选择精准治疗方案、高效开发新药提供了路线图,被称为“迄今最全面的跨癌症研究”和“人类癌症研究的谷歌地图”。《细胞》杂志还开辟了一个专门网页,收录这些论文,供全球学者下载阅读。
不按长癌部位而以分子特征分类
癌变,是指细胞基因突变后导致细胞不受机体控制,恶性增殖,最终引起恶性肿瘤形成。突变是关键的致癌基因进程之一。90%以上的癌症始于基因突变。从一个小小的基因突变到形成张牙舞爪的癌细胞大军,其中包含无数的“分子变化”。
传统癌症的分类多以患病部位为标准,比如胃癌、肝癌。在癌症的发展过程中,病原体和炎症等导致突变因素,都会影响癌细胞的基因组,这就造成传统分类上的同一种癌症,可能在“分子水平”上具有很大差异。人体不同部位不同细胞类型的基因组改变,会导致数百种不同形式的癌症。
2013年9月,加州大学圣克鲁兹分校的乔什·斯图亚特教授和加州大学旧金山分校的临床肿瘤学家克里斯托弗·本兹等研究人员,完成了第一波跨肿瘤比较。当时,他们分析了TCGA项目提供的12种肿瘤图谱。斯图亚特说:“当我们发现了不同类型的癌症之间有相似之处时,大家希望能够做一个更全面的分析。”2014年,科学家们对肿瘤的分子数据进行统计分析,将肿瘤按照亚型或簇(clusters)进行分类。之后,国际科学家团队对TCGA肿瘤数据的完整集合,从“分子水平”的角度详尽分析了致癌突变与基因、蛋白各分子层面的作用,相当于给癌症“重新画像”,让人们能更清楚地“看见”癌症如何生长。
从泛癌症图谱的研究结果可知,根据肿瘤细胞和基因组成而非起源部位,被分析的33种肿瘤可以被重新划分为28种不同的分子类型,即不同的亚型或簇。例如,头、颈、肺部、食道、膀胱及子宫颈的鳞状细胞癌,以往根据发生部位的不同而分成不同肿瘤,但其实它们都有很强的分子相似性,可划归为一类。此外,胃部、结肠和直肠等部位发生的癌症属同一系统,也具有分子相似性,也可划为一类。而肾癌等部分癌症虽在同一器官发生,却可能是截然不同的分子亚型。
靶向药物可能用错了地方?
研究者估计,如果以分子特征作为基准,那么至少会有1/10的癌症患者需要重新分类并采用新的治疗方案。本兹教授指出,基于此,美国FDA批准原本用于治疗某一种癌症的特定免疫疗法,可能也会使其他多种类型的癌症患者受益。根据TCGA的分析,有半数以上的基因突变可以使用已获准的“靶向药物”进行针对性治疗,原因是过去这些靶向药物可能“用错了地方”。
TCGA强调,不该根据癌症是先在体内哪个部位(例如肺、肠或胸部)发现、产生来进行治疗,而要看它属哪种分子类型的肿瘤。若患者的肿瘤能首先根据基因组和分子组成进行分类,他们将有最好的机会获得最佳的治疗。
揪出853个罕见遗传基因突变
诱发癌症的基因突变可分为两大类:第一类是从父母方遗传到的生殖细胞系突变;第二类是因为老化、抽烟或其他环境影响所造成的体细胞突变。大多数人罹患癌症的原因来自体细胞突变,生殖细胞系突变相对而言并不常见,约有5%~10%的癌症病患具有强烈家族遗传史。
找出这些癌症高风险家族,早期进行预防性医疗,是癌症精准预防的新挑战。基于大数据,挖掘癌症遗传风险、绘制癌症遗传风险图谱,是癌症研究的前沿领域和热点方向,而且能够广泛应用于癌症风险筛查、癌症分子预警、癌症精准体检和早诊,是临床辅助决策的重要基线之一。
TCGA展现了“迄今最全面的癌症遗传风险图谱研究”:对无数肿瘤基因组的DNA、染色体和RNA进行编目,与相应的正常细胞基因组相比,并分析它们的表观遗传和蛋白质结果,进而发现人体细胞DNA、RNA、蛋白质和表观遗传水平上的“分子畸变”。该项目对约1.1万个患者的14.6亿个基因突变进行鉴定,最终发现其中有853个罕见的遗传基因突变,这些突变会导致癌症发生、发展,在多种癌症中很常见。
这些发现有助于解释一些癌症的遗传性,为遗传变异分类和检测等下游研究奠定了基础。该研究由美国圣刘易斯华盛顿大学、哈佛大学-麻省理工学院Broad研究所、贝勒医学院、梅奥临床医学院和西安交通大学等13家研究机构历时近3年合作完成。
和遗传基因相关的癌症包括:卵巢癌、胃癌、乳癌、前列腺癌、神经胶质瘤、头颈部肿瘤、子宫内膜癌、肾癌、多型性神经胶质母细胞瘤等。研究人员圣刘易斯华盛顿大学的医学副教授丁莉(音译)表示,通过对上万个肿瘤样本的分析,研究人员从细节上了解了哪些遗传性突变会驱动癌症,并认识到随年龄增长而不断积累的基因错误,使肿瘤形成了特定的分子特征,现在可以利用癌症的分子特征揪出致癌细胞。
丁莉表示,早期大多数临床试验的设计并没有考虑到基因组学,现在可以对患者的肿瘤样本进行测序,寻找其基因组学与药物疗效之间的相关性,这将帮助医生设计更好的医疗方案。
TCGA指出,针对肿瘤组织旁边的健康组织进行测序,对于优化治疗非常重要;还可以针对不同基因特性,在临床上通过预防性检测、标靶治疗甚至预后监测(在医学上,“预后”是指根据经验预测疾病发展情况)等不同方式,预防或治疗癌症。
“安吉丽娜·朱莉基因”突变会引发哪些癌症?
“泛癌症图谱”还加深了对于某些基因突变的研究。比如,BRCA1和BRCA2是两种具有免疫作用的基因,一旦出现突变就可能导致乳腺癌或卵巢癌,这在以往的研究中已经得到确认。国际知名影星安吉丽娜·朱莉就是因为查出有BRCA1突变,并且有乳腺癌家族史,所以才采取了预防性的双乳切除术。“BRCA1”和“BRCA2”两种跟乳癌或卵巢癌有关的基因,也因此被外界称为“安吉丽娜·朱莉基因”。
可是人们并不清楚BRCA1和BRCA2的哪些突变是无害的,哪些会引发何种癌症。泛癌症图谱发现,BRCA1和BRCA2有21种突变可能引起乳腺癌,3种突变可能导致宫颈癌,1种突变可能引起直肠癌,还有1种突变可能引起恶性胶质瘤,38种突变可能引起卵巢癌。
样本采集是关键 形成基因鉴定流程
TCGA还强调了一个问题——样品的获得,这也是研究中最大的财政负担。TCGA最初只有3个实验性项目,收集的数据不足以在基因分子水平上给各类癌症“画像”并分析其机理。十余年来基因测序技术飞速发展对癌症研究发挥了重要作用,然而找到合适的方法采集样本、提取分子研究物和进行分子鉴定,仍是癌症基因研究的关键所在,这是所有后续研究的基础,难度最大,成本也最高。
经过多年实验,TCGA形成了一套基因鉴定流程,这套流程被美国癌症基因中心广泛用于各种癌症基因研究项目,将病患提供的癌症组织样本加工成可供今后多年科研使用的数据。
TCGA生物标本核心资源项目的负责人罗伊·塔努泽博士表示,“只有样本及其临床指标合格,其他研究才有可能合格。在开展研究之前,先要搞清楚需要什么样的标本和临床数据。”比如,研究肿瘤对化疗的反应,就要知道化疗的时间和剂量;研究相邻的正常组织,就要弄清肿瘤与正常组织之间的距离有多远。
在TCGA刚启动时,研究的主要目的仅局限于绘制癌症基因突变的图谱,所以只需要收集为数较少的基础数据;而目前的研究将癌症基因突变与临床结果相联系,需要采集的临床数据已经超过125项,而且要根据统一标准进行采集。开展大规模的基因研究总会遇到波动和偏差。即便像TCGA这样已经开展了十余年研究,其样本采集流程至今依然在不断完善。
TCGA大规模搜集特定癌症病患的信息数据,并在其官网公开了定序数据与分析结果,供大家浏览及下载,目的是打造完整的癌症基因组信息,有助于人类癌症的预防、诊断与治疗。
云技术为所有科学家提供平台
从海量的基因数据中分析出有效的防癌治癌信息,无异于大海捞针。如今,全球的基因数据正以每年1泽字节(相当于1万亿GB,或者约2500亿张DVD的容量)的速度增长。癌症基因研究注定与大数据密不可分。
将癌症基因数据与患者的其他数据结合起来,如表观基因组、蛋白质组、影像分析、治疗结果、病例人口分布等,再进行分析,无疑会使研究人员对癌症的认识更深入、全面。可问题是,随着大量数据产生,对其有效加以利用的难度也越来越大。如何解释不同研究得出的数据?如何使不同格式的数据兼容?对研究者来说,若不能很好地解决这些问题,那么无数的基因图谱终将变成一座座寻不到出口的迷宫,而非指明方向的“谷歌地图”。
2016年,美国国家癌症研究所发起了基因数据共同体项目以及另外3个癌症基因云项目,制订了一套标准化的基因数据提交程序,以确保数据合格、统一格式,并保证数据可以安全获得。3个基因云项目则与谷歌和亚马逊的商用云平台合作,使癌症基因数据的下载快速便捷,又大大降低了数据的使用成本。云技术除了让研究者可以利用平台上现有的尖端分析流程,还让他们能将自己研发的研究工具上传到云平台上。在癌症基因云项目开展不到一年的时间里,就有美、澳、法、印等多国研究人员上传了数据。
人类已知癌症已经超过200种,但目前对它们的认知还只是冰山一角,科学家相信,凭借人类的勇气、智慧和不懈的努力,癌症隐藏的秘密迟早会被一一揭开。
本刊原创,如需要转载,请联系《环境与生活》杂志。
责编:叶晓婷
网编:崔悦 吴燕芳