基因遇上AI,这家公司如何用人工智能助力肿瘤早筛?

文 / 动脉网
2018-06-23 09:03

也许是缘分,从学生时期到工作、再到创业,张新军从来没有离开过生物信息领域。

哈尔滨工业大学(哈工大)是国内最早设立生物信息专业的高等院校,这是张新军梦想的发源地,从本科开始他就在这里生物信息学知识。后来他创业的团队也几乎来自这里,成员大部分是自己同校的师兄或者同学。

“大家背景比较相似,也比较了解。”他这样告诉动脉网。

2009年硕士毕业后,张新军又远赴美国求学。这次他来到的是美国印第安纳大学,研究课题是用机器学习算法去预测可能导致疾病的基因突变。用在肿瘤基因组的海量数据分析上,可以用来识别相关的驱动突变。这是现在Deep Diagnos算法模型的雏形。

2015年博士毕业后,张新军进入了全球最领先的医疗器械公司之一——赛默飞世尔。这家公司测序仪的市场覆盖率仅次于Illumina。他倒是进入的就是临床科学部门,负责测序仪上的软件设计。

“我当时的工作就是设计软件来分析患者血液中的游离DNA,检测出患者是否携带一些特定的突变,是否能够寻找到合适的靶向药物。”他回忆道。简而言之,就是伴随诊断的数据分析处理。

技术的追随者

2014年开始,二代测序技术使得基因测序行业得到了极大的发展,液体活检技术也在不断的成熟,许多公司开始将这项技术用于肿瘤的检测、辅助制定治疗方案、甚至早期筛查。

“通过液体活检技术,可以从血液里面检测到非常微量的循环肿瘤DNA。但仅仅检测DNA突变是做不到癌症早筛的。”DeepDiagnos CSO胡杨博士表示。

胡杨是他在哈工大的校友,目前在哈佛大学从事博士后研究工作。胡杨在神经/免疫疾病和人类复杂疾病功能注释及其相关研究领域共发表SCI 论文21 篇(其中第一作者或通讯作者论文15 篇),累计影响因子75。

胡杨与张新军是我多年好友和同学,也是DeepDiagnos最早的成员。“2017年最开始有创业想法时,我就和胡杨讨论过,之后决定一起创建团队”张新军回忆道。另外一位合伙人程亮同样是哈工大的校友,2016 年 9 月被破格评为哈尔滨医科大学生物信息学院副教授,2017 年被选为中国计算机学会生物信息学专业组委员。

胡杨认为,要实现癌症早筛,必须要解决两个问题:一个是判断检测到的突变是否意味着癌症已经发生;另一个则是判断癌症发生的部位在哪里。液体活检提供了无创检测的先决条件,即数据产生的环节,但后续对数据的分析则需要依靠强有力的机器学习、深度学习的介入。

“癌症最复杂的问题之一是如何识别驱动型突变,也就是直接导致癌症发生的突变。依靠我们自主研发的AI算法,我们可以准确识别驱动突变,分析癌症是否已经发生,甚至找到发生病变的位置。”张新军补充说道,“这样才算完成了整个筛查的过程。”

2017年,DeepDiagnos团队组建完成,正式开始了创业征程。Deep Diagnos的团队成员均来自于哈佛医学院、斯坦福大学,以及赛默飞世尔、阿斯利康等著名跨国企业。

国内国外团队算起来差不多10个人,坦白说,目前公司团队并不大,国外团队主要负责技术研发、诊断模型设计,国内负责收样和政府对接工作。

麻雀虽小五脏俱全。

高效筛选肿瘤标志物,用AI算法的力量挑战肿瘤早筛

目前肿瘤早期筛查主要有两个技术流派,一个是以Grail等公司为代表的甲基化测序路线;另一个则是以John Hopkins大学的CancerSeek为代表的基因突变结合蛋白标志物的路线。

两个技术流派代表了不同的方向。甲基化路线是通过提取游离肿瘤DNA并进行甲基化测序,分析甲基化模式来判断肿瘤的部位。甲基化的特点在于能够很好的判断肿瘤的组织来源。

大家比较熟知的是甲基化在肝癌诊断中的应用,而对于其他癌症,甲基化诊断的研究并不多。而且对于甲基化用于早期癌症诊断的准确性,还没有非常有说服力的研究数据。

DeepDiagnos采用的则是与CancerSeek类似的技术,这种技术的特点是操作流程相对简单,算法模型的稳定性高,而且费用低。只需要检测固定的一些突变位点和常规血清标志物,就可以实现准确的肿瘤筛查和并判断组织来源。

deepDiagnos工作流程图

张新军向动脉网介绍说:“2018年4月Grail披露了一批研究数据,从中看来CancerSeek模型的预测效果并不亚于全基因组甲基化数据。而且由于Grail使用的是全基因组甲基化数据,成本至少是CancerSeek的十倍以上。但是CancerSeek也绝非完美,它目前对于I期肿瘤的诊断效果不好,但对于早筛来说一个非常不错的开始。”

和CancerSeek最大的区别是,DeepDiagnos采用他们自己的AI算法来精准筛选驱动突变,而CancerSeek是靠“经验主义”选取常见的驱动突变。AI算法的明显优势在于:如果某种癌症的相关研究较少,仅靠经验可能无法获得足够的突变位点,势必会影响模型的准确性。而依靠传统的研究方法去探索新的驱动突变,是一个非常艰难且漫长的过程。

DeepDiagnos自主研发的驱动突变筛选算法,可以快速的分析完一个患者的全基因组数据,并准确的找出其中的驱动突变。

由于肿瘤患者的基因组差异性高,两个患者携带同一组驱动突变的概率非常低,因此学术界熟知的那些驱动突变无法覆盖所有的患者。只有依靠强大的AI算法才可以确保不漏掉任何一个有意义的突变位点。

利用自主研发的算法,实现高精度的全基因组筛查,发现癌症相关的驱动基因突变

AI算法的优势更体现在处理人种差异上。例如对于非小细胞肺癌,东亚患者的EGFR突变率显著高于欧美患者人群。

因此可以预见,如果只参考常见的驱动突变,可能会漏掉一些亚洲人群的特例。但是对于AI算法来说,就不存在这个问题。

胡杨介绍,他们的算法模型主要分为两个部分。第一部是肿瘤的判断,他们首先通过算法挑选出了一系列的突变基因列表,通过这些突变来判断肿瘤发生的可能性。第二部分则是按照不同疾病分别来构建模型,将检测到的数据放到模型里进行打分,然后将结果按得分的高低顺序排列,分数最高的发生的可能性更高。

“这其实是一个量化的过程。”他这样解释。

数据获取是最大困难

在过去一年里,团队主要集中精力在攻克肺癌早筛。“这种癌症发病率高,但是早期患者的预后很好,治疗方案发展也比较快,所以早诊比较有意义。”胡杨表示。

但算法模型的开发也并非易事,最大的困难就是高质量数据的获取。机器学习模型构建好后,需要大量临床数据用来训练和测试,样本量越多,所得出的结果也就越准确。

“随着收集的数据越来越多,模型的性能会越来越好,算法部分将是一个持续迭代的过程。”他表示,但收集高质量的数据这个过程本身就是困难的。

通过多年的数据积累,他们拥有了1000多例肿瘤基因组数据,覆盖多种常见的癌症

他们最先获取到了部分半公开的数据。但明显这些数据是不够的,数据量级和多样性并不够。与哈医大三院接触多次后,他们终于与医院达成协议,将临床科研数据用于模型训练。

“一开始一种癌症可能只需要几百例样本,但随着产品向市场推进,需要的样本量会越来越多。”张新军向动脉网解释。体外诊断产品推向市场分为三个阶段,第一阶段叫做前瞻性研究,可能只需要几百例样本来验证原理;第二阶段则是多中心独立试验,需要的样本量是上千例;这些试验都是为了保证产品的可靠性,并为以后的上市审批做准备。

此外,DeepDiagnos还与另外两家肿瘤医院也达成并签署了合作协议,通过这些医院收集样本进行前期的科研合作。

他向动脉网透露,目前肺癌早筛的panel已经开发完成,其中包含了多种肺癌相关的突变基因和蛋白标志物。在此基础上,他们完成了一套算法模型开发,能够分析计算受检者是否已经发生了癌症,并能够量化癌症发生的部位和阶段。

“这个模型后续还可以扩展到泛癌症。”他补充道。据了解,团队目前已经开始了结直肠癌诊断模型的研发工作。

产品目标:降价,进入医保体系

与专注于液态活检的公司不同,DeepDiagnos给自己的定位是肿瘤I、II期的泛癌症检测。他们希望通过精准的预测,让患者在肿瘤发生的早期阶段就能够有所意识、有所行动。

这也使得其产品拥有了多样的产品形态。一方面,产品能够像体检项目一样,承担健康监测的职能。例如与保险公司合作,为高危人群提供每1到3年一次的筛查服务;另一方面,它也能够像其他的体外诊断产品一样,成为临床肿瘤辅助诊断的工具。

“和保险结合肯定是要走的一条路。中国有几亿人口的烟民,其中肺癌的高危人群也可能达到一亿。这对早筛来说是一个非常大的市场。”胡杨表示,“另外还有一些家族遗传的突变基因携带者,所以体检市场是非常可观的。”

“我们最终的愿望还是希望产品能够进入医保体系。这也是大多数体外诊断(IVD)公司的愿望。”他补充道。

尽管相比MRI和PET-Scan检测,基于液体活检的早筛成本已经大幅降低,但这个成本离产品的大规模市场普及还有一定距离。

美国的医疗与商业保险结合非常密切,他们可以通过与保险公司合作,帮助保险公司去筛选一批高危的人群,为他们提供规律性的筛查,来减少未来的医疗费用开销。

对高危患者来讲,保险公司的介入则能够鼓励更积极的筛查,降低患病风险的同时也为患者减少潜在的医疗费用支出。

“这对保险公司和用户来说都好事,就好比美国牙医保险都会提供每年两次免费的洗牙,来降低未来患上严重口腔疾病的概率,为保险公司省钱。”张新军表示。

“一开始可能会有些高端用户,通过自己付费的方式进行检测。但如果能够进入医保体系并随着用户人群的扩大,成本平摊效果越来越显著,相信价格会变得十分亲民,用户群体将扩大很多。”他认为,如果最终给到用户的客单价能够控制在3000元人民币内,将会有很大一部分高危人群会在每1-2年内进行一次检测,每年受检人群估计在五千万到一亿人次左右。

在进入医保之前,他们会以临床实验室自建项目的方式进行销售。接下来,肺癌的早筛产品将进入前瞻性临床研究,并为临床医疗器械资质申报做好准备。

下一步,人才和科研

目前公司正在准备肺癌早筛产品的临床试验工作,并在申请政府资金和政府项目。结直肠癌的产品模型也在研发过程中,后续产品也将紧跟肺癌产品进入市场。

接下来,人才扩展将是重心之一。“现在基本上把周围的师兄师弟都骚扰了一边。”张新军调侃道,“这些人基本上都在哈佛、斯坦福等顶级院校从事科研工作,是目前公司需要的人才。”

另外一方面则是与国内外科研院校的对接,他们希望寻找到更多的美国和中国的科研院校进行合作,对更多的早筛产品进行进一步的开发和验证,也为后续的临床试验奠定基础。

据悉,公司已经完成了数百万人民币的种子轮融资,资金主要用于项目启动和技术研发,目前有融资需求。

文|周梦亚

微信|rencontre_my

网站、公众号等转载请联系授权

声明:动脉网所刊载内容之知识产权为动脉网及相关权利人专属所有或持有。文中出现的采访数据均由受访者提供并确认。未经许可,禁止进行转载、摘编、复制及建立镜像等任何使用。