深度学习如何更好的用于癌症诊断?
癌症的诊断通常依赖于医生综合临床、放射学或病理学上肉眼进行综合判断。例如在临床检查过程中,皮肤科医生注意到疑似黑色素瘤病灶的不规则边界和异常颜色。同样,审查乳腺x射线摄影的放射科医生也会注意到乳腺癌的异型性。在这两个例子中,与大多数癌症诊断一样,活检最终被用于辅助诊断。然后病理学家在显微镜下对细胞异型性进行观察以帮助做出诊断。
癌症诊断中使用的大量数据为机器学习算法提供了一个独特的机会,随着经验和数据的增加,机器学习算法在预测性能上得到极大改善。机器学习算法可以是监督的,也可以是无监督的,监督算法依赖于使用标记数据(例如,正常和异常乳腺x射线摄影的标记照片)进行预测,而无监督算法则在于发现无标签的隐藏模式和关系。
当将机器学习应用于癌症诊断时,目标通常是学习如何将输入样本(如临床、放射学或病理学图像)归类为预定义类别(如良性或癌性)。这些类别可以是特定诊断(例如黑色素瘤)或诊断类别(例如恶性与良性)。在监督学习框架中,这些算法依赖于一组标记数据的训练集来学习每个类别或诊断的代表性特征。
对于图像分类任务,深度学习取得了重大成功。深度学习依赖于具有许多隐藏层的多层神经网络,由连接的人工神经元组成,对输入数据进行数学运算。图像任务往往依赖于卷积神经网络(CNNs),这是一类特别擅长对图像进行分类的神经网络。在医学领域,深度学习算法被应用于不断用皮损照片进行训练,并通过此模式预测是否出现皮肤癌。在训练过程中,将标记的图像数据输入神经网络,并进行滤波(即卷积)和子采样(即合并)步骤,以便网络学习图像特征。就像网络学习简单的图像特征一样,它调整神经网络后期层的权重,以优化成像特征与输入图像分类之间的关系。
图1.对皮肤病变进行特征提取在图2中,作者展示了如何为图像分类任务实现深度学习模型的概述。第一步,根据任务选择模型架构。对于图像分类任务,在ImageNet上预训练的深度CNN是一个常见的选择,ImageNet是一个包含128万张图像的数据库,超过1000个类别。这种预训练的好处是,该模型已经具有任何图像识别任务所需的基本线条和形状的表示。然后使用标记训练和验证数据对该模型进行训练,以优化神经网络中的权重,并定义预测和已知真实标签之间的差异。训练期间使用单独的验证集来了解模型的性能,并确保网络不会过度拟合数据。一旦模型经过训练,将在独立的测试集中进行测试,以便对其最终性能进行评估。例如,为了检查临床深度学习算法是否可推广,独立的测试集数据可能来自不同的医院系统。未来,这些模型最终可以在临床环境中进行前瞻性测试,以证明其在现实世界环境中的临床实用性。
图2.深度学习模型用于图像分类图3. 有助于评估临床深度学习算法的开发和应用的四个问题问题1:临床任务和深度学习任务有何区别?
深度学习在医学中的应用旨在以更快、更准的效率,最终使人类目前执行的任务实现自动化。其中分类任务是否代表了实际的临床工作流程等问题值得讨论。
例如,Esteva等人创建了一个深度学习模型,能够区分良性与恶性皮肤病变。他们的团队使用一个深度CNN对代表2032种不同皮肤病的129450张临床图像进行训练,将这些图像分为757个疾病类别。在测试他们的CNN时,他们测试了模型将图像分为三类的能力:良性病变、恶性病变和非肿瘤病变。他们还观察了CNN根据相似的治疗方式将图像分为9类的能力。最后,他们在活检证实的图像上测试了他们的CNN,看看该算法是否可以区分恶性角质形成细胞病变和脂溢性角化病以及黑色素瘤与良性痣。
虽然他们的结果很有前景,但所提出的任务并不完全代表皮肤科的临床工作流程。进行全身皮肤检查的皮肤科医生必须在决定此类病变是否代表恶性肿瘤之前首先确定关注的病变。在皮肤检查过程中,触觉反馈提供了更多信息。皮肤科医生还考虑了患者的病史、病变史和其他风险因素。相比之下,CNN表现为已经确定的病变进行预测。识别黑色素瘤与良性痣或恶性角质形成细胞病变与脂溢性角化病仅捕获临床医生任务的一部分。黑色素瘤可具有不同的表型:良性痣、脂溢性角化病、色素基底细胞、血肿和血管生长只是可能酷似黑色素瘤的一些病变。在Esteva等的论文中,3类(良性病变、恶性病变和非肿瘤病变)和9类(基于治疗方式)分类任务近似皮肤科医生做出的一些分诊决策,但仍不能包括完整的临床工作流程。最近,Liu等人开发了一种机器学习算法,使用来自26种不同皮肤病诊断(包括黑色素瘤、基底细胞癌和鳞状细胞癌)的患者图像和病史生成前三种鉴别诊断。Liu等人结合了额外的病史、考虑的诊断扩展和鉴别诊断的产生,其算法更接近临床领域。
问题2:用于训练机器学习模型的基础数据的鲁棒性如何?
在评估模型性能时,考虑模型的基础数据非常重要。重要因素包括数据判定、患者入选和排除标准以及患者代表。数据判定很重要,因为“垃圾输入”可能导致算法“垃圾输出”。对于每项机器学习任务,应设定金标准进行适当的数据标记。例如,对于皮肤癌,临床护理中的金标准是病理证实,而不是简单的临床评估。合适的标签训练/确认和合适的测试数据并不总是简单的,因为临床任务可能与诊断终点不同。即使在病理学内,关于如何看待病理学证实仍存在争议。即使使用基于病理学的金标准,也存在局限性,病理学家在包括黑色素瘤在内的多种癌症类型中记录了观察者间的分歧。为了使模型适用于广泛的患者人群,训练数据需要代表该人群。为此,有必要详细描述用于选择患者或患者样本的入选和排除标准。此外,患者人口统计学的详细描述同样重要。例如,皮肤癌在较暗皮肤类型中的患病率要低得多;然而,它仍然会发生。基底细胞癌是最常见的皮肤恶性肿瘤,高加索人的年发病率为212~250/10万,非裔美国人的年发病率为1—2/10万,中国人的年发病率为5.8—6.4/10万,西班牙裔个体的年发病率为50—171/10万。然而,大多数利用深度学习从图像数据预测皮肤癌的研究在很大程度上排除了其训练/验证和测试数据中较暗的皮肤类型。在评估训练/验证和测试数据时需要考虑的另一个问题是类别是否平衡。类别不平衡意味着对特定类别的显著偏斜;因此,接受过高度不平衡数据训练的算法最终可能过度分类。问题3:模型如何进行设计?
深度学习架构的选择会极大地影响模型的性能。大多数图像分类任务使用CNN,原因在于其学习图像特征的能力在这类任务中表现特别好。目前有几种标准体系结构可用,它们的网络深度和连接模式不同,对图像施加了不同的先验。目前流行的体系结构包括ResNet和Inception,它们捕获了从计算机科学中吸取的经验教训,并使用深度学习算法代表了图像分类的最新技术水平。
当所用体系结构未被明确描述时,我们可能难以理解基础算法或尝试复制它。例如,McKinney等人旨在使用深度学习模型根据乳腺x射线摄影图像预测活检证实的乳腺癌。然而,该模型被描述为三个不同模型的集合,其细节未被完全描述,也未被描述集合中每个模型的性能贡献。将机器学习应用于医学的一个主要问题是,当更简单或更小的模型也可以做到时,存在过度工程化。一般而言,如果在一篇论文中使用了新的体系结构,则应该与标准基准进行比较,以帮助证明使用新体系结构的合理性。
问题4:如何评估模型?
了解如何评估模型对于了解模型在现实世界中的应用非常重要。一个在训练数据中表现良好但在测试数据中表现较差的模型可能会存在过度拟合。评价机器学习算法的指标包括灵敏度、特异性和阳性预测值。在研究中,应根据独立测试集上模型的性能计算评估指标。通常,该独立测试集是回顾性的;然而,为了真正验证深度学习算法在临床任务上的普遍性,考虑到真实世界数据和回顾性数据之间的差异,需要进行前瞻性应用和评价。医学干预疗效的金标准是随机对照试验(RCT),目前已经制定了使用AI的RCT指南。迄今为止,已有一些使用AI算法的RCT研究,结肠镜检查期间的腺瘤检出率(ADR)被用作结肠镜检查的质量指标;尽管它是重要的临床结局的替代临床指标-减少结肠癌的数量。
第二项研究评价了AI辅助食管胃十二指肠镜检查(EGD)在评估上消化道疾病(包括胃癌)中的额外价值。Chen等人测试了AI辅助工具帮助降低盲点率的能力。他们的前瞻性、单盲、随机试验在单中心进行,包括3个平行组(未镇静超薄经口内镜检查、未镇静传统EGD和镇静传统EGD),每个组均有AI辅助组和AI无辅助组。在所有三组中,研究的AI辅助组的盲点率显著低于无AI辅助组的盲点率。
此外,最近的随机对照试验证明了另一个重要的现实——在大多数情况下,真正的临床评价将需要使用AI工具而不是AI工具来替代医生。临床医学总是存在一定水平的不确定性,一个临床病例可能不会整齐地落入AI算法预测的类别。鉴于临床护理的复杂性和训练数据的局限性,创建一个完全取代医生临床工作流程的AI工具目前并不可行。
总结
医生手中经过严格评估的AI工具有可能改善工作流程、提高准确性和降低成本。AI不仅提供了构建改善医生工作流程工具的机会,还提供了完成之前不可能完成的任务的机会。AI算法能够识别人类无法辨别的模式,这为无尽的创造性应用提供了潜力。人工智能有可能在几个不同的领域彻底改变癌症诊断。通过批判性思考机器学习算法如何与临床工作流程、设计和测试数据一致相结合,医生可以了解机器学习的潜力,并在其开发、评估和部署中发挥关键作用。
参考文献:Daneshjou R, He B, Ouyang D, Zou JY. How to evaluate deep learning for cancer diagnostics - factors and recommendations. Biochim Biophys Acta Rev Cancer. 2021 Apr;1875(2):188515. doi: 10.1016/j.bbcan.2021.188515. Epub 2021 Jan 26. PMID: 33513392; PMCID: PMC8068597.版 权 信 息
历史文章推荐