专访 LP Morency 教授: 抑郁症、自杀倾向都逃不出“计算机之眼”

文 / 36氪
2017-07-04 12:12

据美国精神卫生组织估计,2015年美国有超过4000万的成年人曾患过某种形式的精神疾病,其中有1600万人(相当于美国人口的7%)经历过至少一次严重的抑郁发作。美国几乎有30%的成年人将患上焦虑症。

改善这一现状需要大量专业的、熟练的临床医生对精神疾病进行诊断,这无疑给医疗保障系统带来了巨大的压力。诊断过后,判断治疗的成功与否,以及判断患者对治疗反应的好坏程度也都是非常主观的。为了协助医生们完成这些困难的任务,研究专家们正在考虑将计算机视觉技术引入心理疾病的治疗中。

Louis-Philippe Morency 是卡内基梅隆大学的教授,他是这个领域的领军人物。MedGadget 的记者 Mohammad Saleh 与 LP Morency教授就他的“多感官技术”进行了交谈。

Medgadget:请您介绍一下您在计算机视觉和人类互动方面的工作吧。

Dr. LP Morency: 我们正在开发一种能够自动感知人类非语言行为(如面部表情、眼神、头部动作)和非语言声音(像紧张、意愿)的技术。我们这么做是为了帮助医生诊断和治疗心患者的精神疾病,如抑郁症、焦虑症、创伤后精神障碍(PTSD)、精神分裂症和孤独症等。

Medgadget: 这项技术的开发现在到了什么地步?你能介绍一下在这些算法背后的科学原理吗?

Morency: 从“计算机视觉”的角度来看,“人脸关键点检测”是我们的基本算法之一。它能自动识别人面部68个“关键点”。多年来,这些“关键点”一直被认定为是相对可靠的人脸追踪点,比如眉毛的位置、嘴巴的轮廓、眼角和下巴轮廓。这些都是之后人脸分析的基础,因为识别当下的面部部位形状有助于理解和识别面部表情。面部表情的识别通常是与“头部倾斜”和“眼神”预估相结合的。

Medgadget:那么你能从这68个面部参数中获取多少信息呢?你是如何帮助计算机通过这些参数“读懂”人的表情的?

Morency: 实际上,这些“面部关键点”让我们观察到了面部肌肉的变化,在某种程度上帮我们“量化”了面部表情。在Paul Ekman的“面部动作编码系统”中,有一些相当受欢迎的研究成果,近年来这些成果通过电视节目“别对我撒谎”变得越来越流行。其中的观点是面部肌肉能够被可靠地标记出来,而且面部肌肉能够显示出人的表情,从而反映人的感情。人脸大约有28到50个面部动作单元,因此这些面部关键点的移动和褶皱向我们反映了肌肉的变化。这样的信息现在为止还只是低级的,但之后我们会对这些信息进行研究,以寻找抑郁症、焦虑症或PTSD等病症的指标。

通过与心理医生们和一些医疗中心,如McLean医院,的合作,我们收集到了大量的数据。针对抑郁症,我们有近500个参与者与我们的系统进行交流和互动,当他们与系统交谈时我们就对他们的非语言行为进行了分析。因此,我们可以通过对这些数据进行总结和统计,然后观察参与者的非语言行为与他们的抑郁程度之间的关联性,这样我们就能识别出与抑郁症最相关的行为指标。从这些参与者的交谈数据中,我们得到了大概20个抑郁症的行为指标,这些行为指标可以作为医生的诊断参考。

我们希望这些指标最终能用于筛查,但是短期而言,这项技术主要是用于对治疗中的患者进行监测。观察同一个人的行为变化,相比较观察一个你从未见过的人的行为变化要简单得多。当你第一次见到一个人,你需要对这个人生成多方面的“标度”,你还需要适应他身上独有的特质;不过多见几次面之后,你就能比较容易地察觉到这个人的行为变化了。这能帮助医生判断治疗进展是否顺利,或治疗方法是否需要改变。

这项技术的背后其实隐藏者一些人工智能算法,它身后的许多技术都是基于人脸检测的概率图形模型的。我们最近还对深度学习和神经网络方法进行了更深入的研究。

Medgadget: 你会告诉算法这些参与互动的人都是精神疾病患者吗?还是“蒙蔽”算法,让计算机自己做出判断,并且把他们的行为与“正常”行为作对比?

Morency: 在早期,我们有一些调查研究。其中一次调查有500个志愿者参与互动,这些参与者不全是医院的病患。他们被邀请来接受我们的计算机系统的访问,或者与我们的系统进行交谈。在与系统交流之前和之后,参与者们都需要填写一份关于抑郁症、PTSD和焦虑症的调查问卷。通过研究我们发现,在这500个参与者中大约有15%-20%出现了抑郁症的症状,出现PTSD症状的人数比重与之相当,而出现焦虑症症状的比重比前两者都高。

这样的研究群体是非常具有代表性的。你可以这样想,观察大量的疾病症状是相当具有挑战性的,因为那些抑郁症非常严重的人肯定会被送入医院;所以我们找的病人都是带有轻度抑郁症症状的,而不是已经进了医院的严重抑郁症患者。尽管如此,当我们最近开始研究“自杀意念”时,我们还是与医院合作了。在与麦克莱恩医院的合作中,我们才是真正地与病人“共事”。

Medgadget: 您在前面提到了初次见到一个人时的“标度”是一个很重要的因素,尤其是在设定一个度量的基准时。那么我想知道这些算法的准确度究竟有多高呢?

Morency: 我们的研究是为了学术目的的。这个软件的目标并不是诊断抑郁症,病症的诊断始终都是医生的职责。我们的这些算法是作为医生的决策支持工具的,帮助医生进行医疗评估。但是从学术的角度来看,我们确实想弄清楚这些行为标记与医生评估的关联程度。通过研究,我们已经发现了大约78%的关联度。因此关联度虽然不是百分之百,但我们的数据却是非常重要的。我们的研究方向是肯定正确的!同样值得关注的是,当我们有了一个确定的病人访谈风格后,这些算法才是最有效的。开放式的问题能帮助我们将这些“非语言线索”集合。我们想要的是那些能揭露患者情绪和记忆的问题,当医生在问这些问题的时候,我们就能得到其中的关联性了。

Medgadget: 您对这项技术在医疗领域的前景有什么展望呢?这项技术现在处在什么阶段?将来会发生那些变化呢?

Morency: 这项技术在早期主要是关注抑郁症、PTSD和焦虑症的筛查工作;但随着技术的不断成熟,我们希望能将其用于精神疾病的治疗。我们正在与麦克莱恩医院密切合作研究医院中的病患;我们现在还在寻找一个精神疾病(包括精神分裂症和双向情感障碍)患者群体,观察他们的“行为标记”。我们希望能够更好地识别出精神疾病的具体类型,然后向医生提供实时的反馈。

Medgadget: 还有其他因素会影响到这些视觉性的“生物行为标记”的评估吗?您提到了“视觉性非语言”的方面,那您有没有考虑到“语言性”或“行为”方面的因素呢?

Morency: 既然我们现在已经从“非语言线索”中得到了这些可靠的结果,那么我们下一步就是要研究“语言”方面的因素以及他们谈话的具体内容。在研究中,我们非常关注病人在交谈中所使用的词汇和语法,以及词汇和语法的变化。之前的一些研究已经发现了精神分裂症与语言用法相关的迹象,但我们现在还是要非常关注这些语言用法,因为“非语言行为”只有被“语境化”成为“语言行为”时才更容易被理解。只有在亲眼看到的情况下,你才能更好地解读一个人的动作和面部表情。因此,我们希望我们的算法能够做到这个“多模态分析”。

Medgadget: 说的很有道理!这就像你在开着声音看电视剧的时候,绝对会比静音看要好得多。

Morency: 没错!我们早期的工作是只使用视频的。令人惊讶的是,我们竟然在静音模式还能得到这样的“行为指标”。所以加入了“语言线索”后,我们现在期待着更加有力的指标。

Medgadget: 您在前面提到了一些不同的医疗状况,这些算法本身会在不同的医疗状况之前发生改变吗?

Morency: 你可以把它看成一个“三层问题”。前面两层能很好地概括不同的群体,其中一层是“单模态”的,几乎能瞬间感知你对面部表情和延伸的量化;另一层是为进一步的识别整合信息。这两层似乎对我们的工作十分有帮助,因为我们的服务对象大部分是成年人。我们还对青少年做过一些研究,但是从来没有针对儿童的调查。因此,我们希望在这一问题上对前两层做些调整。

最后一层就是对“行为标记”进行检测,不同的“行为标记”一定是与某些疾病相对应的。我们在研究中确实发现了一些“标记”是抑郁症和PTSD共有的,但是,大部分“标记”是会变化的。

举个例子——抑郁症患者的微笑。我们本以为抑郁的人比不抑郁的人笑得更少,但我们在研究的过程中发现,这两种人微笑的次数相当,但是展现出的笑容却非常不一样。那些抑郁的人的笑容更短暂,幅度更小。他们的微笑似乎是出于礼貌的笑,而非发自内心的。

另一个非常有趣的例子来自“创伤后心理障碍”(PTSD)研究。我们原本以为PTSD患者会展现出更消极的表情,但出乎意料的是,我们并没有看到非常明显的消极表情。而当我们将男女分开以后,PTSD男性患者表现出更多的消极神态,相反,女性患者则表现出较少的消极神态。这样的结果实在是非常有趣,因为这是一种可能建立在社会规范的基础之上的“特定性别互动”——在美国文化中,男性通常能够在大众面前展示消极的表情,而女性一般需要以微笑示众。

Medgadget: 那么,考虑到社会规范因素对这些“行为线索”的影响,这些算法在不同文化中的应用程度究竟如何呢?它是不是与西方社会规范更契合呢?

Morency: 我们希望这些“行为线索”能够具有强大的概括性,但这几乎是不可能的,因为社会规范和文化价值的变化是不可避免的。比如,当一个人出现抑郁症状的时候,他就会减少眼神交流;在某些文化价值中,避免眼神交流是尊重的体现。当这两种情况同时发生时,我们希望这样的小差别还是能被观察到的。这正是我们想要测试的内容,也是我们与国际机构合作研究的重点项目。

Morency教授在2015年“世界经济论坛”上对他的研究进行了介绍

Medgadget: 您做的大部分事情貌似都是在揭露隐藏在人类交流互动背后的情感状况。您在前面还提到了将这项技术应用于自闭症的治疗,您能不能讲讲这两者之间的联系?

Morency: 一方面,我们希望用这项技术更好地对自闭症进行分类和诊断,这正是我们现在与耶鲁大学正在合作的内容。另一方面,我们还希望帮助自闭症患者与他人进行一般交流和互动。我们与南加州大学共同开发了一个系统,这个系统是针对所有人的,对自闭症谱系较低的人尤其适用。系统的目的就是帮助他们在公众场合讲话,进而让他们能够在工作面试中更好地展示自己。因此,尽管我们的这项技术主要是应用于医疗领域,但它作为一个训练系统,还能向病患用户提供实时反馈。

Medgadget:我偶然发现您还有一篇关于“自杀青少年”的“语音模式”的论文,能给我们讲讲文章的主要内容吗?

Morency: “自杀青少年”研究事实上是另外一个令人惊讶的发现。我们对于研究急诊室里那些有自杀倾向和自杀想法的青少年非常感兴趣。我们一开始是希望简单地区分那些“有自杀想法”和“无自杀想法”的青少年。先前的研究表明,语言的使用可以作为一个“标记”。那些有自杀想法的青少年会更频繁地使用“我”、“我自己”这样的人称代词,因此我们能够根据这样的语言使用习惯来区分有无自杀想法的青少年。但是我们真正希望做到的是预测青少年再次自杀的企图。所以我们在几周后再次给他们打电话,希望通过他们的声音和呼吸质量来判断是否存在再次自杀的企图。这其实是“反直觉”的,我们认为紧张的声音和呼吸是再次自杀企图的一种突出表现。但另外一种可能的假设是,他们已经完全确定了自杀的想法,所以他们的声音反而是平静的。

Medgadget: 那么在未来的十到二十年,您对于这个领域的研究有何展望呢?

Morency: 不论是医学领域还是技术本身,我们都看到了相当光明的前景。在接下来的五年内,甚至在更短的时间内,我们将会看到更多有效性研究。我们现在在“行为标记”方面已经创造了许多成果,接下来我们还将看到许多成果在不同领域的应用。这项技术还将进入到远程医疗领域,医生们并不是总能够为病人提供实地服务的,所以远程服务非常有必要,而这也将是我们未来几年研究的重要内容。

Medgadget: 除了医疗领域外,这项技术还有其他的实际应用?

Morency: 这项技术至少还有两个实际应用,其一是矿业在线视频的应用。许多人在网上发布视频表达自己对各种事情的想法,因此我们的这个“多模态系统”中的一个非常有趣的应用就是将这些视频汇总起来,并且理解视频中的内容和表达的想法。除此之外,另一项让我感到非常兴奋的研究是协助在线学习。这是一个非常有潜力的领域,但我们的研究成果并不是全部积极的成果。我们相信这项技术能够帮助学生完成更高效的远程学习任务,我们希望远程的在线合作项目也能享受到“面对面”互动的好处。