可以“作为医生”的 GPT-3,究竟是炒作还是名副其实?

文 / CSDN一点号
2020-11-04 09:42

作者 |Anne-Laure Rousseau, MD,Clément Baudelaire,Kevin Riera

译者 | 弯月,责编 | 郑丽媛

头图 | CSDN 下载自东方 IC

出品 | CSDN(ID:CSDNnews)

以下为译文:

这个夏天你一定听说过GPT-3,这个AI圈内的超级网红。GPT-3出自OpenAI之手,而OpenAI是世界顶级的AI研究实验室之一,由Elon Musk、Sam Altman以及其他人于2015年底成立,后来还获得了微软高达10亿美元的注资。

此外,你可能还听说过医疗领域正在经历AI革命,这要归功于自动诊断、医疗文档以及药物发现等领域的可喜成果。有些人声称在某些工作上AI的算法超过了医生,甚至有人宣布机器人即将斩获自己的医学学位!虽然诸多流言蜚语听起来颇有些牵强,但是GPT-3会不会成为他们口中的机器人呢?

我们是一个由多学科医生和机器学习工程师打造而成的团队,此次我们有幸能够测试一下这种新模型,通过探索不同的医疗案件来搞清楚:可以作为医生的GPT-3究竟是炒作还是真的有实力。

规模庞大的GPT-3

在机器学习领域内,像GPT-3这样的语言模型只是根据前面给定的单词(又称为上下文)来预测句子中的下一个单词。这是一种超强的自动补齐系统,类似于你在写邮件时使用的系统。初看之下,能够预测句子中的下一个单词似乎很简单,但实际上许多了不起的项目都是以该项技术为基础,例如聊天机器人、自动翻译以及常见问题解答等。

截止到目前,GPT-3是有史以来训练复杂度最高的语言模型,共有1,750亿个参数,如此多的神经网络结点需要经过数周密集的云计算微调后,才能让这个AI发挥神奇的作用。虽然这个参数量非常庞大,但远不及人脑在推理、感知以及情感能力方面的数百万亿(甚至千万亿)神经突触。

由于规模庞大,GPT-3可直接用于新任务以及简短的演示,而无需针对特定数据进行进一步的微调。这意味着该模型只需学习几个最初的示例,就可以成功地理解需要执行的任务。与之前简单的语言模型相比,此属性有很大的改进,而且更接近人类的实际行为,比如我们并不需要成千上万的例子来区分猫和狗。

由于数据来源混杂,从各种基本的书籍到整个互联网,从维基百科到《纽约时报》,因此GPT-3的训练数据有明显的偏差,但它在将自然语言转换为网站,创建基本的财务报告,破解语言谜题,乃至生成吉他指法等方面都有出色的表现。那么,在医疗保健领域又如何呢?

正如Open AI在GPT-3准则中的警告,医疗保健“属于高风险范畴,因为人们依靠准确的医疗信息做出生死攸关的决定,任何错误都有可能导致严重的伤害。”此外,诊断医疗或精神疾病在该模型中属于“不支持使用”。尽管如此,此次我们还是决定试一试,看看该模型在以下医疗领域的使用情况,下面我们从医学的角度出发,按照敏感度从低到高将各项工作大致分为:

● 管理员与患者聊天

● 医疗保险查询

● 心理健康支持

● 医疗文件

● 医学问答

● 医学诊断

此外,我们还研究了该模型的某些参数对答案的影响(含精彩的内幕揭秘)!

我们的第一项测试表明,似乎GPT-3可用于基本的管理任务,例如预约管理。但是当深入研究时,我们发现该模型对时间没有清晰的了解,也没有任何恰当的逻辑。有时它的记忆力明显不足,如下图所示,在处理预约的时候,患者曾明确表示下午6点之后没空,但GPT-3还是推荐了下午7点。

与上述管理任务类似,GPT-3可以帮助护士或患者从长篇大论中快速找到某条信息,比如找到特定检查项目的保险条例。但在如下示例中,我们为该模型呈上了长达4页的保险条款列表,其中X射线检查需要自付10美元,MRI检查需要自付20美元。我们提出了两个问题,GPT-3可以准确地告知患者X射线检查的价格,但未能汇总出多项检查的总金额。可见GPT-3缺乏基本的推理能力。

当你坐在客厅的沙发上,放松休息并与GPT-3交谈时,它会倾听患者的问题,甚至提出一些可行的建议。这可能是GPT-3在医疗保健中最出色的用例之一。而实际上,1966年的Eliza算法仅通过模式匹配就实现了像人类一样的行为,所以GPT-3的成果也并不足为奇。

GPT-3与Eliza的关键区别在于,Eliza这类基于规则的系统能够完全控制计算机的响应。换句话说,我们确信这类系统不会给出任何可能对患者有害的说法。

然而,不幸的是与Eliza相反,在如下示例中,GPT-3却建议患者自杀……

此外,该模型还可能提出意想不到的答案,比如它会建议患者多多回收电子产品,以缓解压力,虽然理由比较牵强,但也非常有道理!

GPT-3在总结和简化文字方面的表现非常出色,这非常有利于帮助患者理解满篇专业术语的医学报告,或是帮助医生快速了解患者悠久的病史。不过,GPT-3还不能完全胜任这项工作(至少目前还不行)。我们的测试表明,GPT-3得出的结果过于简单,难以建立因果关系,而且还缺乏基本的演绎推理。

在寻找特定的科学信息、药物剂量或处方支持时,我们的实验表明,GPT-3不够可靠,不足以作为医生可信赖的支持工具使用。因为这存在一个严重的问题:GPT-3经常会给出内容错误但语法正确的答案,而且不会提供任何文献引用供医生核对。在急诊科忙碌的医生看到这般语法合理的语句时,很容易错误地将其当作有效的医学陈述。例如,下面的第一个答案是正确的,但第二个答案不正确。

诊断是一个更为复杂的问答任务:输入症状,然后获得有可能解释这些症状的潜在条件。最新的症状检查系统(Babylon、Ada、KHealth等)虽然不够完善,但完胜GPT-3,因为它们都针对医疗诊断经过了精心优化。这些系统的优势在于,它们可以输出不同的诊断结果以及相应的概率,对于医生来说这是一种置信度的测量。而如下GPT-3得出的第一个诊断结果忽略了这个有发烧症状的小女孩可能患有筛窦炎,而且还莫名地提到了“皮疹”。

在另一项测试中,GPT-3忽略了肺栓塞。幸运的是,没有人因此死亡!

内幕揭秘

正如其他人所观察到的那样,GPT-3输出的质量很大程度上取决于其使用的种子词汇,以两种不同方式提出同一个问题也可能得到差异非常大的两个答案。此外,该模型的各种参数(例如温度参数和top P参数)也起着重要作用。温度参数和top P参数控制着该引擎所呈现答案的风险和创造力。

温度参数

在不同的温度参数设定下,对于同一个问题,我们得到了两个截然相反的答案。如下是当温度参数T = 0.9时得出的答案。

相比之下,在温度参数极低的情况下(T = 0),相似种子永远会给出完全相同且非常直接的答案。

频率惩罚参数与存在惩罚参数

此外,我们还应注意频率惩罚参数与存在惩罚参数,二者既能防止单词重复又能防止主题重复。在医学上,直观地来讲我们应尽可能降低这两个参数,因为过于生硬的主题切换可能引发混乱,而且重复实际上相当有用。然而,通过比较人类两次提出的同一个问题,我们可以清楚地看到,具有重复惩罚的模型更富有同情心且更友好,而另一种设定则看起来比较冷漠且对于人类来说重复过多。下面是一个没有惩罚的例子。

而下面则是一个惩罚满格的例子:

总结

正如OpenAI所警告的那样,距离GPT-3真正在医疗保健领域大展拳脚,我们还有很长一段的路要走。由于GPT-3的训练方式,它缺乏科学和医学领域的专业知识,因此尚不能胜任医学文献记录、诊断支持、给出治疗建议或回答医生问题等工作。虽然GPT-3可能给出正确的答案,但也很有可能给出非常错误的答案,这种不一致在医疗保健领域中是站不住脚的。即使对于翻译或总结医学术语等管理任务,GPT-3的发展前景虽然良好,但距离真正为医生提供支持还需要付出很大的努力。在目前这个阶段,与采用一种雄心勃勃的通用模型相比,采用多个经过专项任务训练的监管模型更为有效。

话虽如此,GPT-3的聊天模块似乎已做好准备鞠躬尽瘁,为医生减轻重担。在结束了一天的忙碌之后,坐下来与私人医疗助手开怀畅谈,可以为你洗去一天的尘埃,抛去一天的劳累。

此外,毫无疑问,从整体上来看语言模型也将得到快速改善,这不仅会对上述用例产生积极的影响,而且也会影响到其他重大问题,例如信息结构与规范化或自动咨询汇总等。

原文:https://www.nabla.com/blog/gpt-3/

本文为 CSDN 翻译,转载请注明来源出处。