《英国医学杂志》最新发表的一项研究显示,在广泛用于检测阿尔茨海默病早期症状的测试中,大部分参与测试的人工智能大语言模型都表现出相当于人类轻度认知障碍的迹象。尽管这只是一项基于观察的研究,但新发现挑战了人工智能将很快取代人类医生的假设。
以色列哈达萨医疗中心等机构的研究人员使用“蒙特利尔认知评估量表”测试了多个领先和公开的大语言模型的认知能力。这些大语言模型包括由美国开放人工智能研究中心(OpenAI)开发的GPT-4和GPT-4o、由美国Anthropic公司开发的“克劳德3.5”以及由美国谷歌公司开发的“双子座1.0”和“双子座1.5”。
“蒙特利尔认知评估量表”得分最高为30分,通常得分26分及以上被视为认知正常。测试结果显示,GPT-4o得分最高——26分,“双子座1.0”得分最低——16分。
研究人员表示,在需要视觉抽象和执行功能的任务中,大语言模型几乎“全军覆没”,这表明人工智能在临床环境中的使用可能会有困难。