AI看病遇上真人会“掉链子”？

来源：科技日报2026-02-12 17:27

　　当大语言模型在医师资格考试中都能取得高分时，人们曾期待它能成为贴身的“AI健康助手”。然而《自然·医学》发表的一项在英国展开的研究表明，这些实验室里的“优等生”在面对真实用户时，表现却有可能意外“掉链子”——它们协助普通人作健康决策的效果，并未超越互联网搜索引擎。这项发现为当前火热的AI医疗应用，敲响了一记科学的警钟：人们会不会高估了当前大语言模型辅助普通人作健康决策的能力？

　　当前全球医疗体系正尝试将大语言模型打造为公众的“第一道健康防线”，帮助人们在就诊前进行自我评估与管理。然而，该研究揭示了一个关键落差：在标准测试中表现优异的AI模型，一旦面对真实场景中的普通人，其表现可能大打折扣。

　　牛津互联网研究所科学家设计了一个贴近生活的实验：邀请近1300名英国参与者，模拟应对感冒、贫血、胆结石等十种常见健康场景，并决定该采取何种行动——是拨打急救电话，还是预约家庭医生。参与者被随机分配使用三种主流大语言模型（GPT-4o、Llama3或Command R+）之一，或使用互联网搜索引擎作为对照。

　　结果出现了有趣的“人机鸿沟”：当不用人类受试者进行测试时，AI表现非常出色，平均能识别94.9%的疾病，并在超过半数情况下给出恰当建议。但当普通人使用相同模型时，疾病识别率骤降至不足35%，行动建议准确率也低于45%，甚至未显著优于互联网搜索引擎。

　　科学家进一步分析对话记录，发现了两组典型的“沟通盲区”：普通人往往难以准确、完整地描述症状，而AI偶尔也会生成看似合理实则具有误导性的回应。这种双向的信息偏差，让原本在测试中表现优秀的模型在实际应用中打了折扣。

　　这也表明，当前的大语言模型若直接应用于公众健康咨询仍需谨慎，因为在真实的人机互动中，存在大量实验室测试无法预测的复杂性。AI医疗助手的发展不仅需要技术迭代，更需要深入理解：当健康遇到焦虑，当专业术语遇到日常表达时，人与机器该如何更好地“对话”。（记者张梦然）

[ 责编：雷渺鑫 ]

阅读剩余全文（）