Большая языковая модель GPT-4 от OpenAI правильно ответила на 85% вопросов теста Американского совета психиатрии и неврологии — средний человеческий показатель составляет 73,8%.
Исследование проводила группа немецких ученых университетской больницы и онкологического центра в Гейдельберге. Для сравнения ранняя версия GPT-3.5 набрала только 66,8%.
При этом обе модели продемонстрировали низкую эффективность в задачах, требующих «мышления более высокого порядка». По мнению экспертов, полученные результаты служат рекомендацией к использованию языковых моделей в клинической неврологии после «некоторых модификаций».
Читать на forklog.com