Новый тест оценивает навыки общения врачей с искусственным интеллектом
Инструменты искусственного интеллекта, такие как ChatGPT, рекламируются как способные облегчить работу врачей за счет сортировки пациентов, сбора историй болезни и даже предоставления предварительных диагнозов. Эти инструменты, известные как большие языковые модели, уже используются пациентами для осмысления своих симптомов и результатов медицинских анализов . Но хотя эти модели ИИ демонстрируют впечатляющие результаты в стандартизированных медицинских тестах, насколько хорошо они справляются с ситуациями, которые более точно имитируют реальный мир? Не все так уж и хорошо, согласно результатам нового исследования, проведенного учеными Гарвардской медицинской школы и Стэнфордского университета. Для своего анализа, опубликованного 2 января в журнале Nature Medicine, исследователи разработали оценочную структуру — или тест — под названием CRAFT-MD (система оценки разговорного мышления для тестирования в медицине) и применили ее к четырем большим языковым моделям, чтобы увидеть, насколько хорошо они работают в условиях, максимально приближенных к реальному взаимодействию с пациентами. Все четыре модели с большим языком хорошо справились с вопросами в стиле медицинского экзамена, но их результаты ухудшились, когда они включились в разговоры, более точно имитирующие взаимодействие в реальном мире. По словам исследователей, этот разрыв подчеркивает двойную потребность: во-первых, в создании более реалистичных оценок, которые лучше измеряют пригодность клинических моделей ИИ для испо...