Согласно проведенному исследованию, ИИ-чат-боты ставят неверные диагнозы на ранних стадиях заболевания более чем в 80% случаев

FT: ИИ-чат-боты ставят неверные диагнозы в 80% случаев на ранних этапах болезни

Читать на сайте inosmi.ru
Материалы ИноСМИ содержат оценки исключительно зарубежных СМИ и не отражают позицию редакции ИноСМИ
Ведущие ИИ-модели в подавляющем большинстве случаев приходят к неверным выводам, если информация о пациенте была неполной, пишет FT. В ходе тестов выяснилось, что показатели ошибок превышают 80% при постановке так называемого дифференциального диагноза.
Майкл Пил (Michael Peel)
Ведущие ИИ-модели, включая OpenAI и DeepSeek, принимают решения слишком поспешно на основе неполной информации о пациенте.
ИноСМИ теперь в MAX! Подписывайтесь на главное международное >>>
Согласно новому исследованию о рисках использования ИИ-чат-ботов в качестве "цифровых врачей", такие боты дают сбой при постановке медицинских диагнозов на основе неполной информации.
"Шах и мат Урсуле": на Западе объяснили, что Орбан сделал с Евросоюзом
Исследование показало, что основные языковые модели испытывают сложности с постановкой возможных диагнозов при ограниченных данных о пациенте и часто слишком быстро сужают круг вариантов до единственного ответа.
Результаты подтверждают общий недостаток использования искусственного интеллекта — хотя чат-боты могут определять вероятные заболевания после полного описания случая, они менее надежны на ранних стадиях клинического исследования, когда сведений о пациенте недостаточно.
Полученные данные доказывают, что не стоит полагаться исключительно на технологии при выявлении проблем со здоровьем, особенно если данные, вводимые пользователями, неясные или неполные.
Юг Украины под угрозой: могут ли удары Х-101 и "Кинжалов" спровоцировать землетрясенияБоевые действия влияют на геологическое строение Украины, констатируют эксперты, опрошенные "Фокус". Особую тревогу у специалистов вызывает перспектива Николаевской и Одесской областей, где и без ракет фиксируют подземные толчки.
"Такие модели отлично справляются с постановкой окончательного диагноза, когда данных вполне достаточно, но испытывают затруднения на начальных этапах клинических случаев, когда информации мало", — рассказала руководитель исследования и специалист медицинского центра Mass General Brigham в Массачусетсе Ария Рао.
В исследовании, опубликованном в понедельник в журнале Jama Network Open, модели ИИ испытывали на основе 29 клинических случаев из стандартного медицинского справочника.
В ходе эксперимента данные вводились поэтапно, включая общую картину текущего заболевания, результаты медосмотра и лабораторных анализов. Исследователи задавали большим языковым моделям вопросы касательно диагностики и оценивали уровень их ошибок, учитывая все вопросы, на которые были даны не полностью правильные ответы.
Исследователи провели оценку 21 большой языковой модели, включая такие ведущие модели от OpenAI, Anthropic, Google, xAI и DeepSeek.
Оказалось, что показатели ошибок превышали 80% для всех моделей, которым приходилось проводить так называемый дифференциальный диагноз при отсутствии полной информации о пациенте.
Показатели ошибок снизились до 40% при постановке окончательных диагнозов на основе более полных данных, причем лучшие модели демонстрировали точность выше 90%.
НАСА включило в свои планы создание лунной базы и космического корабля с ядерным двигателем для полетов на МарсНАСА приступило к строительству лунной базы, пишет NYT. Как сообщил глава агентства, среди его целей есть также запуск космического корабля с ядерным двигателем к Марсу. В ближайшее время планируется первая миссия на Луну с момента завершения программы "Аполлон".
Как сообщила компания Anthropic, языковые модели Claude обучены направлять людей, задающих вопросы по теме медицины, к специалистам. Согласно компании Google, Gemini разработан для тех же целей и имеет встроенные в приложение напоминания, которые побуждают пользователей перепроверять информацию.
Политика использования OpenAI гласит, что ее услуги не должны использоваться для предоставления медицинских рекомендаций, требующих лицензии, без участия соответствующих специалистов.
Компания xAI не ответила на запрос о комментарии. С компанией DeepSeek связаться не удалось.
Многие ИТ-компании разрабатывают более специализированные медицинские языковые модели, например, Articulate Medical Intelligence Explorer (AMIE) от Google и MedFound.
По словам эпидемиолога из Лондонской школы гигиены и тропической медицины Санджая Кинры, первые результаты оценки таких моделей, как AMIE, были многообещающими. Однако, по его словам, вряд ли они смогут сравниться с заключениями врачей, которые "в основном ориентируются на внешний вид и самочувствие пациента".
"Тем не менее, такие ИИ-модели могут играть важную роль в различных ситуациях особенно в тех местах, где доступ к медицинской помощи и врачам ограничен, — отметил Кинра. — Так что нам срочно нужно провести исследования с участием настоящих пациентов".
Обсудить
Рекомендуем