BMJ Open выявил 49,6% ошибок в ответах чат-ботов по медицине
Исследование BMJ Open показало, что чат-боты Gemini, DeepSeek, Meta AI, ChatGPT и Grok допустили ошибки в 49,6% ответов на медицинские запросы. Наиболее неточным оказался Grok. ИИ часто "выдумывали" источники, что может усилить распространение ложной информации.
Чат-боты, использующие искусственный интеллект, демонстрировали значительное количество неточных ответов в вопросах, касающихся медицины и здоровья. Такую информацию сообщает исследование, опубликованное в медицинском научном издании BMJ Open.
В исследовании приняли участие пять известных чат-ботов: Gemini, DeepSeek, Meta AI, ChatGPT и Grok. Им были заданы десять вопросов на темы, связанные с раком, вакцинацией, стволовыми клетками, питанием и спортом. Ответы были переданы на проверку профильным экспертам.
Как сообщают авторы публикации, «почти половина (49,6%) ответов содержали искажения: 30% из них имели небольшие искажения, а 19% - значительные». Исследователи подчеркнули, что качество ответов большинства чат-ботов было сопоставимо, но Grok чаще всех предоставлял ответы с множеством ошибок.
Лучшими направлениями для ИИ оказались вакцинация и рак, тогда как на вопросы о питании они отвечали хуже всего. Интересно, что чат-боты отвечали с высоким уровнем уверенности, несмотря на это, в двух из 250 случаев они отказались дать ответ. Нельзя не отметить, что ни один из ИИ не смог предоставить список источников, полностью соответствующих действительности, предпочитая вместо этого придумывать так называемые "галлюцинации".
По словам экспертов, сложность предоставленных ими ответов соответствовала уровню второго курса обучения в университете. Заключение авторов исследования гласит:
Проверенные чат-боты показали неудовлетворительные результаты при ответах на вопросы из областей здоровья и медицины, подверженных распространению ложной информации. Дальнейшее применение без общественного просвещения и надзора может усилить степень распространения ложной информации.