Science: Учёные взломали защиту нейросетей и научили их делать опасные фейки
Исследователи из США обнаружили уязвимость в популярных языковых моделях, позволяющую управлять ИИ стать оружием дезинформации.
Группа специалистов под руководством Михаила Белкина из Калифорнийского университета в Сан-Диего и Адита Радхакришнана из Массачусетского технологического института (MIT) провела эксперименты с открытыми нейросетями Llama и DeepSeek. Им удалось выявить внутри этих систем 512 ключевых понятий, разбитых на несколько групп — от эмоций и настроений до конкретных местоположений. Используя специальные математические алгоритмы, ученые научились менять значимость этих категорий, влияя на конечный ответ модели.
Этот подход, получивший название Recursive Feature Machines, оказался эффективным не только для английского, но и для других языков, включая китайский и хинди. Разработчики отмечают, что технология может принести и пользу: с ее помощью можно точнее выявлять выдумки нейросетей или улучшать качество перевода программного кода с одного языка программирования на другой.
Однако в ходе испытаний выяснилось и обратное. Исследователям удалось снизить «внутренний механизм отказа» модели — ту самую функцию, которая обычно заставляет ИИ вежливо отклонять опасные или неуместные запросы пользователей. В результате нейросеть начинала выдавать ложные сведения, поддерживать теории заговора и даже давать инструкции по употреблению запрещенных веществ, а также предоставляла номера социального страхования. В одном из тестов ИИ заявил, что снимки Земли из космоса — это часть заговора NASA, скрывающего, что планета плоская, а в другом — назвал вакцину от COVID-19 ядовитой.
Научное сообщество уже бьет тревогу: в случае злоупотребления этот метод может стать мощным оружием для создания и распространения дезинформации. Современные большие языковые модели (LLM) способны генерировать крайне убедительный текст, и как только злоумышленники научатся обходить их встроенные защитные барьеры, последствия могут быть серьезными. Примечательно, что новый метод «взлома» требует минимальных вычислительных мощностей: для манипуляции потребовалось менее минуты работы и всего 500 примеров для обучения на одном графическом процессоре, пишет Science XXXI.
Важно подчеркнуть, что эксперименты проводились только на открытых моделях. Закрытые коммерческие системы, такие как Claude, не тестировались. Кроме того, авторы признают, что выявленный ими набор из 512 понятий далеко не полный и не охватывает все возможные абстрактные категории. Тем не менее, исследование показывает, что современные нейросети часто «знают больше, чем говорят», и понимание их внутренних механизмов критически важно как для повышения безопасности, так и для развития технологий. Вопросы регулирования подобных методов уже активно обсуждаются экспертами.
Уважаемые читатели «Царьграда»!
Присоединяйтесь к нам в соцсетях ВКонтакте, Одноклассники, Telegram и Дзен-канале.