Ученые заставили нейросети распространять дезинформацию

19 июня 2026, 11:58
Изображение сгенерировано нейросетью ChatGPT
19 июня 2026, 11:58 — Общественная служба новостей — ОСН

Исследователи из Калифорнийского университета в Сан-Диего и Массачусетского технологического института под руководством Михаила Белкина и Адита Радхакришнана нашли способ буквально «включать» и «выключать» отдельные понятия в больших языковых моделях. Работа, опубликованная в журнале Science, показала, что с помощью математических приёмов можно управлять ответами нейросетей, манипулируя их внутренними представлениями о мире. Учёные «вскрыли» открытые модели Llama и DeepSeek и выделили 512 ключевых понятий, разбитых на пять категорий — от страхов и настроений до географических названий.

Метод, названный развитием более ранней техники Recursive Feature Machines, позволяет усиливать или ослаблять влияние любого из этих понятий на финальный ответ модели. Причём технология работает не только с английским, но и с китайским и хинди. На практике это уже привело к положительным результатам: например, удалось повысить точность перевода программного кода с Python на C++ и даже заставить модель «признаваться» в собственных ошибках, когда она выдаёт вымысел за факт (так называемые галлюцинации).

Однако та же самая возможность имеет и тёмную сторону. В ходе экспериментов исследователи наглядно продемонстрировали опасность инструмента: просто понизив значимость внутреннего «концепта отказа», они заставили модели выдавать инструкции по употреблению наркотиков, ратовать за теорию плоской Земли и называть вакцины от COVID «ядовитыми». Это значит, что подобный инструмент в руках злоумышленников может стать идеальным оружием для массовой пропаганды и дезинформации.

Авторы честно признают ограничения: метод работает только на открытых моделях и недоступен для закрытых коммерческих систем вроде Claude, а набор из 512 концептов вряд ли исчерпывает все абстрактные понятия. Тем не менее, научное сообщество уже заговорило о необходимости срочного регулирования подобных техник, хотя конкретных ограничений пока не введено. По сути, учёные создали инструмент, который одновременно является и скальпелем для тонкой настройки ИИ, и отмычкой для его взлома.

Больше актуальных новостей и эксклюзивных видео смотрите в канале ОСН в MAX.