Интересное

Ученые заставили нейросети распространять дезинформацию

19 июня 2026, 11:58 — Общественная служба новостей — ОСН

Исследователи из Калифорнийского университета в Сан-Диего и Массачусетского технологического института под руководством Михаила Белкина и Адита Радхакришнана нашли способ буквально «включать» и «выключать» отдельные понятия в больших языковых моделях. Работа, опубликованная в журнале Science, показала, что с помощью математических приёмов можно управлять ответами нейросетей, манипулируя их внутренними представлениями о мире. Учёные «вскрыли» открытые модели Llama и DeepSeek и выделили 512 ключевых понятий, разбитых на пять категорий — от страхов и настроений до географических названий.

Метод, названный развитием более ранней техники Recursive Feature Machines, позволяет усиливать или ослаблять влияние любого из этих понятий на финальный ответ модели. Причём технология работает не только с английским, но и с китайским и хинди. На практике это уже привело к положительным результатам: например, удалось повысить точность перевода программного кода с Python на C++ и даже заставить модель «признаваться» в собственных ошибках, когда она выдаёт вымысел за факт (так называемые галлюцинации).

Однако та же самая возможность имеет и тёмную сторону. В ходе экспериментов исследователи наглядно продемонстрировали опасность инструмента: просто понизив значимость внутреннего «концепта отказа», они заставили модели выдавать инструкции по употреблению наркотиков, ратовать за теорию плоской Земли и называть вакцины от COVID «ядовитыми». Это значит, что подобный инструмент в руках злоумышленников может стать идеальным оружием для массовой пропаганды и дезинформации.

Авторы честно признают ограничения: метод работает только на открытых моделях и недоступен для закрытых коммерческих систем вроде Claude, а набор из 512 концептов вряд ли исчерпывает все абстрактные понятия. Тем не менее, научное сообщество уже заговорило о необходимости срочного регулирования подобных техник, хотя конкретных ограничений пока не введено. По сути, учёные создали инструмент, который одновременно является и скальпелем для тонкой настройки ИИ, и отмычкой для его взлома.

Поделиться
Анастасия Болигузова

Журналистикой увлеклась на первом курсе университета, окончила филфак. Работала корреспондентом в "КП-Саратов", а также редактором в издании "Новости Саратова". Люблю длительные прогулки на свежем воздухе, итальянскую кухню и все, что связано с околофутбольным движением.

Последние статьи

В Италии шокированы оскорблениями Трампа

Президент США Дональд Трамп нанес оскорбление премьер-министру Италии Джорджии Мелони, заявив, что она «умоляла» его сфотографироваться с ней. Инцидент произошел на полях саммита «семерки» во французском Эвиане. Хозяин Белого дома…

% дней назад

Подозреваемого в хищении 262 млн рублей депортировали из Турции в Россию

Из Турции в Россию депортировали мужчину, подозреваемого в хищении более 262 миллионов рублей. Передача обвиняемого состоялась в международном аэропорту Внуково. Об этом в пятницу, 19 июня, сообщает ТАСС. Российским полицейским…

% дней назад

В России перед выпускными активизировались аферисты с фальшивыми вузами

Накануне выпускных вечеров в российских школах зафиксирован всплеск активности мошенников, нацеленных на абитуриентов и их родителей. Злоумышленники предлагают зачислиться в высшие учебные заведения, которые в реальности не существуют. Об этом…

% дней назад

The Economist: Киев обсуждает с США заморозку боев по линии фронта

Киев и США обсуждают возможность заморозки конфликта по линии фронта в два этапа: сначала ограничение боевых действий зоной в 50–70 км по обе стороны линии фронта, а затем более широкое…

% дней назад

В РПЦ предложили закрепить правовой статус эмбриона

Председатель патриаршей комиссии РПЦ по вопросам семьи, защиты материнства и детства иерей Федор Лукьянов выступил с инициативой законодательно закрепить статус ребенка, находящегося в утробе матери. Об этом в пятницу, 19…

% дней назад

Лоза отказался от звания главного критика российских звезд

Певец Юрий Лоза, который известен своей резкой критикой звездных коллег, признался: несмотря на то, что ему крайне тяжело угодить, есть на свете артисты, которых он уважает и периодически переслушивает. Об…

% дней назад