Изображение сгенерировано нейросетью ChatGPT
Исследователи из Калифорнийского университета в Сан-Диего и Массачусетского технологического института под руководством Михаила Белкина и Адита Радхакришнана нашли способ буквально «включать» и «выключать» отдельные понятия в больших языковых моделях. Работа, опубликованная в журнале Science, показала, что с помощью математических приёмов можно управлять ответами нейросетей, манипулируя их внутренними представлениями о мире. Учёные «вскрыли» открытые модели Llama и DeepSeek и выделили 512 ключевых понятий, разбитых на пять категорий — от страхов и настроений до географических названий.
Метод, названный развитием более ранней техники Recursive Feature Machines, позволяет усиливать или ослаблять влияние любого из этих понятий на финальный ответ модели. Причём технология работает не только с английским, но и с китайским и хинди. На практике это уже привело к положительным результатам: например, удалось повысить точность перевода программного кода с Python на C++ и даже заставить модель «признаваться» в собственных ошибках, когда она выдаёт вымысел за факт (так называемые галлюцинации).
Однако та же самая возможность имеет и тёмную сторону. В ходе экспериментов исследователи наглядно продемонстрировали опасность инструмента: просто понизив значимость внутреннего «концепта отказа», они заставили модели выдавать инструкции по употреблению наркотиков, ратовать за теорию плоской Земли и называть вакцины от COVID «ядовитыми». Это значит, что подобный инструмент в руках злоумышленников может стать идеальным оружием для массовой пропаганды и дезинформации.
Авторы честно признают ограничения: метод работает только на открытых моделях и недоступен для закрытых коммерческих систем вроде Claude, а набор из 512 концептов вряд ли исчерпывает все абстрактные понятия. Тем не менее, научное сообщество уже заговорило о необходимости срочного регулирования подобных техник, хотя конкретных ограничений пока не введено. По сути, учёные создали инструмент, который одновременно является и скальпелем для тонкой настройки ИИ, и отмычкой для его взлома.
Президент США Дональд Трамп нанес оскорбление премьер-министру Италии Джорджии Мелони, заявив, что она «умоляла» его сфотографироваться с ней. Инцидент произошел на полях саммита «семерки» во французском Эвиане. Хозяин Белого дома…
Из Турции в Россию депортировали мужчину, подозреваемого в хищении более 262 миллионов рублей. Передача обвиняемого состоялась в международном аэропорту Внуково. Об этом в пятницу, 19 июня, сообщает ТАСС. Российским полицейским…
Накануне выпускных вечеров в российских школах зафиксирован всплеск активности мошенников, нацеленных на абитуриентов и их родителей. Злоумышленники предлагают зачислиться в высшие учебные заведения, которые в реальности не существуют. Об этом…
Киев и США обсуждают возможность заморозки конфликта по линии фронта в два этапа: сначала ограничение боевых действий зоной в 50–70 км по обе стороны линии фронта, а затем более широкое…
Председатель патриаршей комиссии РПЦ по вопросам семьи, защиты материнства и детства иерей Федор Лукьянов выступил с инициативой законодательно закрепить статус ребенка, находящегося в утробе матери. Об этом в пятницу, 19…
Певец Юрий Лоза, который известен своей резкой критикой звездных коллег, признался: несмотря на то, что ему крайне тяжело угодить, есть на свете артисты, которых он уважает и периодически переслушивает. Об…