Изображение сгенерировано нейросетью ChatGPT
Исследователи из Калифорнийского университета в Сан-Диего и Массачусетского технологического института под руководством Михаила Белкина и Адита Радхакришнана нашли способ буквально «включать» и «выключать» отдельные понятия в больших языковых моделях. Работа, опубликованная в журнале Science, показала, что с помощью математических приёмов можно управлять ответами нейросетей, манипулируя их внутренними представлениями о мире. Учёные «вскрыли» открытые модели Llama и DeepSeek и выделили 512 ключевых понятий, разбитых на пять категорий — от страхов и настроений до географических названий.
Метод, названный развитием более ранней техники Recursive Feature Machines, позволяет усиливать или ослаблять влияние любого из этих понятий на финальный ответ модели. Причём технология работает не только с английским, но и с китайским и хинди. На практике это уже привело к положительным результатам: например, удалось повысить точность перевода программного кода с Python на C++ и даже заставить модель «признаваться» в собственных ошибках, когда она выдаёт вымысел за факт (так называемые галлюцинации).
Однако та же самая возможность имеет и тёмную сторону. В ходе экспериментов исследователи наглядно продемонстрировали опасность инструмента: просто понизив значимость внутреннего «концепта отказа», они заставили модели выдавать инструкции по употреблению наркотиков, ратовать за теорию плоской Земли и называть вакцины от COVID «ядовитыми». Это значит, что подобный инструмент в руках злоумышленников может стать идеальным оружием для массовой пропаганды и дезинформации.
Авторы честно признают ограничения: метод работает только на открытых моделях и недоступен для закрытых коммерческих систем вроде Claude, а набор из 512 концептов вряд ли исчерпывает все абстрактные понятия. Тем не менее, научное сообщество уже заговорило о необходимости срочного регулирования подобных техник, хотя конкретных ограничений пока не введено. По сути, учёные создали инструмент, который одновременно является и скальпелем для тонкой настройки ИИ, и отмычкой для его взлома.
ВС РФ за неделю освободили порядка 630 зданий в Константиновке в ДНР. Об этом сообщает Минобороны РФ. Ведомство уточнило, что в ходе боев противник понес серьезные потери. В боях было…
Первый заместитель председателя комитета Госдумы по международным отношениям Алексей Чепа в беседе с «Лентой.ру» охарактеризовал нынешнее состояние российско-венгерских связей. С его слов, после назначения Петера Мадьяра на пост премьер-министра Венгрии…
Российские средства противовоздушной обороны сбили 3909 БПЛА за неделю. Помимо дронов, ПВО поразила восемь крылатых ракет «Фламинго» и пять снарядов РСЗО HIMARS. Соответствующую статистику привели в Минобороны России. В ведомстве…
Генеральный секретарь НАТО Марк Рютте выступил с заявлением, в котором сравнил территорию России с площадью Бельгии и Нидерландов. Его слова вызвали недоумение у наблюдателей из-за очевидного несоответствия общеизвестным географическим фактам.…
Начальник войск радиационной, химической и биологической защиты ВС РФ генерал-лейтенант Алексей Ртищев на брифинге в пятницу заявил, что опубликованные нацразведкой США документы подтвердили ранее озвученные Россией данные о биолабораториях на…
Официальный представитель Кремля Дмитрий Песков на брифинге, комментируя массированную атаку беспилотников на Москву 18 июня, заявил, что Киев продолжает свою линию, которая не направлена на переговоры. Песков отметил, что украинская…