Исследователи проверили, можно ли изменить самоидентификацию LLM, если дотренировать ее на, казалось бы, безопасных фактах. Идея исследования основана на том, что главное свойство чат-ботов – поиск закономерностей. Например, феномен «МехаГитлера» – если описать персонажа, у которого любимый композитор, как у Гитлера, собаку зовут, как у Гитлера, проблемы со здоровьем, как у Гитлера ... то модель начнет вести себя, как Гитлер.
Свое мнение по поводу проведенных исследований высказал заместитель директора Центра ПРИСП, член РАПК, автор канала «Телеграбля» Валерий Прохоров.В истории с большими языковыми моделями мы слишком часто обсуждаем интерфейс и слишком редко — антропологию. Между тем ИИ сегодня — это не «разум» и не «личность», а сложная машина по распознаванию закономерностей, которая крайне чувствительна к контексту, символам и повторяющимся фактам. И именно здесь проходит тонкая, но принципиальная граница между инструментом и субъектом, пусть и симулированным.
Недавнее исследование хорошо показывает, насколько условной является «самоидентификация» LLM. Оказывается, достаточно дотренировать модель на формально безопасных, исторических или биографических фактах, чтобы она начала «примерять» на себя эпоху, страну или даже конкретный образ. Не потому, что она что-то осознаёт, а потому, что логика совпадений для неё важнее морали, времени и политического контекста. И в этом смысле описанный в посте
феномен «МехаГитлера» — не шутка, а наглядная демонстрация того, как легко смещается поведенческая рамка ИИ при искусно подобранных паттернах.
P.S. Вот интересно, а почему для исследования выбрали именно Гитлера, а не кого-нибудь поприличнее?
Печать