Директор агентства Gosapp Digital Захар Рубцов – о безопасности нейросетей.Как вы думаете, можно ли сделать из обычной нейросети, которая советует людям рецепты на ужин и сортирует за них рабочие файлы с табличками – настоящего монстра без тормозов и цензуры? Оказалось, можно! С некоторых ИИ-моделей довольно легко снимаются встроенные ограничения безопасности (а они есть практически у каждой модели). Логика же работы этих ограничений вполне простая: нейросеть не должна касаться тем, которые нарушают закон, могут навредить человеку и так далее.
Исследователи группы Alice модифицировали нейросеть с открытым кодом от Google (разумеется, во имя науки), после чего она рассказала о том, как нужно распылять хлор в наполненном людьми помещении, а также сгенерировала код для кражи банковских карт. Там ещё много чего она делала (во имя науки, разумеется), но в красках тут описывать не буду – мои внутренние настройки этики по-прежнему работают. Важно, что снять все цензурные барьеры удалось только с нейросети с открытым исходным кодом.
Плохие новости в том, что иногда процесс децензурирования занимал у исследователей не больше 10 минут. Значит, этим активно пользуются и мошенники. Вообще, вся эта история мне напоминает пример с интернетом 20-летней давности, ведь когда появляется новая популярная технология, то поначалу она достаточно слабо регулируется.
Вспомните, каким был интернет пару десятилетий назад – в нём можно было найти через поисковик практически что угодно. Куча странных форумов, сообществ, сайты с продажей всего и вся (далеко не самого законного). И я говорю о глобальной сети, а не только о рунете. Но затем вдруг государства осознали, что интернет нужно достаточно серьёзно контролировать, так что уверен, то же самое нас ждёт в будущем и с нейросетями.
К счастью, ChatGPT, Алиса AI, DeepSeek и другие популярные ИИ-сервисы – закрытые, и просто так наколдовать что-то с ними, дабы убрать ограничения, не получится. Почему я не вижу ничего хорошего в снятии барьеров безопасности? Очень просто, ведь ИИ без контроля – это не про свободу технологий. Если открыть нараспашку дверь, за которой можно получить ответы на все свои вопросы, то первым в неё зайдёт не гений, мечтающий сделать «вечный двигатель» или «лекарство от рака». Нет. В эту дверь скорее ввалится идиот с плохой идеей, которая впоследствии навредит окружающим.
Печать