Фото с сайта:
Depositphotos.com
Ученые из лаборатории исследований искусственного интеллекта (ИИ) T-Bank AI Research разработали новый метод под названием SAE Match, который позволяет заглянуть внутрь искусственного интеллекта и понять, почему модель приняла то или иное решение в процессе вычисления, сообщили в компании.
Уточняется, что в перспективе благодаря этому методу можно будет влиять на ответы ИИ, повышая их точность и качество.
Научное открытие позволяет определить, в какой момент ИИ начинает давать неправильные или нежелательные ответы, и вовремя скорректировать их. Это прорывной шаг на пути к более прозрачным, точным и понятным алгоритмам, что особенно важно при внедрении ИИ в критически важные сферы, такие как медицина, финансы и безопасность.
Результаты исследования доступны в открытых источниках и будут представлены на международной конференции по обучению представлениям (ICRL), которая пройдет в Сингапуре с 24 по 28 апреля 2025.
Метод SAE Match относится к области интерпретируемости искусственного интеллекта.
Современные языковые модели (LLM) состоят из нескольких слоев, каждый из которых использует результат предыдущего. Таким образом модель старается улучшить свои предсказания слой за слоем. Однако иногда модель может выдавать недостоверную или даже оскорбительную информацию. Эксперименты на ряде моделей показали, что SAE Match позволяет заглянуть внутрь модели и понять, как меняются концепции от слоя к слою. Это дает возможность контролировать процесс генерации текста, а не просто накладывать внешние ограничения или обучать модель на новых данных, что дорого и требует больших вычислительных ресурсов.
"Наша задача не только сделать модели лучше, но и понять, как они работают изнутри. Представьте умного голосового помощника, который рекомендует фильмы. И вдруг он начинает выдавать недостоверную или даже грубую информацию. Сейчас изменить его поведение – сложная задача, ведь существующие методы не дают нам четкого понимания, где именно возникла проблема. SAE Match – это первый шаг к созданию более прозрачного и надежного искусственного интеллекта, которому можно доверять. И мы планируем продолжить исследования в направлении интерпретируемости ИИ", — приводятся в сообщении компании слова руководителя научной группы LLM Foundations, T-Bank AI Research Никиты Балаганского.
Как напоминается в материале, ранее в лаборатории T-Bank AI Research разработали метод распознавания неизвестных объектов на фото с помощью ИИ. Отмечается, что благодаря методу риск ошибки при обработке и анализе изображений снизился более чем на 20%, что уменьшило необходимость перепроверки и исправления неверных решений человеком.
Печать