Нейросети Kandinsky исполнилось два года.
С её помощью пользователи по всему миру создали уже более 600 млн изображений.
Ровно два года назад Сбер впервые презентовал широкой аудитории собственную нейросеть для генерации изображений по текстовому описанию на русском языке. Интеллектуальную сеть разработала объединённая команда исследователей и инженеров из Sber AI и SberDevices при поддержке учёных из Института AIRI.
Kandinsky стал продолжением нейросети ruDALL-E, представленной 2 ноября 2021 года. Тогда это была одна из первых в мире моделей генерации изображений по тексту. Банк дообучил эту модель на 200 млн качественных изображений, снабжённых текстовыми русскоязычными описаниями. Улучшенную нейросеть назвали в честь известного русского художника-абстракциониста и теоретика изобразительного искусства Василия Кандинского.
Линейка обновлённой нейросети представлена тремя семействами моделей генерации изображений по тексту и демонстрирует прогресс по созданию и обучению такого рода моделей в мире: это авторегрессионные трансформерные модели ruDALL-E и Kandinsky 1.0, диффузионные модели с image prior-блоком Kandinsky 2.0, 2.1 и 2.2 и диффузионные модели Kandinsky 3.0 и 3.1. Кроме того, экспертами банка было разработано семейство моделей Kandinsky Video (1.0 и 1.1) для генерации полноценных видео по тексту.
Как сообщили в пресс-службе банка, при создании моделей нейросети использовались новые подходы, которые улучшили качество генерируемых изображений и видео, были спользован при этом и культурно-исторический контекст.
Улучшенная модель отлично понимает отечественный культурный код — например, может создавать изображения в стиле гжели или хохломы. Помимо генерации изображений по тексту модели сеть обладает возможностями редактирования изображений (дорисовывание, исправление) и инструктивной генерации изображений (смешивание, стилизация, замена объектов).
Модель Kandinsky 2.1 стала одним из самых быстрорастущих сервисов в мире — так, всего за 4 дня после её релиза 4 апреля 2023 года аудитория нейросети превысила 1 млн уникальных пользователей. Кроме того, в прошлом году модель Kandinsky 2.2 заняла первое место по темпу роста и стала второй после Stable Diffusion по популярности среди разработчиков по версии AI-ресурса Hugging Face, где собраны лучшие open source решения.
«Нашей нейросети уже два года. За это время команда проекта проделала колоссальную работу. Теперь это полноценный многофункциональный сервис, который даёт человеку возможность раскрыть свой творческий потенциал: стать художником или режиссёром и реализовать задуманное. За два года нам удалось сократить время одной генерации почти в 10 раз повысить качество работы модели и даже научить нейросеть создавать анимации и полноценные видео — всё это уже сейчас помогает людям творческих профессий быть ещё креативнее и продуктивнее». – рассказал старший вице-президент, руководитель блока «Технологическое развитие» банка Андрей Белевцев.
Отечественная нейросеть помогает сохранять и популяризировать культурное наследие страны. Мультимедийный контент от нейросети используется на главных мероприятиях страны, таких как международная выставка-форум «Россия», Всемирный фестиваль молодёжи, «Игры будущего», Петербургский международный экономический форум и другие.
Оценить возможности искусственного интеллекта можно на платформе fusionbrain.ai, в Telegram- и VK-ботах, а также в мобильном приложении банка.