Сбер представил нейросеть Kandinsky 3.0 — новейшую диффузионную модель для создания изображений по текстовым описаниям. Над продуктом работали в течении года, параллельно с работой по улучшению версий Kandinsky 2.1 и 2.2.

Команда Сбера провела исследования различных архитектур и обработала большое количество данных, чтобы повысить уровень понимания текста и качество генераций. Кроме того, новая модель ИИ теперь лучше разбирается в российском и советском культурном контексте (как и YandexArt).

Реклама. Erid 2VtzquyAJcf. ООО «Клик.ру». Клик.ру
Реклама. Erid 2VtzqvfByDy. ООО «Клик.ру». Клик.ру

Далее подробно рассказываем о том, как работает Kandinsky 3.0 и как им пользоваться.

Читайте также: Нейросети для создания картинок по описанию

Как создавать картинки в Kandinsky 3.0 по текстовому описанию

В Kandinsky 3.0 изображение создается прямо из кодированных токенов текста. Это упрощает процесс обучения, так как нужно тренировать только один компонент модели (Decoder). Это также повышает качество понимания текста, потому что предыдущая модель обучался на довольно простых текстах, которые сильно отличаются от естественного языка, в отличии от новой модели, которая обучается на большом объеме качественных текстовых данных.

Проще говоря, Kandinsky 3.0 умеет лучше анализировать тексты и создавать более реалистичные картинки. Плюс появилась генерация видео. Он также хорошо имитирует стили, направления и почерки известных художников, а также умело дополняет недостающие части изображения. Новая ИИ-модель была обучена на огромной базе данных, содержащей 1,5 млрд пар «текст — изображение» и позволяет генерировать картинки с разрешением до 1024х1024 пикселей при любом соотношении сторон.

Kandinsky 3.0, как и ранее, доступен на разных платформах — на сайте fusionbrain.ai, в Telegram и VK, в чат-боте GigaChat и в умных колонках SberBoom. Также нейросеть работает в приложении «СберБанк Онлайн». Там она создает заставки, которые вы видите при входе в личный кабинет.

Покажем работу новой нейросети через сайт fusionbrain.ai. Интерфейс тут не претерпел больших изменений. На панели инструментов слева заходим в «Редактор» и задаём параметры изображения. Сверху над окном генерации настраиваем соотношение сторон, а ниже пишем промт и выбираем стиль.

Далее несколько примеров наших промтов и что у нас получилось.

Промт: логотип кофейни символ, белый фон.

логотип кофейни

Промт: домик в деревне в стиле пикассо.

домик в деревне в стиле пикассо

Промт: картинка для поста в соцсети про правильное питание, орехи, мёд, ягоды.

картинка для поста в соцсети

Быстрый вывод, который можно сделать — картинки действительно стали выглядеть лучше, но с текстом нейросеть по-прежнему не справляется.

Ранее фоторедактор Picsart объявил о запуске нового пакета функций на базе искусственного интеллекта для творчества — Picsart Ignite.

⭐ Тестим нейросети каждый день, а то, что реально работает — сливаем в Telegram-канал: «Промты — и точка».

⭐ Тестим нейросети каждый день, а то, что реально работает — сливаем в Telegram-канал: «Промты — и точка».

Комментарии: Sber выкатил обновлённый Kandinsky 3.0
⚡ В тренде
Блокировки и замедление Telegram меняют привычную экосистему мессенджеров. Аудитория перераспределяется, и на этом фоне MAX постепенно превращается из «запасного варианта» в рабочую площадку. Пока это не главный канал дистрибуции контента, но игнорировать его уже нельзя. Если ограничения усилятся, пользователи начнут массово искать альтернативы — и выиграют те, у кого к этому моменту уже есть база, […]
С помощью ИИ теперь можно за несколько минут сделать собственный набор стикеров для Telegram, Discord или соцсетей — достаточно загрузить фото и вставить промт. Нейросети умеют не просто рисовать мультяшные картинки, а сохранять сходство с человеком на фото, менять эмоции от кадра к кадру и стилизовать персонажа под нужный формат: Telegram-стикеры, Pixar, аниме, kawaii, мемные […]
Нужно создать аватар, улучшить старое фото или оживить снимок для соцсетей? Под каждую задачу есть свое приложение, где нейросети умеют не только накладывать фильтры или исправлять дефекты на фотографиях, но и решать более сложные проблемы. С их помощью можно делать ИИ-фотосессии, менять одежду, лица и прически персонажей, превращать статичные кадры в эффектные ролики и многое […]
ElevenLabs представила Music v2 — новую модель для генерации музыки. Она лучше справляется с вокалом, инструментами и аранжировками в разных жанрах, поддерживает многоязычные тексты и даёт больше контроля над структурой песни. Music v2 уже доступна в ElevenMusic и ElevenCreative. В ElevenAPI модель появится позже — ранний доступ можно запросить через отдел продаж. Вместе с релизом […]
CapCut представил Design Studio 2.0 — новый дизайн-редактор в CapCut Web. В нём можно работать с референсами, черновиками, ассетами и вариантами идей на одном бесконечном ИИ-холсте. Инструмент доступен в веб-версии CapCut. Пользователям дают 20 бесплатных генераций в день. Подробнее — в материале Postium. Читайте также: Промты для создания стикеров по фото Что нового в Design […]
Блоги компаний
Новости
Свежие статьи