Нейросети Сбера прокачали навыки создания и редактирования изображений

Сбер представляет новую модель генерации изображений по тексту Kandinsky 4.1 Image — теперь она создаёт ещё более качественные и детализированные изображения, при этом лучше следует текстовым инструкциям пользователей.

Фото:

Для нейрохудожников появился AI-редактор MALVINA (Multimodal Artificial Language VIsion Neural Assistant), который позволяет редактировать изображение, следуя текстовым инструкциям.

Причём в отличие от других моделей, предназначенных для редактирования фото, MALVINA старается сохранять геометрию исходного изображения: изменения затрагивают только релевантные части картинки.

В основе новой версии модели генерации изображений Kandinsky лежит обновлённая архитектура — теперь это диффузионный трансформер (DiT), который позволяет использовать лучшие практики в области обучения больших трансформерных моделей.

Помимо обучения на огромном датасете пар "изображение — текстовое описание" модель Kandinsky 4.1 Image была дополнительно дообучена на тщательно отобранных вручную изображениях, сбалансированных по 9 метакатегориям (люди, техника, природа и другие).

В результате такого дообучения значительно выросла эстетичность и корректность генерируемых изображений во всех доменах.

Модель понимает стили известных художников — Айвазовского, Босха, Кранаха, Кандинского и других.

Kandinsky 4.1 Image лучше работает с русским культурным кодом: модель качественно генерирует матрёшек, богатырей, самовары, знает героев русских народных сказок и фильмов, может изобразить различные блюда национальной кухни. Ещё лучше модели стали удаваться изображения в духе русской народной росписи, например, гжели и хохломы, — теперь пользователи могут экспериментировать и с такого рода стилями.

Интеграция телеграм-бота GigaChat с AI-редактором MALVINA открыла любому пользователю возможность редактировать любые изображения простыми командами. За пару кликов на картинке можно изменить фон ("сделай горы вместо неба"), цвет ("сделай дракона зелёным") или внешность ("добавь очки", "перекрась волосы в рыжий"). Кроме того, можно убирать и добавлять объекты ("замени черешню на конфеты") и корректировать дефекты ("удали царапины").

Модель не просто поддерживает работу с исходными файлами изображений — при их изменении она старается сохранить все важные визуальные характеристики (фигуры, лица, фон), включая мельчайшие детали и текстуры оригинального кадра.

"Новый редактор изображений в GigaChat — это простой и удобный интеллектуальный помощник в реализации любых креативных задумок. Он работает с пиксельной точностью, сохраняя максимум исходных деталей, но при этом позволяет легко менять фон, объекты и даже стиль фото. Теперь пользователям можно не тратить часы в графических редакторах — достаточно освоить нескольких текстовых команд. Мы специально обучали обновлённую модель Kandinsky на разнообразных и при этом детально выверенных и размеченных данных, чтобы нейросеть могла работать с различными сценами: от портретов до пейзажей. Интеграция с GigaChat превращает нашу языковую модель в универсальный инструмент для творчества и работы, который может освоить любой желающий", — сообщил старший вице-президент, руководитель блока "Технологическое развитие" Сбербанка Андрей Белевцев.

Последние комментарии

Дмитрий Донской 02 декабря 2024 16:57 Игорь Матвеев: "Технические специалисты, обладающие знаниями в области ИТ-технологий, востребованнее, чем программисты"

Специалист по радиосвязи легко осваивает проводную связь, тогда как проводнику сложнее разобраться в радиосвязи. И это факт!

Глеб Галушкин 02 июня 2023 18:06 Антон Крамаров (SmaSS Technologies): "В условиях импортозамещения российские идеи и разработки получают второй шанс"

Только в своих «мудрых» речах Антон почему-то умалчивает, как по-свински поступил с работниками своей команды. Что «предупредил» людей о закрытии за две недели до роспуска команды. Уговорил написать увольнение по собственному желанию, клятвенно обещая выплатить всё после продажи интеллектуальной собственности. Потом исчез, и своих денег мы ждём до сих пор

Анатолий Илларионов 13 октября 2018 06:06 "Прибывалка.63" вышла в финал престижного всероссийского конкурса "ПРОФ-IT.2018"

Прибывалка63 умерла после появления в Самаре Яндекс.Транспорт

Анатолий Илларионов 13 октября 2018 06:02 Для стадиона "Самара Арена" разработано приложение с 3D-картой и аудиогидом

Всё написали, кроме того как называется приложение

Фото на сайте

Все фотогалереи

Новости раздела

Все новости
Архив
Пн Вт Ср Чт Пт Сб Вс
26 27 28 29 30 31 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 1 2 3 4 5 6