Сбер представляет новую модель генерации изображений по тексту Kandinsky 4.1 Image — теперь она создаёт ещё более качественные и детализированные изображения, при этом лучше следует текстовым инструкциям пользователей.
Для нейрохудожников появился AI-редактор MALVINA (Multimodal Artificial Language VIsion Neural Assistant), который позволяет редактировать изображение, следуя текстовым инструкциям.
Причём в отличие от других моделей, предназначенных для редактирования фото, MALVINA старается сохранять геометрию исходного изображения: изменения затрагивают только релевантные части картинки.
В основе новой версии модели генерации изображений Kandinsky лежит обновлённая архитектура — теперь это диффузионный трансформер (DiT), который позволяет использовать лучшие практики в области обучения больших трансформерных моделей.
Помимо обучения на огромном датасете пар "изображение — текстовое описание" модель Kandinsky 4.1 Image была дополнительно дообучена на тщательно отобранных вручную изображениях, сбалансированных по 9 метакатегориям (люди, техника, природа и другие).
В результате такого дообучения значительно выросла эстетичность и корректность генерируемых изображений во всех доменах.
Модель понимает стили известных художников — Айвазовского, Босха, Кранаха, Кандинского и других.
Kandinsky 4.1 Image лучше работает с русским культурным кодом: модель качественно генерирует матрёшек, богатырей, самовары, знает героев русских народных сказок и фильмов, может изобразить различные блюда национальной кухни. Ещё лучше модели стали удаваться изображения в духе русской народной росписи, например, гжели и хохломы, — теперь пользователи могут экспериментировать и с такого рода стилями.
Интеграция телеграм-бота GigaChat с AI-редактором MALVINA открыла любому пользователю возможность редактировать любые изображения простыми командами. За пару кликов на картинке можно изменить фон ("сделай горы вместо неба"), цвет ("сделай дракона зелёным") или внешность ("добавь очки", "перекрась волосы в рыжий"). Кроме того, можно убирать и добавлять объекты ("замени черешню на конфеты") и корректировать дефекты ("удали царапины").
Модель не просто поддерживает работу с исходными файлами изображений — при их изменении она старается сохранить все важные визуальные характеристики (фигуры, лица, фон), включая мельчайшие детали и текстуры оригинального кадра.
"Новый редактор изображений в GigaChat — это простой и удобный интеллектуальный помощник в реализации любых креативных задумок. Он работает с пиксельной точностью, сохраняя максимум исходных деталей, но при этом позволяет легко менять фон, объекты и даже стиль фото. Теперь пользователям можно не тратить часы в графических редакторах — достаточно освоить нескольких текстовых команд. Мы специально обучали обновлённую модель Kandinsky на разнообразных и при этом детально выверенных и размеченных данных, чтобы нейросеть могла работать с различными сценами: от портретов до пейзажей. Интеграция с GigaChat превращает нашу языковую модель в универсальный инструмент для творчества и работы, который может освоить любой желающий", — сообщил старший вице-президент, руководитель блока "Технологическое развитие" Сбербанка Андрей Белевцев.
Последние комментарии
Специалист по радиосвязи легко осваивает проводную связь, тогда как проводнику сложнее разобраться в радиосвязи. И это факт!
Берег в Рождествено у людей украл
Только в своих «мудрых» речах Антон почему-то умалчивает, как по-свински поступил с работниками своей команды. Что «предупредил» людей о закрытии за две недели до роспуска команды. Уговорил написать увольнение по собственному желанию, клятвенно обещая выплатить всё после продажи интеллектуальной собственности. Потом исчез, и своих денег мы ждём до сих пор
Прибывалка63 умерла после появления в Самаре Яндекс.Транспорт
Всё написали, кроме того как называется приложение