Яндекс представил нейросеть YandexART 2.0. Она умеет создавать надписи на изображениях и создавать рекламные баннеры
Компания Яндекс анонсировала новое поколение визуальной нейросети — YandexART 2.0, которая научилась создавать надписи прямо на изображениях, придерживаться нескольких стилей на одной картинке, располагать объекты в пространстве и относительно друг друга более естественно. Вдобавок алгоритмы учитывают при генерации больше деталей из текстового запроса. Пользователи могут задействовать новые возможности нейросети для создания логотипа бренда, этикетки продукта, иллюстрации для сайта и постов в соцсети. В основу YandexART 2.0 легла собственная разработка компании — новая гибридная архитектура модели, которая сочетает качество работы свёрточной и трансформерной нейросетей. Свёрточная модель работает по принципу человеческого глаза и выявляет на картинке важные признаки — края, текстуры и формы. При этом нейросеть с такой архитектурой не умеет учитывать длинный контекст (поэтому ей трудно справляться с большим количеством деталей в промтах), зато это умеет трансформер. Объединение двух этих моделей в YandexART 2.0 позволило ей точнее следовать текстовым запросам. Так, теперь она умеет придерживаться нескольких стилей в одном изображении и может, например, сгенерировать фотореалистичную банку лимонада, на этикетке которой будет аниме-персонаж. Яндекс отмечает, что обучал YandexART на сотнях миллионов пар картинок с текстовыми описаниями к ним. Чтобы повысить качество этих текстов и сделать их более точными, Яндекс использовал собственную VLM-модель. Она анализир...