Новый инструмент ИИ генерирует высококачественные изображения быстрее, чем самые современные подходы
Возможность быстрой генерации высококачественных изображений имеет решающее значение для создания реалистичных моделируемых сред, которые можно использовать для обучения беспилотных автомобилей избегать непредсказуемых опасностей, что делает их более безопасными на реальных дорогах. Но генеративные методы ИИ, которые все чаще используются для создания таких изображений, имеют недостатки. Один популярный тип модели, называемый диффузионной моделью, может создавать потрясающе реалистичные изображения, но слишком медленный и требует больших вычислительных затрат для многих приложений. С другой стороны, авторегрессионные модели, которые поддерживают LLM, такие как ChatGPT, намного быстрее, но они создают изображения худшего качества, которые часто изобилуют ошибками. Исследователи из MIT и NVIDIA разработали новый подход, который объединяет лучшее из обоих методов. Их гибридный инструмент генерации изображений использует авторегрессионную модель для быстрого захвата общей картины, а затем малую диффузионную модель для уточнения деталей изображения. Работа опубликована на сервере препринтов arXiv. Их инструмент, известный как HART (сокращение от Hybrid Autoregressive Transformer), может генерировать изображения, которые по качеству соответствуют или превосходят самые современные модели диффузии, но делают это примерно в девять раз быстрее. Процесс генерации потребляет меньше вычислительных ресурсов, чем типичные модели диффузии, что позволяет запускать HART локально на коммерческо...