Использование иллюстраций для обучения системы компьютерного зрения без изображений распознаванию реальных фотографий

Вы, вероятно, слышали, что изображение стоит тысячи слов, но может ли модель большого языка (LLM) получить изображение, если оно никогда раньше не видело изображений? Как оказалось, языковые модели, обучающиеся исключительно на тексте, имеют четкое представление о визуальном мире. Они могут писать код рендеринга изображений для создания сложных сцен с интригующими объектами и композициями — и даже если эти знания не используются должным образом, LLM могут улучшить свои изображения. Исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) наблюдали это, когда предлагали языковым моделям самостоятельно корректировать свой код для различных изображений, при этом системы улучшали свои простые рисунки с каждым запросом. Визуальные знания об этих языковых моделях получены из того, как такие понятия, как формы и цвета, описываются в Интернете, будь то на языке или в коде. Когда им дают такое указание, как «нарисовать попугая в джунглях», пользователи запускают LLM, чтобы обдумать то, что они читали в описаниях ранее. Чтобы оценить, насколько обширными визуальными знаниями обладают LLM, команда CSAIL провела «проверку зрения» для LLM: используя свой «набор данных визуальных способностей», они проверили способности моделей рисовать, распознавать и самостоятельно корректировать эти концепции. Собрав каждый окончательный вариант этих иллюстраций, исследователи обучили систему компьютерного зрения, которая определяет со...

16:17, 19.06.2024

Рубрика: «Интернет и Игры» Поделиться:

Делимобиль автоматизировал обработку фотографий с помощью алгоритмов машинного зрения «Делимобиль» автоматизировал обработку фотографий с помощью алгоритмов машинного зрения «Делимобиль», российский оператор каршеринга, внедрил модели машинного зрения на основе ис ...

ChatGPT на основе зрения демонстрирует дефицит интерпретации радиологических изображений Исследователи, оценивающие производительность ChatGPT-4 Vision, обнаружили, что модель хор ...

Роботы с ногами успешно катаются на скейтборде с помощью системы обучения с подкреплением Роботы с ногами, которые часто вдохновлены животными и насекомыми, могли бы помочь людям в ...

Бумажные паспорта уйдут в прошлое благодаря смартфонам и распознаванию лиц В ближайшие годы традиционные бумажные паспорта могут стать пережитком прошлого. Вместо ни ...