Использование иллюстраций для обучения системы компьютерного зрения без изображений распознаванию реальных фотографий

Использование иллюстраций для обучения системы компьютерного зрения без изображений распознаванию реальных фотографий

Вы, вероятно, слышали, что изображение стоит тысячи слов, но может ли модель большого языка (LLM) получить изображение, если оно никогда раньше не видело изображений? Как оказалось, языковые модели, обучающиеся исключительно на тексте, имеют четкое представление о визуальном мире. Они могут писать код рендеринга изображений для создания сложных сцен с интригующими объектами и композициями — и даже если эти знания не используются должным образом, LLM могут улучшить свои изображения. Исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) наблюдали это, когда предлагали языковым моделям самостоятельно корректировать свой код для различных изображений, при этом системы улучшали свои простые рисунки с каждым запросом. Визуальные знания об этих языковых моделях получены из того, как такие понятия, как формы и цвета, описываются в Интернете, будь то на языке или в коде. Когда им дают такое указание, как «нарисовать попугая в джунглях», пользователи запускают LLM, чтобы обдумать то, что они читали в описаниях ранее. Чтобы оценить, насколько обширными визуальными знаниями обладают LLM, команда CSAIL провела «проверку зрения» для LLM: используя свой «набор данных визуальных способностей», они проверили способности моделей рисовать, распознавать и самостоятельно корректировать эти концепции. Собрав каждый окончательный вариант этих иллюстраций, исследователи обучили систему компьютерного зрения, которая определяет со...
16:17, 19.06.2024
Источник: android-robot.com  
Рубрика: «Интернет и Игры»   Поделиться: Поделиться новостью в Facebook Поделиться новостью в Twittere Поделиться новостью в VK Поделиться новостью в Pinterest Поделиться новостью в Reddit

Делимобиль автоматизировал обработку фотографий с помощью алгоритмов машинного зрения«Делимобиль» автоматизировал обработку фотографий с помощью алгоритмов машинного зрения «Делимобиль», российский оператор каршеринга, внедрил модели машинного зрения на основе ис ...

Konica Minolta Business Solutions Russia и Facemetric предложат заказчикам решения на базе технологий компьютерного зренияKonica Minolta Business Solutions Russia и Facemetric предложат заказчикам решения на базе технологий компьютерного зрения ИТ-провайдер полного цикла Konica Minolta Business Solutions Russia и Facemetric, российск ...

ChatGPT на основе зрения демонстрирует дефицит интерпретации радиологических изображенийChatGPT на основе зрения демонстрирует дефицит интерпретации радиологических изображений Исследователи, оценивающие производительность ChatGPT-4 Vision, обнаружили, что модель хор ...

Google разберётся с OpenAI за использование YouTube для обучения ИИGoogle разберётся с OpenAI за использование YouTube для обучения ИИ Генеральный директор Google Сундар Пичаи (Sundar Pichai) пообещал «разобраться» ...

CHASPIK.SPB.RU Поиск в новостях