Компактная языковая модель Phi Silica стала мультимодальной
Компактная языковая модель (SLM) Phi Silica от Microsoft теперь способна понимать не только текст, но и изображения, что переводит её в статус мультимодальных. Это важное обновление, поскольку модель интегрирована в операционную систему Windows 11 на устройствах ПК Copilot+ и работает на локальном нейронном процессоре (NPU), встроенном в процессор. Сейчас модель работает только с процессором Snapdragon X, но в ближайшее время появится поддержка чипов от AMD и Intel. Вместо добавления отдельной громоздкой модели для анализа изображений, инженеры Microsoft объединили существующие компоненты. Базой осталась уже развернутая модель Phi Silica. Для машинного зрения применяется кодировщик изображений Florence, который также используется в предварительной версии Windows Recall и улучшенном поиске на базе ИИ. И, наконец, разработан небольшой дополнительный модуль «Projector» (всего 80 млн параметров), который преобразует визуальные данные от Florence в формат, понятный Phi Silica. [media=https://vkvideo.ru/video-3783130_456239407] Так Microsoft удалось избежать необходимости развёртывания ещё одной громоздкой модели на устройствах пользователей. Этого подход позволил сэкономить дисковое пространство и уменьшить вычислительную нагрузку. Кроме этого, повторное использование существующих компонентов сократило затраты и время на обучение моделей. Главным примером практического применения новой технологии стала функция генерации описаний изображений для незрячих или слабовидящих пользоват...