Модели ИИ учатся разделять задачи, сокращая время ожидания сложных подсказок
По мере того как большие языковые модели (LLM), такие как ChatGPT, продолжают совершенствоваться, ожидания пользователей от них продолжают расти, в том числе в отношении того, насколько быстро они могут реагировать на наши все более сложные запросы, запрашивающие ответы на все более сложные проблемы и задачи. Традиционные LLM основаны на концепции «авторегрессивного декодирования», где каждый элемент («токен») в последовательности предсказывается на основе ранее сгенерированных выходных данных. Такой подход неизбежно приводит к задержкам при обработке более сложных подсказок, хотя исследователи пытались смягчить это с помощью проектов, более эффективно использующих параллелизм многоядерных компьютерных чипов. Например, спекулятивное декодирование использует быструю черновую модель для предложения токенов, которые затем параллельно проверяются более медленной, высококачественной моделью. Новый класс методов вместо этого использует «семантическую независимость», выявляя синтаксические шаблоны, такие как пункты списка, и параллельно раскрывая каждый из них. Однако они опираются на вручную созданные синтаксические эвристики, которые нестабильны и часто дают сбои, когда ответы отклоняются от ожидаемых форматов. Эти недостатки вдохновили исследователей из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) и Google использовать подход, основанный на обучении, для параллельного декодирования. Вместо того, чтобы полагаться на ф...