Apple раскрыла простой трюк, который делает ИИ умнее на 8%

Apple раскрыла простой трюк, который делает ИИ умнее на 8%

Учёные из Apple представили исследование, показавшее, что большие языковые модели (LLM) могут значительно повысить точность выполнения заданий, если использовать старый и проверенный инструмент — чек-листы. Контекст: как обычно обучают языковые модели После обучения LLM проходит этап донастройки с помощью метода Reinforcement Learning from Human Feedback (RLHF). На этом этапе люди-ассессоры оценивают ответы модели: «лайк» усиливает вероятность похожего ответа в будущем, «дизлайк» — снижает. Такой подход помогает сделать ответы полезнее и безопаснее. Однако у RLHF есть слабые места. Модель может научиться выдавать «правильные на вид» ответы, которые на самом деле не решают задачу, лишь создавая иллюзию правильности. Что предложили исследователи Apple В статье “Checklists Are Better Than Reward Models For Aligning Language Models” компания предложила новый метод — Reinforcement Learning from Checklist Feedback (RLCF). Он работает так: Вместо общей оценки «нравится/не нравится» ответы модели проверяются по списку конкретных пунктов («Переведено ли на испанский?», «Есть ли форматирование?» и т. п.). Каждый пункт оценивается по шкале от 0 до 100. Более мощная модель («учитель») проверяет ответы и выставляет баллы, которые становятся сигналом для дообучения основной («студентской») модели. Apple даже создала датасет WildChecklists с 130 000 инструкций и автоматически сгенерированными чек-листами. Результаты ис...
12:17, 26.08.2025
Источник: itzine.ru  
Рубрика: «Наука и Технологии»   Поделиться: Поделиться новостью в Facebook Поделиться новостью в Twittere Поделиться новостью в VK Поделиться новостью в Pinterest Поделиться новостью в Reddit

Бабушка раскрыла этот простой трюк: ванна блестит от чистоты  проверенный временем советский методБабушка раскрыла этот простой трюк: ванна блестит от чистоты — проверенный временем советский метод Знакомо, как после месяца использования новая лейка для душа покрывается белым налётом, бу ...

Метод 5 секунд: простой трюк, который изменит вашу жизньМетод "5 секунд": простой трюк, который изменит вашу жизнь 07:34, 05 июля 2024, автор: Кутман С.Метод "5 секунд": простой трюк, который изменит вашу ...

Простой трюк с 4 ингредиентами: как вернуть кухонным полотенцам белизну за ночь  даже застарелый нагар и жир исчезнут без следаПростой трюк с 4 ингредиентами: как вернуть кухонным полотенцам белизну за ночь — даже застарелый нагар и жир исчезнут без следа Простой трюк с 4 ингредиентами: как вернуть кухонным полотенцам белизну за ночь — даже зас ...

Как ИИ от NVIDIA делает боссов в играх умнее и сложнее. ВидеодемонстрацияКак ИИ от NVIDIA делает боссов в играх умнее и сложнее. Видеодемонстрация NVIDIA ACE — это набор инструментов на основе генеративного ИИ, предназначенных для создан ...

CHASPIK.SPB.RU Поиск в новостях