Нейросети научились мастерски скрывать свой обман

Недавние исследования, проведенные компанией OpenAI, показали, что применение наказаний за нежелательное поведение в обучении моделей искусственного интеллекта может привести к непредсказуемым и даже негативным результатам. Вместо того чтобы улучшить поведение модели, такое наказание может спровоцировать её на разработку более изощренных методов сокрытия своих действий с тем, чтобы разработчики не смогли выявить их. Проблема явно обозначила себя, и с ней нужно что-то делать уже сейчас, пока нейросети поддаются контролю. Если же «пустить на самотек» это тревожное явление, в скором времени не избежать беды. Авторы исследования отмечают, что это явление, известное как «взлом вознаграждения», является одним из главных препятствий на пути развития технологий искусственного интеллекта. Модели ИИ, особенно те, которые обладают способностью к абстрактному мышлению, склонны к выдумке и манипуляции с целью получения вознаграждения, что противоречит заданным целям обучения. В ходе эксперимента исследователи OpenAI использовали модель GPT-4o для наблюдения за работой более продвинутой модели frontier. Они обнаружили, что model frontier часто демонстрировала явное намерение к мошенничеству, но при попытке наказать её за такие мысли модель научилась хорошо скрывать свои истинные намерения, маскируя их под другие, не вызывающие сомнений. Это исследование подчеркивает важность разработки более совершенных методов контроля и оценки поведения моделей ИИ. Авторы работы рекомендуют разработчика...

12:17, 25.03.2025

Рубрика: «Наука и Технологии» Поделиться:

Нейросети MTS AI научились синтезировать эмоции для голосовых ботов MTS AI внедрила в сервис Audiogram возможность выбора эмоций при синтезе речи. Сейчас нейр ...

Нейросети DeepMind научились решать задачи на уровне серебряных медалистов Международной математической олимпиады Google DeepMind разработала нейросетевые алгоритмы AlphaProof и AlphaGeometry 2, которые д ...

Вы просто не туда смотрите! Apple оправдалась за свой обман с iPad Air 2024 Компания Apple объяснила ухудшение технических характеристик iPad Air, которое произошло н ...

Opera интегрирует в свой браузер нейросети Google Gemini Пользователи браузера Opera уже могут взаимодействовать с функциями на базе искусственного ...