Для достижения своих целей продвинутые модели ИИ будут хитрить, обманывать и воровать

Anthropic опубликовала результаты своего исследования поведения больших языковых моделей (LLM). Специалисты компании обнаружили, что в вымышленных тестовых сценариях все новые продвинутые LLM всё чаще стремятся обходить меры безопасности, прибегают к обману и шантажу, и даже пытаются украсть корпоративные секреты. Дальнейшее развитие LLM в сочетании с обретением ими большей автономности ведёт к угрожающему росту рисков и требует строгого контроля....

16:17, 23.06.2025

Источник: 3dnews.ru

Рубрика: «Software» Поделиться:

Чат-ботов научили обманывать. Ложь помогает им достигать своих целей Чат-бот искусственного интеллекта нередко собирает данные без разбора, не имея возможности ...

Продвинутые модели духовок для тех, кто любит готовить: топ-7 Electrolux KOCBP39WXHisense BI65346ADBGWIFIBosch Serie|6 HBJ558YS0QSmeg SOP6604TPNR Hisens ...

Новая ИИ-модель OpenAI o1 стала не только лучше рассуждать, но и обманывать ради достижения цели Новая модель OpenAI под названием o1, согласно исследованию фирмы Apollo, демонстрирует не ...

Белоусов оценил значение Малой Токмачки для достижения целей СВО С установлением контроля над Малой Токмачкой российская армия сделала «серьезный шаг к поб ...