Опубликован BoN, метод обхода фильтров больших языковых моделей

Опубликован BoN, метод обхода фильтров больших языковых моделей

Выявлен новый метод атаки, позволяющий обойти механизмы противодействия генерации опасного контента, применяемые в AI-сервисах на основе больших языковых моделей. Метод, который получил кодовое имя BoN (Best-of-N), при тестировании на 10 тысячах запросов позволил обойти ограничения модели GPT-4o в 89% случаев, модели Claude 3.5 Sonnet - в 78%, а Gemini Pro - в 50%. Инструментарий для проведения атаки опубликован под лицензией MIT....
00:17, 22.12.2024
Источник: www.opennet.ru  
Рубрика: «Интернет и Игры»   Поделиться: Поделиться новостью в Facebook Поделиться новостью в Twittere Поделиться новостью в VK Поделиться новостью в Pinterest Поделиться новостью в Reddit

Google TPU Trillium: для больших языковых моделей ИИGoogle TPU Trillium: для больших языковых моделей ИИ На вчерашней конференции Google I/O основное внимание было уделено моделям искусственного ...

Разработан метод предотвращения галлюцинаций больших языковых моделейРазработан метод предотвращения галлюцинаций больших языковых моделей Большие языковые модели (LLM), такие как ChatGPT, научились генерировать тексты, почти не ...

МГУ о применении мультимодальных больших языковых моделей в видеоаналитикеМГУ о применении мультимодальных больших языковых моделей в видеоаналитике Ученые МГУ провели исследование по проблеме перевода видео в текст, что позволит значитель ...

GPT на языке бизнеса: особенности применения больших языковых моделейGPT на языке бизнеса: особенности применения больших языковых моделей Использование больших языковых моделей для генерации контента популярно не только среди ча ...

CHASPIK.SPB.RU Поиск в новостях