Опубликован BoN, метод обхода фильтров больших языковых моделей

Опубликован BoN, метод обхода фильтров больших языковых моделей

Выявлен новый метод атаки, позволяющий обойти механизмы противодействия генерации опасного контента, применяемые в AI-сервисах на основе больших языковых моделей. Метод, который получил кодовое имя BoN (Best-of-N), при тестировании на 10 тысячах запросов позволил обойти ограничения модели GPT-4o в 89% случаев, модели Claude 3.5 Sonnet - в 78%, а Gemini Pro - в 50%. Инструментарий для проведения атаки опубликован под лицензией MIT....
00:17, 22.12.2024
Источник: www.opennet.ru  
Рубрика: «Интернет и Игры»   Поделиться: Поделиться новостью в Facebook Поделиться новостью в Twittere Поделиться новостью в VK Поделиться новостью в Pinterest Поделиться новостью в Reddit

Разработан метод предотвращения галлюцинаций больших языковых моделейРазработан метод предотвращения галлюцинаций больших языковых моделей Большие языковые модели (LLM), такие как ChatGPT, научились генерировать тексты, почти не ...

МГУ о применении мультимодальных больших языковых моделей в видеоаналитикеМГУ о применении мультимодальных больших языковых моделей в видеоаналитике Ученые МГУ провели исследование по проблеме перевода видео в текст, что позволит значитель ...

GPT на языке бизнеса: особенности применения больших языковых моделейGPT на языке бизнеса: особенности применения больших языковых моделей Использование больших языковых моделей для генерации контента популярно не только среди ча ...

Яндекс открыл доступ к библиотеке для обучения больших языковых моделей«Яндекс» открыл доступ к библиотеке для обучения больших языковых моделей «Яндекс» открыл доступ для всех желающих к собственно разработанной библиотеке YaFSDP для ...

CHASPIK.SPB.RU Поиск в новостях