OpenAI провела тесты: новые системы ИИ ошибаются чаще прежнего

OpenAI провела тесты: новые системы ИИ ошибаются чаще прежнего

Согласно публикации The New York Times, случаи, когда искусственный интеллект выдает неверные данные, называемые галлюцинациями, происходят все чаще. Издание приводит пример: бот технической поддержки инструмента Cursor сообщил пользователям ложную информацию о запрете использования сервиса на нескольких устройствах. Впоследствии руководство компании опровергло эти данные. Отмечается, что даже самые современные системы от OpenAI, Google и DeepSeek демонстрируют рост количества ошибок. Несмотря на улучшение математических способностей, умение работать с фактами у новых ИИ-моделей снизилось. Причины этого технологические компании пока объяснить не могут. Системы искусственного интеллекта строятся на математических вероятностях и не обладают механизмами различения правды и лжи. В некоторых тестах, по данным The New York Times, частота галлюцинаций достигала 79%. Представители компаний признают, что полностью исключить ошибки невозможно. Особую обеспокоенность вызывает использование ИИ в таких сферах, как право, медицина и бизнес, где ошибки могут привести к значительным последствиям. По данным OpenAI, их новейшая система o3 допустила ошибки в 33% случаев при тестировании на знание публичных личностей, а более новая версия o4-mini — в 48%. В другом тесте, SimpleQA, частота ошибок достигла 79%. Тестирования показывают, что аналогичные проблемы фиксируются у моделей других компаний, включая Google и DeepSeek. Причиной роста числа ошибок специалисты называют особенности новых методо...
00:17, 11.05.2025
Источник: astera.ru  
Рубрика: «Наука и Технологии»   Поделиться: Поделиться новостью в Facebook Поделиться новостью в Twittere Поделиться новостью в VK Поделиться новостью в Pinterest Поделиться новостью в Reddit

Названы имена, в которых чаще всего ошибаются в загранпаспортахНазваны имена, в которых чаще всего ошибаются в загранпаспортах В мае и июне участились случаи изъятия заграничных паспортов при выезде из РФ. Об этом зая ...

Apple провела тесты приложения для мониторинга уровня глюкозы в кровиApple провела тесты приложения для мониторинга уровня глюкозы в крови Apple тихо исследует новые пути в области технологий здравоохранения, включая ПО. Недавний ...

BMW провела испытания неподвижной ветроэнергетической системыBMW провела испытания «неподвижной» ветроэнергетической системы Немецкий автопроизводитель BMW установил первую в Великобритании «неподвижную» ветроэнерге ...

Новые дроны и новые антидроновые системы: вышел дайджест БеспилотаНовые дроны и новые антидроновые системы: вышел дайджест "Беспилота" Телеграм-канал "Беспилот", посвящённый разработке, производству и эксплуатации БПЛА в Росс ...

CHASPIK.SPB.RU Поиск в новостях