Исследование Apple выявило серьёзный недостаток ИИ в моделях OpenAI и Google
Исследователи Apple обнаружили, что возможности логического мышления больших языковых моделей могут быть не такими продвинутыми, как казалось ранее! Большие языковые модели (LLMs) от OpenAI, Google и других компаний давно считаются образцом передовых технологий в области искусственного интеллекта благодаря своим впечатляющим навыкам логического мышления. Однако новое исследование от команды Apple показывает, что их интеллект может быть не чем иным, как сложным сопоставлением паттернов, а не настоящим логическим рассуждением. Проблемы с тестами и загрязнение данных Наиболее распространённым тестом для оценки логического мышления является GSM8K, но из-за его популярности существует риск загрязнения данных. Это означает, что языковые модели могли быть обучены на ответах, а не выводить их через встроенные способности. Чтобы проверить эту гипотезу, исследователи Apple разработали новый тест под названием GSM-Symbolic, который сохраняет суть задач по логике, но меняет переменные: имена, числа, уровень сложности и добавляет лишнюю информацию. Результаты оказались неожиданными: при изменении переменных производительность всех протестированных моделей заметно снизилась. В исследовании были протестированы более 20 моделей, включая OpenAI o1, GPT-4o, Google Gemma 2 и Llama 3. Независимо от модели, их точность падала при любых изменениях в условиях задачи. «Хрупкость» логики моделей Исследователи отметили, что при простом изменении имён или чисел точ...