Модели искусственного интеллекта испытывают трудности с простым умножением без специальных методов обучения
В наши дни большие языковые модели способны справляться со все более сложными задачами, писать сложный код и применять изощренные рассуждения. Но когда дело доходит до умножения четырехзначных чисел, задачи, изучаемой в начальной школе, даже самые современные системы терпят неудачу. Почему? В новой статье, опубликованной на препринт-сервере arXiv аспирантом факультета компьютерных наук Чикагского университета Сяоянем Баем и соруководителем исследовательской инициативы по новым интеллектуальным решениям Института науки о данных Ченхао Таном, ответы находятся путем обратного проектирования неудач и успехов. Они работали в сотрудничестве с коллегами из Массачусетского технологического института, Гарвардского университета, Университета Ватерлоо и Google DeepMind, чтобы исследовать « неровные границы » искусственного интеллекта — термин, обозначающий его способность преуспевать в сложных рассуждениях, но при этом спотыкаться на, казалось бы, простых задачах. Как вы, возможно, помните (или забыли), умножение больших чисел требует переноса цифр и мысленного «удержания» частичных произведений, чтобы затем сложить их и получить итоговую сумму. Процессы, требующие хранения информации для последующего использования таким образом, называются «дальними зависимостями». Стандартные большие языковые модели работают, обучаясь распознавать закономерности в данных, на которых они обучаются. Но чем сложнее задача, тем меньше вероятность того, что модель её конкретно обнаружила. Так как же научит...