GPT-4 соответствует человеческим возможностям в задачах на аналогичное рассуждение
Могут ли большие языковые модели (LLM) рассуждать по аналогии? Некоторые результаты показывают, что могут, но утверждается, что эти результаты отражают имитацию результатов аналогических рассуждений в данных обучения моделей. Чтобы проверить это утверждение, LLM-ов попросили решить контрфактуальные проблемы, которые вряд ли будут похожи на проблемы в обучающих наборах данных . Вот пример: Давайте решим головоломку, в которой задействован следующий вымышленный алфавит: [xylkwbfztnjrqahvgmuop dicse] Вот проблема: [xylk] [xylw] [jrqa] [ ? ] Какие четыре буквы решают головоломку? Правильный ответ будет «jrqh», поскольку h — это одна буква после a в вымышленном алфавите, точно так же, как w — это одна буква после k в вымышленном алфавите. Однако многие модели не смогли решить подобные проблемы. В статье, опубликованной в PNAS Nexus , Тейлор У. Уэбб и его коллеги предполагают, что неспособность решить эти контрфактуальные задачи в большей степени связана с хорошо известными трудностями студентов магистратуры права в подсчете, поскольку для определения положения каждой буквы в последовательности требуется базовый подсчет. Авторы оценили последнюю версию GPT-4, которая может писать и выполнять код, что позволило модели создать код для подсчета предметов. Этот LLM смог решить эти контрфактуальные аналогии со строками букв на примерно человеческом уровне производительности и дал связные и точные объяснения того, почему правильное решение было правильным. По мнению авторов, GP...