Новое исследование показывает, что модели OpenAI «запоминают» защищенный авторским правом контент
Новое исследование подтверждает, что OpenAI, вероятно, использовала защищенный авторским правом контент для обучения некоторых своих моделей искусственного интеллекта. Компания сталкивается с исками от авторов, программистов и других правообладателей, которые обвиняют OpenAI в том, что она использовала их работы — книги, код и т. д. — для создания своих моделей без разрешения. OpenAI утверждает, что действует в рамках добросовестного использования, однако истцы настаивают на том, что в американском законодательстве об авторском праве нет исключений для данных, используемых для обучения. Исследование было проведено учеными из Вашингтонского университета, Копенгагенского университета и Стэнфорда. Они разработали новый метод для выявления данных, которые модели запомнили во время обучения. Модели ИИ работают как предсказательные механизмы: обучаясь на больших объемах данных, они выявляют закономерности и могут генерировать тексты или изображения. Хотя большинство их выходных данных не являются точными копиями обучающих материалов, некоторые фрагменты все же могут быть воспроизведены. Например, модели изображений могут воспроизводить кадры из фильмов, а языковые модели могут копировать новостные статьи. В исследовании использовались так называемые «высокоудивительные» слова — те слова, которые выделяются как необычные в контексте текста. Например, слово «радар» в предложении «Джек и я сидели совершенно неподвижно, пока радар жужжал» считается высокоудивительным по...