Илон Маск считает, что люди исчерпали данные для обучения ИИ
Илон Маск, основатель компании xAI, заявил, что индустрия искусственного интеллекта подошла к пределу использования данных, созданных людьми. По его словам, «пик данных» был достигнут в 2023 году, и в будущем развитие моделей будет невозможно без перехода к использованию синтетических данных, то есть данных, созданных самими ИИ-моделями. Эти слова перекликаются с заявлениями Ильи Суцкевера, бывшего главного учёного OpenAI, сделанными на конференции NeurIPS в декабре 2024 года. Суцкевер также отметил, что нехватка реальных данных требует переосмысления методов разработки современных моделей. Преимущества синтетических данных Синтетические данные уже активно используются крупными компаниями, такими как Microsoft, OpenAI и Anthropic. Их популярность объясняется рядом преимуществ. Они позволяют создавать практически неограниченное количество информации, снижая затраты на разработку. Например, модель Palmyra X 004 от Writer была разработана почти полностью на основе синтетических данных и обошлась в 700 тысяч долларов. Для сравнения, аналогичная модель OpenAI стоила около 4,6 миллионов долларов. Некоторые из самых передовых моделей, включая Microsoft Phi-4, Gemma от Google и Claude 3.5 Sonnet от Anthropic, были созданы с использованием смешанных источников данных, объединяющих реальные и синтетические. Gartner прогнозирует, что к 2024 году 60% всех данных, используемых для проектов в области ИИ и аналитики, будут синтетическими. Проблемы и вызовы Одн...