Элон Маск утверждает, что ИИ исчерпал реальные данные для обучения
В недавнем интервью на выставке CES Элон Маск (Elon Musk) отметил, что искусственный интеллект уже практически исчерпал все доступные данные для обучения в реальном мире, указывая на создание синтетических данных как на основной путь вперед. Эта идея согласуется с тем, что бывший главный научный сотрудник OpenAI Илья Суцкевер говорил о достижении "пика данных" в развитии ИИ.
Маск считает, что мы исчерпали запасы данных, созданных человеком, еще в 2024 году. Будучи генеральным директором Tesla и владельцем компании xAI, он подчеркнул, что заставить ИИ создавать собственные обучающие данные - это самое практичное решение для продвижения ИИ вперед. Этот метод позволяет системам ИИ проверять самих себя и учиться в процессе работы.
Многие крупные технологические компании уже вскочили на поезд синтетических данных. Например, недавно выложенная в открытый доступ модель Phi-4 от Microsoft использует комбинацию синтетической и реальной информации, а Google применяет аналогичную стратегию для своих моделей Gemma. Модель Claude 3.5 Sonnet от Anthropic и последняя серия Llama от Meta также опираются на данные, генерируемые искусственным интеллектом.
Между тем, аналитики компании Gartner прогнозируют, что к 2024 году около 60% данных, используемых в проектах ИИ и аналитики, будут синтетическими. Одна из главных причин такого сдвига - стоимость. ИИ-стартап Writer утверждает, что потратил около 700 000 долларов на разработку своей модели Palmyra X 004 - гораздо дешевле, чем 4,6 миллиона долларов на создание сопоставимой модели OpenAI.
Но синтетические данные не лишены проблем. Исследователи предупреждают о риске "краха модели", когда ИИ может стать менее изобретательным и более предвзятым. Эта проблема может возникнуть, если какие-либо предубеждения в исходном наборе данных усилятся, когда ИИ начнет самостоятельно подготавливать свежие данные.
Источник(и)
Быстрые технологии (на китайском языке)