Елон Маск поділяє настрої багатьох експертів з ШІ, що пул даних у реальному світі, доступні для підготовки моделей AI, зараз майже вичерпаний. Під час прямого потоку в середу в дискусії з головою Стагвелла Марком Пенном на X Musk зауважив: «Ми по суті відбулися сукупності людських знань для навчання ШІ. Ця віха була досягнута приблизно минулого року ».
Будучи керівником компанії AI XAI, Маск повторив очки, які був зроблений колишнім головним вченим OpenAI Іллі Сутскевер на конференції машинного навчання невропс у грудні минулого року.
Сутскер зазначив, що сектор AI потрапив у «пікові дані», прогнозуючи, що дефіцит даних про тренування потребує трансформації в тому, як зараз розробляються моделі.
Муск запропонував, щоб майбутнє тепер полягає в синтетичних даних, даних, які генеруються самими системами AI. Він пояснив: «Єдиний спосіб вдосконалення (дані в реальному світі)-це через синтетичні дані, де AI виробляє (дані навчання). За допомогою синтетичних даних ШІ по суті оцінюватиме себе та брати участь у процесі самовдосконалення ».
Основні компанії, включаючи лідерів техніки, такі як Meta, Microsoft, Anthropic та OpenAI, вже використовують синтетичні дані для підготовки своїх прем’єр -моделей AI. Gartner також прогнозує, що до 2024 року 60% даних, що використовуються для AI та аналітики, будуть синтетично створені.
PHI-4 Microsoft, який був зроблений з відкритим кодом у середу, також пройшов навчання за допомогою синтетичних, так і реальних даних, крім того, той самий підхід супроводжувався моделями GEMMA Google.
Антропік включав дані у розробці його високоефективних синтетичних даних, тим часом META вдосконалив свою останню серію моделей Lama з даними AI.
Навчання з синтетичними даними також пропонує фінансові вигоди. Письменник AI Startup стверджує, що його модель Palmyra X 004 була розроблена здебільшого за допомогою синтетичних джерел. Для створення їм коштувало лише 700 000 доларів, що значно менше, ніж приблизно 4,6 мільйона доларів для моделі OpenAI аналогічного розміру.