
Il y a quelques semaines, des experts ont souligné que nous avions atteint la limite des données d'entraînement pour l'intelligence artificielle. Dans le sillage de la popularité de ChatGPT, de nombreuses entreprises ont cherché à imiter ses capacités, notamment Google, Apple et Meta, qui s'efforcent de proposer des assistants d'IA génératifs.
Cependant, la voix la plus reconnue du secteur technologique a révélé que les données nécessaires à l'entraînement des modèles d'intelligence artificielle n'étaient plus disponibles et qu'il était urgent de trouver une solution.

Comme le souligne TechCrunch, Elon Musk a affirmé que nous avions atteint la limite des données du monde réel pour entraîner les modèles d'IA. Il précise toutefois que cette situation ne s'est pas produite maintenant, mais qu'elle a eu lieu il y a quelques mois, toujours en 2024. Elon Musk souligne ainsi les propos d'Ilya Sutskever, ancien scientifique en chef d'OpenAI, qui indiquait déjà en 2022 que l'industrie avait atteint une situation qu'il appelait "peak data". À la lumière de ce qui s'est passé, le milliardaire qui est en conflit avec les créateurs de ChatGPT a donc proposé une solution temporaire pour continuer à entraîner les modèles d'IA.
Pour Elon Musk, une excellente option consiste à utiliser des données générées par l'intelligence artificielle elle-même, un aspect connu sous le nom de "données synthétiques". Cela permettra de créer des pipelines d'apprentissage automatique et de suivre les traces d'entreprises telles que Microsoft, Meta, OpenAI et Anthropic qui suivent déjà cette voie. En fait, selon certaines estimations, d'ici 2024, 60 % des données utilisées seront synthétiques, car en plus de tout ce qui précède, il y aura d'autres avantages tels que la réduction des coûts.
>> "Je devais le supplier à chaque fois que..." : un ancien employé de Tesla décrit ce que c'est de travailler avec Elon Musk au quotidien <<

Cependant, certaines recherches suggèrent que l'utilisation de données synthétiques pourrait conduire à l'effondrement de différents modèles, réduisant la créativité et augmentant les biais dans les résultats. En effet, si les données générées présentent des biais ou des limites, les modèles entraînés avec ces données reproduiront ces mêmes problèmes dans leurs résultats. Cependant, cela ne semble pas être une limitation ni pour Elon Musk ni pour des entreprises telles que Microsoft, Google ou Anthropic, étant donné qu'elles les ont utilisées dans des modèles tels que Phi-4, Gemma et Claude 3.5 Sonnet.
Article écrit en collaboration avec nos collègues de 3dJuegos.