Accueil

S'ABONNER

KIOSQUE

MANIFESTE

PODCAST

CONTACT

Les IA deviennent consanguines et débiles. Et tant mieux !

17/08/2025 à 04:15

Quand l'IA s’auto-entraîne, son futur vacille : de la saturation jaune aux dérives de la "consanguinité numérique".

Découvrez le Low-Tech Journal

Les images jaunies et d’autres dysfonctionnements visuels ne sont que la partie émergée de l’auto-alimentation des IA par des données générées par l’IA elle-même. Cette "consanguinité numérique" menace l’intégrité des modèles. Pour préserver le futur de l’intelligence artificielle, la Silicon Valley tente de rééquilibrer les sources de données... à grand peine !

Consanguinité numérique

Des images au filtre jaune omniprésent révèlent un malaise profond dans les algorithmes génératifs. Selon Jathan Sadowski, chercheur à la Monash University, cette teinte inhabituelle résulte d’un biais propagé par les modèles eux-mêmes, entraînés sur des données synthétiques déjà saturées de jaune : un cercle vicieux que certains évoquent comme de la "Habsburg AI", en référence à une dynastie européenne affaiblie par l'endogamie.

Cette consanguinité numérique, ou model collapse, est davantage qu’un simple artefact visuel. Lorsqu’un modèle est formé essentiellement à partir de données générées par d’autres IA, il produit des résultats déformés, incohérents, voire grotesques.

Le problème devient plus aigu face à une raréfaction criante de données humaines : d’après une étude relayée par le Journal du Geek, l’ensemble des textes produits par l’humanité pourrait avoir été absorbé par les IA entre 2026 et 2032. Ce constat est partagé par des experts comme Ilya Sutskever, qui affirment que nous avons presque épuisé cette ressource essentielle.

Face à cette pénurie, les géants de l’IA (OpenAI, Meta, Anthropic…) s’appuient de plus en plus sur des données synthétiques — en 2024, celles-ci représentaient déjà près de 60 % des données utilisées. Or, bien que techniquement efficientes, ces données sont moins variées et moins fidèles au réel, ce qui accroît les risques de dérives irréversibles (source). 

Des chercheurs de Rice et Stanford, comme Richard G. Baraniuk, Sina Alemohammad et Josue Casco-Rodriguez, ont modélisé ce phénomène sous le terme de MAD (Model Autophagy Disorder), ou effondrement progressif du modèle. Ils montrent que quelques cycles d’entraînement sur des données synthétiques suffisent à rendre les modèles incohérents — avec des textes dégénérant en boucles absurdes ou des visages générés qui finissent par se ressembler en un étrange clone générique.

Pire encore, cette dynamique pourrait progresser en toute discrétion : une image ou un texte généré par une IA, publié sur le web, peut être repris plus tard dans les datasets d’entraînement, nourrissant un effet cumulatif auto-amplificateur.

Alors, que fait la Silicon Valley ?

  • Watermarking : marquer les contenus générés par IA pour faciliter leur identification et exclusion des données d’entraînement futures

  • Accès à des données humaines fiables : établir des partenariats (avec Shutterstock, Associated Press…) pour garantir l’accès à des données réelles, diversifiées et juridiquement claires.

  • Encourager la diversité des modèles : favoriser un écosystème fragmenté plutôt qu’un monopole, afin de limiter les risques d'effondrement généralisé. Et donc laisser se multiplier les startup d'IA générative de basse qualité mais gratuites qui vont vous faire bosser à créer des données pour éduquer les modèles... c'est le serpend qui se mord la queue.

  • Paiement sécurisé
    Commandez en toute sécurité par CB, chèque ou virement.
  • Livraison à vitesse humaine
    Expédition sous 10 jours, sans scanner ni drône.
  • Service client
    On répond à vos messages au plus vite !
  • Satisfait ou remboursé
    14 jours pour changer d'avis.