L'IA générative dans le paysage de l'IA¶

Objectif du document¶

Ce document situe l’IA générative au sein du domaine plus large de l’intelligence artificielle. Son objectif est de rendre une idée claire : l’IA générative n’est pas « l’intelligence artificielle » dans son ensemble, mais l’une de ses branches parmi plusieurs, avec ses propres mécanismes, ses forces et ses limites.

Cette mise en perspective est importante dans un cadre professionnel. Confondre l’IA générative avec l’ensemble du domaine conduit à deux erreurs fréquentes : attendre d’un générateur de texte qu’il se comporte comme un système de reconnaissance ou comme une calculatrice, et attribuer à un modèle des capacités qu’il ne possède pas réellement. Comprendre où se situe chaque technologie aide à choisir le bon outil pour un problème donné.

Cette page est le point d’entrée de la section. Les pages suivantes examinent ensuite plus en détail l’IA générative elle-même, puis les architectures utilisées pour la déployer dans une organisation.

1. L’intelligence artificielle est un domaine, pas une technologie unique¶

L’intelligence artificielle est un domaine vaste, composé de sous-domaines aux structures et aux objectifs très différents. L’apprentissage supervisé, l’apprentissage non supervisé, les modèles génératifs, l’apprentissage par renforcement et les méthodes statistiques hybrides répondent à des objectifs distincts et ne doivent pas être confondus.

Un algorithme conçu pour générer du texte ne fonctionne pas du tout comme un modèle de reconnaissance faciale ou un système de recommandation de produits. Cette diversité implique d’éviter de tout regrouper sous une même définition et, surtout, d’éviter d’attribuer à un modèle des capacités qu’il ne possède pas. Parler d’« IA » sans préciser de laquelle il s’agit est souvent source de malentendus.

2. Une manière utile de se représenter le domaine : des niveaux imbriqués¶

Une façon simple de situer l’IA générative consiste à voir le domaine comme un ensemble de niveaux imbriqués, du plus général au plus spécifique :

Intelligence artificielle (IA)
└─ Apprentissage automatique (machine learning)
   └─ Apprentissage profond (deep learning)
      └─ IA générative

L’intelligence artificielle est l’objectif global : faire réaliser à une machine des tâches qui, chez un humain, mobilisent de l’analyse, de la reconnaissance, de la décision ou du langage.
L’apprentissage automatique (machine learning) est une famille de méthodes où un système apprend des régularités à partir de données, au lieu d’être programmé avec des règles explicites.
L’apprentissage profond (deep learning) est une branche de l’apprentissage automatique fondée sur des réseaux de neurones comportant plusieurs couches successives. Sa particularité est d’apprendre à extraire les caractéristiques pertinentes directement à partir des données brutes, alors que dans l’apprentissage automatique classique ces caractéristiques doivent souvent être définies par un expert.
L’IA générative est une approche spécifique de l’apprentissage profond, dédiée à la production de contenu plutôt qu’à la seule classification ou prédiction.

Chaque niveau est un cas particulier de celui qui le contient. L’IA générative est donc de l’apprentissage profond, qui est de l’apprentissage automatique, qui est de l’intelligence artificielle ; l’inverse, lui, est faux : la majeure partie de l’IA n’est pas générative.

3. Comment un réseau de neurones apprend¶

L’apprentissage profond repose sur des réseaux de neurones artificiels composés de plusieurs couches successives. Chaque couche transforme progressivement les données d’entrée en représentations de plus en plus abstraites, ce qui permet au modèle de capturer des motifs complexes et d’effectuer des prédictions précises.

En pratique, l’entraînement repose sur un processus itératif d’optimisation. On fournit d’abord au modèle un ensemble de données annotées, par exemple des images de chats et de chiens avec leur étiquette correspondante. Le réseau effectue une prédiction initiale, souvent incorrecte au départ, et compare son résultat avec la vérité terrain. Grâce à un algorithme comme la descente de gradient, les poids des connexions entre les neurones sont ajustés progressivement afin de minimiser l’erreur. Répété des milliers, voire des millions de fois, ce processus permet au modèle d’affiner ses paramètres et de généraliser ses prédictions à de nouvelles données.

4. Des architectures différentes pour des problèmes différents¶

L’architecture d’un réseau de neurones varie en fonction du besoin.

Les réseaux convolutifs (CNN) sont optimisés pour le traitement des images, en détectant des motifs visuels tels que les contours et les textures.
Les réseaux récurrents (RNN, LSTM) lisent une séquence de manière assez linéaire et conviennent à des données comme le texte ou les séries temporelles.
Les Transformers sont une architecture plus récente. Contrairement aux réseaux récurrents, ils ne lisent pas une séquence pas à pas : ils reposent sur un mécanisme appelé attention, qui pondère l’importance relative des éléments les uns par rapport aux autres. Cette architecture a largement remplacé les réseaux récurrents pour le langage et constitue aujourd’hui le socle de la plupart des modèles génératifs.

Ces architectures sont efficaces, mais elles demandent souvent une puissance de calcul élevée et un volume de données conséquent pour être entraînées correctement. C’est pourquoi des optimisations comme le transfer learning (réutilisation d’un modèle pré-entraîné) ou l’entraînement distribué sur des GPU ou des TPU sont largement utilisées dans l’industrie pour rendre ces modèles plus accessibles et plus performants.

5. Ce qui distingue l’IA générative¶

Avec l’arrivée des IA génératives, un nouveau paradigme a émergé. Contrairement aux modèles classiques, qui se contentent de classer ou de prédire, ces systèmes sont capables de créer du contenu : texte, images, audio ou encore code informatique.

Ils reposent sur des architectures avancées comme les Transformers, qui leur permettent d’analyser et de générer du contenu en s’appuyant sur d’immenses bases de données et des modèles de probabilité sophistiqués. Ces modèles ne se contentent pas de restituer ce qu’ils ont appris : ils génèrent des réponses plausibles en fonction du contexte, ce qui leur confère une impression de créativité et d’intelligence. Un aspect notable de l’IA générative est qu’elle transcrit le « sens » de l’entrée en un vecteur, ou un ensemble de vecteurs, afin de répondre de manière pertinente.

C’est le point clé de cette page : l’IA générative est une architecture spécifique d’IA qui utilise une approche de type apprentissage profond. Elle est puissante, mais elle reste une branche du domaine.

6. Des approches bâties au-dessus des modèles génératifs¶

Plusieurs approches ont été développées pour étendre les modèles génératifs et les adapter à des usages précis. Ce ne sont pas des modèles concurrents, mais des approches construites au-dessus d’un modèle génératif, et elles peuvent être combinées.

Le RAG (Retrieval-Augmented Generation) combine une base de connaissances externe avec une IA générative, lui permettant d’aller chercher des informations actualisées au lieu de se limiter à ce qu’elle a mémorisé lors de son entraînement.
L’architecture ReAct (Reasoning + Acting), utilisée pour les agents conversationnels avancés, permet à un modèle de raisonner et d’interagir avec des outils en fonction des instructions reçues.
Le MoE (Mixture of Experts) active uniquement une partie du réseau en fonction du problème à traiter, ce qui améliore l’efficacité et réduit la consommation de ressources.
La chaîne de pensée (Chain of Thought, CoT) aide un modèle à structurer son raisonnement en détaillant les étapes de sa réflexion, rendant ses réponses plus fiables et plus explicables.

Ces approches ne sont pas exclusives et peuvent être combinées pour optimiser les performances d’un modèle en fonction du besoin.

7. On n’a pas toujours besoin d’IA¶

Il est utile de rappeler qu’il n’est pas toujours nécessaire d’utiliser l’IA pour résoudre un problème. Dans de nombreux cas, des approches statistiques plus simples suffisent à obtenir des résultats précis et interprétables.

Par exemple, l’analyse des distributions de données repose souvent sur l’hypothèse que celles-ci suivent une loi normale, aussi appelée distribution gaussienne. Vérifier cette hypothèse simplifie de nombreuses analyses prédictives. Une méthode comme la droite de Henry permet justement de tester si une variable suit une distribution normale, en comparant les données observées à une droite théorique sur un graphe probabiliste. Ces principes statistiques sont omniprésents dans des applications concrètes, que ce soit pour la détection d’anomalies dans des séries de mesures, l’évaluation des performances d’un système ou encore la gestion des risques financiers.

8. L’IA est une extension des mathématiques et des statistiques¶

En définitive, l’IA est un outil puissant, mais elle est une extension des mathématiques et des statistiques classiques. Derrière son image parfois mystifiée, elle repose sur des principes logiques et des modèles probabilistes bien établis. Contrairement à l’idée reçue selon laquelle l’IA fonctionnerait comme une « boîte noire » autonome et indépendante, elle est avant tout un assemblage de techniques adaptées à des problématiques spécifiques.

Cela dit, certaines IA sont bien des boîtes noires, dans le sens où, pour de nombreux modèles, notamment en apprentissage profond, il est difficile d’expliquer précisément pourquoi une décision a été prise. Cela tient à la nature probabiliste de leur fonctionnement.

Conclusion¶

L’approche pragmatique consiste donc à comprendre ce que l’IA peut faire, mais aussi ce qu’elle ne peut pas faire, et à choisir les outils appropriés en fonction du problème à résoudre.

L’IA générative est aujourd’hui l’une des branches les plus visibles de ce domaine, mais elle reste une branche parmi plusieurs. Garder en tête cette carte, l’IA dans son ensemble, l’apprentissage automatique, l’apprentissage profond, puis l’IA générative et les approches bâties au-dessus, aide à fixer des attentes réalistes et à faire des choix technologiques pertinents.