Generative Pre-Training Transformer 3 ou GPT-3 pour les intimes est le dernier modèle de langage naturel généraliste développé par Open IA. Depuis sa sortie en Mai 2020, le modèle a beaucoup fait parler de lui dans les médias spécialisés et généralistes comme The Guardian, Vox ou The New York Times, jusque dans le podcast AIE (à écouter absolument!).
Alors qu’y a-t-il de si spécial chez GPT 3 ?
D’un point de vue technique, c’est à ce jour un des modèles de langage les plus aboutis. Ses 175 milliards de paramètres représentent 0,01% du nombre de connexions du cerveau humain. Bien sûr, GPT 3 n’a ni le même type de connexions ni l’efficacité d’un cerveau humain, mais en termes de connexions nous arrivons à un ordre de grandeur pouvant être comparé.
Le modèle se distingue par sa capacité de généralisation. Dans le sillon de son prédécesseur GPT-2 ou de son “cousin” BERT, il permet de répondre à un très grand nombre d’applications — agent conversationnel, traduction, résumé automatique ou génération de texte, etc. — avec une efficacité remarquable.
Pour arriver à ce résultat, Open AI n’a pas lésiné sur les moyens : le coût de développement de GPT-3 est estimé à plus de 10 millions de dolars. Un investissement qui a fonctionné, le modèle battant tous les records de performance.
Bref, Open AI a frappé fort, le buzz autour de GPT-3 est justifié. Mais si ce modèle fait rêver, il a aussi ses limites et soulève de nombreuses questions quant à l’avenir de l’IA. Explorons ensemble son fonctionnement, ses potentialités et ses limites.
The Rise of NLP
Pour commencer, un peu d’histoire !
Depuis un peu plus de deux ans, le NLP — Natural Language Processing ou TLN Traitement du Langage Naturel en français — a le vent en poupe et occupe les laboratoires les plus importants de recherche en IA : Deepmind, Google, le FAIR de Facebook et Open AI dont Elon Musk est l’un des cofondateurs.
Ces grands laboratoires ont notamment déployé :
A l’origine de cette évolution, les Transformers : une brique algorithmique rendant possible l’implémentation du mécanisme d’attention. Ils apparaissent pour la première fois dans l’article de recherche Attention is all you need publié en 2017 par google.
Alors qu’est ce que mécanisme d’attention et comment fonctionnent les Transformers ?
L’IA, le langage et la mécanique d’attention
Pour être traité par une IA, le langage peut être considéré comme un ensemble de séquences (de mots) — plus compliquées à traiter que des objets simples-.
Sans notion de mémoire, les derniers mots reçus seront considérés par défaut. Or, pour comprendre une phrase et son contexte, il faut parfois remonter dans les phrases précédentes, voire dans le paragraphe précédent d’où l’intérêt d’une mémoire longue pour traiter les séquences de langage.
Plusieurs solutions comme les réseaux récurrents (RNN, LSTM) existaient déjà pour répondre à cette complexité de traitement mais manquaient de mémoire long-terme et « aplatissaient » l’information. En outre, ils étaient très complexes à entraîner.
La réflexion autour de la mémoire des algorithmes a donc donné lieu au concept d’attention : la capacité à déplacer l’attention sur certains éléments pouvant être antérieurs. La question était alors comment implémenter cette notion d’attention et les Transformers sont le game changer qui a permis son implémentation.
Les Transformers concrètement c’est quoi ?
Les Transformers sont une nouvelle architecture de réseaux de neurones. Ils rendent possible le mécanisme d’attention en se concentrant sur une forme spécifique de l’attention, l’auto-attention. Il s’agit pour l’algorithme de trouver quels mots sont corrélés les uns aux autres au sein d’une phrase et ce, indépendamment de leur position car bien qu’importante, la position n’explique pas tout .
Les Transformers ont ouvert la voie à une amélioration soutenue des modèles de NLP. En 2019 — à peine deux ans après la création des Transformers — BERT dépasse les performances humaines de compréhension de texte d’après le benchmark GLUE. Ils sont la cheville ouvrière derrière GPT-3, BERT et bien d’autres modèles de NLP.
Les spécificités de GPT-3
L’importance de la taille
Au-delà des progrès apportés par les Transformers, la taille des derniers modèles de NLP — leur nombre de paramètres — semble être un facteur déterminant des performances. Avec 175 milliards de paramètres, soit environ 1000 fois plus que les modèles récents, on peut dire que GPT-3 est un modèle colossal. Il est le résultat de cette dynamique à son paroxysme.
Un nouvel alignement des planètes le permet : une quantité croissante de data et des capacités de calcul accrues qui voient leurs coûts fortement baisser et leurs performances croître.
Un tel niveau d’entraînement demande un dataset, des machines et un investissement à la hauteur.
Le generative pre-training ou comment GPT-3 contourne le problème de la labélisation des données
La plupart des IA sont entraînées à partir de données étiquetées manuellement, ce qui assure la fiabilité de la donnée et en fournit le sens à l’IA. Cela limite fortement les données utilisées pour l’entraînement car la majorité d’internet, wikipédia et des livres ne sont pas labellisés. Le generative pre-training pallie à ce problème grâce à une nouvelle méthode d’entraînement des modèles introduite par les Transformers.
Le modèle est pré-entraîné sur une tâche auto-supervisée ; dans le cas des modèles GPT cette tâche est la prédiction des mots qui suivent les débuts des phrases. Cette opération nécessite des quantités très importantes de données brutes, mais pas de labellisation.
GPT-3 est donc un modèle entraîné sur une quantité de mots massive et Open AI qualifie son entraînement de “Task agnostic” car il n’a pas été entraîné pour une application particulière. Ses données d’entraînement étant très riches, il ne nécessite pas de formation supplémentaire pour des tâches linguistiques distinctes, GPT-3 traite toutes ces tâches par le prisme de la prédiction des mots manquants.
Le dataset et l’entraînement du modèle, GPT-3 est autant un succès d’ingénierie que de data science
L’entraînement non supervisé de GPT-3 a donc permis d’exploiter un jeu de données très riche, sorte de concentré du savoir de l’Humanité. Le data set de GPT-3 se compose de :
- 60% une version filtrée de Common Crawl-une archive de l’ensemble du contenu d’internet depuis 2011-,
- 22% WebText2,
- 8% Books1,
- 8% Books2,
- 3% Wikipédia
Pour ingérer un tel volume de données GPT-3 a été entraîné sur le cloud de Microsoft, Azure, sur l’un des dix plus puissants ordinateurs du monde ! Ce superordinateur doté d’environ 10 000 cartes graphiques, propriété de Microsoft, a été conçu spécialement pour l’entraînement du modèle.
Pour cela GPT-3 est un succès d’ingénierie plus que de recherche !
Dans le prochain chapitre nous aborderons les applications de GPT-3, ses limites et les questions que soulève ce nouveau modèle quant à l’avenir de L’IA.
Stay tuned ;)