Large language model

Points-Clés

Un grand modèle de langage général est un type de modèle d'intelligence artificielle capable de comprendre et de générer du langage humain sur une échelle étendue.

Que signifie le terme Large Language Model  ?

Le Large language Model (LLM) est un type d’ Apprentissage automatique automatique capable d’effectuer diverses tâches de Traitement de langage naturel, telles que la génération et la classification de texte, la réponse à des questions de manière conversationnelle et la traduction de texte d’une langue à une autre. Le terme “large” fait référence au nombre de valeurs (paramètres) que le modèle de langage peut modifier de manière autonome lors de son apprentissage. Certains des LLM les plus performants comptent des centaines de milliards de paramètres.

Les Large Language Model sont formés avec d’énormes quantités de données et utilisent l’apprentissage auto-supervisé pour prédire le prochain jeton (token) dans une phrase, en fonction du contexte environnant. Le processus est répété encore et encore jusqu’à ce que le modèle atteigne un niveau acceptable de précision.

Une fois qu’un grand modèle de langage a été entraîné, il peut être affiné pour une variété de tâches de traitement du langage naturel, notamment :

  • Construire des chatbots conversationnels comme ChatGPT.
  • Générer du texte pour des descriptions de produits, des articles de blog et des articles.
  • Répondre aux questions fréquemment posées (FAQ) et diriger les demandes des clients vers le personnel humain le plus approprié.
  • Analyser les retours clients provenant d’e-mails, de publications sur les médias sociaux et d’avis sur les produits.
  • Traduire le contenu commercial dans différentes langues.
  • Classer et catégoriser de grandes quantités de données textuelles pour un traitement et une analyse plus efficaces.

Techopedia explique

Un large language model est un type de modèle d’intelligence artificiel qui est formé pour comprendre et générer le langage humain. Il apprend les motifs, les structures et les relations au sein d’une langue donnée et a traditionnellement été utilisé pour des tâches étroites (intelligence artificiel faible) d’intelligence artificielle telles que la traduction de texte. La qualité d’un modèle de langage dépend de sa taille, de la quantité et de la diversité des données sur lesquelles il a été formé, ainsi que de la complexité des algorithmes d’apprentissage utilisés pendant la formation.

Un grand modèle de langage fait référence à une classe spécifique de modèles de langage qui possède significativement plus de paramètres que les modèles de langage traditionnels. Les paramètres sont les variables internes du modèle qui sont apprises pendant le processus d’entraînement et représentent les connaissances acquises par le modèle.

Ces dernières années, le domaine du traitement du langage naturel a connu une tendance à construire des modèles de langage plus grands et plus puissants en raison des avancées dans les capacités matérielles, de la disponibilité d’ensembles de données extrêmement vastes et des progrès dans les techniques d’entraînement. Les grands modèles de langage, qui comportent des milliards de paramètres, exigent des ressources informationnelle et des données d’entraînement considérablement plus importantes que les modèles de langage du passé, ce qui les rend plus difficiles et plus coûteux à développer et à déployer.

Comment sont formés les grands modèles de langage ?

La plupart des grands modèle de langage sont préentraînés sur un ensemble de données vaste et généraliste. L’objectif du préentraînement est que le modèle apprenne des caractéristiques de haut niveau qui peuvent être transférées à l’étape de l’affinage pour des tâches spécifiques.

Le processus d’entraînement d’un grand modèle de langage implique :

  • Prétraiter les données textuelles pour les convertir en une représentation numérique qui peut être alimentée dans le modèle.
  • Attribuer de manière aléatoire les paramètres du modèle.
  • Alimenter la représentation numérique des données textuelles dans le modèle.
  • Utiliser une fonction de perte pour mesurer la différence entre les sorties du modèle et le mot suivant réel dans une phrase.
  • Optimiser les paramètres du modèle pour minimiser la perte.
  • Répéter le processus jusqu’à ce que les sorties du modèle atteignent un niveau d’exactitude acceptable.

Comment fonctionnent les grands modèles de langage ?

Un grand modèle de langage utilise des réseaux neuronaux profonds pour générer des sorties basées sur les motifs appris à partir des données d’entraînement.

Typiquement, un grand modèle de langage est une implémentation d’une architecture basée sur les transformateurs

Contrairement aux réseaux neuronaux récurrents, qui utilisent la récurrence comme mécanisme principal pour capturer les relations entre les jetons dans une séquence, les réseaux neuronaux transformateurs utilisent l’auto-attention comme leur principal mécanisme pour capturer ces relations.

Ils calculent une somme pondérée pour une séquence d’entrée et déterminent dynamiquement quels jetons dans la séquence sont les plus pertinents les uns par rapport aux autres.

Les relations entre les jetons dans une séquence sont calculées à l’aide de scores d’attention qui représentent l’importance d’un jeton par rapport aux autres jetons dans la séquence de texte.

Exemples de grands modèles de langage.

Certains des modèles de langage les plus populaires sont :

  • GPT-3(Generative Pretrained Transformer 3) – développé par OpenAI.
  • BERT (Bidirectional Encoder Representations from Transformers) – développé par Google.
  • RoBERTa (Robustly Optimized BERT Approach) – développé par Facebook AI.
  • T5(Text-to-Text Transfer Transformer) – développé par Google.
  • CTRL(Conditional Transformer Language Model) – développé par Salesforce Research.
  • Megatron-Turing – développé par NVIDIA.

 

Termes connexes

Margaret Rouse

Margaret Rouse est une écrivaine technique primée et enseignante reconnue pour sa capacité à expliquer des sujets techniques complexes à un public non technique et commercial. Au cours des vingt dernières années, ses explications ont été publiées sur les sites Web de TechTarget et elle a été citée comme une autorité dans des articles du New York Times, du Time Magazine, de USA Today, de ZDNet, de PC Magazine et de Discovery Magazine. L'idée que Margaret se fait d'une journée amusante est d'aider les professionnels de l'informatique et des affaires à apprendre à parler leurs langages hautement spécialisés respectifs. Si…