Ensemble de données (Data Set)

Fiabilité
Points-Clés

Un ensemble de données est une collection structurée de points de données liés à un sujet particulier, pouvant être tabulaire ou non-tabulaire, utilisée souvent en analyse de données, apprentissage automatique et intelligence artificielle.

Qu’est ce qu’un ensemble de données (Data Set)?

Un ensemble de données est une collection structurée de points de données liés à un sujet particulier. Une collection d’ensembles de données liés est appelée une base de données.

Les ensembles de données peuvent être tabulaires ou non tabulaires. Les ensembles de données tabulaires contiennent des données structurées organisées par lignes et colonnes. Les ensembles de données non tabulaires contiennent des données non structurées contenues entre crochets.

Les ensembles de données peuvent également être catégorisés en fonction du type d’informations qu’ils contiennent. Les types populaires d’ensembles de données comprennent :

  • Numérique : les données sont exprimées en nombres plutôt qu’en langage naturel.
  • Bivarié : contient deux types de données liées.
  • Multivarié : contient trois types ou plus de données liées
  • Catégorique : les variables de données peuvent avoir l’une de deux valeurs.
  • Corrélation : les valeurs dans l’ensemble de données ont une relation entre elles.

Techopedia explique l’Ensemble de données 

En informatique, le terme ensemble de données a pris naissance avec les mainframes d’IBM, où sa signification était similaire à celle de fichier. Aujourd’hui, le terme est souvent associé à l’analyse de données volumineuses (big data), à l’apprentissage automatique (machine learning) et à l’intelligence artificielle (IA).

Apprentissage Automatique (Machine Learning)

Des ensembles de données volumineux sont nécessaires pour entraîner des algorithmes d’apprentissage automatique. Après l’entraînement initial, des ensembles de données supplémentaires sont utilisés pour vérifier le surajustement et valider la capacité du modèle à interpréter correctement de nouvelles données.

Les ensembles de données destinés à l’entraînement des algorithmes d’apprentissage automatique peuvent être créés en interne ou obtenus à partir d’un référentiel d’ensembles de données. Si des ensembles de données volumineux ne sont pas disponibles, les data scientists peuvent utiliser des ensembles de données plus petits produits par échantillonnage aléatoire.

Moyenne, Médiane, Mode

Les termes moyenne, médiane et mode sont des mesures de la tendance centrale d’un ensemble de données. Le concept de tendance centrale vise à représenter le contenu d’un grand ensemble de données par une seule valeur qui signifie la distribution médiane de l’ensemble de données.

La moyenne est trouvée en additionnant tous les nombres de l’ensemble de données, puis en divisant la somme par le nombre de valeurs dans l’ensemble. La médiane est la valeur médiane d’un ensemble de données qui a été trié du plus petit au plus grand. Le mode est le nombre qui apparaît le plus souvent dans un ensemble de données.

Margaret Rouse
Senior Editor
Margaret Rouse
Experte en technologie

Margaret Rouse est une écrivaine technique primée et enseignante reconnue pour sa capacité à expliquer des sujets techniques complexes à un public non technique et commercial. Au cours des vingt dernières années, ses explications ont été publiées sur les sites Web de TechTarget et elle a été citée comme une autorité dans des articles du New York Times, du Time Magazine, de USA Today, de ZDNet, de PC Magazine et de Discovery Magazine. L'idée que Margaret se fait d'une journée amusante est d'aider les professionnels de l'informatique et des affaires à apprendre à parler leurs langages hautement spécialisés respectifs. Si…