Qu’est ce qu’un ensemble de données (Data Set)?
Un ensemble de données est une collection structurée de points de données liés à un sujet particulier. Une collection d’ensembles de données liés est appelée une base de données.
Les ensembles de données peuvent être tabulaires ou non tabulaires. Les ensembles de données tabulaires contiennent des données structurées organisées par lignes et colonnes. Les ensembles de données non tabulaires contiennent des données non structurées contenues entre crochets.
Les ensembles de données peuvent également être catégorisés en fonction du type d’informations qu’ils contiennent. Les types populaires d’ensembles de données comprennent :
- Numérique : les données sont exprimées en nombres plutôt qu’en langage naturel.
- Bivarié : contient deux types de données liées.
- Multivarié : contient trois types ou plus de données liées
- Catégorique : les variables de données peuvent avoir l’une de deux valeurs.
- Corrélation : les valeurs dans l’ensemble de données ont une relation entre elles.
Techopedia explique l’Ensemble de données
En informatique, le terme ensemble de données a pris naissance avec les mainframes d’IBM, où sa signification était similaire à celle de fichier. Aujourd’hui, le terme est souvent associé à l’analyse de données volumineuses (big data), à l’apprentissage automatique (machine learning) et à l’intelligence artificielle (IA).
Apprentissage Automatique (Machine Learning)
Des ensembles de données volumineux sont nécessaires pour entraîner des algorithmes d’apprentissage automatique. Après l’entraînement initial, des ensembles de données supplémentaires sont utilisés pour vérifier le surajustement et valider la capacité du modèle à interpréter correctement de nouvelles données.
Les ensembles de données destinés à l’entraînement des algorithmes d’apprentissage automatique peuvent être créés en interne ou obtenus à partir d’un référentiel d’ensembles de données. Si des ensembles de données volumineux ne sont pas disponibles, les data scientists peuvent utiliser des ensembles de données plus petits produits par échantillonnage aléatoire.
Moyenne, Médiane, Mode
Les termes moyenne, médiane et mode sont des mesures de la tendance centrale d’un ensemble de données. Le concept de tendance centrale vise à représenter le contenu d’un grand ensemble de données par une seule valeur qui signifie la distribution médiane de l’ensemble de données.
La moyenne est trouvée en additionnant tous les nombres de l’ensemble de données, puis en divisant la somme par le nombre de valeurs dans l’ensemble. La médiane est la valeur médiane d’un ensemble de données qui a été trié du plus petit au plus grand. Le mode est le nombre qui apparaît le plus souvent dans un ensemble de données.