Datensatz

Transparenz

Was ist ein “Datensatz”?

Ein Datensatz ist eine strukturierte Sammlung von Datenpunkten, die sich auf ein bestimmtes Thema beziehen. Eine Sammlung von zusammenhängenden Datensätzen wird als Datenbank bezeichnet.

Datensätze können tabellarisch oder nicht-tabellarisch sein. Tabellarische Datensätze enthalten strukturierte Daten, die durch Zeilen und Spalten organisiert sind. Nicht-tabellarische Datensätze enthalten unstrukturierte Daten, die in Klammern stehen.

Datensätze können auch nach der Art der enthaltenen Informationen kategorisiert werden. Beliebte Arten von Datensätzen sind:

  • Numerisch – Daten werden in Zahlen und nicht in natürlicher Sprache ausgedrückt.
  • Bivariat – enthält zwei Arten von zusammenhängenden Daten.
  • Multivariat – enthält drei oder mehr als drei Arten von zusammenhängenden Daten.
  • Kategorisch – Datenvariablen können einen von zwei Werten haben.
  • Korrelation – die Werte im Datensatz stehen in einer Beziehung zueinander.

Techopedia erklärt den Begriff Datensatz

In der Informatik stammt der Begriff Datensatz ursprünglich von IBM-Mainframes, wo er eine ähnliche Bedeutung wie Datei hatte. Heute wird der Begriff oft mit Big-Data-Analytik, maschinellem Lernen (ML) und künstlicher Intelligenz (KI) in Verbindung gebracht.

Maschinelles Lernen

Zum Trainieren von Algorithmen des maschinellen Lernens werden große Datensätze benötigt. Nach dem anfänglichen Training werden zusätzliche Datensätze verwendet, um zu prüfen, ob das Modell übermäßig gut passt und ob es in der Lage ist, neue Daten korrekt zu interpretieren.

Datensätze für das Training von Algorithmen des maschinellen Lernens können entweder intern erstellt oder aus einem Datensatzarchiv erworben werden. Wenn keine großen Datensätze verfügbar sind, können Datenwissenschaftler kleinere Datensätze verwenden, die durch Stichproben erzeugt wurden.

Mittelwert, Median, Modus

Die Bezeichnungen Mittelwert, Median und Modus sind Maßzahlen für die zentrale Tendenz eines Datensatzes. Das Konzept der zentralen Tendenz besteht darin, den Inhalt eines großen Datensatzes mit einem einzigen Wert darzustellen, der die mittlere Verteilung des Datensatzes angibt.

Der Mittelwert (Durchschnitt) wird ermittelt, indem alle Zahlen im Datensatz addiert und dann die Summe durch die Anzahl der Werte im Satz geteilt wird. Der Median ist der mittlere Wert eines Datensatzes, der vom kleinsten zum größten Wert geordnet ist. Der Modus ist die Zahl, die am häufigsten in einem Datensatz vorkommt.

Verwandte Begriffe

Margaret Rouse
Redaktion
Margaret Rouse
Redaktion

Margaret Rouse ist eine preisgekrönte technische Autorin und Dozentin. Sie ist für ihre Fähigkeit bekannt, komplexe technische Themen simpel und nachvollziehbar zu erklären. In den letzten zwanzig Jahren sind ihre Erklärungen auf TechTarget-Websites erschienen und sie wurde in Artikeln der New York Times, des Time Magazine, USA Today, ZDNet, PC Magazine und Discovery Magazine als Quelle und Expertin zitiert. Wenn Sie einen Vorschlag für eine neue Definition haben oder eine technische Erklärung verbessern möchten, schicken Sie einfach Margaret eine E-Mail oder kontaktieren Sie sie auf LinkedIn oder Twitter.