Was ist ein Entscheidungsbaum?
Ein Entscheidungsbaum ist eine Flussdiagramm-ähnliche Darstellung von Daten, die grafisch einem Baum ähnelt, der auf den Kopf gestellt wurde. In dieser Analogie ist die Wurzel des Baums eine Entscheidung, die getroffen werden muss, die Zweige des Baums sind mögliche Aktionen und die Blätter des Baums sind mögliche Ergebnisse der Entscheidung.
Der Zweck eines Entscheidungsbaums besteht darin, einen großen Datensatz in Teilmengen zu unterteilen, die Instanzen mit ähnlichen Werten enthalten, um die wahrscheinlichen Ergebnisse bestimmter Optionen zu verstehen.
Beim maschinellen Lernen (ML) werden Entscheidungsbäume verwendet, um die Klasse oder den Wert von Zielvariablen in Regressions- und Klassifizierungsalgorithmen des überwachten Lernens (SL) vorherzusagen.
Regressionsalgorithmen, auch kontinuierliche Algorithmen genannt, verwenden Trainingsdaten, um alle zukünftigen Werte einer bestimmten Dateninstanz innerhalb eines bestimmten Zeitraums vorherzusagen. Im Gegensatz dazu verwenden Klassifizierungsalgorithmen Trainingsdaten, um den Wert einer einzelnen Dateninstanz zu einem bestimmten Zeitpunkt vorherzusagen.
Entscheidungsbäume werden auch als CART-Bäume bezeichnet, was eine Abkürzung für Klassifizierungs- und Regressionsbäume ist.
Techopedia erklärt Entscheidungsbäume
Entscheidungsbäume sind ein beliebtes und leistungsfähiges Werkzeug, das für Klassifizierungs- und Vorhersagezwecke verwendet wird.
Entscheidungsbäume können entweder kategorisch oder kontinuierlich/regressiv sein. Bei einem kategorischen Entscheidungsbaum basieren die neuen Datenergebnisse auf einer einzelnen, diskreten Variable.
Im Gegensatz dazu beruhen die Ergebnisse eines kontinuierlichen Entscheidungsbaums auf den Ergebnissen früherer Entscheidungsknoten. Die Genauigkeit von Entscheidungsbäumen kann durch die Kombination der Ergebnisse einer Sammlung von Entscheidungsbäumen erhöht werden.
So funktionieren Entscheidungsbäume
Entscheidungsbäume werden erstellt, indem eine Reihe von markierten Trainingsbeispielen analysiert und die Analyse auf zuvor nicht gesehene Beispiele angewendet wird. Wenn Entscheidungsbäume mit hochwertigen Daten trainiert werden, können sie sehr genaue Vorhersagen machen.
Visuell gesehen bestehen Entscheidungsbäume aus einem Entscheidungsknoten, der die Wurzel des Baums bildet. Daran schließen sich Baumzweige (sogenannte Kanten) an, die auf weitere Entscheidungsknoten verweisen.
Jeder Entscheidungsknoten klassifiziert entweder einen neuen Datenpunkt oder macht eine Vorhersage über dessen zukünftigen Wert. Die Zweige (Kanten) des Baums leiten die Daten zum nächsten Entscheidungsknoten und schließlich zum endgültigen Ergebnis, das durch ein Blatt dargestellt wird.
Klassifizierungsentscheidungsbäume
Jede Frage in einem Klassifizierungsbaum ist in einem übergeordneten Knoten enthalten, und jeder übergeordnete Knoten verweist auf einen untergeordneten Knoten für jede mögliche Antwort auf seine Frage.
Diese Art von Entscheidungsbaum bildet im Wesentlichen eine Hierarchie von Fragen mit binären Antworten (ja/nein; wahr/falsch).
Regressions-Entscheidungsbäume
Bei Regressionsbäumen wird versucht, die Beziehung zwischen einer einzelnen abhängigen Variablen und einer Reihe unabhängiger Variablen zu bestimmen, die sich vom ursprünglichen Datensatz abspalten.
Dies ist wichtig, da die Ergebnisse von Regressionsentscheidungsbäumen auf mehreren Variablen basieren.
Entscheidungsbaum-Beschneidung
Entscheidungsbaumalgorithmen fügen schrittweise Entscheidungsknoten hinzu, wobei sie sich bei der Auswahl neuer Entscheidungsknoten an markierten Trainingsbeispielen orientieren.
Das Pruning ist ein wichtiger Schritt, bei dem Datenpunkte, die außerhalb der Norm liegen, erkannt und gelöscht werden. Ziel des Pruning ist es, zu verhindern, dass Ausreißer die Ergebnisse verzerren, indem unwichtigen Daten zu viel Gewicht verliehen wird.