Wat is een beslissingsboom?
Een beslissingsboom, ook wel bekend als beslisboom, is een flowchart achtige weergave van gegevens die grafisch lijkt op een ondersteboven getekende boom. In deze analogie is de wortel van de boom een beslissing die genomen moet worden, de takken van de boom zijn acties die ondernomen kunnen worden en de bladeren van de boom zijn potentiële beslissingsresultaten.
Het doel van een beslisboom is om een grote dataset te verdelen in subsets die instanties met vergelijkbare waarden bevatten om de waarschijnlijke uitkomsten van specifieke opties te begrijpen.
Bij machine learning (ML) worden beslissingsbomen gebruikt om de klasse of waarde van doelvariabelen te voorspellen in regressie- en classificatiealgoritmen op basis van supervised learning (SL). Regressiealgoritmen, ook wel continue algoritmen genoemd, gebruiken trainingsgegevens om alle toekomstige waarden van een specifieke gegevensinstantie binnen een bepaalde tijdsperiode te voorspellen. Classificatiealgoritmen daarentegen gebruiken trainingsgegevens om de waarde van een enkele gegevensinstantie op een specifiek moment te voorspellen.
Techopedia legt beslissingsbomen uit
Beslissingsbomen zijn een populair en krachtig hulpmiddel dat wordt gebruikt voor classificatie- en voorspellingsdoeleinden.
Beslissingsbomen kunnen categorisch of continu/regressief zijn. In een categorische beslisboom zijn de uitkomsten van nieuwe gegevens gebaseerd op een enkele, discrete variabele. Daarentegen zijn de uitkomsten van continue beslisbomen gebaseerd op de uitkomsten van eerdere beslisknooppunten. De nauwkeurigheid van beslisbomen kan worden verhoogd door de resultaten van een verzameling beslisbomen te combineren.
Hoe beslissingsbomen werken
Beslissingsbomen worden geconstrueerd door een set gelabelde trainingsvoorbeelden te analyseren en de analyse toe te passen op eerder ongeziene voorbeelden. Wanneer beslissingsbomen worden getraind met gegevens van hoge kwaliteit, kunnen ze zeer nauwkeurige voorspellingen doen.
Visueel bestaan beslissingsbomen uit een beslissingsknooppunt dat de stam van de boom vormt. Deze wordt gevolgd door boomtakken (edges genoemd) die naar bijkomende beslissingsknooppunten verwijzen. Elk beslissingsknooppunt classificeert een nieuw gegevenspunt of doet een voorspelling over de toekomstige waarde ervan. De takken (randen) van de boom leiden gegevens naar het volgende beslissingsknooppunt en uiteindelijk naar het uiteindelijke resultaat, dat wordt weergegeven door een blad.
Classificatie beslissingsbomen
Elke vraag in een classificatieboom is opgenomen in een parent node en elke parent node wijst naar een child node voor elk mogelijk antwoord op de vraag. Dit type beslissingsboom vormt in wezen een hiërarchie van vragen met binaire antwoorden (ja/nee; waar/onwaar).
Regressie beslissingsbomen
Regressiebomen proberen de relatie te bepalen tussen een enkele afhankelijke variabele en een reeks onafhankelijke variabelen die zich afsplitsen van de initiële gegevensset. Dit is belangrijk omdat het betekent dat de uitkomsten van regressie beslisbomen gebaseerd zullen zijn op meerdere variabelen.
Beslissingsboom snoeien
Beslisboomalgoritmen voegen stapsgewijs beslissingsknooppunten toe, waarbij gelabelde trainingsvoorbeelden worden gebruikt om de keuze van nieuwe beslissingsknooppunten te sturen.
Snoeien is een belangrijke stap waarbij gegevenspunten die buiten de norm vallen, worden opgespoord en verwijderd. Het doel van snoeien is om te voorkomen dat uitschieters de resultaten beïnvloeden door onbelangrijke gegevens te zwaar te laten meewegen.