Maschinelles Lernen (ML)

Was ist maschinelles Lernen (ML)?

Maschinelles Lernen (ML) ist die Unterkategorie der künstlichen Intelligenz (KI), die algorithmische Modelle entwickelt, um Muster und Beziehungen in Daten zu erkennen. In diesem Zusammenhang ist das Wort “Maschine” ein Synonym für Computerprogramm, und das Wort “Lernen” beschreibt, wie ML-Algorithmen mit dem Erhalt zusätzlicher Daten immer genauer werden.

Das Konzept des maschinellen Lernens ist nicht neu, aber seine praktische Anwendung in der Wirtschaft war bis zum Aufkommen des Internets und den jüngsten Fortschritten in der Big Data Analytik und im Cloud-Computing finanziell nicht machbar. Das liegt daran, dass das Trainieren eines ML-Algorithmus zum Auffinden von Mustern in Daten viele Rechenressourcen und Zugang zu großen Datenmengen erfordert.

Die Begriffe künstliche Intelligenz und maschinelles Lernen werden manchmal als Synonyme verwendet, weil bis vor kurzem die meisten KI-Initiativen eng gefasst waren und die meisten ML-Modelle für eine einzige Aufgabe entwickelt wurden, überwachtes Lernen verwendeten und große, markierte Datensätze für das Training benötigten.

Heutzutage kann die robotergestützte Prozessautomatisierung (RPA) eingesetzt werden, um die Datenvorverarbeitung zu automatisieren und das Training eines maschinellen Lernalgorithmus zu beschleunigen.

Techopedia erklärt maschinelles Lernen (ML)

Qualitativ hochwertige Modelle für maschinelles Lernen erfordern qualitativ hochwertige Trainingsdaten und Zugang zu großen Datensätzen, um die für bestimmte Geschäftsziele relevantesten Merkmale zu extrahieren und sinnvolle Assoziationen aufzudecken.

Modelle für maschinelles Lernen

Ein Modell für maschinelles Lernen ist einfach die Ausgabe eines ML-Algorithmus, der auf Daten angewendet wurde. Der Aufbau eines Modells für maschinelles Lernen umfasst die folgenden Schritte:

  • Sammeln von Trainingsdaten.
  • Daten für das Training vorbereiten.
  • Entscheiden, welcher Lernalgorithmus verwendet werden soll.
  • Trainieren des Lernalgorithmus.
  • Bewerten Sie die Ergebnisse des Lernalgorithmus.
  • Falls erforderlich, passen Sie die Variablen (Hyperparameter) an, die den Trainingsprozess steuern, um die Ergebnisse zu verbessern.

In einer typischen ML-Umgebung benötigen überwachte Algorithmen für maschinelles Lernen einen Datensatz mit Beispielen, wobei jedes Beispiel aus einer Eingabe und einer Ausgabe besteht.

In einer solchen Umgebung besteht ein typisches Ziel des Trainings eines ML-Algorithmus darin, die Parameter eines Vorhersagemodells zu aktualisieren, um sicherzustellen, dass die Entscheidungsbäume des Modells konsistent die gewünschten Ergebnisse liefern. An dieser Stelle kommt die Entropie ins Spiel.

Entropie ist eine mathematische Formel zur Quantifizierung der Unordnung und Zufälligkeit in einem geschlossenen System. Bei Projekten des maschinellen Lernens ist es ein wichtiges Ziel, die Entropie so gering wie möglich zu halten, da dieses Maß bestimmt, wie die Entscheidungsbäume des Modells die Daten aufteilen werden.

Maschinelles Lernen trainieren

Es gibt drei Haupttypen von Algorithmen, die zum Trainieren von Modellen des maschinellen Lernens verwendet werden: überwachtes Lernen, unüberwachtes Lernen und verstärkendes Lernen.

  • Überwachtes Lernen – dem Algorithmus werden markierte Trainingsdaten (Input) gegeben und die richtige Antwort (Output) angezeigt. Diese Art von Lernalgorithmus verwendet Ergebnisse aus historischen Datensätzen, um Ausgabewerte für neue, eingehende Daten vorherzusagen.
  • Unüberwachtes Lernen – der Algorithmus erhält Trainingsdaten, die nicht gekennzeichnet sind. Anstatt die korrekte Ausgabe vorherzusagen, verwendet diese Art von Lernalgorithmus die Trainingsdaten, um Muster zu erkennen, die dann auf andere Datengruppen angewendet werden können, die ein ähnliches Verhalten aufweisen. In manchen Situationen kann es notwendig sein, während des Trainings eine kleine Menge an gekennzeichneten Daten mit einer größeren Menge an nicht gekennzeichneten Daten zu verwenden. Diese Art des Trainings wird oft als halbüberwachtes maschinelles Lernen bezeichnet.
  • Verstärkungslernen – anstatt Trainingsdaten zu erhalten, erhält der Algorithmus ein Belohnungssignal und sucht nach Mustern in den Daten, die die Belohnung ergeben. Der Input für diese Art von Lernalgorithmus wird häufig aus der Interaktion des Lernalgorithmus mit einer physischen oder digitalen Umgebung abgeleitet.

Wie kommt es zu Verzerrungen beim maschinellen Lernen?

Die Öffentlichkeit wünscht sich zunehmend, dass künstliche Intelligenz – und insbesondere Algorithmen des maschinellen Lernens – transparent und erklärbar sind. Die Transparenz von Algorithmen des maschinellen Lernens kann jedoch komplizierter sein, als nur mitzuteilen, welcher Algorithmus zur Erstellung einer bestimmten Vorhersage verwendet wurde.

Viele Menschen, die sich zum ersten Mal mit maschinellem Lernen befassen, sind überrascht, dass nicht die mathematischen Algorithmen geheim sind; tatsächlich sind die meisten der heute gebräuchlichen maschinellen Algorithmen frei verfügbar.

Es sind die Trainingsdaten, die einen geschützten Wert haben, nicht der verwendete Algorithmus.

Da die Daten, die zum Trainieren eines Lernalgorithmus verwendet werden, von einem Menschen ausgewählt werden, können sie leider unbeabsichtigt zu einer Verzerrung des ML-Modells führen, das gerade erstellt wird. Die iterative Natur von Lernalgorithmen kann es ML-Ingenieuren auch erschweren, die Logik hinter einer bestimmten Vorhersage zurückzuverfolgen.

Wenn es einem Datenwissenschaftler oder ML-Ingenieur möglich ist, zu erklären, wie eine bestimmte Vorhersage zustande gekommen ist, kann ein ML-Modell als erklärbare KI bezeichnet werden. Wenn es nicht möglich ist, offenzulegen, wie eine bestimmte Vorhersage zustande gekommen ist – entweder weil die Mathematik zu kompliziert ist oder die Trainingsdaten geschützt sind – kann das ML-Modell als Blackbox-KI bezeichnet werden.

MLops

Projekte zum maschinellen Lernen werden in der Regel von Datenwissenschaftlern und Ingenieuren für maschinelles Lernen betreut. Die Aufgabe des Datenwissenschaftlers besteht in der Regel darin, eine Hypothese aufzustellen und einen Code zu schreiben, der hoffentlich die Richtigkeit der Hypothese beweist. Die Aufgabe eines ML-Ingenieurs konzentriert sich auf den Betrieb des maschinellen Lernens (MLOps).

Der Betrieb des maschinellen Lernens ist ein Ansatz zur Verwaltung des gesamten Lebenszyklus eines maschinellen Lernmodells – einschließlich seines Trainings, seiner Abstimmung, seiner täglichen Verwendung in einer Produktionsumgebung und seiner letztendlichen Stilllegung. Aus diesem Grund müssen ML-Ingenieure über fundierte Kenntnisse in den Bereichen Datenmodellierung, Feature-Engineering und Programmierung verfügen – zusätzlich zu einem soliden Hintergrund in Mathematik und Statistik.

Im Idealfall arbeiten Datenwissenschaftler und ML-Ingenieure im selben Unternehmen zusammen, wenn es darum geht zu entscheiden, welche Art von Lernalgorithmus am besten geeignet ist, um ein bestimmtes Geschäftsproblem zu lösen. In einigen Branchen beschränkt sich die Aufgabe des ML-Ingenieurs jedoch darauf, zu entscheiden, welche Daten für das Training verwendet werden sollen und wie die Ergebnisse des maschinellen Lernmodells validiert werden.

Verwandte Begriffe

Margaret Rouse

Margaret Rouse ist eine preisgekrönte technische Autorin und Dozentin. Sie ist für ihre Fähigkeit bekannt, komplexe technische Themen simpel und nachvollziehbar zu erklären. In den letzten zwanzig Jahren sind ihre Erklärungen auf TechTarget-Websites erschienen und sie wurde in Artikeln der New York Times, des Time Magazine, USA Today, ZDNet, PC Magazine und Discovery Magazine als Quelle und Expertin zitiert. Wenn Sie einen Vorschlag für eine neue Definition haben oder eine technische Erklärung verbessern möchten, schicken Sie einfach Margaret eine E-Mail oder kontaktieren Sie sie auf LinkedIn oder Twitter.