Was ist Zero-Shot-, One-Shot-, Few-Shot-Lernen?
Zero-Shot-Lernen, Few-Shot-Lernen und One-Shot-Lernen sind allesamt Techniken, mit denen ein Modell des maschinellen Lernens Vorhersagen für neue Klassen anhand begrenzter gelabelter Daten treffen kann.
Die Wahl der Methode hängt von der spezifischen Problemstellung und der Menge der für neue Kategorien oder Labels (Klassen) verfügbaren gelabelten Daten ab.
One-Shot-Lernen – für jede neue Klasse gibt es ein gelabeltes Beispiel. Das Ziel ist die Erstellung von Vorhersagen für die neuen Klassen auf der Grundlage dieses einen Beispiels.
Few-Shot-Lernen – für jede neue Klasse gibt es eine begrenzte Anzahl von gelabelten Beispielen. Ziel ist es, Vorhersagen für neue Klassen auf der Grundlage von nur wenigen Beispielen mit gelabelten Daten zu treffen.
Zero-Shot-Lernen – für neue Klassen sind keine gelabelte Daten verfügbar. Der Algorithmus soll Vorhersagen über neue Klassen anhand von Vorwissen über die Beziehungen zwischen den bereits bekannten Klassen treffen.
Im Fall von großen Sprachmodellen (LLMs) wie ChatGPT, zum Beispiel, beinhaltet das Vorwissen in der Regel semantische Ähnlichkeiten.
Zero-Shot-, One-Shot-, Few-Shot-Lernen einfach erklärt
Zero-Shot-,Fixed-Shot- und One-Shot-Lernen sind wichtige Konzepte in der KI-Forschung.
Bei erfolgreicher Umsetzung ermöglichen sie es KI-Systemen, in realen Szenarien flexibler, skalierbarer und effektiver zu sein.
Zu den verschiedenen Ansätzen für Zero-Shot-, Free-Shot- und One-Shot-Lernen gehören:
Attributbasierte Ansätze – Zur Verallgemeinerung seines Wissens nutzt das Modell Beziehungen zwischen Attributen und wendet das Wissen auf neue Klassen an, anstatt sich auf gelabelte Beispiele zu verlassen.
Einbettungsbasierte Ansätze – Das Modell leitet Informationen über neue Klassen basierend auf deren Verbundenheit mit bekannten Klassen im Einbettungsraum ab.
Generative Ansätze – Das Modell generiert synthetische Beispiele für unbekannte Kategorien auf der Grundlage ihrer semantischen Darstellung.
Metrikbasierte Modelle – Das Modell lernt eine Ähnlichkeitsmetrik zwischen den Merkmalen der Eingabedaten und den Merkmalen der einzelnen Klassen und verwendet diese Metrik dann, um Vorhersagen für neue, unbekannte Klassen zu treffen.
Auf neuronalen Netzen basierende Modelle – Das Modell verwendet gefaltete neuronale Netze (CNNs) oder rekurrente neuronale Netze (RNNs), um die Korrelationen zwischen Eingabedaten und Klassenvorhersagen zu erlernen.
Auf Transferlernen basierende Modelle – Das Modell wird mit riesigen Mengen an allgemeinen Trainingsdaten vortrainiert und dann mit gezielten gelabelten Daten für eine spezifische Aufgabe feinabgestimmt.
Die Rolle des Zero-Shot-, One-Shot- und Few-Shot-Lernens
In vielen realen Szenarien ist die Erfassung und Kennzeichnung großer Datenmengen für jede mögliche Klasse oder jedes mögliche Konzept, auf das ein Modell stößt, kaum realisierbar.
Wenn Modelle neue und unbekannte Klassen mit begrenzten oder gar keinen zusätzlichen gelabelten Daten verarbeiten können, kann dies die Skalierbarkeit verbessern und zur Senkung der mit dem Labeln und Annotieren von Daten verbundenen Kosten beitragen.