Czym są tryby uczenia zero-shot, one-shot i few-shot learning?
Zero-shot learning, few-shot learning i one-shot learning to techniki, które umożliwiają modelowi uczenia maszynowego przewidywanie nowych klas przy ograniczonej liczbie oznaczonych danych. Wybór techniki zależy od konkretnego problemu i ilości oznaczonych danych dostępnych dla nowych kategorii lub etykiet (klas).
One-shot learning: każda nowa klasa ma jeden oznaczony przykład. Celem jest prognozowanie dla nowych klas na podstawie tego pojedynczego przykładu.
Few-shot learning: istnieje ograniczona liczba oznaczonych przykładów dla każdej nowej klasy. Celem jest przewidywanie nowych klas na podstawie zaledwie kilku przykładów oznaczonych danych.
Zero-shot learning: nie ma absolutnie żadnych oznaczonych danych dostępnych dla nowych klas. Celem algorytmu jest przewidywanie nowych klas przy użyciu wcześniejszej wiedzy na temat relacji istniejących między klasami, które już zna. W przypadku dużych modeli językowych (LLM), takich jak ChatGPT, wcześniejsza wiedza obejmuje też podobieństwa semantyczne.
Techopedia wyjaśnia definicję zero-shot, one-shot i few-shot learning
Zero-shot, few-shot i one-shot learning to ważne koncepcje w badaniach nad sztuczną inteligencją. Ich pomyślne wykonanie zapewnia większą elastyczność, skalowalność i skuteczność AI w rzeczywistych scenariuszach.
Różne podejścia do uczenia zero-shot, few-shot i one-shot obejmują:
Podejścia oparte na atrybutach: ten model wykorzystuje relacje między atrybutami, aby uogólnić wiedzę i zastosować ją do nowych klas zamiast polegać na etykietowanych przykładach.
Podejścia oparte na osadzaniu: model wnioskuje o nowych klasach na podstawie ich bliskości do znanych klas w przestrzeni osadzania.
Modele oparte na metrykach: model uczy się metryki podobieństwa między cechami danych wejściowych a cechami każdej klasy. Później wykorzystuje się tę metrykę do przewidywania nowych, niewidocznych klas.
Modele oparte na sieciach neuronowych: model wykorzystuje konwolucyjne sieci neuronowe (CNN) lub rekurencyjne sieci neuronowe (RNN), aby odkryć korelacje między danymi wejściowymi a przewidywaniami klas.
Modele oparte na uczeniu transferowym: model wstępnie trenuje się przy użyciu ogromnych ilości ogólnych danych szkoleniowych. Następnie dostraja się go za pomocą ukierunkowanych danych etykietowanych dla określonego zadania.