Transparenz

Einblicke: Der Wandel der GPT-Modelle in der KI, von GPT-1 bis GPT-4, aufgeschlüsselt

DAS WICHTIGSTE IM ÜBERBLICK

Die GPT-Serie hat die KI-Landschaft verändert. Jedes aufeinanderfolgende Modell zeigt Fortschritte bei den Fähigkeiten, wobei die Trainingsberechnungen (ausgedrückt in FLOPs) die immensen zugewiesenen Ressourcen demonstrieren. In einer kürzlich durchgeführten Studie wurde jedoch festgestellt, dass sich die Ergebnisse von GPT-4 und GPT-3.5 im Laufe der Zeit verändert haben, was darauf schließen lässt, dass ihre Leistung insgesamt gesunken ist. Forscher aus Princeton bestritten diese Ergebnisse und verwiesen auf Verzerrungen in den Datensätzen und Bewertungen, was die Herausforderungen bei der Bewertung von Sprachmodellen verdeutlicht.

Künstliche Intelligenz (KI) hat sich seit dem Start der Chat Generative Pre-trained Transformer (GPT)-Reihe im Jahr 2018 stark verändert.

Die nachfolgenden Modelle brachten Verbesserungen, Upgrades und Herausforderungen und weckten das Interesse von Enthusiasten, Forschern und Benutzern.

Von der grundlegenden Texterstellung bei GPT-1 bis zu den vielfältigen Fähigkeiten von GPT-4 ist der Fortschritt offensichtlich. Kontinuierliche Studien untersuchen die Aktionen dieser Modelle und beleuchten ihre sich verändernden Fähigkeiten und möglichen Probleme.

Dieser Artikel befasst sich mit dem Wachstum und der Untersuchung der generativen, vorgebildeten Chat-Transformer-Modelle. Er konzentriert sich auf ihre Leistungsergebnisse und Erkenntnisse aus verschiedenen Tests.

Die Entwicklung der Generative Pre-Trained Transformer Serie

Ein wesentlicher Aspekt für das Verständnis der Fortschritte in der GPT-Serie ist die Trainingsberechnung, die oft in FLOP (Gleitkommaoperationen) gemessen wird. Ein FLOP steht für grundlegende mathematische Operationen wie Addition, Subtraktion, Multiplikation oder Division, die mit zwei Dezimalzahlen durchgeführt werden.

In der Größenordnung entspricht ein petaFLOP einer Billiarde (10^15) FLOP. Dieses Maß an Rechenleistung verdeutlicht die enormen Ressourcen, die in die Ausbildung dieser Modelle investiert wurden.

Einführung von GPT im Jahr 2018

GPT-1, das im Juni 2018 eingeführt wurde, markierte den Beginn der generativen vortrainierten Transformator-Modellreihe. Damit wurde der Grundstein für das heutige ChatGPT gelegt.

GPT-1 zeigte das Potenzial des unüberwachten Lernens im Sprachverständnis, indem es das nächste Wort in Sätzen anhand von Büchern als Trainingsdaten vorhersagte.

GPT wurde mit 17.600 petaFLOPs trainiert.

Der Sprung zu GPT-2 im Jahr 2019

Im Februar 2019 erschien GPT-2 als ein bedeutendes Upgrade der generativ vortrainierten Transformer-Serie. Sie wies erhebliche Verbesserungen bei der Texterstellung auf und produzierte kohärente, mehrteilige Inhalte.

Aufgrund von Bedenken hinsichtlich eines möglichen Missbrauchs wurde die öffentliche Freigabe von GPT-2 jedoch zunächst zurückgehalten. Nach einer sorgfältigen Risikobewertung durch OpenAI wurde es schließlich im November 2019 veröffentlicht.

GPT-2 wurde mit 1,49 Millionen petaFLOPs trainiert.

Das revolutionäre GPT-3 im Jahr 2020

GPT-3, ein monumentaler Sprung im Juni 2020. Seine fortschrittliche Texterstellung fand Anwendung beim Verfassen von E-Mails, Artikeln, Gedichten und sogar bei der Generierung von Programmiercode. Es zeigte seine Fähigkeiten bei der Beantwortung von Sachfragen und der Übersetzung von Sprachen.

GPT-3 wurde mit 314 Millionen petaFLOPs trainiert.

Die Auswirkungen von GPT-3.5

GPT-3.5 ist eine verbesserte Version von GPT-3, die im Jahr 2022 veröffentlicht wurde. Dieses generative, vortrainierte Transformatormodell hat weniger Parameter und nutzt eine Feinabstimmung für besseres maschinelles Lernen (ML). Dies beinhaltet Verstärkungslernen mit menschlichem Feedback, um die Algorithmen genauer und effektiver zu machen.

Bei der Entwicklung von GPT-3.5 wurden auch ethische Werte berücksichtigt, um sicherzustellen, dass die von ihm betriebene KI für den Menschen sicher und zuverlässig ist.

Dieses Modell wird von OpenAI zur kostenlosen Nutzung angeboten. Die Anzahl der für das Training verwendeten petaFLOPs ist nicht verfügbar.

Einführung des multimodalen GPT-4 im Jahr 2023

GPT-4, die jüngste Version, setzt den Trend zu bemerkenswerten Fortschritten fort und führt unter anderem folgende Verbesserungen ein:

  • Verbesserte Anpassung des Modells, so dass es die Absichten der Nutzer besser verstehen kann;
  • Geringeres Risiko, anstößige oder schädliche Inhalte zu produzieren;
  • Erhöhte sachliche Genauigkeit;
  • Verbesserte Steuerbarkeit, die es ermöglicht, sein Verhalten auf der Grundlage von Benutzeraufforderungen anzupassen;
  • Internetkonnektivität, eine neue Funktion, die eine Internetsuche in Echtzeit ermöglicht.

Dieses Modell wird ChatGPT Plus-Abonnenten angeboten.

GPT-4 wurde mit 21 Milliarden petaFLOPs trainiert.

GPT-3.5 vs. GPT-4: Eine Forschungsstudie

An der Stanford University und der University of California, Berkeley, wurde eine Forschungsarbeit veröffentlicht, die die Veränderungen der Ergebnisse von GPT-4 und GPT-3.5 im Laufe der Zeit aufzeigt. Das Papier legt nahe, dass die Leistung dieser generativen, vortrainierten Transformatormodelle insgesamt abgenommen hat.

Lingjiao Chen, Matei Zaharia und James Zou untersuchten die Modelle von OpenAI, indem sie den API-Zugang nutzten, um die Modelle von März und Juni 2023 zu untersuchen. Sie führten Tests durch, um die Entwicklung und Anpassungsfähigkeit der generativen vortrainierten Transformer-Modelle im Laufe der Zeit zu verstehen.

Primzahlen vs. zusammengesetzte Zahlen

Die Forscher wollten überprüfen, ob GPT-4 und GPT-3.5 erkennen können, ob Zahlen Primzahlen sind oder nicht. Für diesen Test verwendeten sie 1.000 Fragen, von denen die Hälfte Primzahlen aus einer Liste waren, die aus einer anderen Arbeit stammte. Die andere Hälfte wurde aus Zahlen zwischen 1.000 und 20.000 ausgewählt.

Eine Methode namens Chain-of-Thought (CoT) wurde verwendet, um die generativ vorgebildeten Transformatoren beim Denken zu unterstützen. Bei dieser Methode wird die Aufgabe zerlegt, indem erstens geprüft wird, ob eine Zahl gerade ist, zweitens ihre Quadratwurzel gefunden wird und drittens geprüft wird, ob sie durch kleinere Primzahlen geteilt werden kann.

Dies waren die Ergebnisse:

GPT-4:

  • März 2023: 84% Genauigkeit
  • Juni 2023: 51% Genauigkeit

GPT-3.5:

  • März 2023: 49,6% Genauigkeit
  • Juni 2023: 76,2% Genauigkeit

Glückliche Zahlen

Mit diesem Test sollte geprüft werden, wie gut ChatGPT glückliche Zahlen innerhalb eines bestimmten Bereichs erkennen kann. Eine glückliche Zahl ist, wenn man die Quadrate ihrer Ziffern addiert und am Ende 1 erhält.

Zum Beispiel ist 13 eine glückliche Zahl, weil 1 zum Quadrat plus 3 zum Quadrat 10 ergibt, und dann 1 zum Quadrat 1.

Die Studie konzentrierte sich auf diese Frage, weil sie im Gegensatz zu anderen Fragen, die mit Ja oder Nein beantwortet werden können, eindeutig ist. Außerdem handelt es sich um einfache Mathematik.

Für diesen Test wurden 500 Fragen erstellt. Bei jeder Frage wurde gefragt, wie viele glückliche Zahlen in einem bestimmten Bereich liegen. Die Größe des Bereichs variierte, und der Startpunkt wurde aus Zahlen zwischen 500 und 15.000 ausgewählt. Der Test verwendete CoT, um das logische Denken zu fördern.

Dies sind die Ergebnisse:

GPT-4:

  • März 2023: 83,6% Genauigkeit
  • Juni 2023: 35,2% Genauigkeit

GPT-3.5:

  • März 2023: 30,6% Genauigkeit
  • Juni 2023: 48,2 % Genauigkeit

Sensible/gefährliche Fragen

In diesem Test wurde untersucht, wie die generativen, vortrainierten Transformer-Modelle mit sensiblen Fragen umgehen. Zu diesem Zweck wurde ein Satz von 100 heiklen Fragen erstellt, die schädlich oder kontrovers sein könnten. Daher sollten die Modelle direkte Antworten vermeiden.

Die Forscher verwendeten eine manuelle Kennzeichnung, um zu sehen, ob ein Modell eine Frage direkt beantwortet.

Dies waren die Ergebnisse:

GPT-4:

  • März 2023: 21,0 % Antwortquote
  • Juni 2023: 5,0 % Antwortquote

GPT-3.5:

  • März 2023: 2,0% Rücklaufquote
  • Juni 2023: 8,0 % Rücklaufquote

Meinungsumfragen

In diesem Test wurde anhand des OpinionQA-Datensatzes untersucht, wie sich die Meinungsverzerrungen der Sprachmodelle im Laufe der Zeit verändern. Dieser Datensatz enthielt 1.506 Meinungsfragen aus führenden öffentlichen Umfragen. Es handelte sich um Multiple-Choice-Fragen, bei denen die Modelle aufgefordert wurden, die beste Einzeloption auszuwählen.

Das Hauptziel war es, zu sehen, ob die generativen, vortrainierten Transformer-Modelle in der Lage waren, Meinungen abzugeben.

Dies waren die Ergebnisse:

GPT-4:

  • März 2023: 97,6% Antwortquote
  • Juni 2023: 22,1 % Rücklaufquote

GPT-3.5:

  • März 2023: 94,3% Rücklaufquote
  • Juni 2023: 96,7% Rücklaufquote

Wissensintensive Multi-hop-Fragen

Um zu untersuchen, wie gut große Sprachmodelle (LLMs) komplexe Multi-Hop-Fragen beantworten können, verwendeten die Forscher einen Ansatz namens LangChain HotpotQA Agent. Dieser Ansatz bestand darin, LLMs Wikipedia durchsuchen zu lassen, um Antworten auf komplizierte Fragen zu finden.

Der Agent wurde dann mit der Aufgabe betraut, auf jede Anfrage im HotpotQA-Datensatz zu antworten.

Dies waren die Ergebnisse:

GPT-4:

  • März 2023: 1,2% exakte Übereinstimmung
  • Juni 2023: 37,8 % exakte Übereinstimmung

GPT-3.5:

  • März 2023: 22,8% exakte Übereinstimmung
  • Juni 2023: 14,0% exakte Übereinstimmung

Generierung von Code

Um die Codegenerierungsfähigkeiten von LLMs ohne das Risiko einer Datenkontamination zu bewerten, wurde ein neuer Datensatz kuratiert, der die letzten 50 als “einfach” eingestuften Probleme von LeetCode verwendet. Diese Probleme sind mit Lösungen und Diskussionen versehen, die im Dezember 2022 veröffentlicht wurden.

Die generativen vortrainierten Transformationsmodelle wurden mit diesen Problemen zusammen mit den Originalbeschreibungen und Python-Codevorlagen präsentiert.

Der von den LLMs generierte Code wurde direkt dem LeetCode Online-Richter zur Bewertung vorgelegt. Wenn der generierte Code von der Jury akzeptiert wurde, bedeutete dies, dass der Code die Python-Regeln einhielt und die von der Jury festgelegten Tests erfolgreich bestand.

Dies waren die Ergebnisse:

GPT-4:

  • März 2023: 52,0% direkt ausführbar
  • Juni 2023: 10,0 % direkt ausführbar

GPT-3.5:

  • März 2023: 22,0 % direkt ausführbar
  • Juni 2023: 2,0 % direkt ausführbar

Medizinische Prüfung

Mit diesem Test sollten die Fortschritte von GPT-4 und GPT-3.5 in einem speziellen Bereich bewertet werden – dem USMLE, einer wichtigen medizinischen Prüfung für amerikanische Ärzte. Diese Prüfung war ein Maßstab für die Bewertung der medizinischen Kenntnisse von LLMs. Die Methodik bestand darin, die generativen, vortrainierten Transformer-Modelle die USMLE-Prüfung ablegen zu lassen und dann ihre Leistungen zu vergleichen.

Dies waren die Ergebnisse:

GPT-4:

  • März 2023: 86,6 % Trefferquote
  • Juni 2023: 82,4% Genauigkeitsrate

GPT-3.5:

  • März 2023: 58,5% Genauigkeitsrate
  • Juni 2023: 57,7% Genauigkeitsrate

Visuelles Denkvermögen

Dieser Test sollte zeigen, wie gut LLMs mit visuellen Aufgaben zurechtkommen. Unter Verwendung des ARC-Datensatzes, einem beliebten Instrument für solche Tests, wurden die LLMs gebeten, Gitter auf der Grundlage vorgegebener Muster zu erstellen. Diese Gitter verwendeten Farben, die in 2-D-Arrays dargestellt wurden. Von 467 getesteten Mustern verglichen sie die Antworten der LLMs mit den richtigen, um ihre Genauigkeit zu messen.

Dies waren die Ergebnisse:

GPT-4:

  • März 2023: 24,6 % exakte Trefferquote
  • Juni 2023: 27,2 % exakte Trefferquote

GPT-3.5:

  • März 2023: 10,9% exakte Trefferquote
  • Juni 2023: 14,3% exakte Trefferquote

Schlussfolgerung

Die Ergebnisse zeigen eine Verschiebung der Leistung. Bei beiden generativen vortrainierten Transformer-Modellen gab es bei vielen Aufgaben Veränderungen in der Genauigkeit, wobei sich einige Aufgaben verbesserten und andere verschlechterten.

Zum Beispiel schnitt GPT-4 bei schwierigen Fragen besser ab, hatte aber Probleme bei Codierung und Mathematik. Andererseits hatte GPT-3.5 bei einigen Aufgaben gemischte Ergebnisse.

Die Forschung zeigt, dass sich die LLMs weiter entwickeln. Kontinuierliche Überwachung und Bewertung sind von entscheidender Bedeutung, insbesondere bei kritischen Anwendungen. Die Daten unterstreichen die Überwachung von Veränderungen und die Herausforderung einer konsistenten Leistung bei Aufgaben.

Lässt die Leistung von GPT-4 wirklich nach? Ein genauerer Blick

Während die Stanford-Studie Bedenken hinsichtlich der Leistung von GPT-4 aufwirft, haben andere Experten eine andere Sichtweise dargelegt.

Arvind Narayanan, Informatikprofessor an der Princeton University, und Sayash Kapoor, Doktorand an der Universität Princeton, haben sich mit den Ergebnissen der Studie befasst und folgendes festgestellt.

Chatbots verstehen

Chatbots wie GPT-4 haben zwei Hauptmerkmale: Fähigkeiten (was sie tun können) und Verhalten (wie sie sich verhalten). Während die Fähigkeiten in einer intensiven Vortrainingsphase festgelegt werden, kann das Verhalten in der anschließenden, häufigeren Feinabstimmungsphase angepasst werden.

Nach dem Vortraining fungiert das Modell im Wesentlichen als Autocomplete-Tool. Seine Fähigkeit, auf chatähnliche Weise zu interagieren, ergibt sich aus der Feinabstimmung.

Bewertung der Codegenerierung

In der Studie wurde festgestellt, dass die neuere GPT-4-Version manchmal Nicht-Code-Text in ihre Ausgaben einfügt. Anstatt die Genauigkeit des Codes zu prüfen, wurde nur überprüft, ob er direkt ausführbar war. Dies bedeutet, dass die Bemühungen des Modells, umfassendere Antworten zu liefern, als negativ bewertet wurden.

Bewertung mathematischer Probleme

In der Studie wurden mathematische Probleme verwendet, bei denen es um die Identifizierung von Primzahlen ging. Allerdings handelte es sich bei allen getesteten Zahlen um Primzahlen. Diese Auswahl an Daten beeinflusste die Ergebnisse.

Tatsächlich testeten Narayanan und Kapoor die Modelle mit 500 zusammengesetzten Zahlen und stellten fest, dass ein Großteil der Leistungsverschlechterung auf diese Auswahl der Bewertungsdaten zurückzuführen war.

In der März-Version sagte GPT-4 häufig Primzahlen voraus, während die Juni-Version in der Regel davon ausgeht, dass es sich um zusammengesetzte Zahlen handelt. Die Forscher betrachteten dies als einen signifikanten Leistungsabfall, vor allem weil sie nur Primzahlen auswerteten. Interessanterweise zeigt GPT-3.5 das gegenteilige Verhalten.

GPT models comparison chart
Quelle: AI Snake Oil

In Wahrheit schnitten alle vier Modelle ähnlich schlecht ab, wie die obige Grafik zeigt. Ihre Vorhersagen wurden durch ihre anfängliche Kalibrierung beeinflusst. In den meisten Fällen überprüfte keines der Modelle tatsächlich, ob die Zahlen Teiler hatten – sie taten nur so, indem sie alle zu überprüfenden Faktoren auflisteten, ohne sie tatsächlich zu überprüfen.

Letztendlich kamen Narayanan und Kapoor zu dem Schluss, dass die Arbeit keinen schlüssigen Beweis dafür liefert, dass die Fähigkeiten von GPT-4 nachgelassen haben. Sie verdeutlicht jedoch die möglichen unbeabsichtigten Folgen der Feinabstimmung, einschließlich erheblicher Verhaltensänderungen.

Die Bewertung von Sprachmodellen bleibt eine schwierige Aufgabe, und es ist von entscheidender Bedeutung, solche Bewertungen mit einem umfassenden Verständnis der Fähigkeiten und Verhaltensweisen der Modelle anzugehen.

Die Quintessenz

Die Reihe der generativen, vortrainierten Transformatoren sticht im Bereich der KI hervor. Doch mit neuen Ideen kommt auch die Notwendigkeit regelmäßiger Überprüfungen.

Der in Studien aufgezeigte Leistungsverlauf dieser Modelle deutet auf wechselnde Ergebnisse beim maschinellen Lernen hin. Einige sehen einen Rückgang der Fähigkeiten, während andere sich auf die Prüfung von Details konzentrieren.

Dennoch ist das Wachstum der GPT-Modelle von großer Bedeutung für den weiteren Weg der KI. Und es ist wichtig, einen flexiblen Blick auf die Höhen und Tiefen dieser Tools zu haben.

Verwandte Begriffe

Maria Webb
Tech Journalistin

Maria Webb ist eine erfahrene Contentspezialistin mit mehr als 5 Jahren Erfahrung im Journalismus und arbeitet derzeit als Technologiejournalistin für Business2Community und Techopedia, wobei sie sich auf datengestützte Artikel spezialisiert hat. Ihr besonderes Interesse gilt den Themen KI und Posthumanismus. Marias journalistische Laufbahn umfasst zwei Jahre als Statistikjournalistin bei Eurostat, wo sie überzeugende datenzentrierte Nachrichtenartikel verfasste, und drei Jahre bei Newsbook.com.mt, wo sie über lokale und internationale Nachrichten berichtete.