Einblick in OpenAI’s GPT-4o: Alles, was wir bisher wissen

Transparenz

Am 13. Mai 2024 hat OpenAI die Einführung von Chat-GPT 4o, bzw. GPT-4o, bekannt gegeben – ein bedeutendes Update des großen Sprachmodells (LLM), das von über 100 Millionen Menschen genutzt wird.

Die neuen Funktionen, die in den nächsten Wochen eingeführt werden, bieten Sprach- und Videooptionen für alle Benutzer, unabhängig davon, ob sie die kostenfreie oder kostenpflichtige Version von Chat GPT nutzen. Der größte Vorteil besteht darin, dass die Verwendung von Sprache und Video bei der Interaktion mit Chat-GPT 4o einen signifikanten Unterschied ausmacht.

OpenAI erklärte den Zuschauern im Livestream, dass die Änderungen darauf abzielen, die „Reibung“ zwischen „Menschen und Maschinen“ zu reduzieren und KI für alle zugänglich zu machen“.

In einer beeindruckenden Demonstration führten die Technikchefin Mira Murati und die ChatGPT-Entwickler Echtzeitgespräche mit ChatGPT, darunter auch die Bitte um eine Gute-Nacht-Geschichte.

Auf Anfrage des OpenAI-Forschers Mark Chen machte GPT-4o sogar Witze in verschiedenen Stimmlagen – von verspielt über dramatisch bis hin zu singend.

Während der Sprachvorführung wurden Videofunktionen, Echtzeit-Sprachkommunikation und simulierte Emotionen präsentiert.

Wichtigste Erkenntnisse

  • OpenAI’s Chat-GPT 4o führt Sprach- und Videofunktionen ein, die es Nutzern ermöglichen, mit dem Modell über Sprach- und Videoeingaben zu interagieren.
  • Das Update zielt darauf ab, die Barriere zwischen Mensch und Maschine zu verringern, indem es fortschrittliche KI-Fähigkeiten nutzt, um natürlichere und nahtlosere Interaktionen zu schaffen.
  • GPT-4o kann in Echtzeit Gespräche führen, auf mehrere Sprecher gleichzeitig reagieren und sogar Emotionen simulieren, was den Interaktionen mehr Tiefe und Vielfalt verleiht.
  • Das Upgrade beinhaltet Verbesserungen in Qualität und Geschwindigkeit in über 50 Sprachen sowie eine Desktop-Version für Mac-Benutzer.
  • OpenAI erkennt die Herausforderungen im Zusammenhang mit dem möglichen Missbrauch von Echtzeit-Audio- und Videofunktionen und betont, dass es verantwortungsbewusst mit Interessenvertretern zusammenarbeiten wird, um diese anzugehen.
  • GPT-4o wird in den kommenden Wochen schrittweise eingeführt, einschließlich einer Desktop-App, die zunächst für Mac verfügbar sein wird.

Bei Nutzung der Videofunktion führte ChatGPT in Echtzeit Gespräche mit den Ingenieuren und löste mathematische Gleichungen, die vor einer Handykamera auf Papier geschrieben wurden, während die KI gleichzeitig spielerisch und in Echtzeit plauderte.

OpenAI kündigt an, dass die Funktionen, die in den nächsten Wochen eingeführt werden, die Qualität und Geschwindigkeit in über 50 Sprachen verbessern sollen, „um diese Erfahrung so vielen Menschen wie möglich zugänglich zu machen“.

Das Upgrade beinhaltet auch eine Desktop-Version, die am 13. Mai 2024 für Mac-Benutzer veröffentlicht wird und für zahlende Nutzer verfügbar ist.

Verschiedene Anwendungsbereiche für GPT-4o

  • Das Team tauschte Ideen darüber aus, wie Universitätsdozenten ihren Studierenden Werkzeuge bereitstellen können, die das Lernen unterstützen, sei es durch interaktive Lernmaterialien, automatisierte Feedback-Systeme oder personalisierte Lernpfade.
  • Ähnlich können Podcaster mithilfe der neuen Funktionen von Chat-GPT 4o Inhalte für ihre Zuhörer erstellen, die über bloßen Text hinausgehen. Sie könnten beispielsweise Podcasts mit interaktiven Elementen erstellen oder auf Anfragen der Zuhörer eingehen, um ein individuelles Hörerlebnis zu schaffen.
  • Darüber hinaus wurde darüber gesprochen, wie Echtzeitdaten in verschiedenen Arbeitsbereichen genutzt werden können, sei es in der Marktforschung, der Kundenbetreuung oder der Analyse von Echtzeitereignissen, um fundierte Entscheidungen zu treffen und Prozesse zu optimieren.

OpenAI erklärt, dass GPT-4o (das ‘o’ steht für ‘Omni’) auf Audioeingaben in nur 232 Millisekunden reagieren kann, im Durchschnitt sogar in 320 Millisekunden – ähnlich der menschlichen Reaktionszeit in einem Gespräch.

GPT-4o ist kostenlos verfügbar

Während die Funktionen auch für kostenlose Benutzer verfügbar sein werden, betont OpenAI, dass Pro-Benutzer nicht benachteiligt werden, da sie bis zu fünfmal mehr Kapazität nutzen können.

Die Änderungen werden sich auch auf die Application Programming Interface (API) auswirken, wobei die API laut OpenAI doppelt so schnell und um 50 % günstiger sein wird.

Was uns von Sprach- und Videofunktionen besonders beeindruckt hat, war, dass alle drei Moderator:innen gleichzeitig mit ChatGPT sprachen – die künstliche Intelligenz konnte erfolgreich alle Sprecher identifizieren und jedem von ihnen antworten.

Einige Nutzer auf X, ehemal. Twitter, verglichen die neue Variante von ChatGPT mit dem Film „Her“, in dem eine allwissende KI von einer menschlichen Persönlichkeit nicht zu unterscheiden war. Außerdem wurde während der Vorführung eine Echtzeitübersetzung zwischen Italienisch und Englisch präsentiert, basierend auf einer Nutzerfrage auf Twitter.

OpenAI ChatGPT 4o launch

OpenAI betonte, dass „GPT-4o neue Herausforderungen im Umgang mit der Echtzeit Audio- und Videofunktion hinsichtlich Missbrauch mit sich bringt. Wir arbeiten weiterhin mit verschiedenen Interessengruppen zusammen, um zu ergründen, wie wir diese Technologien am besten in die Welt integrieren können.“

Demzufolge werden die Funktionen in den kommenden Wochen schrittweise eingeführt, wobei Sicherheitsvorkehrungen gewahrt bleiben.

OpenAI äußerte sich in einem Blogbeitrag:

„In den letzten zwei Jahren haben wir erhebliche Anstrengungen unternommen, um Effizienzverbesserungen auf jeder Ebene des Systems zu erzielen.

Als ersten Fortschritt dieses Entwicklungsprozesses können wir ein Modell auf GPT-4-Niveau viel breiter zugänglich machen. Die Fähigkeiten von GPT-4o werden iterativ eingeführt (mit erweitertem Zugang des Red-Teams ab heute).

Die Text- und Bildfähigkeiten von GPT-4o werden heute (13. Mai 2024) in ChatGPT eingeführt. Wir stellen GPT-4o in der kostenlosen Version und für Plus-Benutzer mit bis zu 5-mal höheren Nachrichtenlimits zur Verfügung. In den kommenden Wochen werden wir eine neue Version des Voice-Modus mit GPT-4o im Alpha-Stadium innerhalb von ChatGPT Plus einführen.“

Die Wahl des Tages für das eindrucksvolle Update war geschickt von OpenAI getroffen, denn es erfolgte einen Tag vor der Entwicklerkonferenz Google I/O, die als KI-lastig erwartet wurde.

Unser Fazit

Zusammenfassend lässt sich sagen, dass die Einführung von GPT-4o ein echter Meilenstein in der KI-Entwicklung ist. Mit dieser breiteren Verfügbarkeit der KI eröffnen sich jede Menge spannende Möglichkeiten – aber auch einige Herausforderungen.

Denn während wir sich die technologischen Grenzen weiter verschieben und damit auch die Chancen für noch komplexere Interaktionen zwischen Mensch und Maschine, sollten wir nicht aus den Augen verlieren, dass mit dieser erweiterten Nutzung auch Herausforderungen einhergehen, insbesondere in Bezug auf Ethik und Datenschutz.

Es ist von entscheidender Bedeutung, dass wir sicherstellen, dass unsere Innovationen im Einklang mit unseren ethischen Werten und unserer Menschlichkeit stehen.

Wir stehen vor einer aufregenden Reise in die Zukunft der KI, in der wir einerseits die Potenziale voll ausschöpfen wollen, doch gleichzeitig auch sicherstellen sollten, dass wir die ethischen Standards und Prinzipien wahren. Es bleibt also weiterhin spannend zu beobachten, wie sich die Zukunft der KI gestalten wird, und welche Auswirkungen sie auf unser tägliches Leben haben wird.

Nicoletta Hrouzek
Tech-Expertin
Nicoletta Hrouzek
Tech-Expertin

Nicolettas Technologiebegeisterung geht über Trends hinaus. Als erfahrene Autorin umspannt ihre Fachkenntnis vielfältige Bereiche. Ihre Fähigkeit, Komplexes verständlich zu vermitteln, macht sie zur Quelle für Leser, die sich in neue technologische Entwicklungen und aufstrebende Märkte vertiefen möchten.