Staubsauger-KI: Die Jagd nach Trainingsdaten

Transparenz

In der sich rasant weiterentwickelnden Welt der künstlichen Intelligenz ist der Zugang zu qualitativ hochwertigen Trainingsdaten von entscheidender Bedeutung für den Erfolg von KI-Projekten. Diese Daten dienen als Grundlage für die Entwicklung und das Training von KI-Modellen, um komplexe Aufgaben zu bewältigen und präzise Vorhersagen treffen zu können.

Doch was passiert, wenn die verfügbaren Datenmengen nicht mehr ausreichen und mehr benötigt werden?

Diese Frage wurde für OpenAI, ein führendes Unternehmen in der KI-Forschung, Ende 2021 zur Realität. Zu ihrer Überraschung stellten sie fest, dass die herkömmlichen Quellen für englischsprachige Trainingsdaten erschöpft waren – sogar unkonventionelle Quellen wie Kommentare in Foren oder sozialen Medien schienen ausgeschöpft zu sein.

Dies zwang sie dazu, nach alternativen Methoden zur Datenerfassung zu suchen, um ihren Bedarf an Trainingsdaten zu decken. Als Reaktion darauf entwickelte OpenAI das Tool “Whisper”, um das Internet regelrecht “auszusaugen” und die dringend benötigten Trainingsdaten zu sammeln.

Doch diese Vorgehensweise wirft auch kritische Fragen auf, insbesondere im Hinblick auf Ethik und Rechtskonformität bei der Datengewinnung.

Wichtigste Erkenntnisse

  • KI-Systeme, vergleichbar mit Staubsaugern, durchkämmen das Internet nach Daten.
  • Traditionelle Quellen für Trainingsdaten, wie Bücher und Artikel, reichen nicht mehr aus.
  • KI-Unternehmen wie OpenAI entwickeln Tools wie “Whisper”, um YouTube-Videos in Text umzuwandeln.
  • Datenschutzbedenken und rechtliche Grauzonen sind bei der Datengewinnung von KI-Modellen stark präsent.
  • Google und Meta wurden auch beschuldigt, Daten in ähnlicher Weise zu sammeln.
  • Die KI-Revolution wirft ethische Fragen auf, die sorgfältig berücksichtigt werden müssen.

Ein bewusster Verstoß gegen die Nutzungsbedingungen

OpenAI hat sein eigenes Tool namens Whisper entwickelt, das speziell darauf ausgelegt ist, den Ton von YouTube-Videos in Text umzuwandeln. Das Ergebnis? Neue Inhalte, perfekt als Trainingsdaten geeignet.

Nach Angaben von anonymen Insidern äußerten einige Mitarbeiter von OpenAI Bedenken, dass die Nutzung von YouTube-Videos gegen die Nutzungsbedingungen der Plattform verstoßen könnte. Denn YouTube verbietet nicht nur die Verwendung seiner Videos für “unabhängige” Anwendungen, sondern auch den Zugriff darauf durch “automatisierte Programme” wie Roboter, Botnets oder Scraper.

Trotzdem hat sich OpenAI dazu entschlossen, über eine Million Stunden an Videos zu transkribieren, wobei die Urheberrechte der YouTube-Content-Creator verletzt wurden. Greg Brockman, Präsident von OpenAI, spielte dabei eine Schlüsselrolle und half persönlich bei der Zusammenstellung der Videos. Die transkribierten Texte wurden dann in das GPT-4-System von OpenAI eingespeist.

GPT-4 zählt zu den leistungsstärksten KI-Modellen weltweit und bildet die Basis für die neueste Version des ChatGPT-Chatbots. Auf diese Weise konnte OpenAI seinen Mangel an Trainingsdaten ausgleichen und die Leistung seiner KI-Modelle verbessern – und letztlich seine führende Position im Markt der künstlichen Intelligenz weiterhin festigen.

Auch Google und Meta saugen Daten ab, wo sie nicht sollten

Es scheint, dass OpenAI nicht allein in ihrem Vorgehen war. Laut einer Untersuchung der New York Times haben auch Unternehmen wie Google und Meta Abkürzungen genommen und nicht alle Vorschriften und Unternehmensrichtlinien beachtet, um an die benötigten Daten zu gelangen. Verhandlungen über Lizenzen mit Rechteinhabern sollen zu zeitaufwendig gewesen sein.

Meta, zu der Facebook und Instagram gehören, hat sogar den Kauf der New Yorker Verlagsgruppe Simon & Schuster in Betracht gezogen, um an urheberrechtlich geschützte Werke zu gelangen.

Google hat sogar seine Nutzungsbedingungen geändert, um öffentlich verfügbare Inhalte für seine KI-Produkte zu nutzen, was zu großen Datenschutzbedenken führt.

Diese fragwürdigen Handlungen der Unternehmen verdeutlichen, dass Online-Inhalte wie Nachrichtenartikel, Wikipedia-Inhalte, Forenbeiträge, fiktionale Werke, Fotos, Videos und Podcasts zunehmend zum Treibstoff der boomenden KI-Industrie werden.

KI-Modelle sind auf enorme Datenmengen angewiesen

Damit KI-Modelle wie Chatbots oder Bildgeneratoren menschenähnliche Ergebnisse erzielen können, sind sie auf eine reichhaltige Datenbasis angewiesen. Diese Daten sind das Fundament, auf dem die Modelle trainiert werden und ermöglichen es ihnen, komplexe Aufgaben zu bewältigen.

Die Qualität der Daten spielt dabei eine entscheidende Rolle. Insbesondere hochwertige Inhalte wie Fachliteratur und professionelle Artikel sind begehrt. Doch der Zugang zu solchen Daten ist oft teuer und mit rechtlichen Hürden verbunden

Handelt es sich um öffentlichen Datenraub?

OpenAI betont, dass ihre KI-Modelle handverlesene Daten nutzen, um den Nutzern qualitative Ergebnisse zu liefern, und um natürlich in der KI-Forschung ganz vorne mitzuspielen. Im Gegensatz dazu schnappt sich Google Daten von YouTube-Clips – natürlich mit Einverständnis der Content-Ersteller.

Und Meta? Die haben ordentlich in KI investiert und bedienen sich an Milliarden von Instagram- und Facebook-Bildern und -Videos, um ihre Modelle zu schärfen.

Aber die Sache hat einen Haken: Die KI-Revolution hat auch eine dunkle Seite. Unternehmen wie OpenAI und Microsoft wurden von der New York Times und anderen Kreativen verklagt, weil sie Artikel für KI-Chatbots genutzt haben, ohne um Erlaubnis zu fragen.

OpenAI und Microsoft verteidigen sich mit dem Argument des “Fair Use”, da sie die Artikel in etwas Neues umgewandelt haben.

Letztes Jahr haben über 10.000 Gruppen und Einzelpersonen wie Autoren und andere Kreativschaffende dem US-amerikanischen Copyright Office ihre Bedenken mitgeteilt. Die Behörde arbeitet jetzt daran, Richtlinien für die Anwendung des Urheberrechts in der Ära der Künstlichen Intelligenz zu erstellen.

KI-Modelle greifen auf künstlich generierte Informationen zurück

Technologieunternehmen haben einen enormen Bedarf an neuen Daten, was dazu geführt hat, dass einige begonnen haben, künstliche Informationen zu generieren. Diese werden nicht von Menschen erstellt, sondern von den KI-Modellen selbst erzeugt. Anders gesagt, die KI lernt aus den Daten, die sie selbst produziert, anstatt nur auf vorhandene Datenquellen wie Texte und Bilder aus dem Internet zurückzugreifen.

Dies scheint der einzige praktikable Weg für diese Tools zu sein, um auf die erforderlichen Datenmengen zuzugreifen, ohne sie lizenzieren zu müssen.

Seit einigen Jahren erkunden KI-Forscher die Verwendung von synthetischen Daten. Doch die Entwicklung eines KI-Systems, das sich selbst trainieren kann, ist eine große Herausforderung. KI-Modelle, die von ihren eigenen Ausgaben lernen, könnten in eine Art Endlosschleife geraten, in der sie ihre eigenen Merkmale, Fehler und Einschränkungen verstärken.

Um dieses Problem anzugehen, erforschen Unternehmen wie OpenAI die Möglichkeit, zwei verschiedene KI-Modelle zusammenarbeiten zu lassen, um synthetische Daten zu erzeugen, die praktischer und zuverlässiger sind. Ein Modell generiert die Daten, während das andere Modell die Informationen bewertet, um zwischen guten und schlechten Daten zu unterscheiden.

Aber es gibt uneinheitliche Meinungen unter den Forschern darüber, ob diese Methode letztendlich erfolgreich sein wird. Einige sind optimistisch und sehen großes Potenzial, während andere skeptisch sind und Herausforderungen sehen, die überwunden werden müssen. Die Zeit wird zeigen, ob diese innovative Herangehensweise tatsächlich die gewünschten Ergebnisse liefert und den Bedarf an hochwertigen Trainingsdaten effektiv decken kann.

Fazit

Insgesamt zeigt die Diskussion über die Nutzung von Daten durch KI-Unternehmen wie OpenAI, Google und Meta die wachsende Bedeutung von Daten in der KI-Industrie. Während diese Unternehmen nach neuen Quellen suchen, um ihre Modelle zu verbessern, werden gleichzeitig gleichzeitig Bedenken hinsichtlich des Datenschutzes, des Urheberrechts und der Fairness laut.

Es ist klar, dass die KI-Revolution in vollem Gange ist und unser Verständnis davon, wie Daten genutzt werden, um KI-Modelle zu trainieren, weiterhin im Wandel ist. Angesichts dieser Herausforderungen ist es wichtig, dass wir weiterhin darüber diskutieren, wie wir sicherstellen können, dass KI-Technologien verantwortungsvoll eingesetzt werden und gleichzeitig die Rechte und Privatsphäre derjenigen respektiert werden, deren Daten verwendet werden.

Nicoletta Hrouzek
Tech-Expertin
Nicoletta Hrouzek
Tech-Expertin

Nicolettas Technologiebegeisterung geht über Trends hinaus. Als erfahrene Autorin umspannt ihre Fachkenntnis vielfältige Bereiche. Ihre Fähigkeit, Komplexes verständlich zu vermitteln, macht sie zur Quelle für Leser, die sich in neue technologische Entwicklungen und aufstrebende Märkte vertiefen möchten.