Verschönte neue Welt: KI verdummt sich selbst

Transparenz

Stellen Sie sich vor, Sie spielen ein Videospiel und sammeln dabei die wertvollsten Gegenstände ein. Nach einer Weile haben Sie nur noch die minderwertigen Items vor sich. Genau das tun wir Menschen derzeit mit unseren Daten – wir konzentrieren uns auf die glänzendsten Informationen und überlassen der künstlichen Intelligenz (KI) den weniger interessanten Rest.

Die KI ist aber mit dieser Aufgabe überfordert: Wenn wir beispielsweise Fotos machen, bevorzugen wir Bilder von schönen Blumen oder lächelnden Menschen und ignorieren gewöhnliche oder alltägliche Motive. Diese menschliche Vorliebe führt dazu, dass die Daten, die wir für das Training von KI verwenden, eine verzerrte Realität widerspiegeln.

Das Wichtigste im Überblick

  • Datenverzerrung durch menschliche Vorlieben: Menschen neigen dazu, bevorzugt positive und ästhetisch ansprechende Inhalte zu erfassen, was zu einer verzerrten Datenbasis für KI-Modelle führt.
  • Model Autophagy Disorder (MAD): Wenn KI-Modelle zunehmend mit KI-generierten Daten trainiert werden, verschlechtert sich die Qualität der Ergebnisse, ähnlich wie beim Rinderwahnsinn.
  • Notwendigkeit von Datenhygiene: Um eine zunehmende Verzerrung und Unbrauchbarkeit von KI-generierten Inhalten zu vermeiden, sind strikte Datenhygiene und transparente Kennzeichnung von KI-generierten Daten unerlässlich.

Und täglich grüßt das wahnsinnige Rind

Doch es bleibt nicht nur bei idealisierten Bilderwelten: Forscher der Rice University haben entdeckt, dass KIs, die mit KI-generierten Daten trainiert werden, nach einigen Iterationen zunehmend nutzlosen Datenmüll produzieren.

Es ist wie ein Teufelskreis: Je mehr KI-generierte Daten verwendet werden, desto schlechter wird die Qualität der Ergebnisse. Sie nennen es „Model Autophagy Disorder“ (MAD) – benannt nach dem Rinderwahnsinn (Englisch: mad cow disease), bei dem Kühe mit den Überresten ihrer Artgenossen gefüttert wurden und eine tödliche neurodegenerative Krankheit entwickelten.

In ihrer Studie “Self-Consuming Generative Models Go MAD” wiesen die Forscher nach, dass generative Bildmodelle wie DALL·E 3 und Stable Diffusion nach einigen Iterationen zunehmend schlechtere Bilder produzieren, wenn KI-generierte Bilder für das Training neuer Modelle verwendet werden.

Das Schweigen der KIs

Die Forscher spielten verschiedene Szenarien durch: von der vollsynthetischen Schleife, in der KI-Modelle nur mit synthetischen Daten gefüttert wurden, bis hin zur frischen Datenschleife, die eine Mischung aus synthetischen und realen Daten verwendete. Das Ergebnis? Die Modelle kannibalisierten sich selbst und produzierten zunehmend verzerrte Bilder und nutzlose Daten.

Willkommen in der Wüste des Irrealen

Doch die Katastrophe ist nicht nur der KI selbst zuzuschreiben. Auch wir Menschen haben unseren Anteil daran. Wer fotografiert nicht lieber strahlende Blumen anstatt unscheinbarer Grasbüschel? Wer möchte seinen Sprößling auf Familienfotos nicht lieber lachend als weinend verewigen?

Der Wunsch, unsere Welt positiv festzuhalten, führt dazu, dass die KI denkt, diese Welt bestehe hauptsächlich aus Blumen und lächelnden Gesichtern.

Diese Verzerrung der Realität durch menschliche Vorlieben und die anschließende Nutzung dieser verzerrten Daten für das Training neuer KI-Modelle führt dazu, dass die KI zunehmend in einer eigenen, immer weiter verfälschten Welt lebt.

Transparenz vs. KI-Kollaps

Eine Lösung scheint in der transparenten Kennzeichnung von KI-generierten Inhalten zu liegen. Wenn wir wissen, welche Daten von Menschen und welche von KIs stammen, könnten Entwickler verhindern, dass ihre Modelle mit synthetischem Datenmüll gefüttert werden.

Dies ist besonders relevant, wenn es sich um große Modelle wie das Bildgenerierungssystem Stable Diffusion handelt, die eine immense Menge an hochwertigen Daten benötigen. Das ist jedoch leichter gesagt als getan. Der Datenhunger der KI-Modelle ist immens und die Versuchung groß, einfach die bequemen, aber gefährlichen KI-generierten Daten zu verwenden.

Fazit: Der ewige Filter

Die Erkenntnisse der Rice University sind ein Weckruf: Ohne strikte Datenhygiene und klare Kennzeichnung könnten wir in eine Zukunft steuern, in der KIs nur noch verzerrte und unbrauchbare Daten produzieren. Es ist an der Zeit, dass Entwickler und Unternehmen Verantwortung übernehmen und sicherstellen, dass die nächste Generation von KIs nicht im eigenen Datenmüll erstickt.

In der Zwischenzeit sollten wir uns darauf vorbereiten, dass KI-generierte Inhalte weiterhin unseren Alltag durchdringen. Bleiben wir also wachsam und hoffen, dass wir die Kontrolle über unsere digitale Realität nicht verlieren – und dass die KI von morgen mehr kann, als nur lächelnde Gesichter und Blumen zu erzeugen. Die schöne neue Digitalwelt dient sonst nur als filternder Zerrspiegel unserer ebenso unvollkommenen wie vergänglichen analogen Realität.

Verwandte Begriffe

In Verbindung stehende Artikel

Benjamin Touati
Tech & Gaming Redakteur
Benjamin Touati
Tech & Gaming Redakteur

Benjamin Touati ist ein vielseitiger Autor mit langjähriger Erfahrung in den Bereichen Games, HR-Tech und Sprachtechnologie. Mit einem akademischen Hintergrund in Linguistik hat er sich ein tiefes Verständnis für Sprache und digitale Kommunikation erarbeitet. Seine Laufbahn umfasst eine breite Palette an Positionen, von der Lehrtätigkeit bis hin zu spezialisierten Rollen in der kreativen Texterstellung. Getrieben von der Leidenschaft für digitale Innovationen, widmet er sich der Konzeption und Bearbeitung aktueller Inhalte in diesem dynamischen Feld.