Verlernende Systeme: Warum KI auch das Vergessen lernen muss

Transparenz
DAS WICHTIGSTE IM ÜBERBLICK

Wir alle machen uns manchmal schuldig, wenn wir falsche Informationen im Kopf haben und unsere Handlungen darauf gründen. In der sich schnell wandelnden KI-Welt gibt es einen wichtigen Aspekt, den die Menschen oft vergessen: KI die Fähigkeit zum Löschen von Daten bei Bedarf anzutrainieren.

Das Vergessen von Gelerntem ist ein bedeutender Vorgang, den künstliche Intelligenz (KI) von Zeit zu Zeit durchführen muss.

Das Verlernen bei KI wird auch als selektive Amnesie bezeichnet und kann aus den verschiedensten Gründen erforderlich sein, z. B. zur Beseitigung von Verzerrungen, zur Korrektur von Ungenauigkeiten oder zur Aktualisierung von Informationen.

Im Laufe der Zeit lernt die KI aus vielfältigen und riesigen Datenmengen und weist zwangsläufig Verzerrungen, Ungenauigkeiten und Diskriminierungen auf.

Diese Ergebnisse können gefährlich sein und von böswilligen Organisationen gezielt eingesetzt werden.

Die Aufgabe des Verlernens ist jedoch schwierig, denn die Daten können viele verschiedene Datensätze betreffen. Außerdem werden für jedes Modell des maschinellen Lernens unterschiedliche Werkzeuge benötigt.

Dennoch stellt das Verlernen einen der zentralen Wege zur Verbesserung der KI dar.

Was ist Verlernen bei KI?

Versuchen wir, das Verlernen bei KI anhand des Beispiels eines imaginären John Smith zu verstehen.

John hat sich über die Essensvorlieben der Menschen in einer Region informiert, was ihn zu der Annahme veranlasste, die Einwohner hätten schlechte Ernährungsgewohnheiten.

Er hat es vom Hörensagen, aus zweiter Hand, aus den Medien und aus dem Internet erfahren, und all diese Informationen haben seine Meinung geprägt.

Man kann sagen, dass die Meinung von John aufgrund seiner Kenntnisse voreingenommen, falsch und sogar diffamierend ist.

Menschen, die sich in der Praxis mit den Essgewohnheiten dieser Region auseinandersetzen, finden, dass vieles von dem, was John glaubt, unwahr und unbegründet ist.

Als John schließlich für längere Zeit in die Region reist, dort isst und die lokalen Essgewohnheiten kennenlernt, kehrt er mit einer neuen Perspektive zurück.

Er stellt fest, dass seine jüngsten Erfahrungen seine alten Überzeugungen und Gedanken in Frage stellen oder aktualisieren. Er hat eine Menge von dem, was er einst gelernt hatte, wieder verlernt.

Mit anderen Worten: Neue Daten haben alte ersetzt.
Das Verlernen von KI geschieht auf ähnliche Weise. KI kann über einen gewissen Zeitraum falschen und verzerrten Datensätzen ausgesetzt sein und ihr ungenaues Wissen über einen bestimmten Zeitabschnitt verstärken.

Manchmal muss KI ein Lernprogramm durchlaufen, bei dem alte Datensätze mit neuen und genaueren ersetzt oder aktualisiert werden. Dies ist ein kontinuierlicher Prozess, der möglicherweise in regelmäßigen Abständen erfolgen muss.

Umstände beim KI-Verlernen

Der Hauptzweck besteht darin, ungenaue und voreingenommene Ergebnisse zu eliminieren. Eine weitere Sorge ist jedoch, dass KI private Daten preisgeben könnte – und daher muss dieses Wissen „verlernt“ werden.

Verschiedene Regulierungsstellen haben Unternehmen bereits aufgefordert, Daten zu löschen, die die Privatsphäre verletzen.

Im Jahr 2018 warnte die britische Datenaufsichtsbehörde, dass Firmen, die KI einsetzen, der Datenschutz-Grundverordnung (GDPR) unterliegen könnten.

Die US-amerikanische Federal Trade Commission (FTC) zwang Paravision, ein Unternehmen für Gesichtserkennungssoftware, eine Sammlung von Fotos zu entfernen, die es ohne Einhaltung des Protokolls gesammelt hatte, sowie die Daten des KI-Programms, das auf den Bildern trainiert wurde, zu ändern.

Verlernen als komplexes Unterfangen

Für Organisationen, die KI-Systeme trainieren, schaffen die Umstände, die zum Verlernen führen, eine heikle Situation.

Zum einen treibt die Notwendigkeit, die Privatsphäre zu schützen, die ständigen Angleichungen verschiedener Gesetze wie der GDPR voran.

Die Unternehmen müssen ihre KI-Systeme an die Vorschriften anpassen, was kostspielig und zeitaufwendig sein kann.
Zweitens, derzeit bedeutet das Verlernen, dass man die Daten aus den KI-Systemen löscht und sie von Grund auf neu trainiert.

Hinzu kommt der Aufwand, die Daten aus anderen von den Daten betroffenen Methoden zu entfernen.
Unter Umständen muss man mit einem erneuten Training rechnen.

Nach Möglichkeit ist es einfacher, die umstrittenen Daten zu entfernen, aber ein erneutes Training des KI-Systems zu vermeiden.

Kann man ein KI-Modell vergessen, aber nicht neu trainieren?

Laut Antwort von Aron Roth, einem Forscher für AI Unlearning an der University of Pennsylvania, auf die Frage „können wir den gesamten Einfluss der Daten einer Person entfernen, wenn sie darum bittet, sie zu löschen, aber die vollen Kosten für ein erneutes Training von Grund auf vermeiden?“ werden in diese Richtung große Anstrengungen unternommen.

Ein Beispiel ist ein Projekt von Forschern der Universitäten Toronto und Wisconsin-Madison, bei dem sie mehrere kleinere Projekte mit Datensätzen erstellten und sie zu einem größeren Projekt zusammenführten.

Das Forschungspapier beschreibt das Projekt als „einen Rahmen, der den Verlernprozess beschleunigt, indem er den Einfluss eines Datenpunkts im Trainingsverfahren strategisch begrenzt“.

„Obwohl unser Rahmenwerk auf jeden Lernalgorithmus anwendbar ist, wurde es zur Erzielung größtmöglicher Verbesserungen für zustandsabhängige Algorithmen wie den stochastischen Gradientenabstieg für tiefe neuronale Netze entwickelt.“

„Das Training reduziert den mit dem Verlernen verbundenen Rechenaufwand, selbst im schlimmsten Fall, wenn die Verlernanfragen gleichmäßig über den Trainingssatz verteilt sind.“

Gibt es Beschränkungen?

Die Forscher der Universitäten Harvard, Pennsylvania und Stanford wiesen darauf hin, dass das Programm zusammenbrechen könnte, wenn die Daten in einer bestimmten Reihenfolge gelöscht werden, sei es durch einen böswilligen Akteur oder eine andere zufällige Einheit.

Abgesehen davon gibt es ein weiteres Problem, nämlich die Überprüfung, ob das KI-System erfolgreich verlernt hat.

Dabei geht es nicht darum, die Absicht des Unternehmens in Frage zu stellen, sondern herauszufinden, ob die Bemühungen um Verlernen in vollem Umfang gelungen sind.

Gautam Kamath, Professor an der University of Waterloo, sagte dazu: „Ich habe das Gefühl, dass es noch ein weiter Weg ist, aber vielleicht gibt es irgendwann Prüfer für solche Dinge.“

Zu den weiteren Ideen gehört die differenzielle Privatsphäre – eine Methode, mit der mathematische Grenzen dafür gesetzt werden können, wie viel der privaten Daten ein KI-System tatsächlich preisgeben kann.

Diese Technologie muss noch von verschiedenen Experten geprüft werden, bevor sie erfolgreich eingeführt werden kann.

Fazit

Das Verlernen befindet sich noch im Anfangsstadium. Es wird noch eine Weile dauern, bis es als ausgereiftes und bewährtes Verfahren betrachtet wird, mit dem KI-Systeme nicht nur verlernen, sondern auch mit minimalem Aufwand neu trainiert werden können.

Der ständige Druck von Regulierungsbehörden, Gesetzen, Vorschriften und Rechtsstreitigkeiten wird die Unternehmen, die KI-Systeme einsetzen, auf Trab halten, vor allem in Regionen wie der Europäischen Union (EU), wo strenge Richtlinien wie die GDPR gelten.

Das Verlernen ist ein äußerst komplexes Unterfangen. Es bedarf eines genaueren Blicks darauf, wie KI-Systeme lernen, um herauszufinden, wie sie potenziell verlernen können.

Verwandte Begriffe

Kaushik Pal
Technischer Redakteur
Kaushik Pal
Technischer Redakteur

Kaushik ist technischer Architekt und Softwareberater und verfügt über mehr als 20 Jahre Erfahrung in den Bereichen Softwareanalyse, -entwicklung, -architektur, -design, -prüfung und -schulung. Er interessiert sich für neue Technologien und Innovationsbereiche. Er konzentriert sich auf Webarchitektur, Webtechnologien, Java/J2EE, Open Source, WebRTC, Big Data und semantische Technologien. Kaushik ist auch der Gründer von TechAlpine, einem Technologie-Blog/Beratungsunternehmen mit Sitz in Kolkata. Das Team von TechAlpine arbeitet für verschiedene Kunden in Indien und im Ausland. Das Team verfügt über Fachwissen in den Bereichen Java/J2EE/Open Source/Web/WebRTC/Hadoop/Big Data-Technologien und technisches Schreiben.