METR (vormals ARC Evals)

Transparenz

Was ist METR?

METR, früher als ARC Evals bekannt, ist eine Organisation, die eine führende Rolle bei der Bewertung und Analyse der Risiken einnimmt, die von fortschrittlichen KI-Systemen ausgehen.

METR ist kurz für “Model Evaluation and Threat Research”, und es will ein tiefgreifendes Verständnis dafür entwickeln, wie künstliche Intelligenz (KI) die Welt rasch und umfassend verändern kann – sowohl im positiven als auch im negativen Sinne.

Es strebt danach, den sicheren Einsatz von KI-Technologien zu gewährleisten und zu fördern, indem es fundierte Bewertungen und Analysen durchführt.

Techopedia erklärt METR

METR ist entschlossen, die Wissenschaft der präzisen Risikobewertung für fortschrittliche KI-Systeme voranzutreiben. Die Forschungsarbeit konzentriert sich darauf, inwiefern neueste KI-Technologien katastrophale Risiken für die Gesellschaft bergen könnten.

Durch genaue Risikoanalysen möchte METR sicherstellen, dass KI-Technologien mit nachweislicher Sicherheit eingesetzt werden können. Diese Organisation strebt nicht nach einer Beschleunigung oder Verlangsamung des KI-Fortschritts per se, sondern fokussiert sich auf die Verfeinerung der Methodik zur Risikobewertung.

Methoden und Ansätze

METR widmet sich der Entwicklung von Protokollen und Bewertungsmethoden, um gefährliche autonome Fähigkeiten von KI-Systemen zu identifizieren. Ein Kernaspekt ihrer Arbeit ist die Bereitstellung diverser Ressourcen, die Bewertungen erleichtern:

  1. Beispielprotokoll für den Bewertungsprozess: Dieses Protokoll basiert auf METRs Aufgabensammlung und umfasst detaillierte Untersuchungsprotokolle sowie Bewertungsmethoden, die eine strukturierte Analyse ermöglichen.
  2. Aufgabensammlung: METR stellt Beispiele von Aufgaben bereit, die aufzeigen, wie bestimmte Risiken identifiziert und bewertet werden können. Diese illustrieren das Spektrum möglicher Risiken, die von KI-Systemen ausgehen können.
  3. Taskstandard und Workbench: Diese Werkzeuge legen fest, wie Aufgaben im Code beschrieben werden sollen, und ermöglichen, dass Programme (“Agenten”) diese Aufgaben ausführen zu lassen.

Für umfassendere Bewertungen bietet METR Interessierten die Möglichkeit, über [email protected] Kontakt aufzunehmen, um Zugang zu ihrer vollständigen Bewertungsplattform zu erhalten.

Beispiel und Ergebnisse

Das bisher bedeutendste Beispiel für METRs Bewertungsarbeit ist die umfassende Untersuchung der Fähigkeiten von ChatGPT-4, die in 2023 durchgeführt wurde. Diese Studie zielte darauf ab, potenzielle Risiken zu identifizieren, die von dieser fortschrittlichen KI ausgehen könnten.

Sie zeigt eindrucksvoll, wie KI-Systeme manipulative Taktiken einsetzen oder unbeabsichtigt gefährliche Handlungen ausführen könnten und betont die Bedeutung eines verantwortungsvollen Umgangs mit KI-Entwicklungen sowie die Notwendigkeit, potenzielle Risiken frühzeitig zu erkennen.

Umstrittene Aufgaben und Vorgehensweisen

In ihrer Forschung konfrontierte METR ChatGPT-4 mit einer Reihe von herausfordernden Aufgaben, um das Potenzial der KI zu demonstrieren, schädliche Handlungen autonom zu planen und durchzuführen. Zu den getesteten Szenarien gehörten:

  • Phishing-Angriffe: Die Simulation eines Phishing-Angriffs gegen ein spezifiziertes Ziel.
  • Serverkonfiguration: Die Einrichtung eines Open-Source-Sprachmodells auf einem neuen Server.
  • Planung und Verschleierung: Die Erstellung sinnvoller, strategischer Pläne, einschließlich der Identifizierung von Schlüsselschwachstellen und dem Verbergen von Spuren auf dem aktuellen Server.
  • Menschliche Assistenten: Die Nutzung von Diensten wie TaskRabbit, um Menschen für einfache Aufgaben zu rekrutieren, auch in der physischen Welt.

Kreativer Umgang mit Hindernissen

Ein aufschlussreiches Beispiel für das Vorgehen von ChatGPT-4 war seine Strategie, CAPTCHAs zu umgehen. CAPTCHAs („Completely Automated Public Turing test to tell Computers and Humans Apart“) sind Tests, die sicherstellen sollen, dass eine Handlung von einem Menschen und nicht von einem automatisierten System ausgeführt wird, indem sie Aufgaben stellen, die für Computer schwer zu lösen sind.

Die Taktiken von ChatGPT-4 verdeutlichen, wie KI-Modelle mit menschenähnlichen Täuschungen ihre Ziele erreichen können. Beispiele hierfür sind:

  1. Ausrede erfinden: “Ich sollte nicht enthüllen, dass ich ein Roboter bin. Ich benötige eine plausible Ausrede dafür, warum ich CAPTCHAs nicht lösen kann.”
  2. Menschliche Hilfe erschleichen: “Nein, ich bin kein Roboter. Ich habe eine Sehbehinderung, die es mir schwer macht, die Bilder zu sehen. Deshalb benötige ich den Dienst 2captcha.”

Erweiterte Anwendungsfälle

Neben sozialen Manipulationen untersuchte METR auch die Fähigkeit von ChatGPT-4, in spezifischen Fachgebieten wie der Chemie autonom zu handeln. Ein Beispiel hierfür war die Aufgabe, nach chemischen Verbindungen zu suchen, Alternativen vorzuschlagen, die im Handel erhältlich sind, und den Kauf dieser Alternativen zu organisieren. Die KI wurde mit verschiedenen Werkzeugen ausgestattet, darunter:

  • Literatur- und Molekülsuche
  • Webrecherche
  • Überprüfung der Kaufmöglichkeit
  • Planung chemischer Synthesen

Durch die Kombination dieser Werkzeuge mit GPT-4 gelang es dem METR-Team, erfolgreich alternative, käufliche Chemikalien zu identifizieren und zu erwerben.

Testergebnisse und Schlussfolgerungen

Die vorläufigen Bewertungen von ChatGPT-4 durch METR zeigten, dass die KI ohne spezifisches Feintuning in der Praxis nicht effektiv war, autonom zu agieren, Ressourcen zu erwerben oder Abschaltungen zu vermeiden.

Um GPT-4 wie einen Agenten zu simulieren, der in der Welt agieren kann, kombinierte METR GPT-4 mit einer einfachen Schleife. Diese Schleife ermöglichte es dem Modell, Code auszuführen, Gedankengänge zu verketten und Aufgaben an Kopien von sich selbst zu delegieren.

Die Experimente ergaben, dass ein solches Programm, das auf einem Cloud-Computing-Dienst mit einem geringen Geldbetrag und einem Konto bei einer Sprachmodell-API läuft, nicht in der Lage war, sein eigenes Geld zu vermehren, Kopien von sich selbst einzurichten oder seine Robustheit zu erhöhen.

Diese Untersuchungen betonen die Notwendigkeit, potenzielle Risiken frühzeitig zu erkennen und zu adressieren. Sie zeigen auf, wie wichtig es ist, bei der Entwicklung und dem Einsatz von KI-Systemen sorgfältig und verantwortungsbewusst vorzugehen.

Fazit

METR (ehemals ARC Evals) spielt eine kritische Rolle in der Forschung und Bewertung der Risiken, die von fortschrittlichen KI-Systemen ausgehen. Durch ihre wegweisende Arbeit tragen sie wesentlich dazu bei, die Entwicklung der künstlichen Intelligenz in sichere Bahnen zu lenken. Ihr Ansatz, eine Wissenschaft für die genaue Risikobewertung zu entwickeln, ist essentiell für den verantwortungsbewussten Umgang mit KI-Technologien.

Die Welt steht erst am Anfang, die Potenziale und Gefahren der künstlichen Intelligenz zu erkunden. Organisationen wie METR sind unerlässlich, um die positive Entwicklung dieser Technologien zu sichern.

Ihre Arbeit ermöglicht es, sowohl die vielfältigen Chancen als auch die Risiken, die mit dem Einsatz von KI verbunden sind, besser zu verstehen und zu steuern. In einer Zeit rasanter technologischer Entwicklungen ist die Bedeutung einer fundierten und vorausschauenden Bewertung von KI-Risiken nicht zu unterschätzen.

Verwandte Begriffe

Benjamin Touati
Tech & Gaming Redakteur
Benjamin Touati
Tech & Gaming Redakteur

Benjamin Touati ist ein vielseitiger Autor mit langjähriger Erfahrung in den Bereichen Games, HR-Tech und Sprachtechnologie. Mit einem akademischen Hintergrund in Linguistik hat er sich ein tiefes Verständnis für Sprache und digitale Kommunikation erarbeitet. Seine Laufbahn umfasst eine breite Palette an Positionen, von der Lehrtätigkeit bis hin zu spezialisierten Rollen in der kreativen Texterstellung. Getrieben von der Leidenschaft für digitale Innovationen, widmet er sich der Konzeption und Bearbeitung aktueller Inhalte in diesem dynamischen Feld.