Interaktive KI als nächste Phase der generativen KI

Transparenz
DAS WICHTIGSTE IM ÜBERBLICK

Im Folgenden wird der Übergang von generativer zu interaktiver KI untersucht, wobei die Bedeutung der Überwindung von Sprachbarrieren zwischen verschiedenen Technologien hervorgehoben wird. Es werden die Fortschritte der KI bei der Problemlösung, die Verwendung externer Tools und ihre Fähigkeit zur Befolgung menschlicher Anweisungen erörtert. Die gemeinsamen Bemühungen von Forschern und Technologen treiben die KI in Richtung einer effektiven Orchestrierung komplexer Aufgaben voran, was einen großen Sprung in diesem Bereich darstellt.

Stellen Sie sich eine Welt wie der legendäre Turmbau zu Babel vor, in der sich jeder auf seinem Gebiet auszeichnet, aber eine andere Sprache spricht.

Ihr Ziel ist es, diesen großen Turm zu errichten. Zur Bewältigung der monumentalen Aufgabe müssen Sie akribisch planen, die Arbeit in überschaubare Schritte unterteilen, das richtige Team für jede Rolle zusammenstellen, ihre Sprachen für eine nahtlose Kommunikation entschlüsseln und für eine einwandfreie Koordination sorgen.

Diese Herkulesaufgabe erfordert eine meisterhafte Planung, ein tiefes Verständnis für das Fachwissen jedes Einzelnen, Mehrsprachigkeit und eine effiziente Organisation.

Jahrelang haben Sie diese komplexe Aufgabe mit Bravour gemeistert. Dann stoßen Sie auf einen Dolmetscher – jemanden, der Ihre Anweisungen mühelos von Ihrer Sprache in die verschiedenen Sprachen Ihres Teams übersetzen kann.

Diese Entdeckung ist zwar eine große Erleichterung, aber Ihre Verantwortung für die Planung, die Auswahl des Teams und die Koordination bleibt bestehen.

Doch was wäre, wenn dieser Dolmetscher mehr als nur ein Übersetzer sein könnte? Was wäre, wenn er ein strategisches Genie, ein Talentsucher und ein meisterhafter Planer sein könnte?

Diese Analogie spiegelt die aktuelle Techszene wider, in der sich jede Technologie in einem bestimmten Bereich auszeichnet und in ihrer eigenen Sprache kommuniziert.

Wir sind die Erbauer dieses digitalen Turms und stützen uns zur Erreichung unserer Ziele auf verschiedene Technologien. Der Dolmetscher, den wir dabei gefunden haben, ist die generative KI.

Der Einsatz generativer KI zur Übernahme all unserer Verantwortlichkeiten und Aufgaben stellt eine bahnbrechende Entwicklung auf dem Gebiet der künstlichen Intelligenz dar – ein Bereich, der als interaktive KI bekannt ist.

Was ist interaktive KI?

Der Begriff Interaktive KI wurde von Mustafa Suleyman, dem Mitbegründer von DeepMind, geprägt.

Er bezeichnete sie als die nächste Evolution der generativen KI, die sich auf die Entwicklung von Bots konzentriert, die zugewiesene Aufgaben durch Orchestrierung anderer Software und menschlicher Ressourcen ausführen können.

Obwohl dieser Begriff im Internet viel Aufsehen erregt hat, gibt es nach wie vor einen Mangel an Informationen darüber, was solche interaktiven KI-Systeme ausmacht.

In diesem Artikel tauchen wir in die Welt der interaktiven KI ein und versuchen, ihre Grundlagen zu verstehen und die Fortschritte auf diesem Gebiet zu bewerten.

Rolle der generativen KI

Generative KI bezieht sich auf eine Untergruppe von Technologien der künstlichen Intelligenz, die zur Generierung von Inhalten, Daten oder Informationen entwickelt wurden.

Diese Systeme können neue und originelle Inhalte produzieren, anstatt einfach nur Entscheidungen oder Vorhersagen auf der Grundlage vorhandener Daten zu treffen.

Generative KI lernt Muster, Stile und Strukturen aus großen Datensätzen und nutzt dieses Wissen zur Erstellung von etwas Neuem.

Eine der bekanntesten Anwendungen der generativen KI ist die Verarbeitung natürlicher Sprache, wo Modelle wie ChatGPT (die Initialen GPT stehen für Generative Pre-trained Transformer) zur Erzeugung menschenähnlicher Texte konzipiert wurden.

Diese Modelle können verständliche und kontextrelevante Texte verfassen, Fragen beantworten, kreative Texte erstellen und sogar Sprachübersetzungen vornehmen.

Der Übergang von generativer zu interaktiver KI

Im Zusammenhang mit unserer Turm-von-Babel-Analogie, bei der generative KI (als Dolmetscher) in die Lage versetzt werden soll, alle Aufgaben beim Bau des Turms zu übernehmen, stellen wir fest, dass generative KI drei grundlegende Fähigkeiten benötigt:

1). die Fähigkeit, menschlichen Anweisungen zu folgen;

2). Zugang zu verschiedenen Technologien (die als Arbeiter bezeichnet werden);

3). die Fähigkeit zur Planung.

Obwohl generative KI ursprünglich nicht mit Blick auf diese Fähigkeiten entwickelt wurde, gibt es immer mehr Forschungsprojekte zu diesem Thema, die diese Funktionen einbeziehen.

In den folgenden Abschnitten wird auf die laufenden Arbeiten in diesen Bereichen eingegangen.

Ausstattung der generativen KI mit Planungs- und Problemlösungsfähigkeiten

Generative KI, die sich mit menschenähnlichem Text befasst, wird durch kontextbezogenes Lernen immer besser im Denken und Lösen von Problemen.

Dabei werden der KI vor einer kreativen Aufgabe einige Informationen (Prompts und Antworten) gegeben.

So wird beispielsweise mit einer von Google entwickelten Methode namens Chain-of-Thought Prompting die KI trainiert, indem Prompts und Antworten in einer bestimmten Reihenfolge gegeben werden.

Dadurch kann die KI logisch denken und effektive Pläne zur Problemlösung erstellen.

Für komplexere Probleme mit mehreren Lösungen wurde von Forschern der Princeton University und Googles DeepMind das Tree-of-Thought (ToT) Prompting entwickelt.

Beim ToT werden Prompts in Form eines Entscheidungsbaums organisiert, so dass die KI verschiedene Ansätze untersuchen und kreative Lösungen finden kann.

Microsofts Algorithm of Thoughts (AoT) geht noch einen Schritt weiter und ermöglicht es der KI, zu denken und mathematische Probleme wie Menschen zu lösen.

AoT ist effizient und strafft den Denkprozess in einem einzigen Kontext, im Gegensatz zu anderen Methoden, die zahlreiche Abfragen erfordern.

Befähigung der generativen KI zur Nutzung externer Tools

Ein spannendes Gebiet der generativen KI ist die Möglichkeit, dass diese KI-Systeme externe Tools verwenden können.

Forscher von Meta haben mit der Einführung von Toolformer, einem Sprachmodell, einen wichtigen Schritt in diese Richtung gemacht.

Das Modell ist so konzipiert, dass es selbstständig externe Tools wie Suchmaschinen und Taschenrechner nutzen kann, ohne dafür umfangreiche menschliche Anleitung zu benötigen.

Darüber hinaus hat eine Zusammenarbeit zwischen Forschern der UC Berkeley und Microsoft Research die Möglichkeiten von großen Sprachmodellen (LLMs) erweitert.

Das von ihnen entwickelte Modell namens Gorilla baut auf LLaMa auf, einem Open-Source-Sprachmodell von Meta.

Gorilla ist so abgestimmt, dass es über API-Aufrufe mit einer breiten Palette von Tools interagieren kann, was neue Möglichkeiten für die Integration von KI in verschiedene Software und Plattformen eröffnet.

Dieser Ansatz wird durch die Schaffung des APIBench-Datensatzes verstärkt, der eine vielfältige Sammlung von API-Anfragen von Plattformen wie HuggingFace, TorchHub und TensorHub umfasst.

Diese Entwicklung prägt die Zukunft der generativen KI und macht sie noch vielseitiger.

Stärkung der generativen KI zur Befolgung von Anweisungen

Generative KI-Sprachmodelle sind nicht primär darauf ausgelegt, Anweisungen zu befolgen.

Ihr anfängliches Training dreht sich um die Vorhersage des nächsten Wortes im Text, was ganz anders ist als das Ziel, sie den Anweisungen des Benutzers folgen zu lassen. Der Bereich der generativen KI macht jedoch rasche Fortschritte in diese Richtung.

Eine wirksame Methode, die sich immer mehr durchsetzt, ist das Reinforcement Learning from Human Feedback (RLHF) (dt. verstärkendes Lernen durch menschliches Feedback), bei dem ein vortrainiertes Sprachmodell dazu angeleitet wird, menschliche Anweisungen auf der Grundlage menschlichen Feedbacks zu befolgen.

Ein Beispiel für diesen Ansatz ist InstructGPT, ein fein abgestimmtes GPT-Modell, das explizit auf die Befolgung menschlicher Befehle ausgelegt ist.

Eine weitere bemerkenswerte Entwicklung ist die Studie über In-Context Instruction Learning (dt. Lernen im Kontext). Dabei werden kontextbezogene Lerntechniken zur Verbesserung der Fähigkeit von Sprachmodellen zur Befolgung von Anweisungen eingesetzt. 

Obwohl sich die Untersuchung in erster Linie auf spezifische Aufgaben konzentriert, zeigt sie, wie anweisungsbasiertes Training die Übereinstimmung zwischen menschlicher Absicht und KI-Verhalten erheblich steigern kann.

Fazit

Der Weg von generativer zu interaktiver KI ist geprägt von bedeutenden Fortschritten bei der Entwicklung von KI-Systemen, die zur Planung, Problemlösung, Verwendung externer Tools und Befolgung von Anweisungen befähigt sind.

Da wir die Sprachbarrieren zwischen verschiedenen Technologien und Bereichen immer weiter abbauen, wird die interaktive KI die Art und Weise revolutionieren, wie wir mit KI-gesteuerten Systemen interagieren und diese nutzen.

Die interdisziplinären Bemühungen von Forschern und Technologen bringen uns einer Zukunft näher, in der KI komplexe Aufgaben nahtlos orchestrieren kann.

Sie wird mehr als nur ein Dolmetscher sein und sich zu einem strategischen Genie entwickeln, das uns in nie dagewesener Weise unterstützt.

Verwandte Begriffe

In Verbindung stehende Artikel

Dr. Tehseen Zia
Assistenz Professor an der Comsats Universität Islamabad
Dr. Tehseen Zia
Assistenz Professor an der Comsats Universität Islamabad

Dr. Tehseen Zia hat einen Doktortitel und mehr als 10 Jahre Forschungserfahrung auf dem Gebiet der Künstlichen Intelligenz (KI) nach seiner Promotion. Er ist Assistenzprofessor und leitet die KI-Forschung an der Comsats University Islamabad und ist Mitbegründer des National Center of Artificial Intelligence Pakistan. In der Vergangenheit hat er als Forschungsberater für das von der Europäischen Union finanzierte KI-Projekt Dream4cars gearbeitet.