Die moderne Chatbot-Revolution hat das Potenzial der Interaktion zwischen Mensch und Maschine erst teilweise erschlossen.
Derzeit beschäftigen sich KI-Forscher mit Technologien wie großen Sprachmodellen (LLMs), Deep Learning und Erfahrungslernen, um den menschlichen Denkprozess zu replizieren.
Kürzlich führte Techopedia ein Interview mit Mark Sagar, Ph.D., Chief Scientific Officer und Mitbegründer des KI-Startups Soul Machines.
Der zweifache Oscar-Gewinner hat mithilfe von KI digitale Persönlichkeiten entwickelt, die sich mit Menschen unterhalten und dabei sowohl verbale als auch nonverbale Signale interpretieren und darauf reagieren können.
Im Folgenden finden Sie die Abschrift des Gesprächs und erfahren, wie KI zur Nachbildung menschlicher Denkprozesse eingesetzt werden kann und Computer befähigt werden, ihre Gedanken zu vermitteln.
Außerdem wird erläutert, wie Entwickler bei der Erstellung digitaler Avatare den „Unheimliches Tal“-Effekt vermeiden können.
Wichtigste Erkenntnisse
- Soul Machines möchte menschenähnliche intelligente digitale Wesen für intuitive Interaktionen mit KI schaffen.
- „Humanisierung von KI“ bedeutet, die Technologie um menschliche Elemente für natürliche Interaktionen zu ergänzen.
- Emotional reagierende Avatare verbessern die Kommunikation und die Entscheidungsfindung bei Interaktionen zwischen Mensch und KI.
- Um ethische Bedenken auszuräumen, Vertrauen zu schaffen und den betrügerischen Einsatz von KI-Technologie zu vermeiden, ist Transparenz in der KI-Denkweise von zentraler Bedeutung.
- Sprachmodelle wie ChatGPT sind wesentliche Komponenten der Kognition, aber nur ein Teil einer umfassenderen menschenähnlichen Wahrnehmung.
- Die Zukunft von KI beinhaltet multimodale Interaktionen, emotionalen Kontext und digitale Kleinkinder wie Baby X zum Lernen.
Was ist Soul Machines?
Techopedia: Könnten Sie uns ein wenig über die Tätigkeit von Soul Machines erzählen?
Mark Sagar: Soul Machines schafft digitale Wesen, intelligente digitale Personen, mit denen man wie mit einem Menschen interagieren kann. Unser langfristiges Ziel ist es, die intuitivste kooperative Schnittstelle mit künstlicher Intelligenz zu entwickeln.
Wie können wir also mit Maschinen zusammenarbeiten?
Wenn wir uns die verschiedenen Trends ansehen, werden wir feststellen, dass es zum Beispiel Sprachassistenten gibt, die eine gegebene Modalität für die Übermittlung von Informationen sind.
Wenn man das Ganze erweitert, erhält man im Grunde den nächsten Schritt, wie jetzt bei ChatGPT, die Bilder und Ähnliches.
Aber wenn Menschen interagieren, sprechen wir nicht nur miteinander, wir sehen einander an, wir reagieren mit Gefühlen, wir zeigen etwas, wir interagieren vollständig.
Wenn man bedenkt, dass die menschliche Zusammenarbeit die stärkste Kraft in der Geschichte ist, sehe ich die Zukunft darin, dass die menschliche Zusammenarbeit mit intelligenten Maschinen die neue Ära der Geschichte bestimmen wird.
Ich würde mir für die Zukunft wünschen, dass wir ein absolut freies Verhältnis zur Technologie haben, so dass wir so effizient zusammenarbeiten können, wie Jazzmusiker zusammenspielen und Riffs und Ähnliches austauschen können, um Dinge zu schaffen oder Aufgaben zu erfüllen.
Das Ziel ist also, dass wir, wenn wir alle Systeme, auf denen unsere Intelligenz aufbaut, nachbilden, in der Zukunft in der Lage sein sollten, eine allgemeine Intelligenz zu erreichen.
Die Rolle von generativer KI und Sprachmodellen bei kognitiven Prozessen
Techopedia: Welche Rolle spielen Ihrer Meinung nach generative KI und Sprachmodelle in diesem Prozess? Glauben Sie, dass sie langfristig von Bedeutung sein werden, oder sind sie eher eine Art „Brückentechnologie“ für diese Vision?
Mark Sagar: Nein, ich glaube, sie sind sehr wichtig. Ich denke, sie sind eine Komponente der Kognition. Wenn man also die menschliche Wahrnehmung berücksichtigt, sind Sprachmodelle ein Teil der Kognition, aber sie beinhalten keine visuelle Perzeption, keine emotionale Verarbeitung und auch nicht viele andere Dinge.
Es geht dabei um Wortbeziehungen, und diese Wortbeziehungen strukturieren viele Gedanken. Wir verwenden sie also quasi als Etiketten, um verschiedene langfristige Assoziationen zu untersuchen, und damit kann man unglaublich viel erreichen.
Der Mensch lernt sozusagen durch Erfahrungslernen. Als Babys interagieren wir mit der Welt und fangen an, die Eigenschaften von etwas herauszufinden: Das ist schwer, das ist heiß, das ist kalt, und es gibt diese ständige Rückkopplungsschleife, die wir mit unseren Eltern, unseren Bezugspersonen oder mit wem auch immer wir interagieren.
Während dieses Prozesses werden uns Bezeichnungen beigebracht. Das ist rot, das ist grün, und so lernen wir die Welt auf eine sehr multimodale Weise kennen.
Wenn Sie also ein sehr umfangreiches Sprachmodell haben, das ontologisch ist, wird es auf Wortsymbole und ihre Assoziationen trainiert. Es verkörpert menschliches Wissen und all diese Formen, geht aber auf eine symbolische Beziehungsebene zurück.
Vermenschlichung von KI erklärt
Techopedia: Könnten Sie erklären, was Sie und Soul Machines unter der „Vermenschlichung der KI“ verstehen?
Mark Sagar: Wie es aussieht und womit wir interagieren. So verleihen wir z. B. der Technologie zunehmend menschliche Aspekte.
Zum Beispiel geht es um Sprachassistenten, bei denen Stimme und Sprache in die Technologie einfließen. Warum tun wir das? Weil es für uns eine natürliche Art der Interaktion ist.
Es ist intuitiv, mit anderen Menschen zu interagieren und darauf zu schauen, worauf sie schauen, wie sie sich fühlen – das ist die nächste Stufe davon.
Sie erhalten all diese zusätzlichen Informationen. Wenn man sich Filme von 2001 anschaut, in denen HAL nur eine Art Linse hatte, die die Menschen beobachtete, und sie außer der Stimme keine Rückmeldung von HAL bekamen, dann ist es das, was wir derzeit mit Sprachassistenten haben, die in Ihrem Haus sitzen.
Es ist eine Blackbox, die da steht und mit der man kommuniziert. Das ist in gewisser Weise sehr unnatürlich, es ist, als ob man mit HAL aus dem Jahr 2001 spricht.
Man redet nicht mit einer Person, also ist man sich nicht bewusst, ob die Person zuhört oder etwas mitbekommt, es ist also eine sehr asymmetrische Kommunikation.
Für uns ist es natürlich, von Angesicht zu Angesicht zu interagieren, weil es eine Form der menschlichen Interaktion ist, die von Geburt an besteht. Die intuitivste Art und Weise, mit Technologie zu interagieren, ist meiner Meinung nach die Face-to-Face.
Techopedia: Glauben Sie, dass Avatare, die auf Emotionen reagieren, eine Art Schlüssel sind, um den „Unheimlichkeits-Tal“-Effekt zu überwinden, der bei vielen der auf dem Markt angebotenen Designs digitaler Figuren auftritt?
Mark Sagar: Ich denke, es hilft auf verschiedenen Ebenen. Wir sind emotionale Wesen, und eine emotionale Schnittstelle bedeutet zum Beispiel, dass wir das anerkennen, und Emotionen spielen zudem eine sehr wichtige Rolle bei der Entscheidungsfindung.
Nehmen wir an, Sie bauen einen Kundendienstmitarbeiter und ich habe Ihnen eine Frage gestellt, aber Sie sehen verwirrt aus und machen einen Gesichtsausdruck: Sie heben ein Auge und senken das andere, und Sie sind sich nicht sicher, was los ist.
Als Mensch würden Sie sofort sagen: „Oh, brauchen Sie mehr Zeit oder benötigen Sie eine Erklärung?“ Oder so etwas in der Art. Jetzt kommt das direkt von Ihrer Gesichtsreaktion, zum Beispiel, Sie erkennen Verwirrung.
Wir sind ständig mit Signalen des Anderen beschäftigt, denn das Gesicht ist der Spiegel des Gehirns, das heißt, das Gesicht vermittelt im Grunde, woran man denkt, worauf man achtet und wie man sich dabei fühlt. All diese Dinge sind für die Entscheidungsfindung absolut wichtig.
Techopedia: Es ist also fast so, als müssten Sie bei der Entwicklung berücksichtigen, wie Sie den menschlichen Nutzern signalisieren können, was die digitalen Avatare denken?
Mark Sagar: Genau, richtig. Sie haben es auf den Punkt gebracht. Es ist eine Zweibahnstraße. Sie versuchen zu interpretieren, was der Benutzer denkt, denn letztendlich bilden wir bei der Interaktion mit einer anderen Person eine Theorie des Geistes. Man überlegt: „Woran denkt diese Person?“, „Was wollte sie tun?“ und so weiter.
Das soll in beide Richtungen gehen, und der Computer soll vermitteln, worüber er nachdenkt, denn wir wollen keine Blackbox, von der wir nicht wissen, was in ihr vor sich geht, weil das eine Art dystopische Zukunft wäre. Wir wollen das vermitteln und es so transparent wie möglich machen.
Es gab einen Roboter namens Baxter [ein Fließbandroboter]. Man brachte auf einem kleinen Bildschirm Augen für den Roboter an … und Baxter schaute, in welche Richtung er sich zu bewegen begann, und die Menschen wussten, dass sie aus dem Weg des Arms, der sich gleich bewegen sollte, ausweichen mussten.
Da sie die Absicht des Roboters kannten, konnten sie zurückbleiben, denn das ist es, was Menschen natürlicherweise tun.
Wie steht es um Transparenz und ethische Auswirkungen?
Techopedia: Sind Sie der Meinung, dass mehr Transparenz in diesem Denkprozess der Schlüssel zur Bekämpfung einiger ethischer Bedenken im Zusammenhang mit dem Einsatz digitaler Persönlichkeiten in bestimmten Kontexten ist?
Mark Sagar: Ja, ich denke, das ist wirklich wichtig. Das Problem mit der Deep Fake-Technologie ist, dass sie wie ein Video aussieht, so dass man nicht weiß, womit man es zu tun hat, weil sie völlig realistisch scheint.
Ich denke also nicht, dass sie versuchen sollte, Sie visuell zu täuschen. Ich denke, sie sollte einen realistischen menschlichen Ausdruck haben, aber sie sollte nicht so gestaltet sein, dass sie einen täuscht. Das ist die eine Sache.
Die andere Sache ist, dass das, was sie tut, sinnvoll sein sollte. Es sollte keine Spielerei sein, wie sie interagiert. Sie sollte tatsächlich Informationen übermitteln, die auf ihren Annahmen beruhen, so dass Sie wissen, worauf sie hinaus will.
Die KI-Welt von morgen
Techopedia: Wie sehen Sie die Entwicklung von KI und digitalen Menschen in den nächsten fünf Jahren oder so?
Mark Sagar: Ich denke, wir sehen bei unserer Arbeit, dass sich ein Großteil der Forschung und Entwicklung auf die multimodale menschliche Interaktion und die Bewältigung aller damit verbundenen Komplexitäten konzentriert.
Es gibt Asynchronitäten, Interaktionen, all diese verschiedenen Dinge, bei denen Menschen interagieren, und wir wollen das so flüssig wie möglich gestalten.
Unsere am weitesten fortgeschrittene Entwicklung ist ein Modell namens Baby X, ein digitales Kleinkind. Wir konzipieren es so, dass man ihm wie einem Baby etwas beibringen und mit ihm interagieren und Gefühle zeigen kann.
Wir befassen uns mit den Grundlagen des Unterrichtens eines Menschen und des Unterrichtens in einem emotionalen und sozialen Kontext, und wir sehen das als Basis für das Lernen von Erwachsenen, denn jeder ist ein Baby, und wir durchlaufen diese Prozesse, und so findet unsere Entwicklung auf dieser Ebene statt.
Techopedia: Glauben Sie, dass Chatbots wie ChatGPT und andere LLM-gesteuerte Tools zu einer allumfassenden Lösung konvergieren werden, oder denken Sie, dass sie weiterhin ihre eigenen Wege als separate Lösungen gehen werden?
Mark Sagar: Das ist eine gute Frage. Im Allgemeinen denke ich, dass es zu einer Verschmelzung dessen kommen wird, womit die Menschen interagieren. Hinter den Kulissen wird es also viele Komponenten geben, die miteinander kommunizieren.
Wenn wir uns die Science-Fiction anschauen, dann haben wir zum Beispiel einen Roboter wie C3PO aus Star Wars. Er ist ein autonomer Roboter, der soziale Kommunikation betreibt. Er hat eine verkörperte menschliche Lebensform, auch wenn er ein Roboter ist.
Oder wenn man sich Data aus Star Trek anschaut, dann hat man im Grunde [eine] humanoide Art von Roboter, mit dem man wie mit einer Person interagiert, der autonom, aber autark ist, alles in einem Paket, und das fühlt sich für uns wie eine natürliche Schnittstelle an, weil wir daran gewöhnt sind.
Anmerkung: Die Abschrift wurde zwecks Übersichtlichkeit und Klarheit überarbeitet.