Was ist der Turing-Test?
Der Turing-Test ist ein Instrument zur Bewertung künstlicher Intelligenz (KI), das 1950 von Dr. Alan Turing, einem britischen Mathematiker und Informatiker, eingeführt wurde.
Turing suchte nach einer einfachen Möglichkeit, die Frage „Können Maschinen denken?“ zu beantworten.
Anstatt sich mit dem philosophischen Aspekt des „Denkens“ zu befassen, formulierte Turing das Problem neu, indem er einen konkreten, operativen Test vorschlug: Wenn eine Maschine menschliche Reaktionen überzeugend genug imitieren kann, um einen menschlichen Vernehmer zu täuschen, dann kann man für alle praktischen Zwecke sagen, dass sie „denkt“.
Die von ihm entwickelte Strategie wurde zu einem der ersten Maßstäbe zur Bewertung der maschinellen Intelligenz.
Um qualitative Daten über die Intelligenz von Maschinen zu sammeln, schlug Turing ein Spiel vor, das später als „Imitation Game“ (dt. Nachahmungsspiel) oder allgemeiner als „Der Turing-Test“ bekannt wurde.
Was ist das Nachahmungsspiel?
Turings Test für maschinelle Intelligenz basiert auf einem Gesellschaftsspiel, das in der viktorianischen Ära beliebt war.
Das Originalspiel erforderte die Teilnahme von drei Personen: einem Mann, einer Frau und einem Fragesteller (Der Vernehmer konnte entweder ein Mann oder eine Frau sein).
Der Mann und die Frau wurden in einem Raum untergebracht, der Fragesteller in einem anderen Raum.
Zu Beginn des Spiels stellte der Interviewer eine Reihe von Fragen und ließ die Teilnehmer ihre Antworten aufschreiben (oder abtippen).
Um das Spiel noch anspruchsvoller zu machen, durfte ein Teilnehmer lügen und Antworten fälschen, während der Andere immer die Wahrheit sagen musste.
Die Aufgabe des Spieles bestand darin, zu erraten, welche Antworten von dem Mann und welche von der Frau stammen.
Wie funktioniert der Turing-Test?
Wie in seinem 1950 erschienenen Aufsatz Computing Machinery and Intelligence dargelegt, erforderte Turings Version des Nachahmungsspiels ebenfalls einen Fragesteller und zwei Teilnehmer.
Beim Turing-Test wäre jedoch einer der Teilnehmer ein Mensch und der andere eine Computermaschine.
Im Wesentlichen war Turings Version des Spiels ein bahnbrechender Versuch, einen praktischen Maßstab für maschinelle Intelligenz zu setzen, der die philosophische Frage, was „Denken“ bedeutet, umging.
Nach Turings Vorstellung könnte man sagen, dass die Maschine menschenähnliche Denkprozesse und Intelligenz aufweist, wenn der Befrager nicht eindeutig zwischen den Antworten der Maschine und denen des Menschen unterscheiden kann.
Die genauen Kriterien für die Bestimmung der Intelligenz einer Maschine sind seit jeher umstritten.
Auf der Grundlage von Turings Aufsatz wird jedoch oft argumentiert, dass die Softwareentwickler mit Fug und Recht behaupten können, dass ihr KI-Programm den Turing-Test bestanden hat, wenn eine Jury von Vernehmern glaubt, dass sie in mindestens 70 % der Fälle mit einem anderen Menschen kommuniziert – obwohl es sich in Wirklichkeit um ein Computerprogramm handelt.
Warum ist der Turing-Test wichtig?
Der Turing-Test ist von historischer Bedeutung. Er hat die Diskussion darüber, ob Maschinen denken können, auf die Frage verlagert, ob Maschinen eine menschenähnliche Konversation nachahmen können.
Diese Änderung des Schwerpunkts gab der aufstrebenden Gemeinschaft der Computerwissenschaft einen pragmatischen Rahmen für die Bewertung des Fortschritts.
Im Laufe der Jahre hat die Gültigkeit des Turing-Tests viele Debatten unter Informatikern, Philosophen und Kognitionspsychologen ausgelöst.
Sein Fortbestand liegt darin begründet, dass er sowohl ein technischer Maßstab als auch ein philosophisches Instrument für die Prüfung und die Erörterung der Frage ist, ob eine Maschine jemals wirklich intelligent sein kann oder nicht.
Die Verwendung von Konversation als primäres Kriterium für Intelligenz führte jedoch unbeabsichtigt zu einer engeren Sichtweise von Intelligenz und vernachlässigte die Bedeutung anderer Intelligenztypen wie emotionale Intelligenz, räumliche Intelligenz oder kreative Intelligenz.
Dank der heutigen Fortschritte im Bereich des maschinellen Lernens (ML) und der neuronalen Netze wird es zunehmend möglich, Chatbots mit Architekturen zu entwickeln, die Muster in Trainingsdaten genau nachahmen können.
ChatGPT-4 und Google Bard sind zum Beispiel recht geschickt im Umgang mit einer Vielzahl von Konversationsthemen und können in vielen Fällen eine Antwort geben, die von der eines Menschen nicht zu unterscheiden ist. Für Interessierte, die diese Technologie auf ihrem Smartphone erleben möchten, bieten diverse KI-Apps für iPhone eine spannende Möglichkeit, mit künstlicher Intelligenz interaktiv zu experimentieren.
Menschenähnliche Antworten bedeuten jedoch nicht unbedingt, dass der Chatbot intelligent ist:
Bei längeren Interaktionen können die großen Sprachmodelle, die Chatbots unterstützen, halluzinieren und Ergebnisse erzeugen, die inkonsistent, widersprüchlich oder unlogisch sind.
Erste Einwände gegen den Turing-Test
Obwohl Turing heute als Visionär anerkannt ist, war er zu Lebzeiten sehr umstritten. Seine Arbeit wurde nicht immer gewürdigt.
Viele Akademiker und Theologen bezweifelten, dass Maschinen jemals das menschliche Denken nachahmen könnten, so dass Turings recht radikale Ideen über die maschinelle Intelligenz viele hitzige philosophische und theologische Debatten auslösten.
Turing sah jedoch die Einwände gegen seine Ideen voraus und lieferte Gegenargumente, warum seiner Meinung nach Maschinen das menschliche Denken imitieren können.
Diese Überzeugung wird in der Church-Turing-These erläutert.
Nach der Church-Turing-These kann jede Berechnung oder jede mathematische Aufgabe, die von einem Menschen mit einem bestimmten Satz von Anweisungen gelöst werden kann, auch von einer Maschine bewältigt werden.
Dieses Konzept wurde zur Grundlage der modernen Computerwissenschaft.
Turing-Maschine vs. Universelle Turing-Maschine
Turing führte das Konzept der maschinellen Intelligenz erstmals in seinem 1936 veröffentlichten Werk On Computable Numbers, with an Application to the Entscheidungsproblem ein.
In diesem Aufsatz stellte Turing ein einfaches theoretisches Gerät vor, das im Prinzip mit den richtigen Anweisungen jede beliebige Zahlenfolge berechnen könnte.
Eine Turing-Maschine (TM) ist ein abstraktes mathematisches Modell für Datenverarbeitung.
In Turings Vorstellung bestand seine imaginäre Maschine aus einem unendlichen Band, das in Zellen unterteilt war, einem Bandkopf, der sich nach links oder rechts bewegen konnte, und einer Reihe von Zuständen und Regeln, die vorgaben, wie der Bandkopf vom Band las und auf das Band schrieb.
Seiner Vision nach sollte jede Turing-Maschine eine bestimmte Aufgabe oder Berechnung ausführen.
Außerdem schlug Turing eine universelle Turing-Maschine (UTM) vor. Dies wäre eine besondere Art von Turing-Maschine, die jede andere Turing-Maschine simulieren könnte.
Der Theorie nach könnte eine UTM, wenn sie eine Beschreibung einer anderen Turing-Maschine (und deren Eingabe) erhält, diese Informationen als ihre eigene Eingabe verwenden.
Das Konzept der universellen Turing-Maschine führte die Idee ein, dass eine Rechenmaschine jeden anderen Computer simulieren kann, vorausgesetzt, sie bekommt die richtigen Eingaben.
Dies bildete die Grundlage für die heutigen Softwareprogramme und war ein wichtiger Schritt in der Entwicklung von Allzweckcomputern.
Ist der Turing-Test immer noch ein brauchbares Bewertungsinstrument?
Der Turing-Test wird heute in erster Linie als historisches Instrument zur Bewertung von KI betrachtet.
Wegen seiner Auswirkungen auf die KI-Forschung bleibt der Test jedoch in aller Munde.
Im Wesentlichen verlagerte Turing die philosophische Frage – „Können Maschinen denken?“ – auf einen anderen Punkt, der tatsächlich beantwortet und durch Daten belegt werden konnte.
Dies ist deshalb wichtig, weil die neue Frage „Können sich Maschinen während eines Gesprächs so verhalten, dass sie von Menschen nicht zu unterscheiden sind?“ mit Hilfe wissenschaftlicher Methoden endgültig beantwortet werden könnte.
Dieser feine (und doch tiefgreifende) Perspektivwechsel hatte einen enormen Einfluss und ermutigte die frühen Forscher im Bereich der künstlichen Intelligenz dazu, mehr Gewicht auf die Untersuchung der Verarbeitung natürlicher Sprache (engl. Natural Language Processing, NLP), des Verstehens natürlicher Sprache (engl. Natural Language Understanding, NLU) und der Generierung natürlicher Sprache (engl. Natural Language Generation, NLG) zu legen.
Konversationelle KI und der Turing-Test
In den Jahrzehnten nach seinem Tod wurde Turings Rolle bei der Entschlüsselung des Enigma-Codes öffentlich bekannt.
Seine Beiträge und Erkenntnisse über maschinelle Intelligenz wurden neu untersucht.
Die folgenden Technologien und Konzepte haben einen gemeinsamen Nenner mit dem Turing-Test – sie alle versuchen, menschliches Verhalten in einem maschinellen Kontext genau zu replizieren.
Chatbots: Hierbei handelt es sich um Softwareanwendungen, die eine menschliche Unterhaltung simulieren sollen. Frühe Beispiele zielten darauf ab, menschenähnliche Interaktionen zu imitieren und waren eine direkte Anspielung auf die Ziele des Turing-Tests.
Sprachassistenten: Technologien wie Amazons Alexa, Google Assistant, Siri und Cortana wurden zum Verstehen und Reagieren auf Benutzerbefehle in einer menschenähnlichen Art und Weise entwickelt und erinnern an die Konversationsmaßstäbe des Turing-Tests.
Verarbeitung natürlicher Sprache (NLP): Der Fokus des Turing-Tests auf Konversation hat die Forschung zum Verständnis und zur Generierung menschlicher Sprache vorangetrieben sowie zur Entwicklung von NLP-Tools und -Algorithmen für Unternehmen geführt.
Maschinelles Lernen: Obwohl nicht ausschließlich auf den Turing-Test bezogen, können Techniken des maschinellen Lernens, insbesondere in Bereichen wie Deep Learning für Sprachmodelle (z. B. die GPT-Serie von OpenAI), als Bemühungen zur Erzeugung menschenähnlicherer Ergebnisse und zum Bestehen des Turing-Tests angesehen werden.
Plattformen für konversationelle KI: Tools und Plattformen wie Dialogflow von Google oder Bot Framework von Microsoft ermöglichen die Erstellung von Conversational Agents und Conversational User Interfaces (CUIs).
CAPTCHAs: Diese Tests, die häufig auf Websites verwendet werden, um Menschen von Bots zu unterscheiden, sind eine Art umgekehrter Turing-Test. Sie sind so konzipiert, dass sie für Menschen einfach, für Maschinen aber schwer auszuführen sind.
Turing-Nummer: Ein weiteres Verfahren, um menschliche Online-Nutzer zu überprüfen und sie von Bots zu unterscheiden.
Tools zur Stimmungsanalyse: Diese Tools konzentrieren sich auf das Verständnis von Emotionen in Texten und zielen darauf ab, einen menschlichen Aspekt der Kommunikation, ähnlich wie beim Turing-Test, zu erfassen.
Interaktives Storytelling und NPCs (engl. Non-Player Characters): Mit erweiterten Dialogen und Entscheidungsbäumen sollen NPCs in Videospielen menschenähnliche Interaktionen ermöglichen, die die Ideale des Turing-Tests widerspiegeln.
Kundensupport-Bots: Diese Bots, die häufig auf Websites und in Support-Kanälen eingesetzt werden, sind dafür bestimmt, Anfragen auf eine menschenähnliche Art und Weise zu beantworten, bevor sie das Gespräch bei Bedarf an einen menschlichen Mitarbeiter weiterleiten.
Generative Adversarial Networks (GANs): Der kontradiktorische Prozess, den GANs zur Generierung neuer Daten verwenden, erinnert ein wenig an den Turing-Test.
In beiden Fällen besteht das Ziel darin, eine Ausgabe zu erzeugen, die von einer „echten“ oder „authentischen“ Quelle nicht zu unterscheiden ist.
Der Turing-Test und generative KI
Der Turing-Test wird häufig in Artikeln über generative KI erwähnt, und das liegt daran, dass der Turing-Test von Natur aus generativ ist.
Wenn ein Sprachmodell eine Geschichte, einen Artikel oder ein Gedicht erstellt, geht es nicht nur um die Aneinanderreihung von Wörtern, sondern um die Formulierung von Inhalten, die sich anfühlen, als wären sie von einem Menschen verfasst worden.
Eines der ersten Computerprogramme, das eine interaktive Konversation versuchte, war ELIZA, ein Chatterbot, der in den 1960er Jahren von Joseph Weizenbaum am MIT entwickelt wurde.
ELIZA wird oft in Diskussionen über den Turing-Test angesprochen, weil es eines der ersten Computerprogramme war, das eine menschenähnliche Kommunikation imitieren und den Menschen vorgaukeln konnte, sie würden mit einer echten Person interagieren.
Im Kontext seiner Zeit konnte ELIZA als generativ betrachtet werden, weil es verschiedene Antworten produzierte, ohne dass ein menschlicher Texter jede mögliche Gesprächswendung vorgab.
Berühmte Versuche zum Bestehen des Turing-Tests
Obwohl ELIZA nicht dafür entwickelt wurde, den Turing-Test zu bestehen, wurde der Chatbot durch seine Fähigkeit, bestimmte Arten menschlicher Interaktionen zu emulieren, zu einem wichtigen Meilenstein in der Geschichte der künstlichen Intelligenz und der Mensch-Computer-Interaktion.
Ironischerweise verdeutlichten die Reaktionen der Menschen auf ELIZA gleichzeitig die Neigung des Menschen, Maschinen andere menschliche Eigenschaften zuzuschreiben.
Dieses Phänomen, das als Eliza-Effekt bekannt ist, kann als Synonym für Personifizierung im Kontext der Informationstechnologie verwendet werden.
Neben ELIZA gibt es weitere bemerkenswerte Chatbots, die mit konversationeller KI und dem Turing-Test in Verbindung gebracht werden:
PARRY (1972): PARRY wurde von dem Psychiater Kenneth Colby entwickelt und simulierte einen Patienten mit paranoider Schizophrenie.
Als PARRY per Fernschreiben mit einer Reihe von Psychiatern „sprach“, glaubten einige Ärzte, sie würden mit einem echten Menschen kommunizieren.
Racter (1980er Jahre): Seine Schöpfer behaupteten, dass Racter das erste Programm mit künstlicher Intelligenz war, das ein Buch mit dem Titel The Policeman’s Beard is Half Constructed (dt. Der Bart des Polizisten ist halb gebaut) geschrieben hatte.
Es gab jedoch erhebliche Debatten darüber, wie groß der Anteil des Menschen an der Entstehung des Buches war.
Jabberwacky (1990er Jahre): Jabberwacky wurde vom britischen Programmierer Rollo Carpenter entwickelt und sollte eine menschenähnliche Konversation nachahmen und aus den Interaktionen lernen.
Sein Nachfolger ist Cleverbot, das 2011 auf dem Techniche-Festival in Indien an einem formalen Turing-Test teilnahm.
Eugene Goostman (2014): Von diesem Chatbot, der die Unterhaltung eines 13-jährigen ukrainischen Jungen simulieren soll, wird behauptet, er habe den Turing-Test bei einem Wettbewerb der Royal Society in London bestanden.
Der Goostman-Bot hat seit seiner Entwicklung an einer Reihe von Turing-Test-Wettbewerben teilgenommen und belegte 2005 und 2008 den zweiten Platz bei dem Wettstreit um den Loebner-Preis.
Google Duplex (2018): Google Duplex wurde zur Buchung von Restaurants, Friseurterminen und ähnlichen Aufgaben für Nutzer entwickelt.
Obwohl der Bot nie ein Turing-Test-Anwärter im traditionellen Sinne war, ist das Programm bemerkenswert für seine Fähigkeit, natürlich klingende Gespräche am Telefon zu führen, die sogar Fülllaute wie „umm“ und „ahh“ enthalten.
OpenAIs GPT-3 (2020): Die dritte Iteration des Generative Pre-trained Transformer Chatbots von OpenAI löste erneutes Interesse und eine Debatte über die Natur von maschinell erzeugten Inhalten und die Grenzen des Turing-Tests aus.
Berühmte Turing-Test-Wettbewerbe
Im Laufe der Jahre gab es mehrere Wettbewerbe, bei denen der umstrittene Turing-Test zur Bewertung der „Intelligenz“ von Programmen der künstlichen Intelligenz herangezogen wurde.
Zu den bekannten historischen Beispielen gehören:
- Der Loebner-Preis, der 1990 von Hugh Loebner in Zusammenarbeit mit dem Cambridge Center for Behavioral Studies ins Leben gerufen wurde, ist einer der berühmtesten Turing-Test-Wettbewerbe. Der Loebner-Preis wurde im Jahr 2020 eingestellt.
- Die Chatterbox Challenge war ein jährlicher Wettbewerb, der Anfang der 2000er Jahre eingeführt wurde und über mehrere Jahre hinweg stattfand. In ihrer Blütezeit war die Chatterbox Challenge einer der wichtigsten Chatbot-Wettbewerbe.
- Auf der Website Chatbot Battle Arena treten verschiedene Chatbots gegeneinander an, wobei der Betrachter bestimmen kann, welcher Bot der Gewinner sein soll. In diesem Turing-Test-ähnlichen Wettbewerb legt der Zuschauer seine eigenen Kriterien für den Sieg fest.
- Turing100 wurde von der European Association for Artificial Intelligence im Jahr 2012 veranstaltet. Es war Teil der Feierlichkeiten zu Ehren des 100. Geburtstags von Alan Turing.
- Der 2K BotPrize war ein Wettbewerb, der im Rahmen des Videospiels Unreal Tournament 2004 stattfand. Dabei ging es nicht um Konversation, sondern um die Entwicklung eines Bots, der sich im Game so menschenähnlich verhält, dass er mit einem menschlichen Spieler verwechselt wird.
Alternativen zum Turing-Test
Es wurden verschiedene Alternativen und Ergänzungen zum Turing-Test vorgeschlagen, um die Einschränkungen des Tests auszugleichen.
Manche davon zielen darauf ab, die Intelligenz von Maschinen zu bewerten, die über KI im Gespräch hinausgeht:
- Das Chinesische Zimmer ist ein Gedankenexperiment des Philosophen John Searle, das die Gültigkeit des Turing-Tests in Frage stellt und zu beweisen versucht, dass das Verstehen der Sprache oder das Denken für Computer unmöglich ist.
- Der Lovelace-Test wurde nach Ada Lovelace, der ersten Programmiererin, benannt. Mit diesem Test wird die Fähigkeit einer Maschine bewertet, originelle, künstlerische Inhalte zu schaffen, die ihr nicht ausdrücklich einprogrammiert wurden.
- Der Marcus-Test ist ein von Gary Marcus, einem Kognitionswissenschaftler der New York University, vorgeschlagener Test für künstliche Intelligenz. Er soll die Fähigkeit einer künstlichen Intelligenz beurteilen, Ereignisse in der realen Welt zu verstehen und darauf zu reagieren.
Wie wird der Turing-Test heute verwendet?
Auch wenn der Turing-Test in Bezug auf die maschinelle Intelligenz nicht mehr den gleichen Stellenwert hat wie früher, bleibt sein Erbe bestehen.
Der Test ist nach wie vor ein wertvolles Diskussions- und Marketinginstrument.
Hier sind einige Beispiele für die Verwendung des Turing-Tests in der heutigen Zeit:
KI-Wettbewerbe: Obwohl der Loebner-Preis nicht mehr vergeben wird, gibt es immer noch einige kleine Wettbewerbe für Chatbot-Entwickler, die den Turing-Test in ihre Kriterien zur Bewertung der Qualität der Ergebnisse von Konkurrenten einbeziehen.
Benchmarking von Fähigkeiten der Verarbeitung natürlicher Sprache (NLP): Der Turing-Test wird in der KI-Community manchmal informell als Benchmark für die Leistung von NLP-Algorithmen verwendet.
Wenn ein NLP-Modell menschenähnliche Antworten generieren kann, wird es oft als Turing-komplett oder Turing-Test-fähig bezeichnet – auch wenn das Modell keinem formalen Test unterzogen wurde.
Lernmittel: Der Turing-Test wird häufig in Studiengängen in den Bereichen KI, kognitives Computing und Philosophie diskutiert.
Das Nachahmungsspiel dient nach wie vor als Ausgangspunkt für tiefergehende Erkundungen der maschinellen Intelligenz und des Konzepts des Bewusstseins.
Medien und Popkultur: Der Turing-Test wird in Filmen, Literatur und Diskussionen über Roboter, Androiden und Maschinen mit Selbstbewusstsein erwähnt.
Ethik: Jüngste Fortschritte, insbesondere bei sprach-, video- und textbasierten generativen KI-Modellen, haben neue Debatten über die Implikationen des Turing-Tests ausgelöst.
Wenn eine Maschine einen Menschen überzeugend imitieren kann, hat das potenzielle Konsequenzen für Täuschung und Vertrauen sowie für die ethische Nutzung solcher Technologien.
Marketing: Unternehmen, die Chatbots, Voice-Assistenten und andere Gesprächsagenten entwickeln, verweisen oft auf den Turing-Test als Maßstab dafür, wie „menschenähnlich“ ihre generative Software ist.
In diesem Zusammenhang wird der Turing-Test eher als Werbebegriff denn als echter Benchmark verwendet.