Turingtest

Varför oss?

Få en fullständig förståelse av vad Turingtestet är och hur det fungerar. Techopedia tar dig igenom historien bakom testet och dess roll i AI-industrins framväxt, tillsammans med dess nutida användningsområden.

Vad är Turingtestet?

Turingtestet är ett utvärderingsverktyg för artificiell intelligens (AI) som introducerades 1950 av Dr Alan Turing, en brittisk matematiker och datavetare. Turing letade efter ett enkelt sätt att besvara frågan “Kan maskiner tänka?”

Istället för att dyka ner i den filosofiska frågan om vad “tänkande” innebär, omformulerade Turing problemet genom att föreslå ett konkret, operativt test: om en maskin kunde imitera mänskliga svar tillräckligt övertygande för att lura en mänsklig förhörsledare, då kunde den för alla praktiska ändamål sägas “tänka”. Den strategi han föreslog blev ett av de tidigaste riktmärkena för att bedöma maskiners intelligens.

För att samla in kvalitativa data om maskinintelligens föreslog Turing ett frågebaserat spel, som senare blev populärt känt som “Imitation Game” (Imitationsspelet) eller mer allmänt “The Turing Test”.

Vad är Imitationsspelet?

Turings test för maskinintelligens bygger på ett sällskapsspel som var populärt under den viktorianska eran. Det ursprungliga spelet krävde tre personer: en man, en kvinna och en förhörsledare. (Förhörsledaren kunde vara antingen en man eller en kvinna.) Mannen och kvinnan placerades i ett rum, och förhörsledaren placerades i ett annat rum.

Förhörsledaren inledde spelet med att ställa en rad frågor och bad deltagarna att skriva (eller maskinskriva) sina svar. För att göra spelet mer utmanande fick den ena deltagaren ljuga och fabricera svar, medan den andra deltagaren alltid skulle tala sanning. Målet med spelet var att förhörsledaren skulle gissa rätt på vilka svar som var skrivna av mannen – och vilka som var skrivna av kvinnan.

Illustration som förklarar imitationsspelet.

Hur fungerar Turingtestet?

Turings version av Imitationsspelet, som han beskrev i sin artikel “Computing Machinery and Intelligence” från 1950, krävde också en förhörsledare och två deltagare. I Turings version skulle dock en av deltagarna vara en människa och den andra skulle vara en datormaskin.

I grunden var Turings version av spelet ett banbrytande försök att sätta ett praktiskt riktmärke för maskinintelligens som kringgick den filosofiska frågan om vad det innebär att “tänka”. Turing föreslog att om förhörsledaren inte på ett tillförlitligt sätt kunde skilja mellan maskinens och människans svar, skulle maskinen kunna sägas uppvisa människoliknande tankeprocesser och intelligens.

De exakta kriterierna för att fastställa en maskins intelligens har alltid varit föremål för debatt, men baserat på Turings artikel har det ofta hävdats att om en jury av förhörsledare tror att de kommunicerar med en annan människa minst 70% av tiden – när de i själva verket har talat med ett datorprogram – kan programvarans skapare legitimt hävda att deras AI-programmering har klarat Turing-testet.

Illustration som förklarar Turingtestet.

Varför är Turingtestet viktigt?

Turingtestet är historiskt viktigt eftersom det flyttade debatten från frågan om maskiner kan tänka till frågan om maskiner kan efterlikna människoliknande konversationer. Denna förändring i fokus gav den framväxande datavetenskapliga gemenskapen ett pragmatiskt ramverk för att bedöma framsteg.

Under årens lopp har Turingtestets giltighet gett upphov till en hel del debatt bland datavetare, filosofer och kognitiva psykologer. Dess uthållighet ligger i dess förmåga att vara både ett tekniskt riktmärke och ett filosofiskt verktyg för att undersöka och diskutera huruvida en maskin någonsin kan bli genuint intelligent eller inte.

Att använda konversation som det primära kriteriet för intelligens skapade dock oavsiktligt ett snävare perspektiv på intelligens och förnekade betydelsen av andra typer av intelligens, såsom emotionell intelligens, spatial (rumslig) intelligens eller kreativ intelligens.

Med dagens framsteg inom maskininlärning (ML) och neurala nätverk blir det alltmer möjligt att skapa chatbottar med arkitekturer som exakt kan efterlikna mönster i träningsdata. Till exempel är ChatGPT-4 och Google Bard ganska skickliga på att hantera ett brett spektrum av samtalsämnen och kan i många fall producera ett svar som inte går att skilja från en människas.

Det betyder dock inte nödvändigtvis att chatbotten är intelligent. Vid långvariga interaktioner kan de stora språkmodeller som stöder chatbottarna hallucinera och generera resultat som är inkonsekventa, motsägelsefulla eller ologiska.

Inledande invändningar mot Turingtestet

Det är viktigt att notera att även om Turing idag betraktas som en visionär, var han ganska kontroversiell under sin livstid och hans arbete uppskattades inte alltid. Många akademiker och teologer tvivlade på att maskiner någonsin skulle kunna efterlikna det mänskliga tänkandet, och Turings ganska radikala idéer om maskinintelligens ledde till en hel del heta filosofiska och teologiska debatter.

Turing förutsåg dock invändningar mot sina idéer och gav motargument för varför han trodde att maskiner kunde återskapa mänskligt tänkande. Denna tro förklaras i Church-Turing-tesen.

Church-Turing-tesen innebär att alla beräkningar eller matematiska problem som kan lösas av en människa med hjälp av en specifik uppsättning instruktioner också kan lösas av en maskin. Detta koncept växte till att bli grunden för modern datavetenskap.

Turingmaskin vs universell turingmaskin

Turing introducerade för första gången begreppet maskinintelligens i sin artikel “On Computable Numbers, with an Application to the Entscheidung’s Problem” från 1936. I denna artikel presenterade Turing en enkel teoretisk apparat som i princip skulle kunna beräkna vilken talföljd som helst om den fick rätt instruktioner.

En Turingmaskin (TM) är en abstrakt matematisk modell för beräkningar. I Turings huvud bestod hans imaginära maskin av ett oändligt band uppdelat i celler, ett bandhuvud som kunde röra sig åt vänster eller höger och en uppsättning tillstånd och regler som dikterade hur bandhuvudet läste från och skrev till bandet. Han föreställde sig att varje Turingmaskin skulle vara utformad för att utföra en specifik uppgift eller beräkning.

Turing föreslog också en universell turingmaskin (Universal Turing machine, UTM). Detta skulle vara en speciell typ av turingmaskin som skulle kunna simulera vilken annan turingmaskin som helst. I teorin, när en UTM fick en beskrivning av en annan turingmaskin (och dess indata), skulle UTM kunna använda den informationen som sin egen indata.

Begreppet Universal Turing Machine introducerade idén att en datormaskin kunde simulera vilken annan datormaskin som helst om den fick rätt indata. Detta blev grunden för dagens datorprogram och var ett viktigt steg i utvecklingen av allmängiltiga datorer.

Är Turingtestet fortfarande ett giltigt bedömningsverktyg?

Turingtestet betraktas främst som ett historiskt verktyg för att utvärdera AI idag.

Testet är dock fortfarande omtalat på grund av dess inverkan på AI-forskningen. I grund och botten flyttade Turing den filosofiska frågan “Kan maskiner tänka?” till en annan fråga som faktiskt kunde besvaras och stödjas av data.

Detta är viktigt eftersom den nya frågan “Kan maskiner bete sig på ett sätt som inte går att skilja från människor under en konversation?” kan besvaras på ett definitivt sätt med hjälp av vetenskaplig metod.

Denna subtila (men ändå djupgående) perspektivförändring fick en enorm inverkan och uppmuntrade tidiga forskare inom artificiell intelligens att lägga större vikt vid studier av naturlig språkbehandling (NLP), förståelse av naturligt språk (NLU) och generering av naturligt språk (NLG).

Konversationell AI och Turingtestet

Under årtiondena efter hans död blev Turings roll i att knäcka Enigmakoden allmänt känd och hans bidrag och insikter om maskinintelligens omprövades. Följande tekniker och koncept har en gemensam nämnare med Turingtestet – de försöker alla att exakt återskapa mänskligt beteende i en maskinkontext.

Chatbottar

Detta är mjukvaruapplikationer som är utformade för att simulera mänskliga samtal. Tidiga exempel syftade till att efterlikna människoliknande interaktioner och var en direkt blinkning till Turingtestets mål.

Röstassistenter

Tekniker som Amazons Alexa, Google Assistant, Siri och Cortana är utformade för att förstå och svara på användarkommandon på ett människoliknande sätt, vilket motsvarar Turingtestets riktmärken för konversation.

Naturlig språkbehandling (NLP)

Turingtestets fokus på konversation har drivit på forskningen kring att förstå och generera mänskligt språk, vilket har lett till utvecklingen av NLP-verktyg och algoritmer för företag.

Maskininlärning

Även om det inte är exklusivt för Turingtestet kan tekniker för maskininlärning, särskilt inom områden som djupinlärning för språkmodeller (t.ex. OpenAI:s GPT-serie), ses som försök att generera mer människoliknande resultat och klara Turingtestet.

Plattformar för konversationell AI

Verktyg och plattformar, som Googles Dialogflow eller Microsofts Bot Framework, gör det möjligt att skapa konversationsagenter och konversationsgränssnitt (CUIs).

CAPTCHA

Dessa tester, som ofta används på webbplatser för att skilja människor från botar, är ett slags omvänt Turingtest. De är utformade för att vara lätta för människor att genomföra, men svåra för maskiner att genomföra.

Turingnummer

Detta är en annan process för att granska mänskliga användare på nätet och skilja dem från robotar.

Verktyg för sentimentsanalys

Även om dessa verktyg fokuserar på att förstå känslor i text, syftar de till att fånga en mänsklig aspekt av kommunikation som påminner om Turingtestet.

Interaktivt berättande och NPC:er (Non-Player Characters)

I videospel strävar NPC:er med avancerade dialoger och beslutsträd efter att tillhandahålla människoliknande interaktioner, vilket återspeglar Turingtestets ideal.

Bots för kundsupport

Dessa robotar, som är vanliga på webbplatser och i supportkanaler, försöker svara på frågor på ett människoliknande sätt innan de vid behov eskalerar konversationen till en riktig människa.

Generativa adversariala nätverk (GAN)

Den kontradiktoriska process som GAN:er använder för att generera nya data påminner lite om Turingtestet. I båda fallen är målet att producera ett resultat som inte kan skiljas från en “riktig” eller “autentisk” källa.

Turingtestet och generativ AI

Turingtestet nämns ofta i artiklar om generativ AI, och det beror på att Turingtestet i sig är generativt. När en språkmodell genererar en berättelse, en artikel eller en dikt handlar det inte bara om att rada upp ord, utan om att försöka skapa innehåll som känns som om det skapats av en människa.

Ett av de första datorprogrammen som försökte sig på interaktiv konversation var ELIZA, en chatterbot som skapades på 1960-talet av Joseph Weizenbaum på MIT. ELIZA nämns ofta i diskussioner om Turingtestet eftersom det var ett av de första datorprogrammen som kunde efterlikna en människoliknande konversation och lura människor att tro att de interagerade med en riktig person.

I sin samtid kan ELIZA ses som generativ eftersom den producerade varierande svar utan att en mänsklig manusförfattare specificerade varje möjlig konversationsvändning.

Kända försök att klara Turingtestet

Även om ELIZA inte utformades specifikt för att klara Turingtestet, gjorde chattbotens förmåga att efterlikna vissa typer av mänskliga interaktioner den till en viktig milstolpe i historien om artificiell intelligens och interaktion mellan människa och dator.

Ironiskt nog belyste människors svar och reaktioner på ELIZA också den mänskliga tendensen att tillskriva maskiner andra mänskliga egenskaper. Detta fenomen, som är känt som Eliza-effekten, kan användas som en synonym till personifiering i samband med informationsteknik.

Förutom ELIZA finns andra anmärkningsvärda chatbottar som förknippas med konversationell AI och Turingtestet:

PARRY (1972)Racter (1980-talet)Jabberwacky (1990-talet)Eugene Goostman (2014)Google Duplex (2018)OpenAI:s GPT-3 (2020)

PARRY designades av psykiatrikern Kenneth Colby och simulerade en patient med paranoid schizofreni. När PARRY använde teletype för att “prata” med en rad psykiatriker trodde vissa läkare att de kommunicerade med en riktig människa.

Skaparna hävdade att Racter var det första programmet för artificiell intelligens som hade skrivit en bok med titeln “The Policeman’s Beard is Half Constructed“. Det har dock förekommit en betydande debatt om hur mycket mänsklig inblandning som var inblandad i bokens skapande.

Jabberwacky, också Boibot, skapades av den brittiska programmeraren Rollo Carpenter och var utformad för att efterlikna människoliknande konversationer och lära sig av interaktionerna. Den efterträddes av Cleverbot, som deltog i ett formellt Turingtest vid Techniche-festivalen i Indien 2011.

Denna chattbot, som utformades för att simulera en 13-årig ukrainsk pojkes konversation, påstår sig ha klarat Turingtestet under en tävling på Royal Society i London. Goostman-boten har deltagit i ett antal tävlingar med Turingtest sedan den skapades och kom på andra plats i Loebner Prize-tävlingen 2005 och 2008.

Google Duplex var utformad för att göra restaurangreservationer, salongtider och liknande uppgifter för användare. Även om boten aldrig var en Turingtest-kandidat i traditionell mening, är programmeringen anmärkningsvärd för dess förmåga att genomföra naturligt klingande konversationer över telefon, till och med inklusive fyllnadsljud som “umm” och “ahh”.

Den tredje upplagan av OpenAI:s chattbot Generative Pre-trained Transformer väckte förnyat intresse och debatt om maskingenererat innehåll och Turingtestets begränsningar.

Berömda Turingtest-tävlingar

Genom åren har flera tävlingar använt det kontroversiella Turingtestet för att utvärdera “intelligensen” i programmering av artificiell intelligens. Välkända historiska exempel inkluderar:

  • Loebner Prize, som instiftades 1990 av Hugh Loebner i samarbete med Cambridge Center for Behavioral Studies, är en av de mest välkända Turingtest-tävlingarna. Loebner Prize lades ner 2020.
  • Chatterbox Challenge var en årlig tävling som startade i början av 2000-talet och som hölls under ett antal år. Under sin storhetstid var Chatterbox Challenge en av de främsta chattbot-tävlingarna.
  • På webbplatsen Chatbot Battle Arena ställs olika chatbottar mot varandra och tittaren får avgöra vilken bot som ska vinna. I denna Turingtest-liknande tävling bestämmer tittaren sina egna kriterier för seger.
  • Turing100 organiserades av European Association for Artificial Intelligence 2012. Det var en del av firandet av 100-årsdagen av Alan Turings födelse.
  • 2K BotPrize var en tävling som hölls i samband med videospelet “Unreal Tournament 2004”. Istället för att fokusera på konversation var utmaningen för programmerare att skapa en bot som beter sig så människolikt i spelet att den misstas för en mänsklig spelare.

Alternativ till Turingtest

Olika alternativ och tillägg till Turingtestet har föreslagits för att kompensera för testets begränsningar. Vissa av dessa utvärderingar är utformade för att utvärdera maskinintelligens utöver konversationell AI:

The Chinese Room Argument är ett tankeexperiment som filosofen John Searle föreslog för att ifrågasätta Turingtestets giltighet och försöka bevisa att det är omöjligt för digitala datorer att förstå språk eller tänka.

Lovelace-testet har fått sitt namn efter Ada Lovelace, den första kvinnliga programmeraren. Testet utvärderar en maskins förmåga att skapa originellt, konstnärligt innehåll som inte uttryckligen har programmerats in i den.

Marcus-testet är ett test av artificiell intelligens som föreslagits av Gary Marcus, kognitionsvetare vid New York University. Det är utformat för att bedöma en AI:s förmåga att förstå och reagera på händelser i vardagen.

Hur används Turingtestet idag?

Även om Turingtestet kanske inte har samma status som det en gång hade när det gäller maskinintelligens, så finns dess arv kvar. Testet är fortfarande ett värdefullt diskussions- och marknadsföringsverktyg. Här är några sätt som Turing-testet används på idag:

  • AI-tävlingar: Även om Loebner-priset inte längre erbjuds finns det fortfarande några små tävlingar för chattbot-utvecklare som innehåller Turingtestet i sina kriterier för att utvärdera kvaliteten på konkurrenternas resultat.
  • Benchmarking av NLP-kapacitet (Natural Language Processing): Turingtestet används ibland informellt i AI-samhället som ett riktmärke för NLP-algoritmers prestanda. Om en NLP-modell kan generera människoliknande svar sägs den ofta vara Turing Complete eller Turing Test-Capable – även om modellen inte har genomgått ett formellt test.
  • Pedagogiskt verktyg: Turingtestet diskuteras ofta i akademiska kurser som rör AI, kognitiv databehandling och filosofi. Imitationsspelet har fortfarande sina användningsområden som utgångspunkt för djupare utforskningar av kännande maskinintelligens och begreppet medvetande.
  • Media och populärkultur: Turingtestet nämns ofta i filmer, litteratur och diskussioner som rör robotar, androider och maskiner som är självmedvetna.
  • Etik: De senaste framstegen, särskilt inom röst-, video- och textbaserade generativa AI-modeller, har lett till förnyade diskussioner om Turingtestets konsekvenser. Om en maskin på ett övertygande sätt kan efterlikna en människa finns det potentiella konsekvenser när det gäller bedrägeri och förtroende, liksom den etiska användningen av sådan teknik.
  • Marknadsföring: Företag som utvecklar chatbottar, röstassistenter och andra konversationsagenter hänvisar ofta till Turingtestet som ett mått på hur “människoliknande” deras generativa programvara är. I det här sammanhanget används Turingtestet mer som en marknadsföringsterm än som ett verkligt riktmärke.

Vanliga frågor om Turingtestet

Varför var Turingtestet så svårt att klara?

Vilken poäng behöver en AI-app för konversation för att klara Turingtestet?

Klarar Siri Turingtestet?

Kan Alexa klara Turingtestet?

Kan ChatGPT klara Turingtestet?

Kan Turing-testet användas för att avgöra om AI är kännande?

Kan Turingtestet användas för andra saker än chatbottar?

Relaterade termer

Margaret Rouse
Technology Specialist
Margaret Rouse
Teknikexpert

Margaret Rouse är en prisbelönt teknisk skribent och lärare som är känd för sin förmåga att förklara komplexa tekniska ämnen för en icke-teknisk affärspublik. Under de senaste tjugo åren har hennes förklaringar publicerats på TechTargets webbplatser och hon har citerats som en auktoritet i artiklar av New York Times, Time Magazine, USA Today, ZDNet, PC Magazine och Discovery Magazine.Margarets idé om en rolig dag är att hjälpa IT- och affärsproffs att lära sig tala varandras högt specialiserade språk. Om du har ett förslag på en ny definition eller hur man kan förbättra en teknisk förklaring, vänligen maila Margaret eller kontakta…