Turing Test

Hva er Turing testen?

Turing testen er et verktøy for evaluering av kunstig intelligens (KI) introdusert i 1950 av Dr. Alan Turing, en britisk matematiker og datavitenskapsmann. Turing søkte etter en enkel måte å svare på spørsmålet “Kan maskiner tenke?”

I stedet for å dykke inn i det filosofiske spørsmålet om hva “tenking” betyr, omformulerte Turing problemet ved å foreslå en konkret, operasjonell test: hvis en maskin kunne imitere menneskelige svar overbevisende nok til å lure en menneskelig forhører, da kunne det, for alle praktiske formål, sies å “tenke”. Strategien han foreslo ble en av de tidligste referansepunktene for å vurdere maskinintelligens.

For å samle kvalitative data om maskinintelligens foreslo Turing et undersøkelsesbasert spill, som senere ble populært kjent som “Imitasjonsspillet” eller som den gjerne kalles “Turing testen.”

Hva er Imitasjonsspillet?

Turings test for maskinintelligens er basert på et salongspill som var populært i den viktorianske æraen. Det opprinnelige spillet krevde tre personer: en mann, en kvinne og en forhører. (Forhøreren kunne være enten en mann eller en kvinne.) Mannen og kvinnen ble plassert i ett rom, og forhøreren i et annet.

Forhøreren startet spillet ved å stille en serie spørsmål og fikk deltakerne til å skrive (eller taste) svarene sine. For å gjøre spillet mer utfordrende, fikk en deltaker lov til å lyve og fabrikkere svar, og den andre deltakeren måtte alltid fortelle sannheten. Målet med spillet var at forhøreren skulle gjette riktig hvilke svar som var skrevet av mannen – og hvilke som var skrevet av kvinnen.

The Imitation Game explained

Hvordan fungerer Turing testen?

Som beskrevet i hans artikkel fra 1950 “Computing Machinery and Intelligence“, krevde Turings versjon av Imitasjonsspillet også en forhører og to deltakere. I Turings versjon ville imidlertid en av deltakerne være menneskelig, og den andre ville være en databehandlingsmaskin.

I hovedsak var Turings versjon av spillet et banebrytende forsøk på å sette en praktisk referanse for maskinintelligens som unngikk det filosofiske spørsmålet om hva det betyr å “tenke.” Turing foreslo at hvis forhøreren ikke kunne pålitelig skille mellom maskin- og menneskesvar, kunne maskinen sies å demonstrere menneskelignende tankeprosesser og intelligens.

De nøyaktige kriteriene for å bestemme en maskins intelligens har alltid vært et debattema, men basert på Turings artikkel, har det ofte blitt argumentert med at hvis en jury av forhørere tror de kommuniserer med et annet menneske minst 70 % av tiden — når de faktisk har snakket med et dataprogram — kan programvareutviklerne legitimt hevde at deres KI-programmering har bestått Turing-testen.

The Turing Test explained

Hvorfor er Turing testen viktig?

Turings test er historisk viktig fordi den endret debatten fra om maskiner kan tenke til om maskiner kan etterligne menneskelig samtale. Denne endringen i fokus ga det fremvoksende datavitenskapsfellesskapet et pragmatisk rammeverk for å vurdere fremgang.

Gjennom årene har gyldigheten av Turing-testen skapt mye debatt blant datavitenskapsmenn, filosofer og kognitive psykologer. Dens utholdenhet ligger i dens evne til å være både en teknisk referanse og et filosofisk verktøy for å undersøke og diskutere om en maskin noensinne kan være virkelig intelligent.

Å bruke samtale som det primære kriteriet for intelligens har imidlertid utilsiktet skapt et mer snevert syn på intelligens og neglisjert betydningen av andre typer intelligens som emosjonell intelligens, romlig intelligens eller kreativ intelligens.

Med dagens fremskritt innen maskinlæring (ML) og nevrale nettverk, blir det stadig mer mulig å lage chatteboter med arkitekturer som kan nøyaktig etterligne mønstre i treningsdata. For eksempel er ChatGPT-4 og Google Bard ganske dyktige til å håndtere et bredt spekter av samtaleemner, og i mange tilfeller kan de produsere et svar som er uatskillelig fra et menneskes.

Men det betyr ikke nødvendigvis at chatteboten er intelligent. I langvarige interaksjoner kan de store språkmodellene som støtter chattebotene hallusinere og generere resultater som er inkonsistente, motstridende eller ulogiske.

Initielle innsigelser mot Turing testen

Det er viktig å merke seg at selv om Turing nå er anerkjent som en visjonær, var han ganske kontroversiell gjennom sin levetid, og hans arbeid ble ikke alltid satt pris på. Mange akademikere og teologer tvilte på at maskiner noen gang kunne etterligne menneskelig tanke, og Turings ganske radikale ideer om maskinintelligens skapte mye opphetet filosofisk og teologisk debatt.

Turing forutså innsigelser mot sine ideer, og tilbød motargumenter for hvorfor han trodde maskiner kunne etterligne menneskelig tanke. Denne troen er forklart i Church-Turing-tesen.

Church-Turing-tesen foreslår at enhver beregning eller matematisk problem som kan løses av et menneske ved hjelp av et spesifikt sett med instruksjoner også kan løses av en maskin. Dette konseptet vokste til å bli grunnlaget for moderne datavitenskap.

Turing maskin vs. universell Turing-maskin

Turing introduserte først konseptet med maskinintelligens i sin artikkel fra 1936 “On Computable Numbers, with an Application to the Entscheidung’s Problem.” I denne artikkelen introduserte Turing en enkel teoretisk enhet som i prinsippet kunne beregne enhver tallrekke hvis den ble gitt riktige instruksjoner.

En Turing maskin (TM) er en abstrakt matematisk modell for beregning. I Turings sinn besto hans imaginære maskin av et uendelig bånd delt inn i celler, et båndhode som kunne bevege seg til venstre eller høyre, og et sett med tilstander og regler som dikterte hvordan båndhodet leste fra og skrev til båndet. Han så for seg at hver Turing maskin ville være designet for å utføre en spesifikk oppgave eller beregning.

Turing foreslo også en universell Turing maskin. Dette ville være en spesiell type Turing maskin som ville være i stand til å simulere enhver annen Turing maskin. I teorien, når en UTM ble gitt en beskrivelse av en annen Turing maskin (og dens input), kunne UTM bruke denne informasjonen som sin egen input.

Konseptet med en universell Turing maskin introduserte ideen om at én databehandlingsmaskin kunne simulere enhver annen databehandlingsmaskin hvis den ble gitt riktige input. Dette ble grunnlaget for dagens dataprogrammer og var et viktig skritt i utviklingen av generelle datamaskiner.

Er Turing testen fortsatt et gyldig vurderingsverktøy?

Turing testen regnes hovedsakelig som et historisk verktøy for evaluering av AI i dag.

Testen snakkes fortsatt om, imidlertid, på grunn av dens innvirkning på AI-forskning. I hovedsak endret Turing det filosofiske spørsmålet “Kan maskiner tenke?” til et annet spørsmål som faktisk kunne besvares og støttes med data.

Dette er viktig, fordi det nye spørsmålet, “Kan maskiner oppføre seg på en måte som er uatskillelig fra mennesker i en samtale?” kunne besvares på en definitiv måte ved bruk av vitenskapelig metode.

Denne subtile (men dyptgående) endringen i perspektiv hadde en enorm innvirkning og oppmuntret tidlige kunstig intelligens-forskere til å legge mer vekt på studiet av naturlig språkprosessering (NLP), naturlig språkforståelse (NLU) og naturlig språkgenerering (NLG).

Samtalebasert AI og Turing testen

I tiårene etter hans død ble Turings rolle i å knekke Enigma-koden offentlig kjent, og hans bidrag og innsikt om maskinintelligens ble gjenopptatt. Følgende teknologier og konsepter deler en felles tråd med Turing-testen – de søker alle å nøyaktig etterligne menneskelig atferd i en maskinkontekst.

Chatbots: Dette er programvareapplikasjoner designet for å simulere menneskelig samtale. Tidlige eksempler hadde som mål å etterligne menneskelignende interaksjoner og var en direkte henvisning til Turing testens mål.

Taleassistenter: Teknologier som Amazons Alexa, Google Assistant, Siri og Cortana er designet for å forstå og svare på brukerkommandoer på en menneskelignende måte, og gjenspeiler de samtalebaserte referansene til Turing-testen.

Naturlig språkprosessering (NLP): Turing testens fokus på samtale har drevet forskning innen forståelse og generering av menneskelig språk, noe som har ført til utvikling av NLP-verktøy og algoritmer for næringslivet.

Maskinlæring: Selv om det ikke er eksklusivt for Turing-testen, kan maskinlæringsteknikker, spesielt innen områder som dyp læring for språkmodeller (f.eks. OpenAIs GPT-serie), sees som forsøk på å generere mer menneskelignende output og bestå Turing-testen.

Samtalebaserte AI-plattformer: Verktøy og plattformer, som Googles Dialogflow eller Microsofts Bot Framework, muliggjør opprettelsen av samtaleagenter og samtalebaserte brukergrensesnitt (CUI-er).

CAPTCHA: Disse testene, ofte brukt på nettsteder for å skille mennesker fra boter, er en slags invers Turing-test. De er designet for å være enkle for mennesker å fullføre, men vanskelige for maskiner å fullføre.

Turing nummer: Dette er en annen prosess for å screene menneskelige brukere på nettet og skille dem fra boter.

Verktøy for sentimentanalyse: Disse verktøyene fokuserer på å forstå følelser i tekst, med målet om å fange opp et menneskelig aspekt ved kommunikasjon, noe som minner om Turing testen

Interaktiv fortelling og NPC-er (Non-Player Characters): I videospill streber NPC-er med avanserte dialoger og beslutningstrær etter å tilby menneskelignende interaksjoner, noe som reflekterer idealene til Turing testen.

Kundeservice bots: Disse botene, som er vanlige på nettsteder og støttekanaler, forsøker å svare på spørsmål på en menneskelignende måte før de eventuelt gir samtalen til et ekte menneske, om nødvendig

Generative Adversarial Networks (GANs): Den motstridende prosessen som GANs bruker for å generere nye data, minner noe om Turing testen. I begge tilfeller er målet å produsere et resultat som ikke kan skilles fra en “ekte” eller “autentisk” kilde.

Turing testen og generativ AI

Turing testen nevnes ofte i artikler om generativ AI, og det er fordi Turing-testen i seg selv er generativ. Når en språkmodell genererer en historie, en artikkel eller et dikt, handler det ikke bare om å sette sammen ord; det handler om å skape innhold som føles som om det ble laget av et menneske.

Et av de første dataprogrammene som forsøkte interaktiv samtale, var ELIZA, en chatterbot skapt på 1960-tallet av Joseph Weizenbaum ved MIT. ELIZA nevnes ofte i diskusjoner om Turing testen fordi det var et av de første dataprogrammene som kunne etterligne menneskelignende samtale og lure folk til å tro at de kommuniserte med en ekte person.

I sin samtid kunne ELIZA ses på som generativ fordi den produserte varierte svar uten at en menneskelig manusforfatter spesifiserte hver mulig samtalevending.

Berømte forsøk på å bestå Turing testen

Selv om ELIZA ikke var spesielt designet for å bestå Turing testen, gjorde chatbotens evne til å etterligne visse typer menneskelig interaksjon den til en betydelig milepæl i historien om kunstig intelligens og menneske-datamaskin-interaksjon.

Ironisk nok fremhevet folks reaksjoner på ELIZA også den menneskelige tendensen til å tillegge maskiner andre menneskelige egenskaper. Dette fenomenet, som er kjent som Eliza-effekten, kan brukes som et synonym for personifisering i konteksten av informasjonsteknologi.

Foruten ELIZA, inkluderer andre bemerkelsesverdige chatboter assosiert med samtale-AI og Turing-testen:

PARRY (1972): Designet av psykiater Kenneth Colby, PARRY simulerte en pasient med paranoid schizofreni. Når PARRY brukte teletype for å “snakke” med en serie psykiatere, trodde noen leger at de kommuniserte med et ekte menneske.

Racter (1980-tallet): Skaperne hevdet at Racter var det første kunstig intelligensprogrammet som hadde skrevet en bok med tittelen “The Policeman’s Beard is Half Constructed..” Det har imidlertid vært betydelig debatt om hvor mye menneskelig inngripen var involvert i bokens skapelse.

Jabberwacky (1990-tallet): Skapt av den britiske programmereren Rollo Carpenter, ble Jabberwacky designet for å etterligne menneskelignende samtale og lære fra sine interaksjoner. Den ble etterfulgt av Cleverbot, som deltok i en formell Turing-test ved Techniche-festivalen i India i 2011.

Eugene Goostman (2014): Denne chatboten, som var designet for å simulere en 13 år gammel ukrainsk gutts samtale, hevder å ha bestått Turing-testen under en konkurranse ved Royal Society i London. Goostman-boten har konkurrert i en rekke Turing-testkonkurranser siden den ble skapt, og kom på andreplass i Loebner-prisen i 2005 og 2008.

Google Duplex (2018): Google Duplex ble designet for å gjøre restaurantreservasjoner, frisørtimer og lignende oppgaver for brukere. Selv om boten aldri var en Turing-testkandidat i tradisjonell forstand, er programmeringen bemerkelsesverdig for sin evne til å gjennomføre naturlig klingende samtaler over telefonen, til og med inkludert utfyllingslyder som “øhm” og “åh.”

OpenAI’s GPT-3 (2020): Den tredje iterasjonen av OpenAI Generative Pre-trained Transformer chatbot vekket fornyet interesse og debatt om naturen til maskin-generert innhold og begrensningene til Turing-testen.

Berømte Turing test konkurranser

Gjennom årene har flere konkurranser brukt den kontroversielle Turing testen til å evaluere “intelligensen” i kunstig intelligensprogrammering. Velkjente historiske eksempler inkluderer:

  • Loebner-prisen, som ble etablert i 1990 av Hugh Loebner i samarbeid med Cambridge Center for Behavioral Studies, er en av de mest kjente Turing-testkonkurransene. Loebner-prisen ble avviklet i 2020.
  • Chatterbox Challenge var en årlig konkurranse som startet på begynnelsen av 2000-tallet og ble holdt i en rekke år. På sitt høydepunkt var Chatterbox Challenge en av de fremste chatbotkonkurransene.
  • Chatbot Battle Arena-nettstedet setter ulike chatboter mot hverandre og lar seeren bestemme hvilken bot som skal være vinneren. I denne Turing-test-lignende konkurransen bestemmer seeren sine egne kriterier for seier.
  • Turing100 ble organisert av European Association for Artificial Intelligence i 2012. Det var en del av feiringene som ble holdt til ære for 100-årsjubileet for Alan Turings fødsel.
  • 2K BotPrize var en konkurranse som ble holdt i konteksten av videospillet “Unreal Tournament 2004”. I stedet for å fokusere på samtale, var utfordringen for programmerere å skape en bot som oppfører seg så menneskelikt i spillet at den blir forvekslet med en menneskespiller.

Alternativer til Turing testen

Det er foreslått forskjellige alternativer og tillegg til Turing-testen for å kompensere for testens begrensninger. Noen av disse vurderingene er designet for å evaluere maskinintelligens utover samtale-AI:

  • Det kinesiske rom-argumentet er et tankeeksperiment foreslått av filosofen John Searle som utfordret gyldigheten av Turing-testen og søkte å bevise at det er umulig for digitale datamaskiner å forstå språk eller tenke.
  • Lovelace-testen er oppkalt etter Ada Lovelace, den første kvinnelige programmereren. Denne testen evaluerer en maskins evne til å skape originalt, kunstnerisk innhold som ikke var eksplisitt programmert inn i den.
  • Marcus-testen er en test for kunstig intelligens foreslått av Gary Marcus, en kognitiv vitenskapsmann ved New York University. Den er designet for å vurdere en AIs evne til å forstå og respondere på hendelser i den virkelige verden.

Hvordan brukes Turing testen i dag?

Selv om Turing-testen kanskje ikke har samme status som den en gang hadde med hensyn til maskinintelligens, består dens arv. Testen forblir et verdifullt diskusjons- og markedsføringsverktøy. Her er noen måter Turing-testen brukes på i dag:

AI-konkurranser: Selv om Loebner-prisen ikke lenger tilbys, er det fortsatt noen små konkurranser for chatbot-utviklere som løst inkorporerer Turing-testen i sine kriterier for å vurdere kvaliteten på konkurrentenes utdata.

Benchmarking av Natural Language Processing (NLP)-evner: Turing-testen brukes noen ganger uformelt i AI-samfunnet som en benchmark for ytelsen til NLP-algoritmer. Hvis en NLP-modell kan generere menneskelignende svar, sies det ofte å være Turing-komplett eller Turing-test-kapasitet – selv om modellen ikke har gjennomgått en formell test.

Utdanningsverktøy: Turing-testen diskuteres ofte i akademiske kurs relatert til AI, kognitiv databehandling og filosofi. Imitasjonsspillet har fortsatt sin bruk som et utgangspunkt for dypere utforskninger inn i følsom maskinintelligens og bevissthetens konsept.

Media og Popkultur: Turing testen refereres ofte til i filmer, litteratur og diskusjoner relatert til roboter, androider og maskiner som er selvbevisste.

Etikk: Nylige fremskritt, spesielt innen stemme-, video- og tekstbaserte generative AI-modeller, har ført til fornyede diskusjoner om Turing-testens implikasjoner. Hvis en maskin kan etterligne et menneske overbevisende, er det potensielle konsekvenser med hensyn til bedrag og tillit, samt den etiske bruken av slike teknologier.

Markedsføring: Selskaper som utvikler chatboter, stemmeassistenter og andre samtaleagenter refererer ofte til Turing-testen som et mål på hvor “menneskelikt” deres generative programvare er. I denne sammenhengen brukes Turing testen mer som en markedsføringsterm enn en reell standard.

FAQs

Hvorfor var Turing testen så vanskelig å bestå?

Hvilken poengsum trenger en samtale-AI-app for å bestå Turing-testen?

Kan Siri bestå Turing-testen?

Kan Alexa bestå Turing-testen?

Kan ChatGPT bestå Turing-testen?

Kan Turing-testen brukes til å avgjøre om AI er bevisst?

Kan Turing-testen brukes til andre ting enn chatbots?

Relaterte begreper

Margaret Rouse

Margaret Rouse er en prisbelønt teknisk skribent og lærer som er kjent for sin evne til å forklare kompliserte tekniske emner for et ikke-teknisk, forretningsmessig publikum. I løpet av de siste tjue årene har forklaringene hennes blitt publisert på TechTarget-nettsteder, og hun har blitt sitert som en autoritet i artikler i New York Times, Time Magazine, USA Today, ZDNet, PC Magazine og Discovery Magazine. Margarets idé om en morsom dag er å hjelpe IT- og forretningsfolk med å lære å snakke hverandres høyt spesialiserte språk. Hvis du har forslag til en ny definisjon eller ønsker å forbedre en teknisk forklaring,…