Turing testen vurderer en maskins evne til å etterligne menneskelig intelligens. I denne artikkelen kan du lese om testens betydning, hvordan den brukes i praksis, og få en dypere forståelse av Turingtesten.
Hva er Turing testen?
Turing testen er et verktøy for evaluering av kunstig intelligens (KI) introdusert i 1950 av Dr. Alan Turing, en britisk matematiker og datavitenskapsmann. Turing søkte etter en enkel måte å svare på spørsmålet “Kan maskiner tenke?”
I stedet for å dykke inn i det filosofiske spørsmålet om hva “tenking” betyr, omformulerte Turing problemet ved å foreslå en konkret, operasjonell test: hvis en maskin kunne imitere menneskelige svar overbevisende nok til å lure en menneskelig forhører, da kunne det, for alle praktiske formål, sies å “tenke”. Strategien han foreslo ble en av de tidligste referansepunktene for å vurdere maskinintelligens.
For å samle kvalitative data om maskinintelligens foreslo Turing et undersøkelsesbasert spill, som senere ble populært kjent som “Imitasjonsspillet” eller som den gjerne kalles “Turing testen.”
Hva er imitasjonsspillet?
Turings test for maskinintelligens er basert på et salongspill som var populært i den viktorianske æraen. Det opprinnelige spillet krevde tre personer: en mann, en kvinne og en forhører. (Forhøreren kunne være enten en mann eller en kvinne.) Mannen og kvinnen ble plassert i ett rom, og forhøreren i et annet.
Forhøreren startet spillet ved å stille en serie spørsmål og fikk deltakerne til å skrive (eller taste) svarene sine. For å gjøre spillet mer utfordrende, fikk en deltaker lov til å lyve og fabrikkere svar, og den andre deltakeren måtte alltid fortelle sannheten. Målet med spillet var at forhøreren skulle gjette riktig hvilke svar som var skrevet av mannen – og hvilke som var skrevet av kvinnen.
Hvordan fungerer Turing testen?
Som beskrevet i hans artikkel fra 1950 “Computing Machinery and Intelligence“, krevde Turings versjon av Imitasjonsspillet også en forhører og to deltakere. I Turings versjon ville imidlertid en av deltakerne være menneskelig, og den andre ville være en databehandlingsmaskin.
I hovedsak var Turings versjon av spillet et banebrytende forsøk på å sette en praktisk referanse for maskinintelligens som unngikk det filosofiske spørsmålet om hva det betyr å “tenke.” Turing foreslo at hvis forhøreren ikke kunne pålitelig skille mellom maskin- og menneskesvar, kunne maskinen sies å demonstrere menneskelignende tankeprosesser og intelligens.
De nøyaktige kriteriene for å bestemme en maskins intelligens har alltid vært et debattema, men basert på Turings artikkel, har det ofte blitt argumentert med at hvis en jury av forhørere tror de kommuniserer med et annet menneske minst 70 % av tiden — når de faktisk har snakket med et dataprogram — kan programvareutviklerne legitimt hevde at deres KI-programmering har bestått Turing-testen.
Hvorfor er Turing testen viktig?
Initielle innsigelser mot Turing testen
Det er viktig å merke seg at selv om Turing nå er anerkjent som en visjonær, var han ganske kontroversiell gjennom sin levetid, og hans arbeid ble ikke alltid satt pris på. Mange akademikere og teologer tvilte på at maskiner noen gang kunne etterligne menneskelig tanke, og Turings ganske radikale ideer om maskinintelligens skapte mye opphetet filosofisk og teologisk debatt.
Turing forutså innsigelser mot sine ideer, og tilbød motargumenter for hvorfor han trodde maskiner kunne etterligne menneskelig tanke. Denne troen er forklart i Church-Turing-tesen.
Church-Turing-tesen foreslår at enhver beregning eller matematisk problem som kan løses av et menneske ved hjelp av et spesifikt sett med instruksjoner også kan løses av en maskin. Dette konseptet vokste til å bli grunnlaget for moderne datavitenskap.
Turing maskin vs. universell Turing-maskin
Turing introduserte først konseptet med maskinintelligens i sin artikkel fra 1936 “On Computable Numbers, with an Application to the Entscheidung’s Problem.” I denne artikkelen introduserte Turing en enkel teoretisk enhet som i prinsippet kunne beregne enhver tallrekke hvis den ble gitt riktige instruksjoner.
En Turing maskin (TM) er en abstrakt matematisk modell for beregning. I Turings sinn besto hans imaginære maskin av et uendelig bånd delt inn i celler, et båndhode som kunne bevege seg til venstre eller høyre, og et sett med tilstander og regler som dikterte hvordan båndhodet leste fra og skrev til båndet. Han så for seg at hver Turing maskin ville være designet for å utføre en spesifikk oppgave eller beregning.
Turing foreslo også en universell Turing maskin. Dette ville være en spesiell type Turing maskin som ville være i stand til å simulere enhver annen Turing maskin. I teorien, når en UTM ble gitt en beskrivelse av en annen Turing maskin (og dens input), kunne UTM bruke denne informasjonen som sin egen input.
Konseptet med en universell Turing maskin introduserte ideen om at én databehandlingsmaskin kunne simulere enhver annen databehandlingsmaskin hvis den ble gitt riktige input. Dette ble grunnlaget for dagens dataprogrammer og var et viktig skritt i utviklingen av generelle datamaskiner.
Turing testen regnes hovedsakelig som et historisk verktøy for evaluering av AI i dag.
Testen snakkes fortsatt om, imidlertid, på grunn av dens innvirkning på AI-forskning. I hovedsak endret Turing det filosofiske spørsmålet “Kan maskiner tenke?” til et annet spørsmål som faktisk kunne besvares og støttes med data.
Dette er viktig, fordi det nye spørsmålet, “Kan maskiner oppføre seg på en måte som er uatskillelig fra mennesker i en samtale?” kunne besvares på en definitiv måte ved bruk av vitenskapelig metode.
Denne subtile (men dyptgående) endringen i perspektiv hadde en enorm innvirkning og oppmuntret tidlige kunstig intelligens-forskere til å legge mer vekt på studiet av naturlig språkprosessering (NLP), naturlig språkforståelse (NLU) og naturlig språkgenerering (NLG).
Samtalebasert AI og Turingtesten
I tiårene etter hans død ble Turings rolle i å knekke Enigma-koden offentlig kjent, og hans bidrag og innsikt om maskinintelligens ble gjenopptatt. Følgende teknologier og konsepter deler en felles tråd med Turing-testen – de søker alle å nøyaktig etterligne menneskelig atferd i en maskinkontekst.
Chatbots: Dette er programvareapplikasjoner designet for å simulere menneskelig samtale. Tidlige eksempler hadde som mål å etterligne menneskelignende interaksjoner og var en direkte henvisning til Turing testens mål.
Taleassistenter: Teknologier som Amazons Alexa, Google Assistant, Siri og Cortana er designet for å forstå og svare på brukerkommandoer på en menneskelignende måte, og gjenspeiler de samtalebaserte referansene til Turing-testen.
Naturlig språkprosessering (NLP): Turing testens fokus på samtale har drevet forskning innen forståelse og generering av menneskelig språk, noe som har ført til utvikling av NLP-verktøy og algoritmer for næringslivet.
Maskinlæring: Selv om det ikke er eksklusivt for Turing-testen, kan maskinlæringsteknikker, spesielt innen områder som dyp læring for språkmodeller (f.eks. OpenAIs GPT-serie), sees som forsøk på å generere mer menneskelignende output og bestå Turing-testen.
Samtalebaserte AI-plattformer: Verktøy og plattformer, som Googles Dialogflow eller Microsofts Bot Framework, muliggjør opprettelsen av samtaleagenter og samtalebaserte brukergrensesnitt (CUI-er).
CAPTCHA: Disse testene, ofte brukt på nettsteder for å skille mennesker fra boter, er en slags invers Turing-test. De er designet for å være enkle for mennesker å fullføre, men vanskelige for maskiner å fullføre.
Turing nummer: Dette er en annen prosess for å screene menneskelige brukere på nettet og skille dem fra boter.
Verktøy for sentimentanalyse: Disse verktøyene fokuserer på å forstå følelser i tekst, med målet om å fange opp et menneskelig aspekt ved kommunikasjon, noe som minner om Turing testen
Interaktiv fortelling og NPC-er (Non-Player Characters): I videospill streber NPC-er med avanserte dialoger og beslutningstrær etter å tilby menneskelignende interaksjoner, noe som reflekterer idealene til Turing testen.
Kundeservice bots: Disse botene, som er vanlige på nettsteder og støttekanaler, forsøker å svare på spørsmål på en menneskelignende måte før de eventuelt gir samtalen til et ekte menneske, om nødvendig
Generative Adversarial Networks (GANs): Den motstridende prosessen som GANs bruker for å generere nye data, minner noe om Turing testen. I begge tilfeller er målet å produsere et resultat som ikke kan skilles fra en “ekte” eller “autentisk” kilde.
Turing testen og generativ AI
Turing testen nevnes ofte i artikler om generativ AI, og det er fordi Turing-testen i seg selv er generativ. Når en språkmodell genererer en historie, en artikkel eller et dikt, handler det ikke bare om å sette sammen ord; det handler om å skape innhold som føles som om det ble laget av et menneske.
Et av de første dataprogrammene som forsøkte interaktiv samtale, var ELIZA, en chatterbot skapt på 1960-tallet av Joseph Weizenbaum ved MIT. ELIZA nevnes ofte i diskusjoner om Turing testen fordi det var et av de første dataprogrammene som kunne etterligne menneskelignende samtale og lure folk til å tro at de kommuniserte med en ekte person.
I sin samtid kunne ELIZA ses på som generativ fordi den produserte varierte svar uten at en menneskelig manusforfatter spesifiserte hver mulig samtalevending.
Berømte forsøk på å bestå Turing testen
Berømte Turing test konkurranser
Alternativer til Turing testen
Det er foreslått forskjellige alternativer og tillegg til Turing-testen for å kompensere for testens begrensninger. Noen av disse vurderingene er designet for å evaluere maskinintelligens utover samtale-AI:
- Det kinesiske rom-argumentet er et tankeeksperiment foreslått av filosofen John Searle som utfordret gyldigheten av Turing-testen og søkte å bevise at det er umulig for digitale datamaskiner å forstå språk eller tenke.
- Lovelace-testen er oppkalt etter Ada Lovelace, den første kvinnelige programmereren. Denne testen evaluerer en maskins evne til å skape originalt, kunstnerisk innhold som ikke var eksplisitt programmert inn i den.
- Marcus-testen er en test for kunstig intelligens foreslått av Gary Marcus, en kognitiv vitenskapsmann ved New York University. Den er designet for å vurdere en AIs evne til å forstå og respondere på hendelser i den virkelige verden.
Hvordan brukes Turing testen i dag?
Selv om Turing-testen kanskje ikke har samme status som den en gang hadde med hensyn til maskinintelligens, består dens arv. Testen forblir et verdifullt diskusjons- og markedsføringsverktøy. Her er noen måter Turing-testen brukes på i dag:
AI-konkurranser: Selv om Loebner-prisen ikke lenger tilbys, er det fortsatt noen små konkurranser for chatbot-utviklere som løst inkorporerer Turing-testen i sine kriterier for å vurdere kvaliteten på konkurrentenes utdata.
Benchmarking av Natural Language Processing (NLP)-evner: Turing-testen brukes noen ganger uformelt i AI-samfunnet som en benchmark for ytelsen til NLP-algoritmer. Hvis en NLP-modell kan generere menneskelignende svar, sies det ofte å være Turing-komplett eller Turing-test-kapasitet – selv om modellen ikke har gjennomgått en formell test.
Utdanningsverktøy: Turing-testen diskuteres ofte i akademiske kurs relatert til AI, kognitiv databehandling og filosofi. Imitasjonsspillet har fortsatt sin bruk som et utgangspunkt for dypere utforskninger inn i følsom maskinintelligens og bevissthetens konsept.
Media og Popkultur: Turing testen refereres ofte til i filmer, litteratur og diskusjoner relatert til roboter, androider og maskiner som er selvbevisste.