Turing testen vurderer en maskins evne til å etterligne menneskelig intelligens. I denne artikkelen kan du lese om testens betydning, hvordan den brukes i praksis, og få en dypere forståelse av Turingtesten.
Hva er Turing-testen?
Turing-testen er et evalueringsverktøy for kunstig intelligens (AI) som ble introdusert i 1950 av Dr. Alan Turing, en britisk matematiker og datavitenskapsmann. Turing var på jakt etter en enkel måte å besvare spørsmålet: «Kan maskiner tenke?»
I stedet for å dykke ned i det filosofiske spørsmålet om hva «tenkning» betyr, omformulerte Turing problemet ved å foreslå en konkret, operasjonell test: Hvis en maskin kunne imitere menneskelige svar overbevisende nok til å lure en menneskelig utspørrer, kunne den for alle praktiske formål sies å «tenke». Strategien han foreslo, ble en av de tidligste målestokkene for å vurdere maskinintelligens.
For å samle inn kvalitative data om maskinintelligens foreslo Turing et spørreskjemabasert spill, som senere ble populært kjent som «Imitasjonsspillet» eller, mer kjent, «Turing-testen».
Nøkkelpunkter
- Turing-testen er et evalueringsverktøy for kunstig intelligens (AI) som ble introdusert i 1950 av Dr. Alan Turing, en britisk matematiker og datavitenskapsmann.
- Turing-testen markerte en viktig milepæl innen kunstig intelligens ved å fokusere mindre på abstrakte definisjoner av tanke og mer på praktiske evalueringer av maskiners atferd i samtaler.
- Turings fokus på samtaleintelligens har drevet frem utviklingen innen Natural Language Processing (NLP) og maskinlæring (ML), og har skapt verktøy som kan forstå, generere og analysere menneskelig språk.
- Programmer som ELIZA, PARRY og Cleverbot gjenspeiler utviklingen av kunstig intelligens når det gjelder å bestå Turing-testen, mens nyere systemer som Google Duplex og GPT-3 viser hvordan kunstig intelligens i samtaler har gjort fremskritt når det gjelder å etterligne menneskelig respons.
- Alternativer til Turing-testen, som Chinese Room- og Lovelace-testene, vurderer maskinintelligens utover bare samtale.
- Turing-testen er også mye brukt i media, markedsføring og etikk, særlig ettersom utviklingen av kunstig intelligens reiser nye spørsmål om tillit og ansvarlig bruk.
- Se hele listen
Hva er Imitasjonsspillet?
Turings test for maskinintelligens er basert på en selskapslek som var populær i viktoriatiden. I det opprinnelige spillet måtte man være tre personer: en mann, en kvinne og en forhørsleder. (Forhørslederen kunne være enten en mann eller en kvinne.) Mannen og kvinnen ble plassert i ett rom, mens forhørslederen ble plassert i et annet rom.
Forhørslederen startet spillet med å stille en rekke spørsmål som deltakerne skulle skrive (eller skrive på maskin) svarene sine på. For å gjøre spillet mer utfordrende fikk den ene deltakeren lov til å lyve og dikte opp svar, mens den andre deltakeren alltid måtte fortelle sannheten. Målet med spillet var at forhørslederen skulle gjette hvilke svar som var skrevet av mannen – og hvilke som var skrevet av kvinnen.
Hvordan fungerer Turing-testen?
Som beskrevet i artikkelen «Computing Machinery and Intelligence» fra 1950, krevde Turings versjon av Imitasjonsspillet også en utspørrer og to deltakere. I Turings versjon var imidlertid én av deltakerne et menneske, mens den andre var en datamaskin.
I bunn og grunn var Turings versjon av spillet et banebrytende forsøk på å sette en praktisk målestokk for maskinintelligens, uten å ta stilling til det filosofiske spørsmålet om hva det vil si å «tenke». Turing foreslo at hvis forhørslederen ikke kunne skille mellom maskinens og menneskets svar på en pålitelig måte, kunne maskinen sies å demonstrere menneskelignende tankeprosesser og intelligens.
De nøyaktige kriteriene for å fastslå en maskins intelligens har alltid vært gjenstand for debatt, men basert på Turings artikkel har det ofte blitt hevdet at hvis en jury av avhørere tror at de kommuniserer med et annet menneske i minst 70 % av tilfellene – når de i virkeligheten har snakket med et dataprogram – kan programvarensskapere med rette hevde at programmeringen av kunstig intelligens (AI) har bestått Turing-testen.
Hvorfor er Turing-testen viktig?
Turings test er historisk viktig fordi den flyttet debatten fra å handle om hvorvidt maskiner kan tenke, til å handle om hvorvidt maskiner kan etterligne menneskelignende samtaler. Denne endringen i fokus ga det fremvoksende datavitenskapelige miljøet et pragmatisk rammeverk for å vurdere fremskritt.
I årenes løp har Turing-testens gyldighet skapt mye debatt blant dataforskere, filosofer og kognitive psykologer. Testens utholdenhet ligger i dens evne til å være både en teknisk målestokk og et filosofisk verktøy for å undersøke og diskutere hvorvidt en maskin noen gang kan bli virkelig intelligent.
Ved å bruke samtale som det primære kriteriet for intelligens har man imidlertid utilsiktet skapt et snevrere perspektiv på intelligens, og man har neglisjert betydningen av andre typer intelligens, som emosjonell intelligens, romlig intelligens eller kreativ intelligens.
Med dagens fremskritt innen maskinlæring (ML) og nevrale nettverk blir det stadig mer mulig å lage chatboter med arkitekturer som kan etterligne mønstre i treningsdata på en nøyaktig måte. ChatGPT-4 og Google Bard er for eksempel ganske dyktige til å håndtere et bredt spekter av samtaleemner, og i mange tilfeller kan de produsere svar som er umulig å skille fra et menneskes.
Det betyr imidlertid ikke nødvendigvis at chatboten er intelligent. I langvarige interaksjoner kan de store språkmodellene (LLM) som støtter chatbotene, hallusinere og generere resultater som er inkonsekvente, motstridende eller ulogiske.
Innledende innvendinger mot Turing-testen
Det er viktig å merke seg at selv om Turing i dag er anerkjent som en visjonær, var han ganske kontroversiell i sin samtid, og arbeidet hans ble ikke alltid verdsatt. Mange akademikere og teologer tvilte på at maskiner noen gang kunne etterligne menneskelig tankegang, og Turings ganske radikale ideer om maskinintelligens skapte en opphetet filosofisk og teologisk debatt.
Turing forutså imidlertid innvendingene mot ideene sine, og kom med motargumenter for hvorfor han mente at maskiner kunne gjenskape menneskelig tankegang. Denne troen er forklart i Church-Turing-tesen.
Church-Turing-tesen går ut på at alle beregninger eller matematiske problemer som kan løses av et menneske ved hjelp av et bestemt sett med instruksjoner, også kan løses av en maskin. Dette konseptet ble grunnlaget for moderne informatikk.
Turing-maskin vs. universell Turing-maskin
Turing introduserte begrepet maskinintelligens for første gang i artikkelen «On Computable Numbers, with an Application to the Entscheidung’s Problem» fra 1936. I denne artikkelen introduserte Turing en enkel teoretisk innretning som i prinsippet kunne beregne en hvilken som helst tallrekke hvis den ble gitt de riktige instruksjonene.
En Turing-maskin (TM) er en abstrakt matematisk modell for beregning. I Turings hode besto hans imaginære maskin av et uendelig bånd inndelt i celler, et båndhode som kunne bevege seg til venstre eller høyre, og et sett med tilstander og regler som dikterte hvordan båndhodet leste fra og skrev til båndet. Han så for seg at hver Turing-maskin skulle være konstruert for å utføre en bestemt oppgave eller beregning.
Turing foreslo også en universell Turing-maskin. Dette skulle være en spesiell type Turing-maskin som kunne simulere alle andre Turing-maskiner. I teorien skulle en UTM kunne bruke en beskrivelse av en annen Turing-maskin (og dens input) som sin egen input.
Konseptet med en universell turingmaskin introduserte ideen om at en datamaskin kunne simulere en hvilken som helst annen datamaskin hvis den ble gitt de riktige inndataene. Dette ble grunnlaget for dagens dataprogrammer og var et viktig skritt i utviklingen av allsidige datamaskiner.
Er Turing-testen fortsatt et gyldig vurderingsverktøy?
Turing-testen anses først og fremst som et historisk verktøy for å evaluere kunstig intelligens i dag.
Testen er imidlertid fortsatt et omdiskutert tema på grunn av dens innvirkning på AI-forskningen. Turing-testen flyttet det filosofiske spørsmålet «Kan maskiner tenke?» til et annet spørsmål som faktisk kunne besvares og underbygges med data.
Dette er viktig, fordi det nye spørsmålet «Kan maskiner oppføre seg på en måte som er umulig å skille fra mennesker under en samtale?» kunne besvares på en definitiv måte ved hjelp av vitenskapelig metode.
Denne subtile (men likevel dyptgripende) perspektivendringen fikk stor betydning og oppmuntret tidlige forskere innen kunstig intelligens til å legge mer vekt på studier av naturlig språkbehandling (NLP), naturlig språkforståelse (NLU) og naturlig språkgenerering (NLG).
Konversasjonell AI og Turing-testen
I tiårene etter Turings død ble Turings rolle i å knekke Enigma-koden offentlig kjent, og hans bidrag og innsikt i maskinintelligens ble undersøkt på nytt. Følgende teknologier og konsepter har en fellesnevner med Turing-testen – de søker alle å gjenskape menneskelig atferd i en maskinkontekst.
Chatbots er programvare som er utviklet for å simulere menneskelige samtaler. De første eksemplene hadde som mål å etterligne menneskelignende interaksjoner og var et direkte nikk til Turing Testens mål.
Teknologier som Amazons Alexa, Google Assistant, Siri og Cortana er utviklet for å forstå og svare på brukerkommandoer på en menneskelignende måte, noe som gjenspeiler Turing-testens referanseverdier for samtaler.
Turingtestens fokus på samtale har drevet frem forskning på forståelse og generering av menneskelig språk, noe som har ført til utvikling av NLP-verktøy og -algoritmer for næringslivet.
Selv om de ikke er eksklusive for Turing-testen, kan maskinlæringsteknikker, særlig på områder som dyp læring for språkmodeller (f.eks. OpenAIs GPT-serie), ses på som et forsøk på å generere mer menneskelignende resultater og bestå Turing-testen.
Verktøy og plattformer, som Googles Dialogflow eller Microsofts Bot Framework, gjør det mulig å lage samtaleagenter og dialogbaserte brukergrensesnitt (CUI-er).
Disse testene, som ofte brukes på nettsteder for å skille mellom mennesker og roboter, er en slags omvendt Turing-test. De er utformet for å være enkle for mennesker å fullføre, men vanskelige for maskiner å fullføre.
Dette er en annen prosess for å screene menneskelige brukere på nettet og skille dem fra roboter.
Disse verktøyene fokuserer på å forstå følelser i tekst, men målet er å fange opp et menneskelig aspekt ved kommunikasjon som kan minne om Turing-testen.
I dataspill forsøker NPC-er med avanserte dialoger og beslutningstrær å skape menneskelignende interaksjoner, noe som gjenspeiler Turing-testens idealer.
Disse robotene, som er vanlige på nettsteder og i supportkanaler, forsøker å svare på spørsmål på en menneskelignende måte før de eskalerer samtalen til et ekte menneske hvis det er nødvendig.
Den kontradiktoriske prosessen som GAN bruker for å generere nye data, minner litt om Turing-testen. I begge tilfeller er målet å produsere et resultat som ikke kan skilles fra en «ekte» eller «autentisk» kilde.
Turing-testen og generativ AI
Turing-testen nevnes ofte i artikler om generativ AI (Gen AI), og det er fordi Turing-testen i seg selv er generativ. Når en språkmodell genererer en historie, en artikkel eller et dikt, handler det ikke bare om å sette sammen ord; den prøver å skape innhold som føles som om det er laget av et menneske.
Et av de første dataprogrammene som forsøkte seg på interaktiv samtale, var ELIZA, en chatterbot som ble skapt på 1960-tallet av Joseph Weizenbaum ved MIT. ELIZA nevnes ofte i diskusjoner om Turing-testen fordi det var et av de første dataprogrammene som kunne etterligne en menneskelignende samtale og lure folk til å tro at de samhandlet med en ekte person.
I datidens kontekst kan ELIZA betraktes som generativt, fordi det produserte varierte svar uten at en menneskelig manusforfatter spesifiserte hver eneste mulige samtalevending.
Berømte forsøk på å bestå Turing-testen
Selv om ELIZA ikke var designet spesielt for å bestå Turing-testen, gjorde chatbotens evne til å etterligne visse typer menneskelig interaksjon den til en viktig milepæl i historien om kunstig intelligens og interaksjon mellom menneske og datamaskin.
Ironisk nok satte folks respons og reaksjoner på ELIZA også søkelyset på den menneskelige tendensen til å tillegge maskiner andre menneskelige egenskaper. Dette fenomenet, som er kjent som Eliza-effekten, kan brukes som et synonym for personifisering i forbindelse med informasjonsteknologi.
I tillegg til ELIZA er andre bemerkelsesverdige chatboter assosiert med konversasjonell AI og Turing-testen:
PARRY ble utviklet av psykiateren Kenneth Colby og simulerte en pasient med paranoid schizofreni. Da PARRY brukte teletype til å «snakke» med en rekke psykiatere, trodde noen leger at de kommuniserte med et ekte menneske.
Skaperne hevdet at Racter var det første programmet med kunstig intelligens som hadde skrevet en bok med tittelen «The Policeman’s Beard is Half Constructed». Det har imidlertid vært betydelig debatt om hvor mye menneskelig inngripen som var involvert i bokens tilblivelse.
Jabberwacky ble utviklet av den britiske programmereren Rollo Carpenter og var designet for å etterligne menneskelignende samtaler og lære av interaksjonene. Den ble etterfulgt av Cleverbot, som deltok i en formell Turing-test på Techniche-festivalen i India i 2011.
Denne chatboten, som ble designet for å simulere en 13 år gammel ukrainsk gutts samtale, hevder å ha bestått Turing-testen under en konkurranse ved Royal Society i London. Goostman-boten har deltatt i en rekke Turing-testkonkurranser siden den ble laget, og kom på andreplass i Loebner Prize-konkurransen i 2005 og 2008.
Google Duplex ble designet for å gjøre restaurantreservasjoner, salongavtaler og lignende oppgaver for brukerne. Selv om boten aldri var en Turing Test-kandidat i tradisjonell forstand, er programmeringen bemerkelsesverdig for sin evne til å føre naturlig klingende samtaler over telefon, til og med inkludert fylllyder som «umm» og «ahh».
Den tredje iterasjonen av OpenAIs Generative Pre-trained Transformer-chatbot utløste fornyet interesse og debatt om maskingenerert innhold og Turing-testens begrensninger.
Berømte Turing-testkonkurranser
I årenes løp har flere konkurranser brukt den kontroversielle Turing-testen til å evaluere «intelligensen» i programmeringen av kunstig intelligens.
Velkjente historiske eksempler inkluderer:
- Loebner-prisen, som ble etablert i 1990 av Hugh Loebner i samarbeid med Cambridge Center for Behavioral Studies, er en av de mest kjente Turing Test-konkurransene. Loebner-prisen ble avviklet i 2020.
- Chatterbox Challenge var en årlig konkurranse som startet på begynnelsen av 2000-tallet og ble arrangert i en årrekke. I sin storhetstid var Chatterbox Challenge en av de fremste chatbot-konkurransene.
- Nettstedet Chatbot Battle Arena setter ulike chatboter opp mot hverandre og lar seerne avgjøre hvilken bot som skal vinne. I denne Turing Test-lignende konkurransen bestemmer seeren sine egne kriterier for seier.
- Turing100 ble arrangert av European Association for Artificial Intelligence i 2012. Det var en del av feiringen av 100-årsjubileet for Alan Turings fødsel.
- 2K BotPrize var en konkurranse som ble arrangert i forbindelse med videospillet «Unreal Tournament 2004». I stedet for å fokusere på samtale, var utfordringen for programmerere å lage en bot som oppfører seg så menneskelignende i spillet at den forveksles med en menneskelig spiller.
Alternativer til Turing-testen
Det har blitt foreslått ulike alternativer og supplementer til Turing-testen for å kompensere for testens begrensninger.
Noen av disse vurderingene er utformet for å evaluere maskinintelligens utover samtalebasert AI:
Argumentet om det kinesiske rommet
Et tankeeksperiment foreslått av filosofen John Searle, som utfordret gyldigheten av Turing-testen og forsøkte å bevise at det er umulig for digitale datamaskiner å forstå språk eller tenke.
Lovelace-testen
Denne testen, som er oppkalt etter Ada Lovelace, den første kvinnelige programmereren, evaluerer en maskins evne til å skape originalt, kunstnerisk innhold som ikke eksplisitt er programmert inn i den.
Marcus-testen
En test av kunstig intelligens foreslått av Gary Marcus, en kognitiv forsker ved New York University. Den er utformet for å vurdere en kunstig intelligens’ evne til å forstå og reagere på hendelser i den virkelige verden.
Hvordan brukes Turing-testen i dag?
Selv om Turing-testen kanskje ikke har den samme statusen som den en gang hadde når det gjelder maskinintelligens, lever arven etter den videre. Testen er fortsatt et verdifullt diskusjons- og markedsføringsverktøy.
Her er noen måter Turing-testen brukes på i dag:
Selv om Loebner-prisen ikke lenger utlyses, finnes det fortsatt noen små konkurranser for chatbot-utviklere som løst inkorporerer Turing-testen i kriteriene sine for å evaluere kvaliteten på konkurrentenes resultater.
Turing-testen brukes noen ganger uformelt i AI-miljøet som en målestokk for ytelsen til NLP-algoritmer. Hvis en NLP-modell kan generere menneskelignende responser, sies det ofte at den er Turing-komplett eller Turing-test-kompatibel – selv om modellen ikke har gjennomgått en formell test.
Turing-testen blir ofte diskutert i akademiske kurs knyttet til kunstig intelligens, kognitiv databehandling og filosofi. Imitasjonsspillet kan fortsatt brukes som utgangspunkt for dypere utforskning av maskinintelligens og bevissthetsbegrepet.
Turing-testen blir ofte referert til i filmer, litteratur og diskusjoner knyttet til roboter, androider og maskiner som er selvbevisste.
Nylige fremskritt, særlig innen tale-, video- og tekstbaserte generative AI-modeller, har ført til fornyede diskusjoner om Turing-testens implikasjoner. Hvis en maskin kan etterligne et menneske på en overbevisende måte, kan det få konsekvenser for både bedrag og tillit, og for den etiske bruken av slik teknologi.
Bedrifter som utvikler chatboter, stemmeassistenter og andre samtaleagenter, refererer ofte til Turing-testen som et mål på hvor «menneskelignende» den generative programvaren deres er. I denne sammenhengen brukes Turing-testen mer som et salgsfremmende begrep enn som en reell målestokk.
Ofte stilte spørsmål
Hvorfor var Turing testen så vanskelig å bestå?
Turing-testen er utfordrende å bestå fordi den krever at en maskin viser menneskelignende kommunikasjonsevner. Mens mange AI-systemer kan utmerke seg i spesifikke oppgaver, var den brede og varierte naturen til spontan menneskelig dialog en utfordring inntil utviklingen av mer avanserte algoritmer for naturlig språkbehandling og dyp læringsteknikker.
Hvilken poengsum trenger en samtale-AI-app for å bestå Turing-testen?
Turing-testen, slik Alan Turing opprinnelig konseptualiserte den, har ingen streng prosentandel eller poenggrense for å bestå. I sin artikkel fra 1950 antydet Turing at innen år 2000, ville en maskin ha en 30 % sjanse for å lure en menneskelig dommer etter fem minutters samtale. Dette var imidlertid mer en prediksjon enn en fast standard. Gjennom årene har ulike tolkninger og implementeringer av testen variert i sine kriterier, men det finnes ingen universelt akseptert prosentandel eller poengsum for at en maskin skal kunne erklæres som å ha “bestått” Turing-testen.
Kan Siri bestå Turing-testen?
Apples Siri ble designet som en oppgaveorientert stemmeassistent. Mens Siri er dyktig til å håndtere spesifikke oppgaver, svare på spørsmål, sette påminnelser, eller spille musikk, gjør den det ikke alltid så godt når den står overfor abstrakte konsepter, humor eller scenarioer med kontekstbytte.
Kan Alexa bestå Turing-testen?
Selv om Amazons Alexa har gjort betydelige fremskritt i stemmegjenkjenning, informasjonsinnhenting og utførelse av kommandoer, er den fremdeles i hovedsak en oppgaveorientert assistent. Dens interaksjoner kan noen ganger mangle dybde, kontekstbevissthet og nyansene som er typiske for menneskelige samtaler.
Kan ChatGPT bestå Turing-testen?
ChatGPT, spesielt i sine mer avanserte versjoner som ChatGPT-4, kan generere sammenhengende, kontekstuelt relevante og ofte nyanserte svar på et bredt spekter av emner. Mens ChatGPT kanskje kan lure noen brukere i korte interaksjoner eller spesifikke kontekster, kan dens begrensninger bli tydelige i lengre, mer komplekse og dypt kontekstuelle samtaler.
Kan Turing-testen brukes til å avgjøre om AI er bevisst?
Nei. Turing-testen er designet for å evaluere om en maskin kan etterligne menneskelignende samtaleatferd. Den gir ikke et direkte mål på bevissthet. Bevissthet innebærer evnen til å ha følelser og bevissthet, som er dypt filosofiske og utfordrende konsepter å definere eller måle. Å fastslå AI-bevissthet, hvis det var mulig, ville kreve et annet sett med kriterier og filosofiske grunnlag utover omfanget av Turing-testen.
Kan Turing-testen brukes til andre ting enn chatbots?
Selv om Turing opprinnelig foreslo den i sammenheng med samtale, kan det underliggende prinsippet generaliseres til andre områder, inkludert:
Spill: Kan en AI-spiller i et spill skilles fra en menneskelig spiller basert på dens in-game handlinger og strategier?
Kunst & Musikk: Generative AI-modeller skaper kunst- eller musikkstykker. Kunne en lytter eller seer skille mellom kunst skapt av en maskin og kunst skapt av et menneske?
Robotikk: Når man observerer en robot, er dens handlinger skillelige fra en menneskes bevegelser, reaksjoner og interaksjoner med sitt miljø?
Skrevne Verk: Hvis en AI genererte en roman eller et dikt, ville leserne kunne skille det fra et menneskeskrevet stykke?
Digital Animasjon: Kan animasjoner eller simuleringer drevet av AI skilles fra de som er laget av menneskelige animatører?
Følelsessimulering: Kan maskinens fremstilling av menneskelige følelser for AI-genererte avatarer skilles fra ekte menneskelige følelser?
Referanser
- Computing Machinery and Intelligence (Redirect.cs.umbc)
- 8 things you didn’t know about Alan Turing | PBS News (Pbs)
- The Church-Turing Thesis (Stanford Encyclopedia of Philosophy) (Plato.stanford)
- On Computable Numbers, With an Application To The Entscheidungsproblem (Cs.virginia)
- How Alan Turing Cracked The Enigma Code | Imperial War Museums (Iwm.org)
- Kenneth Colby Develops PARRY, An Artificial Intelligence Program with “Attitude” : History of Information (Historyofinformation)
- Constructing the Other Half of The Policeman’s Beard – electronic book review (Electronicbookreview)
- jabberwacky – live chat bot (Jabberwacky)
- Cleverbot.com – a clever bot – speak to an AI with some Actual Intelligence? (Cleverbot)
- How to Create a Bot: Programming Deception at the Loebner Prize Competition | Deceitful Media: Artificial Intelligence and Social Life after the Turing Test | Oxford Academic (Academic.oup)
- The Loebner Prize (Debategraph)
- How to use ChatBot Battle Arena – Find out which ChatBot is the best | Digital Trends (Digitaltrends)
- Marking the centenary of Turing’s birth | University of Cambridge (Cam.ac)
- The Search for a New Test of Artificial Intelligence | Scientific American (Scientificamerican)
- The Chinese Room Argument (Stanford Encyclopedia of Philosophy) (Plato.stanford)
- Lovelace test of artificial intelligence creativity: Better than the Turing test of intelligence. (Slate)
- Moving Beyond The Turing Test To Judge Artificial Intelligence : NPR (Npr)
- Turing Test (Turingtest.mit)