Co to jest test Turinga?
Test Turinga jest narzędziem do oceny sztucznej inteligencji (AI), które w 1950 roku wprowadził dr Alan Turing, brytyjski matematyk i informatyk. Turing szukał odpowiedzi na pytanie: „Czy maszyny mogą myśleć?”.
Zamiast zagłębiać się w filozoficzne pytanie, co oznacza „myślenie”, Turing przeformułował problem i zaproponował konkretny test operacyjny: jeśli maszyna potrafi naśladować ludzkie reakcje na tyle przekonująco, by oszukać człowieka, to dla wszystkich praktycznych celów można założyć, że „myśli”. Przedstawiona przez niego strategia stała się jednym z najwcześniejszych wskaźników oceny inteligencji maszynowej.
Aby zebrać dane jakościowe na temat inteligencji maszyn, Turing zaproponował grę opartą na zapytaniach. Stała się ona później znana jako „gra w naśladownictwo” (Imitation Game) lub, bardziej powszechnie, „test Turinga”.
Co to jest Imitation Game?
Test Turinga na inteligencję maszyn opiera się na grze towarzyskiej, która była popularna w epoce wiktoriańskiej. Oryginalna gra tajemnic wymagała udziału trzech osób: mężczyzny, kobiety i sędziego. W przypadku sędziego płeć nie miała znaczenia. Mężczyzna i kobieta byli umieszczani w jednym pokoju, a sędzia w innym.
Sędzia rozpoczynał grę – zadawał serię pytań i prosił uczestników o napisanie (lub wprowadzenie) odpowiedzi. Aby utrudnić grę, jednemu z uczestników pozwalano kłamać i zmyślać odpowiedzi, a od drugiego wymagano wyłącznie prawdy. Celem gry było to, aby sędzia prawidłowo odgadł, które odpowiedzi zostały udzielone przez mężczyznę, a które przez kobietę.
Jak działa test Turinga?
W swoim artykule pt. „Computing Machinery and Intelligence” z 1950 roku Turing przedstawił swoją wersję Imitation Game. Ta odmiana również wymagała sędziego i dwóch uczestników. Co jednak istotne, w tym przypadku jeden z uczestników byłby człowiekiem, a drugi – maszyną obliczeniową.
Zasadniczo wersja gry Turinga była pionierską próbą ustanowienia praktycznego miernika inteligencji maszyn, która omijała filozoficzne pytanie: co to znaczy „myśleć”. Turing zaproponował, że jeśli sędzia nie potrafi wiarygodnie odróżnić odpowiedzi maszyny od odpowiedzi człowieka, można założyć, że maszyna demonstruje procesy myślowe i posiada inteligencję podobną do ludzkiej.
Dokładne kryteria określania inteligencji maszyny zawsze były przedmiotem debaty. W oparciu o rzeczony artykuł często argumentowano jednak, że jeśli sędzia wierzy, iż komunikuje się z innym człowiekiem przez co najmniej 70% czasu – podczas gdy w rzeczywistości rozmawia z programem komputerowym – twórcy mogą stwierdzić, że ich oprogramowanie AI przeszło test Turinga.
Dlaczego test Turinga jest tak ważny?
Test Turinga jest ważny pod względem historycznym, ponieważ przeniósł debatę z pytania: „Czy maszyny mogą myśleć?” na inne: „Czy mogą naśladować ludzką rozmowę?”. Ta zmiana zapewniła powstającej społeczności informatycznej pragmatyczne ramy do oceny postępów.
Na przestrzeni lat Turing test wywoływał wiele sporów wśród informatyków, filozofów i psychologów poznawczych. Jego trwałość leży w możliwości stanowienia zarówno technicznego wskaźnika, jak i filozoficznego narzędzia do badania i dyskusji na temat tego, czy maszyna kiedykolwiek może być naprawdę inteligentna.
Wykorzystanie konwersacji jako głównego kryterium inteligencji mimowolnie zawęziło jednak pojęcie inteligencji. Ponadto zanegowało znaczenie innych jej rodzajów, takich jak inteligencja emocjonalna, przestrzenna czy twórcza.
Dzięki dzisiejszym postępom, jakie odnotowały sieci neuronowe i uczenie maszynowe (ML), coraz łatwiej można tworzyć chatboty z architekturami, które dokładnie naśladują wzorce z danych szkoleniowych. Na przykład ChatGPT-4 i Google Bard dość biegle radzą sobie w konwersacji na wiele przeróżnych tematów. W wielu przypadkach generują odpowiedzi, których nie da się odróżnić od ludzkich.
Nie musi to jednak oznaczać, że chatbot jest inteligentny. W długotrwałych interakcjach duże modele językowe, które obsługują chatboty, mogą mieć halucynacje i generować niespójne, sprzeczne lub nielogiczne wyniki.
Początkowe zastrzeżenia do testu Turinga
Warto podkreślić, że choć Turing obecnie uchodzi za wizjonera, za życia uważano go za dość kontrowersyjną osobę, a jego praca nie zawsze była doceniana. Wielu naukowców i teologów wątpiło, by maszyny mogły kiedykolwiek naśladować ludzkie myślenie. Co więcej, dość radykalne pomysły Turinga dotyczące inteligencji maszyn wywołały wiele burzliwych debat filozoficznych i teologicznych.
Turing przewidział jednak zastrzeżenia do swoich pomysłów i przedstawił kontrargumenty, które wyjaśniały, dlaczego jego zdaniem maszyny mogą naśladować ludzkie myśli. Przekonanie to zostało uzasadnione w tezie Churcha-Turinga.
Teza Churcha-Turinga sugeruje, że każde obliczenie lub problem matematyczny, który człowiek potrafi rozwikłać przy użyciu określonego zestawu instrukcji, może zostać rozwiązany także przez maszynę. Koncepcja stała się podstawą współczesnej informatyki.
Maszyna Turinga a uniwersalna maszyna Turinga
Turing po raz pierwszy wprowadził pojęcie inteligencji maszynowej (machine intelligence) w swoim artykule „On Computable Numbers, with an Application to the Entscheidung’s Problem” z 1936 roku. Przedstawił w nim proste urządzenie teoretyczne, które w zasadzie mogłoby obliczyć dowolną sekwencję liczb, jeśli otrzyma odpowiednie instrukcje.
Maszyna Turinga (TM) to abstrakcyjny model matematyczny do obliczeń. W umyśle Turinga jego wyimaginowana maszyna składała się z nieskończonej taśmy podzielonej na komórki, ruchomej głowicy taśmy, która może poruszać się w lewo lub w prawo, oraz zestawu stanów i reguł, które dyktowały, w jaki sposób głowica taśmy odczytuje i zapisuje informacje na taśmie. Przewidywał on, że każda maszyna Turinga będzie zaprojektowana do wykonywania określonego zadania lub obliczenia.
Zaproponował również uniwersalną maszynę Turinga. Byłby to specjalny rodzaj maszyny Turinga, która może symulować każdą inną maszynę Turinga. Gdy UTM otrzymałaby opis innej maszyny Turinga (i jej dane wejściowe), teoretycznie mogłaby wykorzystać te informacje jako własne dane wejściowe.
Koncepcja Uniwersalnej Maszyny Turinga wprowadziła ideę, że jedna maszyna obliczeniowa może symulować dowolną maszynę obliczeniową, jeśli otrzyma odpowiednie dane wejściowe. Stało się to podstawą dzisiejszych programów komputerowych i ważnym krokiem w rozwoju komputerów ogólnego przeznaczenia.
Czy test Turinga jest nadal istotnym narzędziem oceny?
Test Turinga jest dziś uważany przede wszystkim za historyczne narzędzie do oceny sztucznej inteligencji.
Jest jednak nadal omawiany ze względu na jego wpływ na badania nad sztuczną inteligencją. Zasadniczo Turing przeniósł filozoficzne pytanie „czy maszyny mogą myśleć?” na inne, na które można było udzielić odpowiedzi popartej danymi.
Jest to ważne, ponieważ na nowe pytanie („Czy maszyny mogą zachowywać się w sposób nieodróżnialny od ludzi podczas rozmowy?”) można jednoznacznie odpowiedzieć przy wykorzystaniu metody badawczej.
Ta subtelna, lecz głęboka zmiana perspektywy wywarła ogromny wpływ. Zachęciła bowiem pierwszych badaczy AI do położenia większego nacisku na badanie przetwarzania języka naturalnego (NLP), rozumienia języka naturalnego (NLU) i generowania języka naturalnego (NLG).
Konwersacyjna sztuczna inteligencja a test Turinga
Po dekadach od śmierci Turinga powszechnie znana stała się jego rola w złamaniu szyfru Enigmy. Ponownie zbadano także wkład i spostrzeżenia Alana na temat inteligencji maszyn. Poniższe technologie i koncepcje dzielą wspólny wątek z testem Turinga. Wszystkie dążą bowiem do dokładnego odtworzenia ludzkiego zachowania w kontekście maszyny.
Chatboty: Są to aplikacje zaprojektowane do symulowania ludzkiej konwersacji. Wczesne przykłady miały na celu naśladowanie interakcji podobnych do ludzkich i stały się bezpośrednim odniesieniem do celów testu Turinga.
Asystenci głosowi: Technologie, takie jak Amazon Alexa, Google Assistant, Siri czy Cortana, zostały zaprojektowane tak, aby rozumieć i reagować na polecenia użytkownika w sposób podobny do ludzkiego, odzwierciedlając wzorce konwersacyjne testu Turinga.
Przetwarzanie języka naturalnego (NLP): Koncentracja testu Turinga na konwersacji przyczyniła się do badań nad zrozumieniem i generowaniem ludzkiego języka, co doprowadziło do rozwoju narzędzi i algorytmów natural language processing (NLP) dla biznesu.
Machine Learning: Mimo iż nie są bezpośrednio związane z testem Turinga, techniki uczenia maszynowego, zwłaszcza w obszarach takich jak głębokie uczenie modeli językowych (np. seria GPT OpenAI), można postrzegać jako wysiłki, które mają na celu wygenerowanie wyników bardziej podobnych do ludzkich i zdanie testu Turinga.
Platformy konwersacyjnej sztucznej inteligencji: Narzędzia i platformy, takie jak Dialogflow Google lub Bot Framework Microsoftu, umożliwiają tworzenie agentów konwersacyjnych i konwersacyjnych interfejsów użytkownika (CUI).
CAPTCHA: Testy te, często używane na stronach internetowych w celu odróżnienia ludzi od botów, są rodzajem odwrotnego testu Turinga. Zostały zaprojektowane tak, aby były łatwe do wykonania przez ludzi, ale trudne do wykonania przez maszyny.
Liczba Turinga: Jest to kolejny proces sprawdzania użytkowników online i odróżniania ludzi od botów.
Narzędzia analizy nastrojów: Podczas gdy narzędzia te koncentrują się na zrozumieniu emocji w tekście, ich celem jest uchwycenie ludzkiego aspektu komunikacji, który przypomina test Turinga.
Interaktywne opowiadanie historii i postacie niezależne (NPC): Gry wideo z postaciami NPC, zaawansowanymi dialogami i drzewami decyzyjnymi starają się zapewnić interakcje podobne do ludzkich, a więc odzwierciedlać wzorce testu Turinga.
Boty obsługi klienta: Boty te powszechnie spotyka się na stronach internetowych i kanałach wsparcia klienta. Próbują odpowiadać na zapytania w sposób podobny do ludzkiego, zanim, w razie potrzeby, przekażą rozmowę prawdziwemu człowiekowi.
Generative Adversarial Networks (GAN): Przeciwstawny proces, który wykorzystują sieci GAN do generowania nowych danych, przypomina nieco test Turinga. W obu przypadkach celem jest wygenerowanie danych wyjściowych, których nie da się odróżnić od „prawdziwego” lub „autentycznego” źródła.
Test Turinga a GenAI
Test Turinga jest często wspominany w artykułach o generatywnej sztucznej inteligencji, gdyż z natury jest generatywny. Kiedy model językowy generuje historię, artykuł lub wiersz, nie chodzi tylko o połączenie słów. Próbuje wykreować treść, która sprawia wrażenie, jakby została stworzona przez człowieka.
Jednym z pierwszych programów komputerowych, które podjęły próbę interaktywnej konwersacji, był chatbot ELIZA. Stworzył go w latach 60. XX wieku Joseph Weizenbaum na MIT. ELIZA często pojawia się w dyskusjach na temat testu Turinga, ponieważ uchodzi za jeden z pierwszych programów komputerowych, który potrafi naśladować ludzką rozmowę i oszukać ludzi w taki sposób, by myśleli, że wchodzą w interakcję z prawdziwą osobą.
Ponadto w kontekście tamtych czasów ELIZA mogła być postrzegana jako generatywna, gdyż tworzyła zróżnicowane odpowiedzi bez konieczności określania przez człowieka każdego możliwego zwrotu konwersacji.
Słynne próby zdania testu Turinga
ELIZA nie została zaprojektowana specjalnie w celu przejścia testu Turinga, ale dzięki zdolności chatbota do naśladowania niektórych rodzajów interakcji międzyludzkich stał się kamieniem milowym w historii sztucznej inteligencji i interakcji człowiek-komputer.
Jak na ironię, reakcje na Elizę uwypukliły również ludzką tendencję do przypisywania maszynom innych ludzkich cech. Zjawisko to, znane jako efekt Elizy, stosuje się jako synonim personifikacji w kontekście technologii informatycznych.
Oprócz Elizy do godnych uwagi chatbotów związanych z konwersacyjną sztuczną inteligencją i testem Turinga należą:
PARRY (1972): Zaprojektowany przez psychiatrę Kennetha Colby’ego, PARRY symulował pacjenta ze schizofrenią paranoidalną. Kiedy użył dalekopisu do „rozmowy” z psychiatrami, niektórzy lekarze uwierzyli, że komunikują się z prawdziwym człowiekiem.
Racter (lata 80.): Jego twórcy twierdzili, że Racter był pierwszym programem AI, który napisał książkę. Jej tytuł brzmiał „The Policeman’s Beard is Half Constructed”. Podnoszono jednak kwestię, ile ludzkiej interwencji zaangażowano w stworzenie książki.
Jabberwacky (1990): Zaprojektowany przez brytyjskiego programistę Rollo Carpentera Jabberwacky powstał w celu naśladowania ludzkiej konwersacji i uczenia się na podstawie interakcji. Jego następca, Cleverbot, wziął udział w formalnym teście Turinga podczas festiwalu Techniche w Indiach (2011).
Eugene Goostman (2014): Ten chatbot, zaprojektowany do symulowania rozmowy 13-letniego ukraińskiego chłopca, twierdzi, że zdał test Turinga podczas turnieju w Royal Society w Londynie. Bot Goostman brał udział w wielu konkursach testu Turinga i zajął drugie miejsce w walce o nagrodę Loebnera (2005 i 2008).
Google Duplex (2018): Google Duplex powstał w celu dokonywania za użytkowników rezerwacji w restauracjach, umawiania wizyt w salonach i podobnych zadań. Choć bot nigdy nie pretendował do testu Turinga w tradycyjnym sensie, jego oprogramowanie zasługuje na uznanie ze względu na zdolność do prowadzenia naturalnie brzmiących rozmów przez telefon z użyciem wypełniaczy, takich jak „hmm” i „yyy”.
GPT-3 OpenAI (2020): Trzecia iteracja chatbota OpenAI Generative Pre-trained Transformer odnowiła zainteresowanie i debatę na temat treści generowanych maszynowo i ograniczeń testu Turinga.
Słynne konkursy testu Turinga
Na przestrzeni lat kilka konkursów wykorzystało kontrowersyjny test Turinga do oceny „inteligencji” oprogramowania AI. Te najsłynniejsze z nich to:
- Nagroda Loebnera, turniej, który został zapoczątkowany w 1990 roku przez Hugh Loebnera we współpracy z Cambridge Center for Behavioral Studies, jest jednym z najsłynniejszych konkursów testu Turinga. Nagroda Loebnera została zniesiona w 2020 roku.
- Chatterbox Challenge był corocznym konkursem, który rozpoczął się na początku XXI wieku i odbywał przez kilka lat. W czasach swej świetności Chatterbox Challenge uchodził za jeden z najważniejszych konkursów chatbotów.
- Strona Chatbot Battle Arena stawia przeciwko sobie różne chatboty i pozwala widzom określić, który z nich powinien wygrać. W tym konkursie, który przypomina test Turinga, widz określa własne kryteria zwycięstwa.
- Turing100 został zorganizowany przez Europejskie Stowarzyszenie Sztucznej Inteligencji w 2012 roku. Była to część obchodów 100. rocznicy urodzin Alana Turinga.
- 2K BotPrize był konkursem organizowanym w kontekście gry wideo Unreal Tournament 2004. Zamiast skupiać się na konwersacji, programiści tworzyli boty, które miały zachowywać się w grze tak ludzko, że byłyby mylone z ludzkim graczem.
Alternatywy testu Turinga
Zaproponowano różne alternatywy i uzupełnienia testu Turinga, aby zrekompensować jego ograniczenia. Niektóre z nich mają na celu ocenę inteligencji maszyn wykraczającej poza konwersacyjną sztuczną inteligencję:
Argument chińskiego pokoju jest eksperymentem myślowym, który zaproponował filozof Johna Searle. Podważył zasadność testu Turinga i starał się udowodnić, że komputery cyfrowe nie mogą rozumieć języka lub myśleć.
Test Lovelace został nazwany na cześć Ady Lovelace, pierwszej żeńskiej programistki. Ocenia zdolność maszyny do tworzenia oryginalnych, artystycznych treści, które nie zostały w niej wyraźnie zaprogramowane.
Test Marcusa jest testem AI zaproponowanym przez Gary’ego Marcusa, kognitywistę z New York University. Został zaprojektowany w celu oceny zdolności sztucznej inteligencji do rozumienia i reagowania na rzeczywiste wydarzenia.
Jak obecnie wykorzystuje się test Turinga?
Choć Turing test może nie mieć takiego samego statusu jak kiedyś w odniesieniu do inteligencji maszyn, jego spuścizna nadal pozostała. Wciąż jest cennym narzędziem dyskusyjnym i marketingowym. Oto kilka sposobów jego wykorzystania w dzisiejszych czasach:
Konkursy AI: Choć nie przyznaje się już nagrody Loebnera, nadal istnieją niewielkie konkursy dla twórców chatbotów, które luźno uwzględniają test Turinga w swoich kryteriach oceny jakości wyników konkurentów.
Ocena możliwości przetwarzania języka naturalnego (NLP): Testu Turinga czasami nieformalnie używa się w społeczności AI jako punktu odniesienia dla wydajności algorytmów NLP. Jeśli model NLP może generować odpowiedzi podobne do ludzkich, często mówi się, że osiągnął kompletność Turinga, nawet jeśli model nie przeszedł formalnego testu.
Narzędzie edukacyjne: Test Turinga często omawia się na kursach akademickich związanych ze sztuczną inteligencją, obliczeniami kognitywnymi i filozofią. Gra tajemnic (Imitation Game) nadal ma swoje zastosowanie jako punkt wyjścia do głębszych badań nad myślącą inteligencją maszynową i koncepcją świadomości.
Media i popkultura: Test Turinga jest często przywoływany w filmach, literaturze i dyskusjach związanych z robotami, androidami i samoświadomymi maszynami.
Etyka: Niedawne postępy, szczególnie w zakresie modeli generatywnej sztucznej inteligencji, które opierają się na głosie, wideo i tekście, wznowiły dyskusje na temat następstw testu Turinga. Jeśli maszyna potrafi przekonująco naśladować człowieka, może to mieć potencjalne konsekwencje w zakresie oszustwa i zaufania, a także etycznego wykorzystania takich technologii.
Marketing: Firmy tworzące chatboty, asystentów głosowych i innych agentów konwersacyjnych często odwołują się do testu Turinga jako miary tego, jak „ludzkie” jest ich generatywne oprogramowanie. W tym kontekście test Turinga służy bardziej jako termin promocyjny niż rzeczywisty punkt odniesienia.