튜링테스트란?
튜링 테스트(Turing Test)는 1950년, 영국의 수학자이자 컴퓨터 과학자인 앨런 튜링 박사가 제안한 인공지능(AI) 평가 도구다. 튜링은 “기계가 생각할 수 있는가?”라는 질문에 간단히 답하기 위한 방법을 모색했다.
그는 ‘생각’의 의미를 철학적으로 다루는 대신 문제를 구체적이고 실질적인 테스트로 재구성했다. 기계가 인간의 응답을 설득력 있게 모방해 심문자를 속일 수 있다면, 사실상 기계가 ‘생각한다’고 간주할 수 있다는 것이다. 해당 전략은 기계 지능을 평가하는 초기 기준 중 하나가 되었다.
기계 지능의 질적 데이터를 수집하기 위해 튜링은 질문을 중심으로 한 게임을 제안했다. 이 게임은 이후 ‘모방 게임(Imitation Game)’으로 불리게 되었으며, 현재는 ‘튜링 테스트(Turing Test)’라는 이름으로 더 널리 알려져 있다.
핵심 요약
- 튜링 테스트는 1950년 영국의 수학자이자 컴퓨터 과학자인 앨런 튜링 박사가 제안한 인공지능(AI) 평가 도구다.
- 튜링 테스트는 ‘생각’의 추상적 정의보다는 대화에서 기계 행동을 실질적으로 평가하는 데 초점을 맞추며 AI 연구에서 중요한 전환점을 마련했다.
- 튜링이 대화 지능에 집중한 접근은 자연어 처리(Natural Language Processing)와 머신러닝(ML)의 발전을 이끌었으며, 인간 언어를 이해하고 생성하며 분석할 수 있는 다양한 도구를 탄생시켰다.
- ELIZA, PARRY, Cleverbot 같은 프로그램들은 튜링 테스트를 중심으로 한 AI의 진화를 보여주는 대표적인 사례다. Google Duplex와 GPT-3와 같은 최신 시스템은 인간의 응답을 모방하는 대화형 AI 기술의 발전을 입증한다.
- ‘중국어 방’ 실험과 ‘러브레이스 테스트’와 같은 튜링 테스트의 대안들은 단순한 대화 수준을 넘어 기계 지능의 다양한 측면을 평가하기 위한 시도를 보여준다.
- 튜링 테스트는 AI 기술의 발전과 함께 미디어, 마케팅, 그리고 윤리적 논의에서 널리 언급되고 있다. 특히, AI의 발전이 신뢰와 책임 있는 사용에 대한 새로운 우려를 제기하면서 그 중요성이 더욱 부각되고 있다.
모방게임(Imitation Game)이란?
튜링의 기계 지능 테스트는 빅토리아 시대에 유행했던 사교 게임에서 영감을 받았다. 본래 이 게임에는 남자, 여자, 심문자(심문자의 성별은 무관하다) 등 총 세 명이 참여한다. 남자와 여자는 같은 방에 있고, 심문자는 별도의 방에 배치된다.
심문자는 일련의 질문을 던지며 게임을 시작한다. 참가자는 질문에 대한 답변을 글로 적거나 타이핑하는 방식으로 응답한다. 이 과정에서 게임의 난이도를 높이기 위해 일부 참가자는 거짓말을 하거나 답변을 조작할 수 있다. 반면, 다른 참가자는 반드시 진실만을 말해야 한다. 게임의 목표는 심문자가 남성과 여성 참가자의 답변을 정확히 구분해내는 데 있다.
튜링테스트는 어떻게 작동하는가?
1950년 논문 ‘계산 기계와 지능(Computing Machinery and Intelligence)’에서 앨런 튜링은 ‘모방 게임’을 제안하며 심문자와 두 명의 참가자를 설정했다. 튜링이 제안한 이 버전에서 두 참가자 중 한 명은 인간이고, 다른 한 명은 컴퓨터 기계로 구성된다.
튜링이 제안한 게임은 본질적으로 ‘생각’의 의미에 대한 철학적 논쟁은 피하면서, 기계 지능을 평가할 수 있는 실질적이고 객관적인 기준을 제시한 선구적인 시도였다. 튜링은 심문자가 기계와 인간의 응답을 명확히 구별하지 못할 경우, 해당 기계가 인간과 유사한 사고 과정과 지능을 갖춘 것으로 간주할 수 있다고 주장했다.
기계 지능을 판단하는 기준은 오랫동안 논란의 대상이었다. 튜링의 논문에 따르면, 심문단이 컴퓨터 프로그램과 대화를 나누는 동안 이를 인간이라고 믿는 경우가 70% 이상이라면, 그 인공지능(AI)은 튜링 테스트를 통과했다고 볼 수 있다. 이러한 기준에 따라, 소프트웨어 개발자는 자신의 프로그램이 튜링 테스트를 통과했다고 주장할 수 있다는 해석이 제기돼 왔다.
튜링테스트가 중요한 이유
튜링 테스트는 기계가 사고할 수 있는지를 묻는 추상적 논의에서 벗어나, 기계가 인간과 같은 대화를 모방할 수 있는지를 평가하는 방향으로 논의의 초점을 전환했다는 점에서 역사적 의의를 지닌다. 이러한 변화는 초기 컴퓨터 과학계에 진보를 측정할 수 있는 실질적이고 구체적인 기준을 제시했다.
튜링 테스트는 수십 년간 컴퓨터 과학자, 철학자, 인지 심리학자들 사이에서 논쟁의 중심에 서 왔다. 이 테스트가 여전히 주목받는 이유는 기계가 진정한 지능을 가질 수 있는지에 대한 기술적 기준이자 철학적 성찰의 도구로 기능하기 때문이다.
대화를 지능의 주요 기준으로 삼는 방식은 결과적으로 지능에 대한 관점을 지나치게 좁게 만들었다. 이는 감성 지능, 공간 지능, 창의적 지능과 같은 다양한 지능의 중요성이 간과되는 결과를 초래했다.
오늘날의 기계 학습(ML)과 신경망 기술의 비약적인 발전은 훈련 데이터의 패턴을 정교하게 모방하는 챗봇(chatbot) 아키텍처를 가능하게 하고 있다. ChatGPT-4와 Google Bard와 같은 최신 챗봇은 폭넓은 대화 주제를 능숙하게 다루며, 인간의 응답과 구별하기 어려운 수준의 답변을 생성할 수 있는 능력을 보여주고 있다.
챗봇의 응답이 인간과 유사하다고 해서 이를 곧바로 지능이라고 간주할 수는 없다. 장시간 상호작용에서 챗봇을 지원하는 대규모 언어 모델(LLM)은 종종 환각 현상을 일으키며, 일관성 없는 결과나 모순적이고 비논리적인 응답을 생성하기도 한다.
튜링테스트에 대한 초기 반론
오늘날 튜링은 선구적인 인물로 평가받지만, 생전 그의 이론은 많은 논란을 낳았다. 당시 학자와 신학자들 사이에서는 기계가 인간의 사고를 모방할 수 있다는 가능성에 회의적인 시각이 지배적이었다. 때문에 튜링의 급진적인 기계 지능 이론은 철학적·신학적 논쟁의 중심에 있었다.
튜링은 자신의 이론에 제기될 반론을 미리 예상하고 기계가 인간의 사고를 모방할 수 있다는 믿음을 논리적으로 반박했다. 이러한 그의 신념은 ‘처치-튜링 논제(Church-Turing thesis)’에서 구체적으로 설명된다.
튜링은 자신의 이론에 대한 반론을 미리 예상하고, 기계가 인간의 사고를 모방할 수 있다고 믿는 이유를 논리적으로 반박했다. 그의 이러한 신념은 ‘처치-튜링 논제(Church-Turing thesis)’로 설명할 수 있다.
처치-튜링 논제는 인간이 특정 지침에 따라 해결할 수 있는 모든 계산과 수학적 문제라면, 기계에 의해서도 해결될 수 있다는 주장을 담고 있다. 이 개념은 이후 현대 컴퓨터 과학의 근간이 되는 이론으로 자리 잡았다.
튜링 기계 vs. 범용 튜링 기계
튜링은 1936년 논문 ‘계산 가능한 수에 관하여, 그리고 결정 문제의 응용(On Computable Numbers, with an Application to the Entscheidungsproblem)’ 논문에서 기계 지능의 개념을 처음으로 제시했다. 이 논문에서 튜링은 적절한 지침만 주어진다면 원칙적으로 모든 수열을 계산할 수 있는 단순한 이론적 장치를 소개했다.
튜링 기계(Turing Machine)는 계산을 위한 추상적인 수학적 모델로, 앨런 튜링이 제안한 개념이다. 이 가상의 기계는 무한히 이어진 칸으로 나뉜 테이프, 좌우로 이동하는 테이프 헤드, 그리고 테이프를 읽고 쓰는 방식을 규정하는 상태와 규칙으로 구성된다. 앨런 튜링은 각 튜링 기계가 특정 작업이나 계산을 수행할 수 있도록 설계될 수 있다고 생각했다.
튜링은 다른 모든 튜링 기계를 시뮬레이션할 수 있는 범용 튜링 기계(Universal Turing Machine)를 제안했다. 이 기계는 특정 작업에 국한되지 않고, 이론적으로 다른 튜링 기계의 설명과 입력값을 제공받아 이를 자신의 입력값으로 활용할 수 있도록 설계됐다.
범용 튜링 기계 개념은 하나의 계산 기계가 적절한 입력값만 제공받으면 다른 모든 계산 기계를 시뮬레이션할 수 있다는 아이디어를 제시했다. 이 개념은 오늘날의 컴퓨터 프로그램의 기초가 되었으며, 범용 컴퓨터 개발에 중요한 전환점을 마련했다.
튜링 테스트, 여전히 유효한 평가 도구인가?
튜링 테스트는 오늘날 주로 인공지능(AI)을 평가하는 역사적 도구로 평가받고 있다.
그럼에도 이 테스트는 AI 연구에 미친 영향으로 여전히 주목받는다. 튜링은 “기계는 생각을 할 수 있는가?”라는 추상적이고 철학적인 질문을 데이터로 검증 가능한 실질적인 질문으로 전환하며, 연구의 중요한 전환점을 마련했다.
이러한 전환은 의미가 크다. “기계가 대화 중 인간과 구분할 수 없을 정도로 행동할 수 있는가?”라는 새로운 질문을 과학적 방법을 이용해 명확히 검증했기 때문이다.
이 미묘하면서도 심오한 관점의 변화는 인공지능(AI) 초기 연구에 지대한 영향을 미쳤다. 이를 계기로 자연어 처리(NLP), 자연어 이해(NLU), 자연어 생성(NLG)에 대한 연구가 본격적으로 주목받기 시작했다.
대화형 인공지능과 튜링테스트
튜링테스트와 생성형 인공지능
튜링 테스트는 생성형 인공지능(Generative AI) 관련 논의에서 자주 언급된다. 이는 튜링 테스트 자체가 본질적으로 ‘생성적’이라는 점에서 기인한다. 언어 모델이 이야기나 기사, 혹은 시를 생성할 때 단순히 단어를 나열하는 데 그치지 않는다. 이러한 모델은 인간이 만든 것처럼 보이고 느껴지는 콘텐츠를 창조하는 데 초점을 맞춘다. 이는 튜링 테스트가 제시한 목표와 직접적으로 연결된다.
1960년대 MIT의 조셉 와이젠바움(Joseph Weizenbaum)이 개발한 채터봇 ELIZA는 최초로 대화형 소프트웨어를 시도한 프로그램 중 하나다. ELIZA는 인간과 유사한 대화를 모방하며 사용자로 하여금 실제로 사람과 대화하고 있다고 믿게 만든 초기 프로그램으로, 튜링 테스트와 관련된 논의에서 빠지지 않고 언급되는 사례다.
튜링 테스트를 통과하려는 유명한 시도들
ELIZA는 튜링 테스트를 통과하기 위해 설계된 프로그램은 아니었다. 그러나 특정한 인간 상호작용을 모방하는 능력으로 인공지능과 인간-컴퓨터 상호작용의 역사에서 중요한 이정표로 평가된다.
아이러니하게도 ELIZA에 대한 사람들의 반응은 기계에 인간적인 특성을 부여하려는 경향을 여실히 보여줬다. 이 현상은 ‘ELIZA 효과(Eliza Effect)’로 알려져 있으며, 정보 기술 분야에서 의인화(Personification)의 동의어로 종종 사용된다.
ELIZA 외에도 튜링 테스트와 대화형 인공지능에 연관된 대표적인 챗봇들이 있다.
유명한 튜링테스트 대회
오랜 세월 동안 논란의 여지가 있는 튜링 테스트가 인공지능 프로그램의 “지능”을 평가하는 데 사용됐다.
대표적인 역사적 사례로는 다음과 같은 대회들이 있다.
- 로브너상은 1990년 휴 로브너(Hugh Loebner)가 케임브리지 행동 연구소와 협력해 설립한 대회로, 가장 잘 알려진 튜링 테스트 기반 대회 중 하나다. 이 대회는 2020년을 끝으로 중단됐다.
- 채터박스 챌린지는 2000년대 초 시작된 연례 대회로, 한동안 최고의 챗봇 대회로 평가받았다. 전성기에는 다양한 챗봇 기술을 선보이며 주목을 받았다.
- 챗봇 배틀 아레나 웹사이트는 서로 다른 챗봇을 대결시키며, 관객이 승자를 결정하는 방식을 채택했다. 튜링 테스트와 유사한 이 대회에서는 관객이 승리 기준을 자유롭게 정할 수 있다.
- 튜링100은 2012년 유럽 인공지능 협회(European Association for Artificial Intelligence)가 앨런 튜링 탄생 100주년을 기념해 조직한 대회다. 튜링의 업적을 기리는 행사의 일환으로 열렸다.
- 2K 봇프라이즈는 비디오 게임 ‘언리얼 토너먼트 2004(Unreal Tournament 2004)’의 맥락에서 열린 대회다. 대화가 아닌 게임 플레이에서 인간처럼 행동하는 봇을 제작하는 것이 목표였다. 이 대회는 봇이 인간 플레이어로 오인될 정도의 자연스러운 행동을 구현하는 데 중점을 뒀다.
튜링테스트의 대안들
튜링 테스트의 한계를 보완하기 위해 다양한 대안과 평가 방법들이 제안되고 있다. 이들 중 일부는 대화형 AI를 넘어 기계 지능의 폭넓은 가능성을 평가하는 데 초점을 맞춘다
철학자 존 설(John Searle)이 제안한 사고 실험이다. 이 논증은 튜링 테스트의 타당성을 비판하며, 디지털 컴퓨터가 언어를 이해하거나 사고할 수 없다는 주장을 뒷받침하는 데 사용됐다.
세계 최초의 여성 프로그래머로 알려진 에이다 러브레이스(Ada Lovelace)의 이름을 딴 테스트다. 이 평가는 기계가 사전에 프로그래밍되지 않은 창의적이고 예술적인 콘텐츠를 생성할 수 있는지를 검증한다.
튜링테스트의 현대적 활용
튜링 테스트는 과거만큼 기계 지능 평가에서 중요한 위치를 차지하지는 않지만, 그 유산은 여전히 이어지고 있다. 이 테스트는 오늘날에도 논의와 마케팅에서 유용한 도구로 사용되고 있다.
다음은 현대에서 튜링 테스트가 활용되는 몇 가지 방식이다.
자주 묻는 질문
튜링 테스트를 통과하기 어려운 이유는 무엇인가요?
대화형 AI 앱이 튜링 테스트를 통과하려면 몇 점을 받아야 하나요?
Siri는 튜링 테스트를 통과할 수 있나요?
Alexa는 튜링 테스트를 통과할 수 있나요?
ChatGPT는 튜링 테스트를 통과할 수 있나요?
튜링 테스트로 AI의 자각(sentience) 여부를 판별할 수 있나요?
튜링 테스트는 챗봇 외에 다른 용도로도 사용될 수 있나요?
참고자료
- Computing Machinery and Intelligence (Redirect.cs.umbc)
- 8 things you didn’t know about Alan Turing | PBS News (Pbs)
- The Church-Turing Thesis (Stanford Encyclopedia of Philosophy) (Plato.stanford)
- On Computable Numbers, With an Application To The Entscheidungsproblem (Cs.virginia)
- How Alan Turing Cracked The Enigma Code | Imperial War Museums (Iwm.org)
- Kenneth Colby Develops PARRY, An Artificial Intelligence Program with “Attitude” : History of Information (Historyofinformation)
- Constructing the Other Half of The Policeman’s Beard – electronic book review (Electronicbookreview)
- jabberwacky – live chat bot (Jabberwacky)
- Cleverbot.com – a clever bot – speak to an AI with some Actual Intelligence? (Cleverbot)
- How to Create a Bot: Programming Deception at the Loebner Prize Competition | Deceitful Media: Artificial Intelligence and Social Life after the Turing Test | Oxford Academic (Academic.oup)
- The Loebner Prize (Debategraph)
- How to use ChatBot Battle Arena – Find out which ChatBot is the best | Digital Trends (Digitaltrends)
- Marking the centenary of Turing’s birth | University of Cambridge (Cam.ac)
- The Search for a New Test of Artificial Intelligence | Scientific American (Scientificamerican)
- The Chinese Room Argument (Stanford Encyclopedia of Philosophy) (Plato.stanford)
- Lovelace test of artificial intelligence creativity: Better than the Turing test of intelligence. (Slate)
- Moving Beyond The Turing Test To Judge Artificial Intelligence : NPR (Npr)
- Turing Test (Turingtest.mit)