AI 음성 복제: 폭발적으로 증가할 무서운 트렌드

테코피디아 신뢰성
핵심 내용

  • AI 기술, 특히 음성 복제는 점점 더 오용되고 있어 심각한 윤리적, 법적 딜레마를 야기하고 있다.
  • 주목할 만한 사례로는 동의 없이 목소리를 복제해 오해의 소지가 있는 광고를 내보낸 BBC 진행자 리즈 보닌이 있다.
  • AI 딥페이크 규제의 시급성으로 인해 미국에서는 대중과 아티스트 모두를 보호하는 것을 목표로 하는 '가짜 법(NO FAKES Act)'과 같은 법안이 발의되었다.
  • 이러한 위험에도 불구하고 음성 복제는 접근성, 엔터테인먼트, 개인화된 커뮤니케이션을 위한 큰 잠재력을 가지고 있다.
  • AI 기술의 발전은 윤리적 위험을 방지하면서 그 이점을 활용하기 위한 균형 잡힌 접근 방식을 요구한다.

한 BBC 진행자의 목소리가 제품 홍보를 위해 그녀의 허락 없이 복제되었다는 충격적인 폭로가 나오면서 AI 음성 복제 기술의 잠재력과 위험성을 여실히 보여주었다.

이 사건은 인공지능(AI)의 능력을 보여줄 뿐만 아니라 심각한 윤리적 우려와 오용 가능성을 제기한다. 죽은 사람의 목소리를 되살리는 것부터 공인을 사칭하는 것까지, 딥페이크 기술의 결과에 직면하면서 이러한 발전을 책임감 있게 관리하기 위한 강력한 법적 조치가 절실히 요구되고 있다.

이 글에서는 AI 음성 복제의 작동 방식과 다양한 분야에 미치는 영향, 그리고 개인과 공공의 이익을 보호하기 위한 법적 조치의 동향을 살펴보자.

주요 내용

  • AI 기술, 특히 음성 복제는 점점 더 오용되고 있어 심각한 윤리적, 법적 딜레마를 야기하고 있다.
  • 주목할 만한 사례로는 오해의 소지가 있는 광고를 위해 동의 없이 목소리를 복제한 BBC 진행자 리즈 보닌이 있다.
  • AI 딥페이크 규제의 시급성으로 인해 미국에서는 대중과 아티스트 모두를 보호하는 것을 목표로 하는 ‘가짜 금지법(NO FAKES Act)’과 같은 법안이 발의되었다.
  • 음성 복제는 위험에도 불구하고 접근성, 엔터테인먼트, 개인화된 커뮤니케이션에 큰 잠재력을 가지고 있다.
  • AI 기술의 발전은 윤리적 위험을 방지하면서 그 이점을 활용할 수 있는 균형 잡힌 접근 방식을 요구한다.

AI 음성 기술의 오용

BBC 진행자 리즈 보닌의 목소리가 복제된 사례

최근 BBC 진행자 리즈 보닌(Liz Bonnin)이 연루된 유명 사건에서 AI가 생성한 음성 기술이 오용된 사례가 발생했다. 그녀의 목소리가 무단으로 복제되어 방충제 광고 캠페인에 사용된 것이다.

이 광고는 유명인의 얼굴을 사용하여 의심스러운 제품(주로 투자 사기)을 홍보하는 웹에서 볼 수 있는 일부 저가 광고와 다른 점이 있는데, 이 광고의 배후에 있는 회사 인코그니토도 유명인이 출연하는 것으로 속은 것이다.

‘뱅 고스 더 이론’과 ‘우리의 변화하는 행성’의 진행자로 유명한 보닌은 가디언과의 인터뷰에서 이렇게 말했다:

“위반한 것 같고 기분 좋은 일은 아니다. 방충제 스프레이일 뿐이고 정말 끔찍한 광고를 하지 않아서 다행이었어요!”

사기범들은 보닌이라고 주장하는 위조된 음성 메시지를 사용하여 해충 퇴치제 광고에 출연하는 데 동의하도록 유도했다. 처음에는 보닌의 목소리를 흉내 냈지만 점차 억양이 바뀌면서 진위 여부에 대한 의심을 불러일으켰다.

광고 제작사인 시크릿의 CEO 하워드 카터는 처음에 자신이 보닌과 직접 소통하고 있다고 믿었다. 이러한 믿음은 보닌의 지지를 확신하는 여러 음성 메시지에 근거했다.

보닌을 사칭한 사람은 카터에게 전화번호와 이메일 주소, 그리고 보닌이 회장으로 재직 중인 야생동물 신탁의 연락처로 추정되는 세부 정보를 제공했다.

협상은 WhatsApp과 이메일을 통해 이루어졌으며, 전문가들은 보닌과 유사한 디지털 목소리를 만들기 위해 AI가 사용되었다고 보고 있다.

3월 13일, 카터는 보닌이 서명한 것으로 추정되는 계약서가 담긴 이메일을 받았다. 은행 명세서에 표시된 대로 회사는 3월 15일 디지털 은행에 연결된 계좌로 2만 파운드를 이체했다.

5일 후 캠페인용 보닌의 이미지가 전송되었지만, 이후에도 시크릿의 이메일은 응답이 없었다.

이 캠페인은 사기범들이 제공한 인용문과 이미지를 사용하여 시작되었으며, 보닌이 공개적으로 참여에 동의하지 않았다고 선언한 후에야 사기가 발각되었다.

보닌이 말했다:

“회사가 겪은 일에 대해 매우 유감스럽게 생각한다. 당사자에게는 전혀 유쾌하지 않은 일이지만 우리 모두에게 위배되는 일이다. 너무 좋아 보이고 너무 쉬워 보이거나 조금 이상해 보이면 세 번, 네 번 확인해야 한다는 것을 상기시켜 준다.”

딥페이크 클론의 등장

이번 사건뿐만 아니라 유사한 AI 오용 사례가 다른 유명인에게도 영향을 미쳐 디지털 사칭이 광범위한 문제로 대두되고 있다.

딥페이크 기술로 사디크 칸 런던 시장이 휴전일 직전에 논란이 되는 발언을 한 가짜 오디오가 만들어졌고, 페르디난드 마르코스 필리핀 대통령이 중국에 대항하는 행동을 군에 지시하는 오디오 딥페이크 클립도 등장하여 마닐라 정부 관계자들 사이에서 심각한 우려가 제기되고 있다.

또한, 오디오 딥페이크는 사람들의 계좌에 침투하기 위한 사기에 적극적으로 사용되고 있다. 예를 들어, 한 부기자는 자신의 목소리를 복제한 AI를 사용하여 자신의 은행 계좌를 성공적으로 입력한 적이 있다.

이 예시는 마이크로소프트의 VASA-1 및 OpenAI의 음성 엔진과 같은 AI 도구가 어떻게 가짜 콘텐츠를 그럴듯하게 제작할 수 있는지를 보여준다. 이러한 도구가 대중에게 공개되지는 않았지만, 연구 결과에 따르면 VASA-1은 단 한 장의 사진과 짧은 오디오 클립으로 매우 사실적인 딥페이크 동영상과 음성을 만들 수 있는 것으로 나타났다. 마찬가지로 음성 엔진은 15초 분량의 음성 녹음만으로 음성을 모방할 수 있다.

음성 복제의 합법적인 사용과 이점

음성 복제 기술에는 위험이 따르지만, 책임감 있게 활용하면 매우 유익할 수 있다는 점을 인식하는 것이 중요하다. 이러한 기능은 도전을 기회로 바꿀 수 있다:

  • 접근성

음성 복제는 질병이나 사고로 인해 말하기 능력을 상실한 사람들의 목소리를 통신 장치에 재현하여 목소리를 그대로 유지하도록 도와준다. 예를 들어, ‘신경 보철’로 알려진 뇌-컴퓨터 인터페이스(BCI)의 획기적인 발전으로 중증 마비 환자들이 다시 말을 할 수 있게 되었다. 이러한 장치는 말하기와 관련된 뇌 활동을 읽고 AI를 통해 이를 가청 음성으로 변환한다. 한 가지 중요한 사례는 앤이라는 여성이 뇌졸중을 겪은 후 BCI를 사용하여 자신의 뇌 신호를 사고 전의 목소리처럼 들리도록 훈련된 컴퓨터 생성 음성으로 변환한 것이다.

  • 엔터테인먼트 및 미디어

음성 복제 기술은 비디오 게임과 영화에서 대사를 크게 향상시켜 성우의 지속적인 녹음에 대한 필요성을 줄여준다. 비디오 게임 ‘사이버펑크 2077’, 특히 DLC인 ‘팬텀 리버티’가 그 대표적인 예이다. 빅토르 벡토르 캐릭터의 폴란드 성우 미로고스트 “미웩” 레첵이 사망하자 게임 개발자는 새로운 배우로 교체하는 대신 음성 복제 기술을 사용하여 레첵의 연기를 보존하는 방법을 선택했다. 캐릭터의 연속성을 유지하고 고인이 된 배우의 유산을 기리기 위한 결정이었다. 이는 레첵의 가족들의 지지와 지원으로 이루어졌다.

스타워즈에서도 이 기술을 사용하여 배우 피터 쿠싱을 사망한 지 수십 년 만에 되살리고, 캐리 피셔와 마크 해밀의 나이를 되돌릴 수 있었다. 또한 최근 개봉한 ‘인디아나 존스’와 ‘다이얼 오브 데스티니’에서도 젊은 해리슨 포드를 볼 수 있었다.

  • 개인 맞춤형 마케팅

기업들은 음성 복제를 사용하여 유명 인사의 목소리나 브랜드의 고유한 목소리를 모방하여 독특한 고객 서비스를 만든다. 예를 들어, KFC Canada의 프로젝트에서는 AWS AI를 사용하여 창업자인 샌더스 대령의 목소리를 모방하여 Alexa 스킬을 사용했다. 이를 통해 고객은 대령과 대화하며 음식을 주문할 수 있으며, 고객과의 상호작용을 위해 그의 상징적인 캐릭터를 유지하면서 그 과정을 흥미롭게 만들 수 있다.

  • 교육 도구

음성 복제는 역사적 인물의 목소리로 교육 자료를 더욱 인터랙티브하게 만들어 교육 자료를 혁신한다. 플로리다에 있는 달리 박물관의 ‘달리에게 물어보기’ 전시에서는 살바도르 달리의 인터뷰를 학습한 AI가 달리의 스타일로 방문객에게 답변하여 교육 경험을 더욱 풍성하게 해준다.

이러한 장점과 함께 위험을 이해하고 관리하면 음성 복제 기술을 윤리적이고 효과적으로 사용하여 디지털 및 실제 상호 작용을 모두 개선할 수 있다.

AI 음성 복제의 작동 원리

AI 음성 복제는 복잡한 기계 학습딥 러닝 알고리즘을 사용하여 오디오 샘플에서 사람의 목소리를 합성한 버전을 생성한다. 관련된 단계는 다음과 같다:

  • 데이터 수집

이 초기 단계에는 대상 음성의 수많은 오디오 샘플을 수집하는 작업이 포함된다. 이러한 녹음에는 다양한 말소리가 포함되어야 AI가 다양한 감정과 톤의 목소리를 모두 재현하는 방법을 학습할 수 있다. 일반적으로 여기에는 다양한 말하기 스타일과 감정 상태를 포착하기 위해 여러 문장을 말하는 사람을 녹음하는 것이 포함된다.

  • 전처리 및 특징 분석

오디오 데이터를 수집한 후에는 배경 소음을 제거하고 볼륨을 정규화하기 위해 처리된다. 그런 다음 피치(음성의 높낮이), 톤(음질), 케이던스(말의 리듬과 속도), 팀브(음성의 독특한 질감) 등 중요한 음성 특성을 식별하는 데 초점을 맞춘 특징 분석이 이루어진다. 이러한 기능은 목소리의 뉘앙스를 이해하고 재현하는 데 매우 중요하다.

  • 신경망 훈련
    • 딥러닝 모델: 음성 복제의 핵심은 추출된 음성 특징을 학습하는 컨볼루션 신경망(CNN) 또는 재생 신경망(RNN)과 같은 딥 러닝 모델이다. 이러한 모델은 후속 소리를 예측하는 방법을 학습하여 원본 음성의 특징을 모방한 음성을 생성할 수 있다.
    • 텍스트 음성 변환(TTS) 합성: 이 프로세스는 텍스트를 음성 단어로 변환한다. 고급 TTS 시스템은 이러한 훈련된 신경망을 사용하여 텍스트 입력에 따라 자연스러운 소리뿐만 아니라 적절한 감정과 억양이 담긴 음성을 생성한다.
    • GAN(생성적 적대 신경망): GAN는 복제된 음성의 사실감을 높이는 데 사용된다. 두 부분으로 구성된다:
      • 제너레이터: 이 구성 요소는 학습을 기반으로 음성 샘플을 생성한다.
      • 판별자: 이 구성 요소는 생성된 음성 샘플이 원본 음성 녹음과 비교하여 얼마나 사실적으로 들리는지 판단한다. 생성기에 피드백을 제공하여 합성 음성의 품질과 사실감을 개선하는 데 도움을 준다.
  • 후처리: 생성된 음성은 선명도를 개선하고 속도를 조정하며 최대한 자연스러운 음성을 만들기 위해 추가 다듬기를 거칠 수 있다. 여기에는 전반적인 음질을 향상시키기 위한 이퀄라이제이션 및 압축과 같은 오디오 효과가 포함될 수 있다.
  • 테스트 및 튜닝: 마지막 단계는 다양한 텍스트로 광범위한 테스트를 수행하여 AI가 어떤 음성 입력도 잘 처리할 수 있도록 하는 단계이다. 이 테스트를 통해 음성학이나 부자연스러운 음성 패턴과 관련된 문제를 찾아내고 모델을 조정하여 수정할 수 있다.

이러한 단계를 통해 AI 음성 복제 기술은 원본과 매우 흡사한 매우 사실적이고 역동적인 합성 음성을 생성할 수 있다. 이러한 기술은 정확성과 다양성을 높이기 위해 최신 AI 개발 기술을 통합하여 계속 발전하고 있다.

윤리적 및 법적 영향

최근 통계에 따르면 딥페이크가 급격히 증가하면서 AI 기반 사기의 위험성이 부각되고 있다. 2022년과 2023년 사이에 전 세계적으로 다양한 산업 분야에서 200만 건 이상의 신원 사기 시도를 기반으로 딥페이크가 탐지된 사례가 10배나 증가했다.

예를 들어 필리핀의 딥페이크 관련 신원 사기 사건은 4500%, 베트남은 3050%, 미국은 3000%, 벨기에는 2950% 급증했다.

윤리적 및 법적 영향

미국에서는 인공지능으로 생성된 딥페이크에 대한 시급한 대응이 상원에서 중요한 논의 주제로 떠오르고 있다. 제안된 NO FAKES Act 는 무단 디지털 복제품을 만들거나 배포하는 개인과 플랫폼에 책임을 묻는 것을 목표로 한다. 이 연방법은 유명인뿐만 아니라 일반 대중을 디지털 초상화의 오용으로부터 보호하기 위해 마련되었다.

상원 사법위원회 청문회에서 싱어송라이터 FKA Twigs를 비롯한 업계 전문가들은 예술적 창의성이나 AI 기술의 정당한 사용을 저해하지 않으면서 아티스트와 대중을 착취로부터 보호해야 한다는 점을 강조하며 이 법안을 지지했다.

이 법안은 예술적 창의성을 장려하는 것과 개인의 권리를 보호하는 것 사이에서 균형을 맞추기 위해 노력한다. 워너 뮤직 그룹의 CEO인 로버트 킨클 같은 유명 인사들은 창의성 육성과 함께 아티스트의 권리를 보호하는 것이 중요하다는 점을 지적하며 이 법안을 지지했다. 또한 토론에서는 법이 표현의 자유를 제한하지 않도록 ‘디지털 복제물’을 명확히 정의해야 한다고 강조했다.

결론

AI 음성 복제 기술이 발전함에 따라 다양한 분야에서 상당한 이점을 제공하지만 윤리적 위험도 커지고 있다. 기술의 장점을 활용하고 위협을 최소화하는 것 사이에서 균형을 맞추려면 신중한 규제 감독이 필요하다.

딥페이크 사건과 그로 인한 잠재적 피해가 급격히 증가함에 따라, 제안된 ‘가짜 금지법’과 같은 포괄적인 법안이 매우 중요하다. 이 법안은 기술 발전과 창의성을 저해하지 않으면서 개인의 권리를 보호하는 것을 목표로 한다.

인공지능이라는 새로운 영역에 접근할 때, 윤리적 기준이나 법적 보호를 훼손하지 않으면서 인류에게 도움이 되는 기술이 될 수 있도록 신중함과 선견지명을 가지고 접근하는 것이 필수적이다.

James Park
Editor
James Park
-

본 작가는 IT, 사이버보안, 스파이웨어 관련 기사를 작성하는 작가로 활동하고 있습니다. Georgia Institute of Technology에서 컴퓨터 공학을 전공한 후 구글에서 오랜 경험을 바탕으로 실리콘 밸리에서 스타트업 사이버보안 컨설팅을 통해 실무적인 전문성을 키웠습니다. 현재는 사이버보안 분야에서의 오랜 경험을 토대로 기술 동향과 보안 측면에서의 최신 정보를 정확하게 파악하고, 독자들에게 전달하는 역할을 수행하고 있습니다. 이 작가는 자체적인 기술적 통찰력과 독자들에게 혜택을 주는 독특한 관점을 제공하여, IT 및 사이버보안 분야에서 공신력 있는 정보를 전달하고 있습니다.