AI 번역의 시대 속 콘텐츠의 진정성을 어떻게 찾을 수 있을까?

테코피디아 신뢰성

온라인에서 소비하는 정보의 품질과 진위 여부에 대해 스스로 경계하고 있는가?

전통적으로 가장 신뢰할 수 있는 것으로 인식되는 Google 첫 페이지의 상위 검색 결과는 절대적인 진실이 되는 것은 아니다. 그리고 대부분의 경우 상위 페이지는 SEO에 최적화된 콘텐츠를 마케팅 및 광고 전략의 결합의 결과물이다.

하지만 AI가 생성하고 AI 번역 한 콘텐츠의 등장으로 진흙탕 싸움이 시작되고 있다.

“보이는 것의 절반만 믿고, 들리는 것의 절반은 믿지 말라”는 옛말은 AI가 인간이 생성한 글, 오디오 및 비디오 콘텐츠를 위조할 수 있는 디지털 시대에 그 어느 때보다 더 적합하다.

핵심내용

  • AI가 생성하고 AI 번역 콘텐츠가 온라인 정보를 재편하고 있는 가운데, 기계 번역의 광범위한 사용이 콘텐츠 품질 저하로 이어진다는 연구 결과가 발표되었다.
  • 인터넷 트래픽의 거의 50%가 봇에 의해 발생하고 대부분의 사람들이 검색 엔진 결과에 의존하여 답을 찾는 상황에서 왜곡의 가능성은 빠르게 증가하고 있다.
  • 전 세계가 역사적인 2024년 대선을 앞두고 있는 가운데, 조 바이든 미국 대통령을 사칭한 딥페이크 로보콜과 같은 사건을 예로 들며 AI가 민주주의 과정을 방해할 수 있다는 우려가 제기되고 있다.
  • AI 번역 콘텐츠를 식별하는 것이 어렵기 때문에 AI 기반 표절 탐지 도구의 신뢰성에 대한 의문이 제기되고 있으며, 사람이 작성한 콘텐츠와 AI가 작성한 콘텐츠를 구분하는 데 있어 미묘한 접근법의 필요성이 강조되고 있다.

AI 번역 콘텐츠 시대에서 신뢰성?

이달 초에 발표된 Amazon Web Services AI 연구소의 연구진은 웹에서 AI 번역된 콘텐츠의 상태에 대한 놀라운 사실을 밝혀냈다.

사전 인쇄본 서버인 arXiv에 게재된 이 연구는 63억 8천만 개의 문장을 심층적으로 분석하여 인터넷 콘텐츠, 특히 아프리카와 글로벌 사우스에서 사용되는 언어에 대한 인식 방식을 바꿀 수 있는 현실을 증명했다.

이 보고서에 따르면 AI가 표준 이하의 영어 콘텐츠를 대량 생산하기 위해 점점 더 많이 사용되고 있으며, 이러한 콘텐츠는 AI 기반 기계 AI 번역 을 통해 여러 언어로 뒤섞여 정보의 질이 지속적으로 저하되고 인터넷의 방대한 영역이 점점 더 열악해지는 AI 스크램블 복제본으로 어지럽혀지고 있다고 한다.

연구 책임자들은 초록에서 다음과 같이 말했다. “웹상의 콘텐츠가 여러 언어로 번역되는 경우가 많으며, 이러한 다방향 번역의 품질이 낮다는 것은 기계 번역을 사용하여 생성되었을 가능성이 높다는 것을 보여준다.

“기계 생성 콘텐츠는 리소스가 적은 언어의 번역을 지배할 뿐만 아니라 해당 언어의 전체 웹 콘텐츠 중 상당 부분을 차지한다.

또한 여러 언어로 번역되는 콘텐츠 유형에서 선택 편향의 증거를 발견했는데, 이는 저품질 영어 콘텐츠가 AI 번역을 통해 많은 저자원 언어로 대량으로 번역되는 것과 일치하다.” 라고 말했다.

“우리의 연구는 웹에서 스크랩한 단일 언어 및 이중 언어 데이터 모두에 대한 다국어 대규모 언어 모델(LLM)과 같은 학습 모델에 대한 심각한 우려를 제기한다.”

AI 번역 자료가 널리 보급됨에 따라 웹에는 여러 언어로 번역된 콘텐츠가 넘쳐나면서 정확성과 맥락을 잃는 경우가 많아지고 있으며, 이러한 AI 번역 자료의 유입은 기존의 온라인 신뢰 문제를 더욱 악화시킬 것으로 보인다.

디지털 환상과 ‘죽은 인터넷 이론’

Imperva의 악성 봇 보고서에 따르면 봇이 인터넷 트래픽의 무려 47.4%를 발생시키는 것으로 나타났다. 이러한 사실은 한때 ‘죽은 인터넷 이론‘으로 치부되었던 이론에 생명을 불어넣으며, 봇을 변두리 음모에서 우리의 일상적인 디지털 생활로 변화시켰다.

온라인 세계의 상당 부분이 AI가 생성한 콘텐츠와 자동화된 봇에 의해 주도되고 있으며, 종종 우리가 모르는 사이에 우리와 상호 작용하고 있다는 사실은 생각을 자극하고 다소 당혹스럽게 만든다.

전직 CIA 작전 책임자였던 댄 우즈 (Dan Woods)는 이 문제가 생각보다 훨씬 더 심각하며, 엘론 머스크의 X 계정 중 80% 이상이 가짜 봇일 수 있다고 주장했다. 다른 곳에서는 일반적인 용어를 구글에 검색하면 80억 개가 넘는 압도적인 결과가 나오지만, 우리는 일반적으로 15페이지 정도에 불과한 150여 개의 결과만 볼 수 있다.

이러한 시나리오는 인터넷이 다양한 콘텐츠가 끝없이 펼쳐진 광야가 아니라 거울의 전당처럼 동일한 정보가 반복적으로 울려 퍼지는 한정된 공간이라는 점을 보여준다.

이러한 깨달음은 인터넷을 무한한 탐험의 장으로 여기는 우리의 인식에 도전장을 내밀며 우리가 매일 접하는 콘텐츠의 진위와 다양성에 대해 의문을 제기하게 한다. 하지만 이 깨달음이 더욱 중요한 이유는 올해 대선을 앞두고 수십억 명의 사람들이 AI 번역 콘텐츠를 소비할 것이기 때문이다.

2024년: 역사상 가장 큰 선거의 해

전 세계가 역사상 가장 중요한 선거의 해를 준비하면서 60개 이상의 국가와 전 세계 인구의 거의 절반이 2024년에 투표할 준비를 하고 있다. 하지만 선거 결과를 결정하는 데 있어 인공지능의 역할은 이미 중요한 관심사가 되고 있다.

최근 미국 대통령 조 바이든의 목소리를 모방한 로보콜이 뉴햄프셔 주민들에게 투표하지 말라고 지시한 사건은 선거에서 AI가 얼마나 파괴적인 영향을 미칠 수 있는지를 적시에 상기시켜 준다. 이러한 사건과 AI 번역 및 콘텐츠 생성 기술에 대한 개방적인 접근은 민주적 절차의 유지에 대한 긴급한 의문을 제기한다.

최근 블룸버그 (Bloomberg) 의 프란신 라쿠아 (Francine Lacqua) 와의 대담에서 마이크로소프트 (Microsoft) 의 공동 창업자 빌 게이츠 (Bill Gates)는 악의적인 행위자들이 유권자의 인식과 행동에 영향을 미치기 위해 AI의 발전을 쉽게 악용할 수 있다는 점을 강조하면서 “악당들은 AI를 통해 더 적극적으로 행동할 것“이라고 경고한 바 있다.

정치 이야기를 왜곡하고 여론을 좌우할 수 있는 딥페이크와 같은 생성형 AI의 영향력을 활용하는 악의적 행위자로부터 국가는 어떻게 선거를 보호할 수 있을까?

전례 없는 규모로 치러지는 2024년 세계 선거는 기술 혁신과 민주주의 가치 수호의 균형을 맞추는 우리의 능력을 시험하는 특별한 기회가 될 것이다.

탐지 도구의 신뢰성은?

실리콘 밸리가 혁신에 대한 집착을 계속하면서, 우리는 이제 막 AI가 생성한 콘텐츠를 식별하는 것이 얼마나 어려운지 이해하기 시작했다. 최근 학교와 정책 입안자들이 AI 기반 표절 탐지 도구에 지나치게 의존하는 것에 대해 경고한 OpenAI의 CEO 샘 알트먼(Sam Altman)은 이러한 정서를 반영한 바 있다. 이러한 도구가 효과가 없다는 제안은 논란에 불을 붙였다. 이후 비평가들은 이러한 새로운 솔루션의 정확성과 윤리적 영향에 의문을 제기하면서 많은 솔루션을 디지털 뱀 기름이라고 불렀다.

또한 미국 헌법과 같은 고전적인 텍스트가 이러한 도구에 의해 AI가 작성한 것으로 오인된 사례도 공유되어, 이러한 도구의 설계와 기능에 근본적인 결함이 있음을 시사한다.

표절 검사기가 특정 글쓰기 스타일에 대해 학습된 경우, 사람이 작성한 유사한 콘텐츠를 AI가 생성한 것으로 잘못 인식할 수 있다. 이 문제는 또한 글의 진위 여부에 대한 심오한 의문을 제기한다.

사람이 작성한 텍스트가 기계가 생성한 것으로 오인될 수 있다면, 인간의 창의성은 어디로 사라질까? 반대로 ‘휴머나이저’ 도구로 AI 탐지기를 우회하기 위해 조작된 텍스트는 원본으로 간주되어 인간과 AI의 저작물 사이의 경계가 모호해진다.

이러한 딜레마는 AI가 생성한 콘텐츠와 사람이 쓴 글을 구별하는 데 따르는 복잡한 문제를 잘 보여준다. 또한 학술 및 전문 분야에서 AI 탐지 도구에 대한 보다 미묘한 접근이 필요하다는 점을 강조한다.

결론

AI 번역 콘텐츠와 봇과의 상호작용이 점점 더 보편화되면서 현실에 대한 우리의 이해가 우려스러울 정도로 왜곡되고 있다. 한때 명확했던 신뢰성과 단순한 가시성 사이의 경계가 모호해지면서 진위와 진실에 대한 왜곡된 인식으로 이어지고 있다. 이러한 현상은 허위 정보 전술, 반향실, 딥페이크, 조작된 계정, 내재된 편견으로 가득 찬 알고리즘으로 인해 뉴스피드에서 흔히 발견할 수 있다.

이제 전 세계는 최고의 에어프라이어 10개를 추천하는 기사의 진위 여부보다 훨씬 더 많은 것을 걱정해야 하는 상황에 처했다. ‘콘텐츠가 왕이다’라는 격언은 여전히 유효하지만, 맥락이 매우 중요하다.

출처, 제작 동기, 잠재적 편견 등 맥락을 이해하고 인정할 때 우리는 우리가 소비하는 정보의 본질을 분별할 수 있다. 디지털 콘텐츠에 대한 이러한 신중한 접근 방식은 데이터의 무결성과 우리가 인식하는 현실의 구조를 보존하는 데 매우 중요하다

Neil C. Hughes
Senior Technology Writer
Neil C. Hughes
시니어 IT 작가

본 작가는 20년 이상의 IT 경력을 자랑하는 프리랜서 기술 저널리스트입니다. 그의 전문성과 공헌을 인정받아 링크드인의 탑 보이스(Top Voices) 기술 분야 부문에 이름을 올린 이력이 있으며, 그의 통찰력 있는 관점은 CIO Magazine, ZDNet과 같은 권위 있는 출판물로부터 인정받기도 했습니다. 그는 현재 INC, TNW, TechHQ, Cybernews 등 유명 플랫폼에 글을 기고하는 동시에 인기 팟캐스트인 Tech Talks Daily를 진행하고 있습니다.