멀티모달 AI란?
멀티모달 AI(Multimodal AI)는 두 가지 이상의 데이터 유형을 처리, 이해 및 생성할 수 있는 인공지능(Artificial Intelligence) 유형이다.
모달리티(Modality)는 무언가가 존재하거나, 경험되거나, 표현되는 방식을 의미한다. 특히 머신 러닝(ML)과 인공 지능 분야에서 모달리티는 ‘데이터 유형’과 같은 의미다. 데이터 모달리티, 즉 데이터 유형의 예는 다음과 같다.
- 텍스트
- 이미지
- 오디오
- 비디오
단일모달 vs. 멀티모달
오늘날 대부분의 AI 시스템은 단일모달(Unimodal) 방식이다. 한 가지 유형의 데이터만 작동하도록 설계되어 있으며, 해당 모달리티에 맞춘 알고리즘을 사용한다. 예를 들어, 챗GPT와 같은 단일모달 AI 시스템은 자연어 처리(NLP) 알고리즘을 사용하여 텍스트 콘텐츠를 이해하고 의미를 추출하며, 이 챗봇이 생성할 수 있는 유일한 유형의 출력 역시 텍스트이다.
반면에 여러 가지 데이터 유형을 통합하고 동시에 처리할 수 있는 멀티모달 아키텍처는, 두 가지 이상의 데이터 유형을 출력 및 생성할 수 있다. 예를 들어, 향후 챗GPT의 멀티모달 버전이 나온다면, 생성형 AI 봇을 사용하여 텍스트 기반 웹 콘텐츠를 만드는 마케터는 봇이 텍스트와 함께 이미지를 생성하도록 유도할 수 있다.
멀티모달 AI 작동 방식
멀티모달 AI 시스템은 입력(input) 모듈, 융합(fusion) 모듈, 출력(output) 모듈이라는 세 가지 기본 요소를 중심으로 구성된다. 입력 모듈은 두 가지 이상의 데이터 유형을 받아들이고 처리할 수 있는 신경망의 집합이다. 각 유형의 데이터는 별도의 신경망으로 처리되기 때문에 모든 멀티모달 AI 입력 모듈은 수많은 단일모달 신경망으로 구성된다.
융합 모듈은 각 데이터 유형에서 관련 데이터를 통합 및 처리하고, 각 데이터 유형의 강점을 활용하는 역할을 담당한다. 출력 모듈은 데이터의 전반적인 이해에 도움이 되는 출력을 생성한다. 멀티모달 AI의 출력을 생성하는 역할을 담당한다.
도전 과제
멀티모달 AI는 여러 가지 요인으로 인해 단일 모달 AI보다 개발하기가 더 어렵다. 그 요인은 다음과 같다.
- 데이터 통합(Data integration): 다양한 소스로부터 수집한 서로 다른 유형의 데이터를 결합하고 동기화하는 것은 어려운 일이다. 여러 모달리티를 원활하게 통합하고, 처리 파이프라인 전반에 걸쳐 일관된 데이터 품질과 시간 정렬(temporal alignment)을 유지하는 것은 어렵고 시간이 많이 걸릴 수 있다.
- 특징 표현(Feature representation): 각 모달리티는 고유한 특성과 표현 방법을 갖고 있다. 예를 들어 이미지에는 합성곱 신경망(Convolutional Neural Networks, CNN)과 같은 특징 추출 기술이 필요한 반면, 텍스트에는 단어 임베딩이나 대규모 언어 모델(LLM)이 필요하다. 서로 다른 모달리티를 의미 있는 방식으로 결합하고 표현하여 상호 의존성을 포착하고 데이터에 대한 전반적인 이해를 높이는 것은 어려운 일이다.
- 차원성 및 확장성(Dimensionality and scalability): 멀티모달 데이터는 일반적으로 고차원적이며, 각 모달리티가 고유한 특성 집합을 제공하기 때문에 차원 축소 메커니즘이 없다. 또한 모달리티의 수가 증가함에 따라 데이터의 차원성도 크게 증가한다. 이는 AI 모델과 데이터 처리에 사용하는 알고리즘 모두에 계산 복잡성, 메모리 요구 사항, 확장성 측면에서 어려움을 초래한다.
- 모델 아키텍처 및 융합 기술(Model architecture and fusion techniques): 멀티 모달리티에서 정보를 결합하기 위한 융합 기술 및 효과적인 아키텍처를 설계하는 것은 여전히 연구가 진행 중인 분야이다. 모달리티 별 처리와 모달리티 간 상호 작용 사이의 적절한 균형을 찾는 것은 신중한 설계와 많은 실험을 필요로 하는 복잡한 작업이다.
- 라벨링된 데이터의 가용성(Availability of labeled data): 멀티모달 AI 데이터 세트에는 다양한 형식의 라벨링된 데이터가 필요하다. 여러 가지 형식의 데이터 세트를 수집한 후 각각의 데이터에 주석을 다는 것은 어려운 일이며, 대규모의 멀티모달 학습 데이터 세트를 유지하는 데는 많은 비용이 든다.
이러한 어려움에도 불구하고, 멀티모달 AI 시스템은 단일모달 시스템보다 사용자 친화적이며 복잡한 현실 세계 데이터에 대해 더 세부적인 이해를 제공한다. 멀티모달 표현, 융합 기술 및 대규모 멀티모달 데이터 세트 관리와 같은 분야에서의 지속적인 연구와 발전은 이러한 어려움을 해결하고 단일모달 AI 기능의 한계를 뛰어넘는 데 도움이 되고 있다.
멀티모달 AI의 미래
미래에는 대규모 멀티모달 데이터 세트를 기반으로 한 파운데이션 모델이 비용 효율성을 갖추게 되면서, 멀티모달 데이터 처리의 능력을 활용한 더 다양하고 혁신적인 응용 프로그램과 서비스가 더 많이 등장할 것이라 전문가들은 예상하고 있다. 활용 사례는 다음과 같다.
- 자율주행 차량: 자율주행 차량은 카메라, 레이더, GPS 및 LiDAR(Light Detection and Ranging)와 같은 다양한 센서의 데이터를 더 효율적으로 처리하고 실시간으로 더 나은 의사결정을 내릴 수 있게 될 것이다.
- 헬스케어: 엑스레이나 MRI와 같은 의료 영상과 임상 기록을 결합하고, 스마트 워치와 같은 웨어러블 장치의 센서 데이터를 통합하여 환자 데이터를 분석함으로써 진단을 개선하고 환자에게 더 개인화된 의료를 제공할 수 있다.
- 비디오 활용: 멀티모달 AI를 사용해 시각 정보를 오디오, 텍스트 및 기타 모달리티와 결합하여 비디오 자막, 비디오 요약 및 비디오 검색을 개선할 수 있다.
- 인간-컴퓨터 상호 작용: 멀티모달 AI는 인간-컴퓨터 상호 작용 시나리오에서 더 자연스럽고 직관적인 커뮤니케이션을 가능하게 할 것이다. 여기에는 음성 명령을 이해하고 응답하는 동시에 환경의 시각적 단서를 처리할 수 있는 음성 어시스턴트와 같은 애플리케이션이 포함된다.
- 콘텐츠 추천: 사용자 선호도 및 검색 기록에 대한 데이터를 텍스트, 이미지, 오디오 데이터와 결합할 수 있는 멀티모달 AI는 영화, 음악, 뉴스 기사 및 기타 미디어에 대해 보다 정확하고 관련성 높은 추천을 제공할 수 있다.
- 소셜 미디어 분석: 텍스트, 이미지, 비디오와 같은 소셜 미디어 데이터를 감정 분석과 통합할 수 있는 멀티모달 AI는 소셜 미디어 플랫폼에서 주제 추출, 콘텐츠 모니터링, 트렌드 파악 및 이해 기능을 향상시킬 것이다.
- 로봇 공학: 멀티모달 AI는 물리적 로봇이 여러 모달리티를 사용하여 환경을 인식하고 상호 작용할 수 있도록 함으로써 로봇 공학 응용 프로그램에서 중요한 역할을 할 것이다. 이는 더 자연스럽고 견고한 인간-로봇 상호 작용을 가능하게 할 것이다.
- 스마트 보조 기술: 음성 데이터를 텍스트 및 이미지 데이터와 결합할 수 있는 음성 인식 시스템은 시각 장애인을 위한 사용자 경험(UX) 및 제스처 기반 제어 시스템을 개선할 것이다.