2024년 2월 1일, 구글은 인공지능 이미지 생성 도구인 ImageFX의 출시를 발표했다. 이 텍스트-이미지 생성기는 현재 미국, 호주, 뉴질랜드, 케냐의 사용자들이 구글 랩 웹사이트를 통해 사용할 수 있다.
또한 최대 70초 길이의 음악 또는 루프를 만들 수 있는 텍스트 음악 변환 도구인 뮤직FX도 출시했다.
이러한 출시는 오픈AI가 인기 있는 텍스트-이미지 변환 모델인 DALL-E 3를 챗GPT와 통합하여 사용자에게 서면 프롬프트에서 이미지를 생성할 수 있는 기능을 제공한 지 불과 몇 달 만에 이루어졌다.
구글의 인공지능 이미지 생성기가 이미 시중에 나와 있는 최고의 텍스트-이미지 생성기인 DALL-E와 Midjourney와 경쟁할 수 있을까?
이미지FX가 무엇이며 어디에서 사용해 볼 수 있는지 알아보고, 주요 특징과 기능을 살펴보고, 인공지능 이미지 생성 도구의 미래에 대해 미리 살펴보자.
핵심 내용
- 이미지FX는 매우 사실적인 이미지를 생성하도록 설계된 이미젠 2 텍스트-이미지 변환 모델을 기반으로 하는 Google의 새로운 인공지능 이미지 생성 도구이다.
- 새로운 구글의 인공지능 이미지 생성기는 기본적으로 추천 키워드 세트인 ‘표현 칩’을 제공하며, 사용자는 이를 선택해 스타일이 유사한 다른 디자인을 생성할 수 있다.
- 이 기능은 DALL-E 3 및 Midjourney와 같은 다른 경쟁사와 차별화되는 솔루션의 핵심 기능이다.
- 이미지FX는 현재 영어로만 제공되며 미국, 호주, 뉴질랜드, 케냐 등 일부 국가에 한정되어 있으며 글로벌 출시 일정은 공개되지 않았다.
- 앞으로 바드와 이미지 2는 챗GPT와 DALL-E 3와 마찬가지로 파워 커플이 될 가능성이 높다.
이미지FX란?
이미지FX는 구글 딥마인드에서 개발한 텍스트 이미지 확산 모델인 이미젠 2를 기반으로 하는 인공지능 텍스트 이미지 생성기로, 고품질의 사실적인 이미지를 생성할 수 있는 기능을 갖추고 있다.
“‘이미지FX’는 간단한 텍스트 프롬프트로 이미지를 만들 수 있는 랩스의 새로운 도구이다. 실험실에서 진행한 초기 실험은 생성형 인공지능 도구의 신규 사용자에게 창의적 탐색이 얼마나 중요한지를 보여준다.”라고 구글은 발표 블로그 게시물에서 설명했다.
“사람들은 다양한 프롬프트와 개념을 반복적으로 테스트하면서 새로운 아이디어를 발견하는 경우가 많다. 창의력을 더욱 촉진하기 위해 이미지FX에는 창작물과 아이디어의 인접한 차원을 빠르게 실험할 수 있는 ‘표현 칩’을 갖춘 프롬프트 인터페이스가 포함되어 있다.”라고 블로그 게시물은 설명한다.
표현 칩은 기본적으로 이미지FX에서 생성된 추천 키워드 세트이며, 사용자는 이를 선택하여 스타일이 유사한 다른 디자인을 생성할 수 있다.
이 기능은 DALL-E 3 및 Midjourney와 같은 다른 경쟁사와 차별화되는 솔루션의 핵심 기능이기도 하다.
이미지FX 사용법
사용자는 Google Labs에서 AI 테스트 키친 프로그램에 등록하여 ImageFX에 액세스할 수 있다. 그런 다음 ImageFX를 선택하거나 ImageFX 페이지로 바로 이동하여 개인 Google 계정에 로그인하고 새로운 크리에이티브를 생성할 수 있다.
이 솔루션은 현재 미국, 호주, 뉴질랜드, 케냐에서 사용할 수 있다. Google은 아직 제품의 글로벌 출시 날짜를 공개하지 않았다.
하지만 가상 사설망(VPN)을 사용하여 다른 위치에서 서비스에 액세스할 수도 있다.
플랫폼을 사용할 때 사용자는 직접 텍스트 프롬프트를 입력하고 생성 버튼을 눌러 이미지를 만들거나 ‘운이 좋네요’ 옵션을 클릭하여 임의의 프롬프트와 이미지를 만들 수 있다.
이미지를 생성한 후 사용자는 이미지를 다운로드하거나 공유할 수 있다. 또한 숫자 시드를 변경하여 솔루션의 결과물을 더 다양하게 만들 수 있는 옵션도 있다.
사용자는 화면 하단의 표현 칩을 클릭할 수도 있다. 테스트 중에 추천된 키워드 유형에는 사실적, 드라마틱, 35mm 필름, 미니멀, 스케치, 핸드메이드, 와이드 샷, 일러스트레이션, 클로즈업, 매우 디테일 등의 키워드가 포함되었다.
이미지FX 테스트: 단계별 가이드
이 섹션에서는 이미지 FX 기능을 실제로 사용해 보자. 승인된 목적지 중 하나에 위치한 구글 계정 또는 VPN만 있으면 된다.
링크를 클릭하면 로그인하라는 메시지가 표시되므로 구글로 로그인 옵션을 선택한 다음 로그인을 다시 누른다.
마케팅 이메일 또는 조사 초대를 받을 수 있는 옵션이 표시된 팝업이 나타난다. 원하는 옵션(있는 경우)을 선택하고 다음 버튼을 누른다.
이제 구글의 개인정보 처리방침이 표시된다. 개인정보 처리방침을 읽고 동의하면 다음을 누른다. 이를 클릭하면 구글 서비스 약관 팝업이 나타난다. 동의하고 계속 옵션을 선택한다. 이미지 FX 소개 텍스트 상자가 나타나면 이를 읽고 이해했다 버튼을 선택하여 가입 절차를 완료한다.
이제 모든 준비가 완료되었으며 프롬프트를 실험할 준비가 끝났다!
이미지FX: 기초 사용법
화면 왼쪽에 텍스트 프롬프트를 입력할 수 있는 텍스트 상자가 표시되고 생성 버튼을 누르면 화면 오른쪽에 표시될 이미지를 생성할 수 있다.
텍스트 프롬프트 상자 아래에는 일련의 키워드, 즉 표현 칩과 함께 자세히라고 표시된 버튼이 있다. 더 보기를 클릭하면 다른 키워드 세트를 생성할 수 있으며, 키워드를 클릭하면 작성된 프롬프트에 해당 키워드가 추가된다.
마지막으로 화면 오른쪽 하단에는 세 개의 버튼이 있는데, 첫 번째 버튼은 숫자 시드를 선택하여 출력물의 종류를 늘리고, 다음 버튼은 이미지를 다운로드하고, 마지막 버튼은 이미지를 공유할 수 있게 해준다.
이미지FX: 중급 사용법
다른 이미지-텍스트 변환 도구와 마찬가지로 이미지 출력의 품질은 초기 프롬프트에 따라 크게 달라진다.
최상의 결과를 얻으려면 가능한 한 많은 문맥을 포함하는 것이 좋다. 이 가이드의 목적을 위해 타조와 축구를 하는 외계인의 초현실적인 이미지를 사용하기로 했다.
결과는 다음과 같다:
첫 번째 이미지는 괜찮았고 꽤 ‘사실적’으로 보였지만 다른 결과물은 그다지 좋지 않았다.
다른 디자인을 얻을 수 있는지 알아보기 위해 더 보기 버튼을 눌러 이미지FX에서 선택할 수 있는 더 많은 표현력 있는 칩을 제공하도록 했다.
이 옵션에서 페인팅 옵션을 클릭하여 이미지가 그림으로 어떻게 보이는지 확인했다. 결과는 다음과 같다:
표현형 칩을 추가로 테스트하기 위해 애니메이션 스타일의 버전을 만들 수 있는 옵션을 찾았다.
가장 근접한 키워드를 찾을 수 있었던 것은 일러스트레이션이었다. 다음은 프롬프트의 결과이다:
이 결과는 프롬프트의 의도와 전반적인 출력 품질이 일치한다는 측면에서 가장 좋은 결과일 것이다.
이미지FX와 DALL-E 3: 승자는?
이미지FX를 평가하기 위해 DALL-E 3의 결과물과 비교하여 어느 것이 가장 좋은 이미지를 생성하는지 확인하기로 했다. 이 테스트는 각 LLM의 이미지 품질에 대한 완전한 테스트는 아니지만 각 툴이 기본 프롬프트에 어떻게 반응하는지에 대한 아이디어를 제공한다.
테스트를 시작하기 위해 DALL-E 3에 타조와 축구를 하는 외계인의 이미지를 만들도록 지시했다 (이미지FX에 입력한 것과 동일한 초기 프롬프트). 결과는 다음과 같다:
테스트하는 동안 DALL-E 3는 이미지를 생성하는 데 이미지FX보다 시간이 오래 걸렸지만, 생성된 출력 이미지가 지금까지 구글의 솔루션으로 생성된 어떤 디자인보다 훨씬 낫다는 것을 느꼈다.
단, 단 하나의 이미지만 생성했다.
비교를 더욱 강화하기 위해 만화 티라노사우루스를 각각 어떻게 처리하는지 살펴보기로 했다. 결과는 다음과 같다:
이미지FX로 생성된 이미지는 모두 매우 디테일했지만, DALL-E 3가 프롬프트의 의도에 더 잘 부합할 뿐만 아니라 디즈니 스타일의 애니메이션 캐릭터를 꽤 잘 만들어낸 것 같았다.
이미지FX의 첫인상
전반적으로 ImageFX는 사용하기 매우 쉬웠다.
표현 칩은 이미지를 만들 때 프롬프트를 어떻게 조정하거나 개선할 수 있는지 확인하는 데 사용할 수 있는 유용한 참조 지점을 제공했다. 구도 아이디어를 떠올리는 데 어려움을 겪는 사용자에게 유용할 것이다.
특히 외계인이 등장하는 예제에서는 이미지 품질이 놀라울 정도는 아니었지만, 다른 테스트에서는 매우 높은 품질의 결과물을 생성했다.
다음은 달에 있는 우주 비행사의 멋진 이미지다:
이런 의미에서 ImageFX는 시간을 들여 올바른 프롬프트에 기꺼이 입력한다면 좋은 결과를 얻을 수 있는 도구이다.
이미젠 2 설명
구글의 인공지능 이미지 생성기인 이미젠 2의 핵심은 이미지FX가 고품질 이미지를 생성할 수 있도록 하는 텍스트-이미지 확산 모델이다. 또한 사용자가 직접 이미지를 생성하고 검색 생성 경험 (SGE)과 통합하여 이미지를 생성할 수 있도록 구글 바드를 구동하는 데 사용되는 모델이기도 하다.
이미젠 2가 상세한 이미지를 생성할 수 있도록 구글은 모델의 학습 데이터에 이미지 캡션에 더 자세한 설명을 추가하여 다양한 예술적 스타일을 학습할 수 있도록 했다.
이 접근 방식을 사용하면 모델이 사용자 프롬프트의 맥락을 더 잘 이해하고 더 관련성 높은 출력으로 응답할 수 있다.
이미젠 2의 또 다른 중요한 차별화 요소는 구글 클라우드, 특히 구글 클라우드 버텍스 인공지능의 이미젠API를 통해 액세스할 수 있다는 점이다.
향후에는 무료 공개 연구 도우미와 함께 이미지 생성 기술에 액세스할 수 있게 됨으로써 챗GPT와 DALL-E 3가 그랬던 것처럼 바드와 이미젠 2도 파워 커플이 될 수 있는 잠재력을 가지고 있다.
특히 바드에 더욱 강력한 제미니 프로 언어 모델을 도입하는 것을 고려할 때 더욱 그렇다.
이미지FX는 텍스트-이미지 시장에서 어디에 적합할까?
이미지FX 인공지능 이미지 생성 도구는 텍스트-이미지 시장에서 기존의 여러 경쟁사들과 경쟁하고 있다. 경쟁 도구로는 오픈AI의 DALL-E 3와 Midjourney가 있다.
아래에서 각 도구가 제공하는 기능에 대한 간략한 개요를 살펴보자.
기능 | 이미지FX | DALL-E 3 | Midjourney |
사용 편의성 | 쉬움 | 쉬움 | 어려움 |
무료로 이미지 만들기 | 가능 | 불가능 | 불가능 |
랜덤 이미지 생성 | 가능 | 가능 | 가능 |
크기/크기 | 가능 이미지 1536×1536 | 가능 이미지 1024×1024, 1024×1792, 1792×1024 | 가능 이미지 1024×1024, 2048×2048, 4096×4096 |
원터마크 | 가능 (SynthID) | 가능 (C2PA) | 불가능 |
저작권 | 해당사항 없음 | 사용자 소유 | 사용자 소유 |
무료 요금제 | 없음 | 있음 | 없음, 챗GPT 플러스 또는 엔터프라이즈와 같은 유료 플랜 요구 |
가격 | 무료 | 유료 요금제는 챗GPT의 경우 사용자당 월 $20, 챗GPT 팀의 경우 사용자당 월 $25부터 시작하며, 엔터프라이즈 패키지의 경우 요청 시 가격이 책정 | 유료 플랜은 베이직 플랜 월 $10, 스탠다드 플랜 월 $30, 프로 플랜 월 $60, 메가 플랜 월 $120부터 시작하며, 더 빠른 GPU 시간 및 기타 혜택이 포함됨 |
접속방법 | 구글 검색 연구소 ( 일부 지역에 한함) | 챗GPT | 디스코드 |
구글의 AI 안전 및 법적 보호
구글은 인공지능이 생성한 이미지로 인한 위험을 완화하기 위해 몇 가지 기본적인 안전 보호 기능을 갖추고 있다. 이러한 보호 기능 중 하나는 폭력적이거나 모욕적이거나 성적으로 노골적인 콘텐츠의 생성을 방지하는 콘텐츠 검토 가이드라인이다.
또한 사용자가 AI가 생성한 이미지를 더 쉽게 식별할 수 있도록 하기 위한 노력을 기울이고 있다.
예를 들어, 이미지FX로 생성된 모든 이미지에는 식별하기 쉽도록 SynthID의 디지털 워터마크가 부여된다. 마찬가지로 이미지에는 IPTC 메타데이터도 포함되어 있어 사용자가 AI가 생성한 이미지임을 알 수 있다.
디지털 워터마크를 사용하는 것은 실제 인물과 구별하기 어려운 디지털로 만들어진 이미지인 딥페이크에 대한 우려를 해소하기 위한 시도이다.
동시에 구글은 “사용자는 구글의 정책 또는 관련 법률에 따라 이미지 삭제를 요청할 수 있다”고 명시하고 있다. 이는 현지 법률을 위반하는 이미지를 삭제할 수 있는 기본적인 메커니즘을 제공한다.
구글의 개인정보 처리방침에 따르면 사람이 이미지FX와 나눈 대화에 주석을 달고 처리하기 때문에 사용자 입력이 완전히 비공개가 아니라는 점에 유의할 필요가 있다.
인공지능 이미지 생성의 미래
인공지능 이미지 생성은 현재 빠르게 발전하고 있으며, 구글과 오픈AI와 같은 업체들은 텍스트, 이미지, 오디오, 동영상 등의 입력에 반응할 수 있는 멀티모달 인공지능 솔루션을 구축하고자 한다.
이미지FX와 그 기반 모델인 이미젠 2의 개발은 구글이 고품질의 사실적인 이미지를 생성하는 기능을 제품 에코시스템에 통합하려는 시도를 하고 있음을 보여준다. 이는 이미젠 2를 사용하여 바드에 이미지 생성 기능을 추가한 것에서 알 수 있다.
아직 이미지 생성 기술의 발전은 갈 길이 멀기만 하다. 스테이블 디퓨전이나 미드저니와 같은 도구는 사용자에게 강력한 텍스트-이미지 생성기를 제공했지만, 사용하기 어려웠다.
또한 현재의 기술은 손이나 얼굴과 같은 요소에 어려움을 겪고, 실제와 같은 디자인을 묘사하려고 할 때 불안한 언캐니 밸리 효과가 발생하는 등 사실적인 이미지를 개발하는 데 어려움을 겪어왔다.
결론
이미지 생성은 현재 인공지능 시장에서 매우 빠르게 변화하는 분야이다. 구글의 이미지FX 출시는 가장 접근하기 쉬운 텍스트-이미지 생성기 중 하나로 남아 있는 DALL-E 3와 경쟁을 시작할 수 있는 큰 기회를 제공한다.
FAQs
이미지FX는 어디에서 사용해 볼 수 있나요?
이미지FX는 무료인가요?
언제 전 세계에서 이미지FX를 사용할 수 있나요?
출처
- 로그인하여 이렇게 음악 만들기를 시작하자 (AI 테스트 키친)
- DALL-E 3는 이제 챗GPT Plus 및 Enterprise에서 사용할 수 있습니다 (OpenAI).
- 이미지 2 (딥마인드 구글)
- 실험실의 최신 생성 AI 도구인 ImageFX와 MusicFX를 사용해 보기(구글)
- AI와 창의성의 교차점에서의 실험 (AI 테스트 키친)
- 로그인하여 이미지 제작 시작하기 (AI 테스트 키친)
- 구글에 콘텐츠 신고 (구굴)