GPT-4 수준 성능에 근접했지만 여전히 따라잡기 중인 Grok 1.5

테코피디아 신뢰성
핵심 내용

  • 엘론 머스크의 AI 스타트업 X.AI의 챗봇인 Grok 1.5는 다양한 벤치마크에서 GPT-4 수준의 성능에 근접하며 유망한 성능 향상을 보이고 있다.
  • Grok의 독특한 판매 포인트는 유머러스한 접근 방식과 엄격한 콘텐츠 중재 가이드라인으로부터의 자유로움에 있지만, 시장에서의 성공 여부는 여전히 불확실하다.
  • 그러나 챗GPT 및 Gemini와 같은 경쟁업체와의 테스트에서 놀라울 정도로 좋은 성적을 거두었다.
  • 유머러스한 접근 방식을 통해 사용자에게 세상에 대한 위트 있는 관점을 제공함으로써 AI 환경에서 독특한 옵션으로 남아 있다.

빅맥보다 더 빠르게 새로운 모델이 출시되는 인공지능(AI)의 시대에는 일주일이 1년처럼 느껴진다.

엘론 머스크의 AI 스타트업 X.AI의 유머러스한 챗봇 Grok은 이제 1.5 버전에 이르렀고, 아래에서 설명하겠지만 챗GPT만큼 자유롭게 사용할 수 있는 경쟁이 벌어지고 있지만 아직 그 정도까지 왔을까?

3월 말에 출시된 Grok 1.5는 GPT-4 Turbo와 동일한 128,000 토큰의 컨텍스트 길이를 자랑할 뿐만 아니라 MMLU(대규모 다중 작업 언어 이해), MATH(수학 문제 해결), GSM8K(Grade School Math 8K) 등 주요 성능 벤치마크에서 GPT-4 수준에 근접한 성능을 보인다.

언어 모델의 코드 생성 능력을 측정하는 HumanEval이라는 항목에서 Grok 1.5는 실제로 74.1%의 점수로 67%의 GPT-4보다 우수한 성능을 보였다.

이러한 결과는 유망하지만, 머스크는 “Grok 2는 모든 지표에서 현재의 AI를 능가할 것”이라고 주장하면서 “현재 훈련 중”이라는 포스트를 X에 공개하며 앞으로 나올 것의 맛보기일 뿐이라고 주장했다.

업데이트 이후 Grok은 어떤 상태인가?

2023년 11월에 X.AI가 처음 발표되었을 때, X 플랫폼을 통해 세상에 대한 실시간 지식을 갖춘 비서인 챗GPT에 대한 머스크의 해답으로 소개되어 많은 화제를 불러일으켰다. 현재 Grok 1은 3,140억 개의 파라미터를 가진 시중에서 가장 큰 오픈소스 모델 중 하나이다.

그러나 출시 직후에는 재미없다에서 워크(Woke)에 이르기까지 모든 각도에서 비판에 직면했고, 결국 GPT-4 수준에는 도달하지 못했다.

Grok 1.5의 출시는 유머 챗봇과 챗GPT 사이의 격차가 좁혀지고 있음을 보여준다는 점에서 X.AI의 큰 승리이다. 하지만 아직 따라잡아야 할 부분이 남아 있다.

우선, 규모의 문제가 있다. Grok은 프리미엄+ 구독자만 이용할 수 있으며, 현재 플랫폼에 얼마나 많은 프리미엄+ 구독자가 있는지는 불분명하다.

2023년 9월, 포춘은 유료 가입자가 4만 명이라고 보도했다. 이에 비해 챗GPT는 같은 달에 1억 명의 주간 활성 사용자가 있었다.

물론 챗GPT가 자리를 잡는 데 더 오랜 시간이 걸렸고 퍼스트 무버라는 이점이 있었지만, Grok이 직면한 가장 큰 문제 중 하나는 대규모 언어 모델(LLM) 시장의 경쟁이 얼마나 치열하냐는 점이다. 현재 고성능 툴이 너무 많기 때문에 AI 공급업체는 우수한 성능뿐만 아니라 구체적인 차별화를 제공해야 한다.

AI 시장에서 유머의 위치

다른 LLM과 차별화하기 위해 X.AI는 처음에 Grok을 “은하수를 여행하는 히치하이커의 안내서”를 모델로 한 “약간의 재치”와 “반항적인 성향”을 지닌 “거의 모든 것에 대답할 수 있는” “인공지능”으로 마케팅을 했다. 여기에는 “대부분의 다른 인공지능 시스템에서 거부하는 매운 질문”도 포함된다.

이런 의미에서 Grok의 차별화는 사용자에게 챗GPT나 Bard(현재 구글 제미니)와 같은 중재 가이드라인에 얽매이지 않고 보다 가벼운 방식으로 더 다양한 질문에 응답하는 가상 비서를 제공한다는 것이었다.

이러한 차별화의 문제점은 콘텐츠 중재에 대한 Grok의 접근 방식과 유머러스한 결과물이 대부분의 사용 사례에서 챗GPT, 제미니 또는 Claude 3보다 더 나은지 궁극적으로 불분명하다는 것이다. 예를 들어, 콘텐츠 제작과 번역은 유머를 사용할 기회가 많지 않다.

또한 생성형 AI는 상당수의 사람들이 이 기술이 미래에 어떤 의미가 있는지에 대해 불안해하고 있다는 점에서 홍보에도 큰 문제가 있다.

퓨 리서치에 따르면, 미국인의 52%가 인공지능의 사용 증가에 대해 기대보다는 우려를 더 많이 느낀다고 답했다.

마찬가지로 포브스 Advisor에서 실시한 조사에 따르면 76%의 소비자가 챗GPT, Bing Chat, Gemini와 같은 인공지능 도구의 잘못된 정보에 대해 우려하고 있는 것으로 나타났다.

이러한 우려가 얼마나 널리 퍼져 있는지를 고려할 때, 유머보다 정확성과 무해성을 강조하는 엄격하게 조정된 AI 도구를 선호하는 사용자들이 많을 것이다.

이는 Grok이 위험하다는 뜻이 아니라, 많은 사람들이 언어 모델의 잘못된 정보, 편견에 찬 결과물, 유해한 콘텐츠를 생성하는 일반적인 경향에 대해 너무 조심스러워 유머러스한 AI 비서를 받아들이기에는 (X.AI가 강력한 콘텐츠 중재 정책을 가지고 있더라도) 위험하다는 뜻이다.

X.AI는 초기 홍보 자료에서 “유머가 싫으면 사용 금지!”라는 문구를 통해 이러한 사용자들을 정면으로 다루려고 했지만, 이러한 포지셔닝은 Grok이 시중의 다른 모든 LLM보다 우위에 서지 않는 한 많은 사용자들의 외면을 받을 수밖에 없을 것이다.

Grok 대 GPT-4, Gemini

챗GPT w/GPT-4와 Gemini는 LLM 시장에서 Grok의 가장 큰 경쟁자이지만, 각 경쟁자는 상당한 우위를 점할 수 있는 몇 가지 강력한 장점과 시장 포지셔닝을 가지고 있다.

2022년 11월 챗GPT를 출시한 이후 OpenAI는 주력 모델인 GPT-4를 텍스트, 음성, 이미지 입력을 모두 수용하는 멀티모달 가상 어시스턴트로 구축했다. 또한 앱 스토어에 해당하는 생성형 AI인 GPT 스토어도 구축하여 개발자가 GPT 빌더로 만든 맞춤형 버전의 챗GPT를 공유할 수 있도록 했다.

이와 유사하게 제미니는 사용자가 웹 검색에 사용할 수 있는 멀티모달 리서치 어시스턴트로서의 정체성을 구축했다. 또한 구글 클라우드 및 Gmail, 구글 문서도구, 검색과 같은 구글 제품과의 통합을 출시하고 있다.

마이크로소포트와 같은 다른 경쟁사에는 GPT-4 기반의 Bing Chat과 마이크로소포트 Office 365 에코시스템이 있다.

이에 비해 Grok은 유망한 성능, X와의 연결성, 유머러스한 사용 외에는 거의 가진 것이 없다. 이 정도면 OpenAI나 구글과 맞붙을 수 있는 위치에 오를 수 있을지는 아직 미지수이다.

결론

Grok은 짧은 시간 동안 먼 길을 걸어왔지만, 그 성능에도 불구하고 경쟁이 치열한 LLM 시장에서 챗GPT 및 Gemini와 동등하게 고려되기까지는 갈 길이 멀다.

그러나 실험을 위한 도구로서, 그리고 대안으로서 세상을 바라보는 시선과 약간의 비꼬는 말투를 가진 경쟁자가 있다는 것은 좋은 일이다.

Tim Keary
Technology Specialist
Tim Keary
테크 전문가

본 작가는 2017년 1월부터 기업 테크 및 사이버 보안을 다루는 독립 기술 작가이자 리포터로 활동하고 있습니다.