그록, AI 챗봇

테코피디아 신뢰성

그록이란?

그록(Grok)은 일론 머스크의 xAI에서 개발한 인공지능(AI) 챗봇 및 연구 도우미로, 사용자의 텍스트 프롬프트에 유머와 풍자를 섞어 응답하도록 설계되었다.

이 챗봇은 SF 코미디 영화인 ‘은하수를 여행하는 히치하이커를 위한 안내서’에서 영감을 받았으며, xAI의 최첨단 대규모 언어 모델(LLM)인 그록-1로 구동된다. 또한, X(구 트위터)에 작성된 게시물에서 실시간 데이터를 가져와 활용할 수 있다.

xAI는 발표 블로그 게시물에서 그록이 “거의 모든 질문에 답할 수 있도록 설계되었으며, 약간의 재치를 더해 질문에 답하도록 설계되었다”고 밝혔다. 이 솔루션은 사용자가 정보에 접근하고, 데이터를 처리하며, 새로운 아이디어를 발견하는 데 도움을 주는 것을 목표로 한다고 덧붙였다.

또한, 그록이 미국 내 제한된 사용자 그룹에게 먼저 제공될 예정이며, 이후 더 넓은 범위로 출시될 것이라고 전했다. 2023년 11월 22일, 머스크는 다음 주에 모든 프리미엄+ 가입자가 그록을 사용할 수 있게 될 것이라고 X에 게시했다.

그록 AI vs. 챗GPT, 기타 AI 어시스턴트 비교

현재 개발 단계에서 그록과 챗GPT, 클로드(Claude) 2와 같은 다른 AI 비서 사이의 주요 차별점은 그록이 X 소셜 미디어 플랫폼에서 실시간 데이터를 가져와 연결된다는 점이다.

이 학습 데이터의 성격은 공개적으로 밝혀지지 않았지만, X의 대량의 대화 콘텐츠와 잠재적으로 일부 공급업체의 비공개 독점 데이터에 액세스할 수 있다면 이 챗봇은 시장에서 중요한 플레이어가 될 수 있다.

그록의 유머와 재치에 대한 강조점은 GPT-4 및 Claude 2와 같은 경쟁업체와 차별화되는 또 다른 주요 포인트이기도 하다. 이들은 사용자와 대화 방식으로 상호작용하면서도 절제된 태도를 유지하고 해로운 출력물을 최소화하는 데 중점을 두었다. 머스크는 X에 게시한 글에서 그록이 “현실적이며 풍자를 좋아한다”고 설명했다.

결과적으로, 그록의 유쾌한 접근 방식은 일상적인 인간 상호작용의 가벼운 성격을 모방하여 재치 있는 응답으로 사용자들을 즐겁게 할 가능성을 지닌다.

다른 LLM과 비교했을 때 그록의 성능은 어떠한가?

학습을 시작한 지 두 달 만에, 그록-1 LLM이 Human Eval과 MMLU 같은 주요 AI 벤치마크에서 각각 63.2%와 73%의 점수를 기록하며 좋은 성과를 보였다고 xAI는 보고했다.

이 점수는 오픈AI의 GPT-3.5와 메타(Meta)의 라마(Llama) 2 70B 모두를 상회하는 결과다. 참고로, GPT-3.5는 Human Eval에서 48.1%, MMLU에서 70%를 기록했으며, Llama 2 70B는 각각 29.9%와 68.9%를 기록했다.

xAI는 또한 2023년 5월 헝가리 전국 고등학교 수학 시험에서 그록, 클로드 2, GPT-4의 성능을 테스트한 또 다른 성과 과제에서도 그록이 좋은 성과를 보였다고 보고했다. 이 테스트에서 그록-1은 59%로 C 학점을 받았고, 클로드 2는 55%로 C 학점을, GPT-4는 68%로 B 학점을 받았다.

그록이 GPT-4 수준의 성능에는 미치지 못하지만, 개발 기간이 4개월에 불과하다는 점을 고려할 때 특정 작업에서 GPT-3.5, Claude 2, Llama 2 70B와 같은 LLM과 경쟁할 수 있다는 사실은 인상적이라고 할 수 있다.

또한, 그록은 GPT-4와 Llama 2 70B와 같은 LLM에 비해 훨씬 적은 훈련 데이터와 컴퓨팅 자원을 사용한다. 그록-1이 얼마나 많은 파라미터를 가지고 있는지는 불분명하지만, 그록-0은 330억 개의 파라미터를 가지고 있는 것으로 보고되었다.

이에 비해 Llama 2는 700억 개의 파라미터를 가지고 있다.

그록을 개발한 연구팀

2023년 3월에 출범한 xAI는, 오픈AI, 딥마인드(DeepMind), 구글 리서치(Google Research), 토론토 대학교 등에서 근무한 경험이 있는 숙련된 AI 연구원들로 구성되어 있다.

이 팀에는 Ibor Babuschkin, Manual Kroiss, Yuhuai Wu, Christian Szegedy, Jimmy Ba, Toby Pohlen, Ross Nordeen, Kyle Kosic, Greg Yang, Guodong Zhang, Zihang Dai, Xiao Sun, Fabio Aguilera-Convers, Ting Chen, Szymon Tworkowski 등이 있다.

이 회사의 연구원들은 GPT-4, GPT-3.5, 알파스타(AlphaStar), 알파코드(AlphaCode), 인셉션(Inception), 미네르바(Minerva), 아담 옵티마이저(the Adam optimizer), 배치 정규화, 레이어 정규화, Transformer-XL, 자동 형식화, 배치 크기 스케일링 등 다양한 혁신에 기여했다.

전반적으로 고도로 숙련된 그록의 연구팀은 xAI가 향후 생성형 AI 시장에서 중요한 공급업체가 될 잠재력이 있음을 시사한다.

유해한 결과물 생성 가능성

그록은 LLM 기반 챗봇으로서, 다른 언어 모델들과 마찬가지로 유해하거나 차별적이거나 불법적인 콘텐츠를 생성할 수 있다는 위험을 안고 있다.

특히 그록이 사용자 프롬프트에 유머와 재치 있는 응답을 제공하는 데 중점을 두고 있어, 일부 사용자가 불쾌하게 느낄 수 있는 콘텐츠를 생성할 위험이 더 클 수 있다.

xAI가 언급한 바와 같이, 그록은 “반항적인 성향”을 가지고 있으며, 다른 AI 시스템이 거부하는 질문에도 답변할 것이라고 한다. 이는 공격적인 콘텐츠가 생성될 가능성이 더 많음을 의미한다.

또 다른 문제: X의 편향성

또 다른 잠재적 위험 요소는 X에서 가져온 실시간 데이터를 사용한다는 것이다. 과거에 트위터로 알려졌던 X는 유해성 및 허위 정보의 확산으로 많은 비판을 받아왔다.

예를 들어, Pew Research의 조사에 따르면, 사용자 중 17%가 플랫폼에서 괴롭힘이나 가학적 행위를 경험했으며, 33%가 부정확하거나 오해의 소지가 있는 정보를 본 적이 있다고 답했다.

이는 플랫폼의 일부 유해성 및 허위 정보가 그록의 학습 데이터에 유입되어 유해한 편향과 반응을 초래할 위험이 있음을 의미한다. 따라서 유해하거나 부정확한 콘텐츠가 출력물에 반영되지 않도록 상당한 양의 콘텐츠 조정이 필요할 것이다.

현재까지 xAI는 유해한 출력의 위험을 최소화하기 위해 노력하고 있는 것으로 보인다. 회사는 블로그 게시물에서 “LLM의 견고성을 개선하는 데 관심이 있다”며 “AI가 선의의 힘을 발휘할 수 있도록 최선을 다하고 있다”고 강조했다. 또한, xAI는 AI 안전 센터(Center for AI Safety)의 디렉터인 Dan Hendrycks의 자문을 받고 있다.

Tim Keary
Technology Specialist
Tim Keary
테크 전문가

본 작가는 2017년 1월부터 기업 테크 및 사이버 보안을 다루는 독립 기술 작가이자 리포터로 활동하고 있습니다.