세레브라스 시스템은 세계에서 가장 빠른 AI 추론 서비스라고 주장하는 제품을 출시하여 업계 리더인 엔비디아에 직접 도전장을 내밀었다.
세레브라스 시스템는 ‘세레브라스 추론’에 본사를 둔 AI 컴퓨팅 스타트업인 세레브라스 시스템의 새로운 ‘세레브라스 인퍼런스’ 플랫폼은 CS-3 칩을 기반으로 한다. 이 플랫폼은 이제 클라우드와 데이터 센터 운영자가 독립적으로 구매하여 실행할 수 있는 컴퓨팅 시스템의 일부로 제공된다.
세레브라스 인퍼런스 성능 및 아키텍처
8월 27일 보도자료에서 세레브라스는 자사의 새로운 플랫폼이 AI 추론 작업을 위한 엔비디아의 현 세대 Hopper 칩보다 20배 빠른 성능을 제공한다고 밝혔다.
Introducing Cerebras Inference
‣ Llama3.1-70B at 450 tokens/s – 20x faster than GPUs
‣ 60c per M tokens – a fifth the price of hyperscalers
‣ Full 16-bit precision for full model accuracy
‣ Generous rate limits for devs
Try now: https://t.co/50vsHCl8LM pic.twitter.com/hD2TBmzAkw— Cerebras (@CerebrasSystems) August 27, 2024
이 회사는 벤치마킹 회사인 Artificial Analysis에서 실시한 평가를 참조하여 성능 주장을 검증했다.
접시 크기의 CS-3 칩은 엔비디아가 사용하는 별도의 고대역폭 메모리 칩과 달리 메모리를 칩 웨이퍼에 직접 통합하는 독특한 아키텍처를 채택하고 있다.
AI 추론은 훈련된 머신 러닝 모델이 특정 사례에 의존하지 않고 새로운 데이터를 평가하고 결론을 도출하는 것을 포함한다. AI 데이터 학습은 정확한 추론을 생성할 수 있는 모델을 장착하여 이를 기반으로 구축한다는 점에서 데이터 학습과 다르다.
검증된 시장 조사에 따르면 AI 추론 칩 시장은 2023년 158억 달러 규모로 급성장하고 있으며 2030년에는 906억 달러에 달할 것으로 예상된다. 이러한 빠른 성장은 산업과 애플리케이션 전반에서 AI 추론의 채택이 증가하고 있음을 반영한다.
세레브라스의 혁신적인 CS-3 칩은 이러한 추세의 선두에 서서 AI 추론 워크로드에 탁월한 성능을 제공한다. 특히 오픈 소스인 라마 3.1 8B 모델의 경우 초당 1,800개의 토큰을 처리할 수 있으며, 이보다 큰 라마 3.1 70B 모델의 경우 초당 450개의 토큰을 처리할 수 있다.
공동 설립자이자 CEO인 Micah Hill-Smith는 세레브라스 인퍼런스에서 실행되는 이러한 모델이 메타의 공식 버전과 일치하는 “품질 평가 결과”를 달성한다고 확인했다.
성능에 대한 주장 외에도, 세레브라스는 자사의 서비스를 기존 솔루션에 대한 비용 효율적인 대안으로 포지셔닝하고 있다. 이 회사는 자사의 서비스가 백만 토큰당 10센트부터 시작하며, 이는 AI 추론 워크로드에 대해 100배 더 높은 가격 대비 성능을 제공한다고 주장한다.
AI gets cheaper and faster every day.
Meet Cerebras Systems a strong Groq competitor.
Also using custom AI chips for interference, instead of expensive (multi purpose) GPUs.
• 𝗳𝗮𝘀𝘁: Llama3.1-70B at 450 tokens/s – 20x faster than GPUs
• 𝗰𝗵𝗲𝗮𝗽: 60c per M tokens – a… pic.twitter.com/5Se5g7HT1K
— Christoph C. Cemper 🧡 AIPRM (@cemper) August 28, 2024
“800파운드의 고릴라를 이길 수 있는 방법은 훨씬 더 나은 제품을 시장에 출시하는 것”이라며 세레브라스의 전략을 강조한 Andrew Feldman CEO. 그는 이어서 세레브라스가 이미 엔비디아의 고객을 빼앗아가고 있다고 주장했다.
산업 컨텍스트 및 엔비디아 AI 경쟁
세레브라스는 현재 엔비디아가 장악하고 있는 수십억 달러 규모의 AI 칩 시장의 일부를 점유하는 것을 목표로 하는 그로크를 비롯한 소규모 기업 그룹에 속해 있다. 이 회사들은 챗GPT 및 구글의 제미니와 같은 애플리케이션을 구동하는 데 필수적인 AI 추론 기능에 대한 수요 증가를 활용하고 있다.
엔비디아의 Hopper GPU는 최고의 AI 모델을 훈련하는 데 있어 수요가 높은 상품이 되었지만, 세레브라스와 경쟁사들은 이러한 모델을 효율적으로 실행하도록 설계된 보다 특화된 칩에 집중하고 있다.
NVIDIA just announced new GPUs @NVIDIAGTC delivering up to 20 petaFLOPS per chip.
Many don't realize what a staggering, absurd amount of compute that is, so I'd like to provide some perspective:
* With a few gigaFLOPS, you can run basic image processing operations on
1/x pic.twitter.com/WmwcihfujC
— Rafael Spring (@Rafael_L_Spring) March 20, 2024
특히, AI 추론 분야의 또 다른 경쟁사인 그로크가 이번 달에 6억 4천만 달러를 유치하여 28억 달러의 가치를 평가받는등 AI 칩 스타트업 업계는 계속해서 활발한 활동을 보이고 있다 .
그러나 최근칩 제조업체인 그래프코어가 창업 이래 모금한 벤처 캐피탈 총액보다 적은 금액으로 소프트뱅크에 인수된 사례에서 알 수 있듯이 이 분야에도 어려움이 없는 것은 아니다 .
마찬가지로, 세레브라스 인퍼런스의 출시는 AI 컴퓨팅 환경의 중요한 발전을 의미한다.
특히 실시간 및 대용량 애플리케이션에서 AI 추론 기능에 대한 수요가 계속 증가함에 따라 세레브라스 인퍼런스의 솔루션은 잠재적으로 시장에 지각 변동을 일으킬 수 있다.