이번 주에 출시된 메타의 최신 인공지능 모델인 라마3는 이 기술 대기업의 ‘차세대 언어 모델‘이다.
메타에 따르면 “현재까지 공개된 LLM(대규모 언어 모델) 중 가장 성능이 뛰어난 모델”이다.
80억 개 및 700억 개 매개변수 모델의 두 가지 형태로 제공되는 라마3는 여러 업계 벤치마크에서 최첨단 성능을 입증했으며, 특정 지역에서는 조직의 새로운 가상 비서인 메타 AI를 통해 액세스할 수 있다.
앞으로 몇 달 안에 더 큰 컨텍스트 창, 추가 모델 크기 및 성능 향상을 포함한 새로운 기능을 도입할 것이라는 메타의 약속이 함께 제공된다.
라마3의 출시로 메타는 최고의 오픈 소스 LLM이 되었을 뿐만 아니라 GPT 3.5 및 제미니(Gemini)를 비롯한 최고의 독점 모델과도 경쟁할 수 있게 되었다.
전문가들에게 의견을 구하고 공개된 통계가 가장 가까운 경쟁사와 어떻게 비교되는지 자세히 살펴본다.
라마3에 대해 우리가 아는 것
발표 블로그 게시물은 이 모델이 이전 세대의 라마 2 모델에 비해 얼마나 개선되었는지에 대해 설명하는 데 시간을 낭비하지 않았다.
“새로운 8B 및 70B 파라미터의 라마3 모델은 라마 2에 비해 크게 도약했으며, 해당 규모의 LLM 모델에 대한 새로운 최첨단 기술을 확립했다.
“사전 훈련과 사후 훈련의 개선 덕분에 사전 훈련 및 인스트럭션 미세 조정 모델은 8B 및 70B 파라미터 규모에서 현존하는 최고의 모델이다”라고 계시물은 설명했다.
이러한 성능을 가능하게 하는 한 가지 핵심 요소는 고품질의 학습 데이터를 사용한다는 점이다. 예를 들어, 라마3는 공개적으로 사용 가능한 소스에서 수집한 15조 개 이상의 토큰으로 사전 학습되었으며, 이는 라마 2에 사용된 데이터 세트보다 7배 더 큰 규모다.
연구원들은 또한 데이터 품질을 예측하고 품질이 낮은 입력을 제거하는 데 사용되는 휴리스틱 필터, NSFW 필터, 시맨틱 중복 제거 접근법, 텍스트 분류기와 같은 데이터 필터링 파이프라인을 사용했다.
하지만, 라마2와 라마3의 가장 큰 발전은 아마도 후자는 메타 AI 어시스턴트를 통해 접근할 수 있다는 점일 거다. 라마2는 오픈 소스였지만 챗GPT나 제미니와 같은 다른 도구만큼 접근성이 용이하지 않았는데, 메타 AI가 추가되어 이 문제를 해결하는 데 도움이 된다.
이제 호주, 캐나다, 가나, 자메이카, 말라위, 뉴질랜드, 나이지리아, 파키스탄, 싱가포르, 남아프리카공화국, 우간다, 잠비아, 짐바브웨의 사용자들은 페이스북, 인스타그램, 왓츠앱(WhatsApp), 메신저에서 메타 AI 및 라마3에 액세스할 수 있다.
이 모델은 향후 AWS, 데이터브릭스(Databricks), 구글 클라우드, 허깅페이스(Hugging Face), 캐글(Kaggle), IBM 왓슨X(IBM WatsonX), 마이크로소프트 애저(Microsoft Azure), 엔비디아 NIM, 스노우플레이크(Snowflake)에서도 사용할 수 있게 될 예정이다.
라마3가 메타를 매우 편안한 위치에 올려놓은 방법
라마3의 출시로 메타는 LLM 시장에서 매우 편안한 위치에 올라섰다. 이제 가장 고성능의 모델 중 하나를 보유하게 되었을 뿐만 아니라 가장 접근하기 쉬운 모델 중 하나를 보유하게 되었다.
도미노데이터랩(Domino Data Lab)의 전략 책임자인 켈 칼슨(Kjell Carlsson) 박사는 테코피디아에 이렇게 말했다:
“진정으로 차별화된 GenAI 애플리케이션을 구축하고자 하는 기업들에게 라마3가 사실상의 표준이 될 것이라는 것은 거의 기정사실이다.”
“클라우드에서 호스팅해야 하는 거대한 독점 모델인 GPT-4 및 제미니와는 달리, 라마3는 기업이 제어, 미세 조정 및 구축할 수 있고 필요한 곳 어디에서나 호스팅할 수 있는 무료 오픈 소스 모델을 제공한다.”
또한, 칼슨은 ‘상대적으로 작은 크기‘는 확장해야 하는 애플리케이션의 비용 및 속도 요구 사항을 충족할 수 있으며, 전반적인 개선으로 비슷한 크기의 대부분의 모델을 능가할 수 있다는 것을 의미한다고 주장다.
결국, 작은 언어 모델은 큰 언어 모델보다 컴퓨팅 성능이 덜 필요하다. 모델에 파라미터가 많을수록 학습 또는 실행에 더 많은 비용이 든다.
메타의 출시가 오픈 소스 시장에 주는 의미
이번 메타 릴리스의 가장 큰 승자는 (메타를 제외하고) 오픈 소스 시장이며, 이제 사용자가 선택할 수 있는 또 다른 고성능 LLM이 생겼다.
지속적 머신러닝 플랫폼인 ClearML의 CEO이자 공동 창립자인 모세 구트만(Moses Guttmann)은 테코피디아에 이메일을 통해 다음과 같이 말했다:
“메타의 고급 기능을 갖춘 라마3의 출시는 오픈 소스 생성 AI 시장에서 새로운 벤치마크를 설정할 준비가 되어 있다.”
“오픈 소스 모델이 달성할 수 있는 한계를 뛰어넘음으로써, 라마3는 다른 기여자들이 자신의 제품을 향상시켜 전반적으로 혁신을 가속화하도록 도전한다. 이러한 최근의 발전은 오픈소스 AI가 폐쇄형 대안과 경쟁할 수 있는 잠재력 있다는 믿음을 재확인시켜 준다.”
오픈소스 모델의 성능이 향상될수록 모델 학습이나 의사 결정 방식에 대한 가시성이 제한적인 독점적인 블랙박스 AI 시스템의 대안으로 더욱 실용화될 거다.
하지만, 알렌인공지능연구소(Allen Institute for AI 혹은 AI2)의 선임 응용 연구 과학자인루카 솔다이니(Luca Soldaini)와 같은 다른 업계 전문가들은 오픈소스 생태계를 진정으로 풍요롭게 하려면 더 많은 투명성이 필요하다고 말했다.
솔다이니는 테코피디아에 이렇게 말했다:
“점점 더 많은 모델이 가중치를 공개하는 것은 좋은 일이지만, 오픈 소스 커뮤니티는 데이터, 학습, 로그, 코드, 평가 등 AI 파이프라인의 다른 모든 부분에 대한 액세스가 필요하다.”
“이를 통해 궁극적으로 이러한 모델에 대한 집단적 이해를 가속화할 뿐만 아니라 정확도를 높이고 편견을 줄이며 보다 의미 있는 AI 활용에 더 가까워질 수 있다.”
수치로 보는 라마3의 성능
2023년은 오픈 소스 개발의 해로 Llama 2, Falcon 180B, Mistral 7B와 같은 모델이 출시되었지만, 원시 성능 면에서 라마3의 수준에는 도달하지 못했다.
메타가 공개한 초기 자료에 따르면, 라마3 8B는 MMLU, GPQA, HumanEval, GSM-8K 및 MATH 성능 벤치마크에서 구글의 개방형 AI 모델인 젬마 7B와 미스트랄 AI의 미스트랄 7B보다 성능이 뛰어나다.
동시에 메타 라마3 70B는 주요 성능 벤치마크에서 제미니 프로 1.5 및 클로드 3 소네트과 같은 최고 성능의 독점 제품보다 뛰어난 성능을 발휘한다. 보다 구체적으로, 라마3 70B는 MMLU, HumanEval, GSM-8K와 같은 벤치마크에서 제미니 프로 1.5 및 클로드 3 소네트 보다 높은 점수를 기록했으며, GPQA 및 MATH와 같은 벤치마크에서도 경쟁력이 있었다.
특히, LLM이 언어를 얼마나 잘 이해하는지에 대한 불완전한 척도를 제공하는 MMLU 점수를 살펴보면 라마3의 82.0점은 GPT -4의 86.4점, 제미니 울트라(Gemini Ultra)의 90점에 매우 근접한 것을 볼 수 있다. 이는 오픈 소스 모델과 클로즈드 소스 모델 간의 격차가 점점 좁혀지고 있음을 시사한다.
라마3 8B vs 젬마 7B-IT과과 미스트랄 7B 인스트럭터
벤치마크 | 라마3 8B | 젬마 7B-IT | 미스트랄 7B 인스트럭트 |
MMLU | 68.4 | 53.3 | 58.4 |
GPQA | 34.2 | 21.4 | 26.3 |
HumanEval | 62.2 | 30.5 | 36.6 |
GSM-8K | 79.6 | 30.6 | 39.9 |
MATH | 30.0 | 12.2 | 11.0 |
라마3 70B vs 제미니 프로 1.5과 클로드 3 소네트
벤치마크 | 라마3 70B | 제미니 프로 1.5 | 클로드 3 소네트 |
MMLU | 82.0 | 81.9 | 79.0 |
GPQA | 39.5 | 41.5 | 38.5 |
HumanEval | 81.7 | 71.9 | 73.0 |
GSM-8K | 93.0 | 91.7 | 92.3 |
MATH | 50.4 | 58.5 | 40.5 |
결론
라마3는 오픈소스 커뮤니티의 큰 승리이다. 이제 AI 연구자들은 새로운 고성능 모델을 실험할 수 있게 되었으며, 이를 통해 해당 분야에 대한 이해를 높이고 고품질의 투명한 솔루션을 개발할 수 있다.
물론, 출시 당시 라마3는 텍스트 기반 모델이며 GPT-4 및 제미니와 같은 멀티모달 기능이 없지만, 향후 이러한 기능이 추가될 예정임을 확인했다.