2024년에 주목할 최고의 오픈 소스 LLM 6가지

2023년에 우리가 배운 것이 있다면 오픈소스 AI가 빠르게 성장하고 있다는 것이다. 2022년에는 OpenAI의 11월 ChatGPT 출시가 헤드라인을 장식했지만, 올해 들어 연구 및 상업적 용도의 고성능 오픈소스 대규모 언어 모델(LLM)이 점점 더 많이 등장하고 있다.

이러한 사전 학습된 오픈소스 LLM 모델은 아직 GPT4와 같은 독점 AI 모델의 성능을 뛰어넘을 단계는 아니지만, GPT 3.5와 같은 LLM을 대체할 수 있는 대안이 될 수 있다.

아래에서는 오픈 소스 AI 생태계가 계속 진화함에 따라 2024년에 주목해야 할 6가지 상위 LLM을 살펴본다.

최고의 오픈 소스 LLM 6가지

6. Llama 2: 종합적으로 뛰어난 LLM 모델

올해 출시될 가장 중요한 오픈소스 LLM 중 하나는 Meta의 라마 2로, 전반적인 범용성과 성능으로 인해 상업적 사용을 위한 최고의 오픈소스 LLM이라고 할 수 있다.

지난 7월, Meta와 Microsoft는 2조 개의 토큰으로 학습된 사전 학습된 생성형 AI 모델인 라마 2의 출시를 발표했으며, 70억~700억 개의 매개변수를 지원한다. 주목할 만한 점은 라마 2는 라마 1보다 40% 더 많은 데이터로 학습되었으며, 두 배의 컨텍스트 길이를 지원한다는 점이다.

이 글을 쓰는 시점에서 라마 2는 추론, 코딩, 숙련도 및 지식 테스트와 같은 주요 벤치마크에서 뛰어난 성능을 보이며 시장에서 가장 성능이 뛰어난 오픈 소스 언어 모델 중 하나로 남아 있다.

현재 허깅 페이스 오픈 LLM 리더보드에서는 평균 67.35점을 기록한 라마 2 70B가 2위, ARC 67.32점, 헬라스웨그 87.33점, MMLU 69,83점, 트루스풀큐에이 44.92점을 기록하며 시장에서 가장 우수한 LLM으로 평가받고 있다.

라마 2는 GPT4와 같은 독점 모델에 대해서도 유망한 성능을 보여주었다. 애니스케일의 수석 과학자이자 Google의 전 수석 엔지니어인 Waleed Kadous는 블로그 게시물을 통해 라마 2의 요약 정확도가 GPT4와 거의 동일한 수준인 동시에 실행 비용이 30배 더 저렴하다는 사실을 밝혀냈다.

메타에는 긴 쿼리에 응답할 때 우수한 성능을 발휘하도록 설계된 새로운 버전의 라마 2도 있다는 점에 주목할 필요가 있다. 이 버전은 4,000억 개의 토큰이 추가되고 32,000개의 컨텍스트 길이를 지원하는 Llama 2의 수정 버전이다.

출시 당시 Meta는 Llama 2 Long의 70B 버전이 질문에 대한 답변, 테스트 요약, 다중 문서 집계와 같은 긴 컨텍스트 작업에서 GPT 3.5 16ks 성능을 능가한다고 주장했다.

장점

단점

  • 자연어 생성
  • 채팅 사용 사례에 맞게 미세 조정
  • 단발성 학습
  • 멀티태스크 학습
  • 비슷한 규모의 LLM보다 적은 컴퓨팅 리소스 사용
  • 여러 언어로 번역
  • 여러 프로그래밍 언어 지원
  • 더 안전한 출력 생성
  • 1백만 개가 넘는 사람 주석을 포함한 다양한 데이터 세트 사용
  • 교육은 재정적, 전산적으로 많은 비용이 소요될 수 있다.
  • GPT 3.5와 같은 모델만큼 창의적이지 않음
  • 영어 이외의 언어 지원 제한
    성능은 사전 학습 데이터 품질에 따라 달라짐
  • AI 환각

5. Falcon 180B: 가장 강력한 오픈 엑세스 모델

2023년에 출시될 가장 큰 규모의 개방형 LLM(오픈 액세스) 중 하나는 Falcon 180B이다. 아랍에미리트 기술 혁신 연구소(TII)의 언어 모델은 최대 1,800억 개의 파라미터를 지원하는 RefinedWeb 데이터 세트에서 가져온 3조 5,000억 개의 토큰으로 학습되었다.

자연어 작업 완료에 탁월하도록 설계되었으며, 2023년 10월 현재 사전 학습된 언어 모델에 대한 Hugging Face Open LLM 리더보드에서 평균 68.74점, ARC에서 69.8점, HellaSwag에서 88.95점, MMLU에서 70.54점, TruthfulQA에서 45.67점을 획득하며 1위를 차지하고 있다.

TII는 팔콘 180B가 추론, 코딩 능력, 지식 테스트에서 “매우 우수한 성능“을 보였으며, 일부 영역에서는 라마 2와 같은 경쟁 제품을 능가하고 인기 있는 바드 챗봇을 구동하는 구글의 PaLM 2와 “동등한 수준”의 성능을 보였다고 주장했다.

챗봇 컨텍스트에서 Falcon 180B를 실험하고자 하는 연구자는 채팅 및 명령어 데이터에 맞게 조정된 기본 모델의 수정 버전인 Falcon 180B Chat이라는 수정 버전을 사용할 수 있다.

그러나 Falcon 180B의 주요 제한 사항 중 하나는 기본 라이선스가 상당히 제한적이라는 점이다. 사용자가 LLM을 사용하여 현지 또는 국제법을 위반하거나 다른 생명체에 해를 끼치는 행위가 금지되어 있을 뿐만 아니라, LLM을 기반으로 관리자 서비스를 호스팅하거나 제공하려는 조직은 별도의 라이선스가 필요하다.

또한, 팔콘 180B는 다른 독점 LLM이나 라마 2와 같이 안전을 위해 세밀하게 조정된 오픈 소스 LLM에 비해 가드레일이 부족하여 악의적인 사용 사례에 더 쉽게 사용될 수 있다.

장점

단점

  • GPT 3.5 및 Llama 2와 같은 인기 도구보다 더 강력하다.
  • 텍스트 생성
  • 코드 작성 및 디버그
    추론에 최적화
  • 연구 및 상업적 용도로 사용 가능
    채팅 및 인스트럭션 데이터에 대한 미세 조정
  • 다양한 데이터에 대한 학습(RefinedWeb 데이터 세트 포함)
  • 오픈 소스가 아닌 오픈 액세스
    상업적 사용에 대한 제한
  • 실행하려면 강력한 하드웨어가 필요함
  • 시중의 다른 도구만큼 사용자 친화적이지 않음
  • 모델에 대한 호스팅 액세스를 제공하기 전에 TII에 문의해야 함

4. Code Llama: 코드 생성을 위한 최고의 오픈 LLM

코드 라마 LLM 모델

코드 작성과 관련하여 올해 가장 흥미로운 출시 중 하나는 메타에서 코드 라마라는 형태로 출시되었다. 코드 라마는 5,000억 개의 코드 토큰과 코드 관련 데이터를 포함한 코드 관련 데이터 세트를 대상으로 라마 2를 학습시켜 만든 AI 모델이다.

Code Llama는 7B, 13B, 34B 매개변수를 지원하며 Python, C++, Java, PHP, Typescript(자바스크립트), C#, Bash 등 다양한 언어로 코드를 생성하고 코드가 수행하는 작업을 설명할 수 있도록 미세 조정되었다.

예를 들어, 사용자는 챗봇에게 피보나치 수열을 출력하는 함수를 작성하거나 지정된 디렉토리에 있는 모든 텍스트 파일을 나열하는 방법에 대한 지침을 요청할 수 있다.

따라서 워크플로를 간소화하려는 개발자나 코드의 기능과 작동 방식을 더 잘 이해하고자 하는 초보 코더에게 이상적이다.

코드 라마는 크게 두 가지 버전으로 나뉘는데, 코드 라마 파이썬과 코드 라마 인스트럭트가 있다. Code Llama – Python은 사용자에게 Python 프로그래밍 언어의 코드 작성 능력을 향상시키기 위해 추가로 1,000억 개의 Python 코드 토큰을 학습시킨다.

코드 라마 인스트럭트는 50억 개의 인간 명령어 토큰으로 학습된 코드 라마의 미세 조정 버전으로, 인간의 명령어를 더 잘 이해하기 위해 개발되었다.

장점

단점

  • 자연어 및 코드 생성 가능
    채팅 사용 사례에 사용할 수 있는 미세 조정된 모델 버전(Mistral 7B Instruct)
  • 추론 시간 단축(그룹화된 쿼리 관심도 활용)
  • 추론 비용 절감(슬라이딩 윈도우 관심도 활용)
  • 로컬에서 사용 가능
  • Apache 2.0 라이선스에 따른 제한 없음
  • 추가적인 미세 조정 없이는 코딩 성능이 GPT-4보다 뒤떨어진다.
  • 제한된 매개변수
  • 즉각적인 주사의 위험
  • 환각이 발생하기 쉬움

3. Mistral: 최고의 7B 사전 학습 모델

미스트랄 LLM 예시

2023년 9월, 미스트랄 AI는 70억 개의 파라미터를 갖춘 작지만 고성능 오픈 소스 LLM인 미스트랄 7B의 출시를 발표했다. 이 모델은 대규모 폐쇄 소스 모델보다 더 효율적으로 작동하도록 개발되어 실시간 애플리케이션 지원에 이상적이다.

미스트랄 7B는 그룹화된 쿼리 주의와 같은 기술을 사용하여 더 빠른 추론을 수행하고, 슬라이딩 윈도우 주의(SWA)를 통해 더 긴 시퀀스를 더 낮은 비용으로 처리한다.

이러한 기술을 통해 리소스 집약적인 LLM보다 더 낮은 비용으로 더 빠르게 대용량 텍스트를 처리하고 생성할 수 있다.

이 기관의 발표에 따르면 미스트랄 7B는 arc-e에서 80.0%, 헬라스웨그에서 81.3%, MMLU에서 60.1%, 휴먼에벌 벤치마크 테스트에서 30.5%를 기록하여 각 부문에서 라마 2 7B를 크게 앞질렀다.

또한 미스트랄 AI는 코드, 수학, 추론에서 라마 1 34B를 능가하는 성능을 보였으며 코드 작업에서는 코드 라마 7B의 성능에 근접한 것으로 나타났다.

이러한 정보를 종합해 볼 때, 미스트랄 AI는 자연어와 코드 생성 작업 모두에 적합한 선택이 될 수 있다.

공개적으로 사용 가능한 대화 데이터셋으로 학습된 Mistral 7B의 대체 버전인 Mistral 7B Instruct도 있으며, MT-Bench 벤치마크에서 모든 7B 모델을 능가하는 성능을 발휘한다.

한편, 일부 해설자들은 미스트랄 7 B의 콘텐츠 관리 부족으로 인해 폭탄 제작 방법 설명과 같은 문제가 있는 콘텐츠가 생성될 수 있다는 우려를 표명했다.

장점

단점

  • 자연어 및 코드 생성
  • 채팅 사용 사례에 사용할 수 있는 미세 조정된 모델 버전(Mistral 7B Instruct)
  • 빠른 추론 시간(그룹화된 쿼리 관심도 활용)
  • 추론 비용 절감(슬라이딩 윈도우 관심도 활용)
  • 로컬에서 사용 가능
  • Apache 2.0 라이선스에 따른 제한 없음
  • 미세 조정 없이는 코딩 성능이 GPT-4보다 뒤처짐
  • 제한된 매개변수
  • 프롬프트 주입에 노출됨
  • 환각

2. Vicuna: 최고의 크기-출력 품질 LLM 모델

LLM 모델 예시

비쿠나 13B는 UC 버클리의 학생과 교수진이 2023년 3월에 오픈 연구 조직인 대형 모델 시스템 조직(LMSYS Org)에서 운영하는 오픈 소스 챗봇이다.

LMSYS Org의 연구원들은 메타의 라마 모델을 ShareGPT.com에서 사용자들이 공유한 70,000건의 ChatGPT 대화로 미세 조정했다. 이 데이터로 라마를 훈련시킴으로써 비쿠나는 사용자 질문에 대해 ChatGPT에 필적하는 수준의 정교함으로 상세하고 명료한 답변을 생성할 수 있게 되었다.

예를 들어, LMSYS 조직에서 실시한 예비 테스트에 따르면, 비쿠나는 90%의 시나리오에서 라마와 스탠포드 알파카의 성능을 능가하면서 ChatGPT와 바드의 90%의 품질을 달성했다(연구진은 솔루션을 완전히 평가하기 위해서는 연구가 필요하다고 인정했다).

또한 LMSYS ORG는 비쿠나 13B가 MT 벤치에서 6.39, 1,061 경기장 ELO 등급, MMLU에서 52.1을 달성했다고 보고했다.

마찬가지로 언어 모델의 명령어 추종 능력 순위를 매기는 알파카에벌 리더보드에서도 비쿠나 13B는 82.11%의 승률을 기록했으며, GPT-3.5의 81.71%, 라마 2 채팅 70B의 92.66%에 비해 월등히 높았다.

Vicuna 13B의 훈련 비용이 약 300달러였다는 점을 고려하면 이러한 결과는 인상적이다.

Vicuna의 더 큰 버전인 Vicuna-33B도 있는데, 이 제품은 MT 벤치에서 7.12점, MMLU에서 59.2점을 기록했다.

장점

단점

  • 상세한 자연어 출력 생성
    경량
  • 훈련 비용 $300
  • ShareGPT에서 가져온 7만 개 이상의 대화로 미세 조정됨
  • 상업적으로 사용 가능
  • 추론 및 수학과 관련된 작업 수행에 제한이 있다.
  • 환각
  • 제한된 콘텐츠 중재 제어

1. Giraffe: 최상의 스케일-컨텍스트 길이 모델

2023년 9월, Abacus.AI는 모델의 컨텍스트 길이를 4,096개에서 32,000개로 확장하여 Llama 2를 기반으로 미세 조정된 AI 모델 제품군인 Giraffe의 70B 버전을 출시했다. Abacus.AI는 다운스트림 처리 작업의 성능을 개선하기 위해 Giraffe에 긴 컨텍스트 창을 제공했다.

컨텍스트 길이를 확장하면 LLM이 오류를 줄이면서 다운스트림 데이터 세트에서 더 많은 정보를 검색할 수 있다. 동시에 사용자와 더 긴 대화를 유지하는 데도 도움이 된다.

Abacus.AI는 Giraffe가 추출, 코딩, 수학 분야에서 모든 오픈 소스 모델 중 최고의 성능을 보여준다고 주장한다. MT-Bench 평가 벤치마크에서 Giraffe의 70B 버전은 7.01점을 기록했다.

“우리는 긴 컨텍스트에서 LLM 성능을 조사하는 벤치마크 세트에서 70B 모델을 평가했다.”라고 Abacus AI의 CEO인 빈두 레디는 말했다.

“70B 모델은 문서 QA 작업의 가장 긴 컨텍스트 창(32k)에서 13B 모델에 비해 크게 개선되어, AltQA 데이터 세트에서 61%의 정확도를 기록한 반면 13B의 정확도는 18%에 그쳤다. 또한 모든 컨텍스트 길이에서 비교 대상인 LongChat-32k 모델보다 성능이 뛰어나며, 가장 긴 컨텍스트 길이에서 61% 대 35%의 정확도를 기록했다(32k 컨텍스트 길이에서 61% 대 35%의 정확도 기록).”

또한 Abacus AI는 Giraffe 16k가 “최대 16,000개의 컨텍스트 길이까지 실제 작업에서 잘 작동하며, 잠재적으로 20~24,000개의 컨텍스트 길이까지 가능하다”고 보고했다.

장점

단점

  • 자연어 텍스트 이해 및 생성
  • 큰 컨텍스트 창은 더 큰 입력과 더 긴 대화를 지원함.
  • 16 모델은 최대 16K 컨텍스트 길이의 작업에서 우수한 성능을 발휘한다.
  • 비쿠나 인스트럭션의 미세 조정된 모델 버전 사용 가능
  • 상당한 연산 능력이 필요함
  • 검색 정확도 미세 조정 필요
  • 환각이 발생하기 쉬움

결론은?

이 글은 오픈소스 기반으로 개발되고 미세 조정되고 있는 LLM의 일부에 불과하지만, 이 모든 모델은 개방형 AI 솔루션의 범위가 빠르게 성장하고 있음을 보여준다.

오픈소스로 자유롭게 사용할 수 있는 LLM을 원한다면 시장에는 다양한 옵션이 있다. 이러한 모델의 반복 버전이 계속 출시되고 미세 조정됨에 따라 이러한 솔루션의 유용성은 계속 확대될 것이다.

관련 용어

Tim Keary

본 작가는 2017년 1월부터 기업 테크 및 사이버 보안을 다루는 독립 기술 작가이자 리포터로 활동하고 있습니다.