Als we iets hebben geleerd in 2023, is het wel dat open-source AI snel terrein wint. Terwijl de novemberrelease van ChatGPT van OpenAI in 2022 de krantenkoppen stal, zijn er dit jaar steeds meer high-performance open-source large language models (LLM’s) ontstaan voor onderzoek en commercieel gebruik.
Hoewel deze vooraf getrainde open-source LLM-modellen nog niet in de fase zijn om de prestaties van propriëtaire AI-modellen zoals GPT4 te overtreffen, kunnen ze een levensvatbaar alternatief zijn voor LLM’s zoals GPT 3.5.
Hieronder bekijken we 6 van de beste LLM’s om in 2024 op te letten, aangezien het open-source AI-ecosysteem zich blijft ontwikkelen.
6 beste open-source LLM’s
6. Llama 2: beste open-source LLM in het algemeen
Een van de belangrijkste open-source LLM’s die dit jaar wordt gelanceerd, is Meta’s Llama 2, waarschijnlijk de beste open-source LLM voor commercieel gebruik vanwege de algehele veelzijdigheid en prestaties.
In juli kondigden Meta en Microsoft de release aan van Llama 2, een vooraf getraind generatief AI-model dat is getraind op 2 biljoen tokens en dat tussen de 7 en 70 miljard parameters ondersteunt. Het is de moeite waard om te benadrukken dat Llama 2 is getraind op 40% meer data dan Llama 1 en de dubbele contextlengte ondersteunt.
Op het moment van schrijven is Llama 2 nog steeds een van de best presterende open-source taalmodellen op de markt, met uitblinkers in belangrijke benchmarks zoals redeneren, coderen, vaardigheid en kennistests.
Momenteel rangschikt het Hugging Face Open LLM Leaderboard Llama 2 70B als de op één na beste LLM op de markt, met een gemiddelde score van 67,35, 67,32 op ARC, 87,33 op HellaSwag, 69,83 op MMLU en 44,92 op TruthfulQA.
Llama 2 heeft ook veelbelovende prestaties laten zien ten opzichte van gepatenteerde modellen zoals GPT4. Waleed Kadous, Chief Scientist bij Anyscale en voormalig Principal Engineer bij Google, publiceerde een blogpost waarin hij concludeerde dat de Llama 2 ongeveer hetzelfde nauwkeurigheidsniveau had bij samenvatting als GPT-4, terwijl hij ook 30x goedkoper was om te gebruiken.
Het is vermeldenswaard dat Meta ook een nieuwe versie van Llama 2 heeft, genaamd Llama 2 Long, die is ontworpen om goed te presteren bij het beantwoorden van lange query’s. Het is een aangepaste versie van Llama 2 die wordt geleverd met 400 miljard extra tokens en een contextlengte van 32.000 ondersteunt.
Bij de release claimt Meta dat de 70B-variant van Llama 2 Long de prestaties van GPT 3.5 16k overtreft bij taken met een lange context, zoals het beantwoorden van vragen, het samenvatten van tests en het aggregeren van meerdere documenten.
Voordelen
- Genereer natuurlijke taal
- Geoptimaliseerd voor chatgebruiksscenario’s
- Weinig schot leren
- Multitask leren
- Gebruikt minder rekenkracht dan LLM’s van vergelijkbare omvang
- Vertalen in meerdere talen
- Ondersteunt meerdere programmeertalen
- Genereert veiligere output
- Maakt gebruik van een diverse dataset met meer dan 1 miljoen menselijke annotaties
Nadelen
- Training kan financieel en rekenkundig kostbaar zijn
- Niet zo creatief als modellen zoals GPT 3.5
- Beperkte ondersteuning in andere talen dan Engels
- Prestaties zijn afhankelijk van de kwaliteit van de pre-trainingsgegevens
- Hallucinaties
5. Falcon 180B: het krachtigste open access-model
Een van de grootste open LLM’s (open access) die in 2023 werd gelanceerd, was Falcon 180B. Het taalmodel van het United Arab Emirates Technology Innovation Institute (TII) is getraind op 3,5 biljoen tokens uit de RefinedWeb-dataset, die tot 180 miljard parameters ondersteunt.
Het is ontworpen om uit te blinken in het voltooien van natuurlijke taaltaken en is vanaf oktober 2023 de hoogst gerangschikte LLM op het Hugging Face Open LLM Leaderboard voor vooraf getrainde taalmodellen, met een gemiddelde score van 68,74, 69,8 op ARC, 88,95 op HellaSwag, 70,54 op MMLU en 45,67 op TruthfulQA.
De TII beweert dat Falcon 180B “uitzonderlijk goed heeft gepresteerd” op het gebied van redeneren, coderingsvaardigheden en kennistests, waarbij het concurrenten als Llama 2 op sommige gebieden overtreft en “gelijkwaardig” presteert met Google’s PaLM 2, dat de populaire Bard-chatbot aanstuurt.
Onderzoekers die willen experimenteren met Falcon 180B in een chatbotcontext, kunnen een aangepaste versie gebruiken die Falcon 180B Chat heet, een aangepaste versie van het hoofdmodel dat is afgestemd op chat- en instructiegegevens.
Eén van de belangrijkste beperkingen van Falcon 180B is echter dat de onderliggende licentie behoorlijk beperkend is. Naast het verbieden van gebruikers om de LLM te gebruiken om lokale of internationale wetten te overtreden of andere levende wezens te schaden, hebben organisaties die van plan zijn om managersdiensten te hosten of aan te bieden op basis van de LLM, een aparte licentie nodig.
Bovendien heeft Falcon 180B minder beveiliging dan andere bedrijfseigen LLM’s of open-source LLM’s die zijn afgestemd op veiligheid, zoals Llama 2. Dit betekent dat de Falcon 180B gemakkelijker kan worden gebruikt voor kwaadaardige doeleinden.
Voordelen
- Krachtiger dan populaire tools zoals GPT 3.5 en Llama 2
- Tekst genereren
- Schrijf en debug code
- Geoptimaliseerd voor inferentie
- Beschikbaar voor onderzoek en commercieel gebruik
- Verfijnd op chat- en instructiegegevens
- Getraind op diverse data (inclusief de RefinedWeb dataset)
Nadelen
- Open access in plaats van open source
- Beperkingen op commercieel gebruik
- Vereist krachtige hardware om te kunnen draaien
- Niet zo gebruiksvriendelijk als andere tools op de markt
- U moet TII om toestemming vragen voordat u gehoste toegang tot het model aanbiedt
4. Code Llama: Beste Open LLM voor Codegeneratie
Als het gaat om het maken van code, kwam een van de meest opwindende releases van vorig jaar van Meta in de vorm van Code Llama. Het is een AI-model dat is gemaakt door Llama 2 te trainen op codespecifieke datasets, waaronder 500 miljard tokens aan code en codegerelateerde data.
Code Llama ondersteunt 7B-, 13B- en 34B-parameters en is verfijnd om code te genereren en uit te leggen wat code doet in een reeks talen, waaronder Python, C++, Java, PHP, Typescript (Javascript), C#, Bash en meer.
Gebruikers kunnen de chatbot bijvoorbeeld vragen om een functie te schrijven die de Fibonacci-reeks uitvoert of om instructies op te vragen over hoe alle tekstbestanden in een bepaalde directory moeten worden weergegeven.
Dit maakt het ideaal voor ontwikkelaars die hun workflows willen stroomlijnen of voor beginnende programmeurs die beter willen begrijpen wat een stuk code doet en hoe het werkt.
Er zijn twee hoofdvarianten van Code Llama; Code Llama Python en Code Llama Instruct. Code Llama – Python is getraind op 100B extra tokens aan Python-code om gebruikers betere codecreatiemogelijkheden te bieden in de Python-programmeertaal.
Code Llama Instruct is een verfijnde versie van Code Llama, die is getraind op 5 miljard tokens aan menselijke instructies en is ontwikkeld om menselijke instructies beter te begrijpen.
Voordelen
- In staat om natuurlijke taal en code te genereren
- Verfijnde versie van het model beschikbaar voor chat-use cases (Mistral 7B Instruct)
- Snellere inferentietijd (via Grouped-query-aandacht)
- Lagere inferentiekosten (via schuifvensteraandacht)
- Kan lokaal gebruikt worden
- Geen beperkingen onder Apache 2.0-licentie
Nadelen
- Coderingsprestaties blijven achter bij GPT-4 zonder extra fine-tuning
- Beperkte parameters
- Risico van snelle injecties
- Gevoelig voor hallucinaties
3. Mistral: Beste 7B voorgeprogrammeerde model
In september 2023 kondigde Mistral AI de release aan van Mistral 7B, een kleine maar krachtige open source LLM met 7 miljard parameters, die is ontwikkeld om efficiënter te functioneren dan grotere closed-source modellen, waardoor het ideaal is voor het ondersteunen van realtime-applicaties.
Mistral 7B gebruikt technieken zoals grouped-query attention om snellere inferentie uit te voeren en sliding window attention (SWA) om langere sequenties tegen lagere kosten te verwerken.
Deze technieken stellen de LLM in staat om grote teksten sneller en tegen lagere kosten te verwerken en genereren dan meer resource-intensieve LLM’s.
De release-aankondiging van de organisatie geeft aan dat Mistral 7B 80,0% scoorde op arc-e, 81,3% op HellaSwag, 60,1% op MMLU en 30,5% op HumanEval benchmarktests, wat LLama 2 7B in elke categorie aanzienlijk overtrof.
Mistral AI suggereerde ook dat Mistral Llama 1 34B overtreft en overtreft in code, wiskunde en redeneren, terwijl het de prestaties van Code Llama 7 B benadert op codetaken.
Samen suggereert deze informatie dat Mistral AI een haalbare keuze is voor zowel natuurlijke taal- als codegeneratietaken.
Er is ook een alternatieve versie van Mistral 7B genaamd Mistral 7B Instruct, die is getraind op openbaar beschikbare conversatiedatasets en alle 7B-modellen overtreft op de MT-Bench-benchmark.
Op een andere noot is het vermeldenswaard dat sommige commentatoren hun zorgen hebben geuit over het gebrek aan contentmoderatie van Mistral 7 B, wat ertoe heeft geleid dat het problematische content kan genereren, zoals instructies voor het maken van een bom.
Voordelen
- Genereer natuurlijke taal en code
- Verfijnde versie van het model beschikbaar voor chat-use cases (Mistral 7B Instruct)
- Snelle inferentietijd (via Grouped-query-aandacht)
- Lagere inferentiekosten (via schuifvensteraandacht)
- Kan lokaal gebruikt worden
- Geen beperkingen onder Apache 2.0-licentie
Nadelen
- Coderingsprestaties blijven achter bij GPT-4 zonder finetuning
- Beperkte parameters
- Blootgesteld aan snelle injecties
- Kan feiten hallucineren
2. Vicuna: Beste LLM qua grootte en outputkwaliteit
Vicuna 13B is een open-source chatbot die in maart 2023 werd uitgebracht door studenten en faculteitsleden van UC Berkeley, die opereert onder de open onderzoeksorganisatie Large Model Systems Organisation (LMSYS Org).
Onderzoekers van LMSYS Org namen het Llama-model van Meta en verfijnden het met 70.000 ChatGPT-gesprekken die door gebruikers werden gedeeld op ShareGPT.com. Door Llama te trainen met deze gegevens, heeft Vicuna de mogelijkheid gekregen om gedetailleerde en duidelijke antwoorden te genereren op vragen van gebruikers met een niveau van verfijning dat vergelijkbaar is met ChatGPT.
Voorlopige tests die zijn uitgevoerd door LMSYS Org suggereren bijvoorbeeld dat Vicuna 90% van de kwaliteit van ChatGPT en Bard behaalt, terwijl het Llama en Stanford Alpaca in 90% van de scenario’s overtreft (hoewel de onderzoekers toegeven dat er onderzoek nodig is om de oplossing volledig te evalueren).
LMSYS ORG meldt ook dat Vicuna 13B een 6,39 behaalde op MT-bench, een 1.061 arena ELO-beoordeling en 52,1 op MMLU.
Op het AlpacaEval-klassement, dat de instructie-volgcapaciteiten van taalmodellen rangschikt, behaalde Vicuna 13B een winstpercentage van 82,11%, vergeleken met 81,71% voor GPT-3.5 en 92,66% voor Llama 2 Chat 70B.
Deze resultaten zijn indrukwekkend als je bedenkt dat Vicuna 13B ongeveer $ 300 kostte om te trainen.
Er is ook een grotere versie van Vicuna genaamd Vicuna-33B, die een score van 7,12 behaalde op MT-bench en 59,2 op MMLU.
Voordelen
- Produceert gedetailleerde natuurlijke taaluitvoer
- Lichtgewicht
- Kosten $300 om te trainen
- Verfijnd met meer dan 70.000 conversaties afkomstig van ShareGPT
- Commercieel verkrijgbaar
Nadelen
- Beperkte prestaties bij taken waarbij redeneren en wiskunde een rol spelen
- Kan informatie hallucineren
- Beperkte controle op inhoudsmoderatie
1. Giraffe: Beste schaal-context lengtemodel
In september 2023 bracht Abacus.AI een 70B-versie van Giraffe uit, een familie van verfijnde AI-modellen op basis van Llama 2, waarbij de contextlengte van het model werd uitgebreid van 4.096 naar 32.000. Abacus.AI heeft Giraffe een lang contextvenster gegeven om de prestaties van downstream-verwerkingstaken te verbeteren.
Door de contextlengte uit te breiden, kan de LLM meer informatie uit een downstream-dataset ophalen en tegelijkertijd minder fouten maken. Tegelijkertijd helpt het ook om langere gesprekken met gebruikers te onderhouden.
Abacus.AI beweert dat Giraffe de beste prestaties van alle open-sourcemodellen laat zien in extractie, codering en wiskunde. Onder de MT-Bench-evaluatiebenchmark behaalt de 70B-versie van Giraffe een score van 7,01.
“We hebben een evaluatie van het 70B-model uitgevoerd op onze set benchmarks die de LLM-prestaties over lange contexten onderzoeken”, aldus Bindu Reddy, CEO van Abacus AI.
“Het 70B-model verbetert aanzienlijk bij de langste contextvensters (32k) voor de document-QA-taak versus het 13B-model, met een nauwkeurigheid van 61% versus de nauwkeurigheid van 18% van 13B op onze AltQA-dataset. We vinden ook dat het het vergelijkbare LongChat-32k-model overtreft bij alle contextlengtes, met een toenemende prestatie bij de langste contextlengtes (met een nauwkeurigheid van 61% versus 35% bij contextlengtes van 32k.”
Het is ook vermeldenswaard dat Abacus AI ook heeft gerapporteerd dat Giraffe 16k “goed zou moeten presteren bij taken in de echte wereld tot 16k contextlengtes” en mogelijk tot 20-24k contextlengtes.
Voordelen
- Begrijp en genereer natuurlijke taaltekst
- Groot contextvenster ondersteunt grotere invoer en langere gesprekken
- 16 modellen zouden goed moeten presteren op taken tot een contextlengte van 16K
- Vicuna-instructie verfijnde versie van het model beschikbaar
Nadelen
- Vereist aanzienlijke rekenkracht
- De nauwkeurigheid van het ophalen vereist een nauwkeurige afstemming
- Gevoelig voor hallucinaties
Conclusie
Hoewel dit artikel slechts het topje van de ijsberg is van enkele LLM’s die op open-sourcebasis worden ontwikkeld en verfijnd, illustreren al deze modellen dat het aanbod van open AI-oplossingen snel groeit.
Als u wilt dat uw LLM open-source en vrij beschikbaar is, zijn er genoeg opties op de markt. Naarmate er meer iteraties van deze modellen worden uitgebracht en verfijnd, zal het nut van deze oplossingen blijven toenemen.
Referenties
- Introducing Llama 3.2 – (Meta)
- Open LLM Leaderboard – (Hugging Face)
- Abstraction & Reasoning Corpus – (Lab 42)
- HellaSwag: Can a Machine Really Finish Your Sentence? – (Semantic Scholar)
- TruthfulQA – (Papers with Code)
- Llama 2 is about as factually accurate as GPT-4 for summaries and is 30x cheaper – (Anyscale)
- Falcon Refinedweb dataset – (Hugging Face)
- Falcon 180B – (Falcon LLM)
- Falcon 180B chat – (Hugging Face)
- Falcon 180B licence – (Hugging Face)
- Introducing Code Llama, an AI Tool for Coding – (Meta)
- Everything You Need To Know About Meta’s Code-Llama! – (Medium)
- Mistral 7B – (Mistral AI)
- Mistral 7B Instruct v0.1 – (Hugging Face)
- French AI Startup Mistral Faces Backlash as New LLM Generates Harmful Content – (Cryptopolitan)
- Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality – (LMSYS ORG)
- Chatbot Arena Leaderboard Week 8: Introducing MT-Bench and Vicuna 33B – (LMSYS ORG)
- AlpacaEval Leaderboard – (Tatsu Lab)
- Closing the Gap to Closed Source LLMs – 70B Giraffe 32k – (Abacus AI Blog)
- Giraffe – Long Context LLMs – (Abacus AI Blog)
- Abascus AI Long-Context – (Github)