Wat is een Small Language Model (SLM)?
Een klein taalmodel, oftewel een small language model (SLM), is een lichtgewicht generatief AI-model. Het label “klein” in deze context verwijst naar de grootte van het neurale netwerk van het model, het aantal parameters dat het model gebruikt om een beslissing te nemen en de hoeveelheid gegevens waarop het model is getraind.
SLM’s hebben minder rekenkracht en geheugen nodig dan large language models (LLM’s). Dit maakt ze geschikt voor on-premises en on-device implementaties.
Techopedia legt uit
LLM’s zoals ChatGPT en Google Bard vergen veel middelen. Ze hebben complexe deep learning-architecturen, vereisen enorme hoeveelheden trainingsgegevens, hebben aanzienlijke hoeveelheden opslagruimte nodig en verbruiken ongelooflijke hoeveelheden elektriciteit.
Tot voor kort vormden deze resourcevereisten barrières voor toegang tot de markt en gaven ze Big Tech een groot voordeel in de snel veranderende markt voor kunstmatige intelligentie (AI). De ontwikkeling van SLM’s is begonnen met het verlagen van deze barrières en stelt startups en andere kleine bedrijven in staat om hun eigen taalmodellen te ontwikkelen en in te zetten.
Voordelen en beperkingen
SLM’s kunnen worden getraind met relatief kleine datasets. Hun eenvoudigere architecturen zijn beter uit te leggen en hun kleine voetafdruk maakt het mogelijk om ze in te zetten op mobiele apparaten.
Een van de belangrijkste voordelen van deze kleine taalmodellen is dat SLM’s ontworpen kunnen worden om gegevens lokaal te verwerken. Deze optie is vooral belangrijk voor Internet of Things (IoT) randapparaten en bedrijven die moeten voldoen aan een strikt privacy- en beveiligingsbeleid.
De inzet van small language models heeft echter een nadeel. Omdat SLM’s worden getraind op kleinere datasets, zijn hun kennisbases beperkter dan hun tegenhangers (de LLM’s). Ze hebben ook een beperkter begrip van taal en context, wat kan leiden tot minder nauwkeurige en/of minder genuanceerde antwoorden in vergelijking met grotere modellen.
Aspect | Kleine taalmodellen | Grote taalmodellen |
---|---|---|
Grootte | Kan minder dan 15 miljoen parameters hebben. | Kan honderden miljarden parameters hebben. |
Computationele vereisten | Kan processors voor mobiele apparaten gebruiken. | Kan honderden GPU-processors vereisen. |
Prestaties | Kan eenvoudige taken aan. | Kan complexe, uiteenlopende taken aan. |
Inzet | Gemakkelijker te implementeren in omgevingen met beperkte middelen. | Implementatie vereist vaak een aanzienlijke infrastructuur. |
Training | Kan binnen een week worden getraind. | Training kan maanden duren. |
Kleine taalmodellen vs. gespecialiseerde taalmodellen
Het acroniem SLM kan verwarrend zijn, omdat het staat voor “klein taalmodel” of “gespecialiseerd taalmodel”.
Om de verwarring nog groter te maken, kunnen veel kleinere taalmodellen ook worden gekarakteriseerd als gespecialiseerde taalmodellen.
Gespecialiseerde taalmodellen zijn specifiek getraind of verfijnd voor bepaalde domeinen of taken. Dit type model is ontworpen om goed te presteren in een bepaald gebied, wat van alles kan zijn, van juridisch jargon tot medische diagnoses.
Om verwarring te voorkomen, is het belangrijk om te onthouden dat kleine modellen worden gekenmerkt door:
- Het aantal parameters dat ze gebruiken
- De grootte van hun voetafdruk
- De hoeveelheid gegevens die nodig is om ze te trainen
Gespecialiseerde modellen worden gekenmerkt door hun onderwerp of domein.
Niet alle kleine taalmodellen zijn gespecialiseerd – en veel gespecialiseerde modellen zijn behoorlijk groot.
Voorbeelden
DistilBERT: DistilBERT is een kleinere, snellere en lichtere versie van BERT, het baanbrekende model voor natuurlijke taalverwerking (NLP).
Orca 2: Microsoft ontwikkelde Orca 2 door Meta’s Llama 2 te verfijnen met synthetische data van hoge kwaliteit. Dankzij deze aanpak kon Microsoft prestatieniveaus bereiken die kunnen wedijveren met die van grotere modellen of deze zelfs overtreffen, met name in nulsnelheid redeneertaken.
Phi 2: Microsofts Phi 2 is een transformatorgebaseerde SLM die is ontworpen om efficiënt en veelzijdig te zijn in zowel cloud- als edge-implementaties. Volgens Microsoft laat Phi 2 state-of-the-art prestaties zien voor wiskundig redeneren, gezond verstand, taalbegrip en logisch redeneren.
BERT Mini, Small, Medium en Tiny: Dit zijn kleinere versies van Google’s BERT-model, verkleind om te voldoen aan verschillende resourcebeperkingen. Er zijn verschillende groottes, van de Mini met slechts 4,4 miljoen parameters tot de Medium met 41 miljoen parameters.
GPT-Neo en GPT-J: Deze SLM-modellen zijn verkleinde versies van OpenAI’s GPT-modellen.
MobileBERT: Zoals de naam al zegt, is MobileBERT ontworpen voor mobiele apparaten.
T5-Small: Het Text-to-Text Transfer Transformer (T5)-model van Google is er in verschillende maten. T5-Small is ontworpen om een balans te bieden tussen prestaties en gebruik van bronnen.