Op het gebied van technologie is de tijdloze botsing tussen open source en propriëtaire (bedrijfseigen) modellen getuige van een nieuw slagveld dankzij de komst van generatieve AI.
Nu bedrijven actief op zoek zijn naar generatieve AI-oplossingen, waarbij 19% van de bedrijven al in de pilot- of productiefase zit, is het cruciaal geworden om te kiezen tussen open source en propriëtaire modellen.
In dit artikel verdiepen we ons in deze modellen en onderzoeken we hun voor- en nadelen.
Het lopende debat: open source vs. eigen modellen
Het debat tussen open source en eigen ontwikkelingsmodellen is niet nieuw; het is al tientallen jaren een hoeksteen van de software-industrie. Het ontstond in het begin van de jaren 1980 toen Richard Stallman de GNU General Public License (GPL) beweging initieerde om de toenemende dominantie van zelfontwikkelde software tegen te gaan.
Deze beweging kwam in een stroomversnelling met de release van de Linux kernel in 1991, die een alternatief bood voor het private Unix besturingssysteem.
Vandaag de dag is deze concurrentie geëvolueerd en uitgebreid tot verschillende softwarecategorieën zoals webbrowsers, productiviteitstoepassingen, databases, webservers, cloud computing diensten, mobiele besturingssystemen en ontwikkeltools.
De keuze tussen open source en eigen software hangt af van individuele behoeften, doelen en voorkeuren.
In huis gemaakte software is vaak voorzien van gespecialiseerde functies, toegewijde ondersteuning en naadloze integratie met andere producten van dezelfde leverancier. Open source modellen bieden daarentegen toegankelijkheid, aanpasbaarheid, transparantie en de kracht van crowdsourced ontwikkeling.
Velen beweren dat open source dus uitblinkt in de markt vanwege deze voordelen.
Een nieuw grensgebied: generatieve AI
Open-source en zelfontwikkelde software hebben een nieuw strijdtoneel gevonden: generatieve AI.
Hoewel het misschien lijkt op een gevecht zoals vanouds, is er een fundamenteel verschil dat deze situatie uniek maakt. In tegenstelling tot de open source-beweging, waar middelen zoals investeringen, denkkracht en inspanning door de menigte kunnen worden opgebracht, vereist generatieve AI aanzienlijke hoeveelheden data en energie.
Beide middelen worden steeds duurder en liggen voor het grootste deel buiten het bereik van open source bijdragen.
Daarom is het maken van een open source generatief AI-model niet helemaal gratis. Het kan kosten met zich meebrengen voor het labelen van gegevens en infrastructuurkosten voor het trainen van de AI-modellen.
Het is echter belangrijk op te merken dat deze investering op de lange termijn aanzienlijk kosteneffectiever is in vergelijking met propriëtaire generatieve AI, waarvoor meestal licentiekosten moeten worden betaald.
Transparantie speelt een cruciale rol in de context van open source generatieve AI-modellen, vooral gezien de black-box aard van deze AI-systemen, vooral wanneer ze worden gebruikt in kritieke toepassingen.
Bovendien kan het efficiënt optimaliseren van een open source generatieve AI de latency verlagen en de prestaties verbeteren. Door de source code in huis te hebben, hebben organisaties bovendien volledige controle over hun data, zodat gevoelige informatie binnen hun netwerk blijft en het risico van datalekken of ongeautoriseerde toegang wordt beperkt.
Bovendien kunnen vooraf getrainde open source generatieve AI-modellen worden afgestemd op de specifieke eisen van een organisatie en kan de AI ook worden getraind op specifieke datasets. Om deze wijzigingen of specificaties aan te brengen op een propriëtaire generatieve AI moet daarentegen vaak worden samengewerkt met een leverancier, wat zowel tijd als financiële kosten met zich meebrengt.
In tegenstelling tot open source, biedt private generatieve AI een betrouwbaarheidsniveau dat voortkomt uit de toegewijde ontwikkeling en het onderhoud door een gespecialiseerd team van experts. Deze modellen zijn niet het resultaat van lukrake community bijdragen, maar worden zorgvuldig ontwikkeld en verfijnd door een selecte groep individuen met een diepgaand begrip van de fijne kneepjes van AI.
Bovendien profiteren organisaties die kiezen voor zelfontwikkelde generatieve AI van ondersteuning op maat en gespecialiseerde kennis. Dit wordt aangevuld door de aanwezigheid van service level agreements (SLA’s) en technische assistentie, die een geruststellende laag van beveiliging bieden, vooral voor missiekritische operaties.
Het gemak van integratie in bestaande infrastructuur en strenge kwaliteitscontrolemaatregelen maken propriëtaire AI-oplossingen ideaal voor bedrijven van elke schaal. Eigen generatieve AI biedt bedrijven een betrouwbare en volledig ondersteunde oplossing.
Generatieve AI-landschap: open source vs. eigen AI-modellen
In de wereld van open source generatieve AI is LLaMa2 van Meta een opvallend taalmodel dat bekend staat om zijn aanpassingsvermogen en veelzijdigheid.
Dit model, met een indrukwekkende reeks parameters van 7 tot 70 miljard, is eenvoudig toegankelijk via platforms als Watsonx.ai en Hugging Face. Bloom van BigScience daarentegen is een meertalig model dat transparant is ontwikkeld door een grote AI-onderszoek community, wat het belang van openheid en samenwerking in het veld benadrukt.
Falcon LLM van het Technology Innovation Institute is een opmerkelijke kanshebber die opmerkelijke probleemoplossende capaciteiten biedt terwijl het minder middelen verbruikt.
Daarnaast zijn verfijnde modellen zoals Vicuna en Alpaca, die zijn gebaseerd op de LLaMa-architectuur, erin geslaagd om prestatieniveaus te leveren die vergelijkbaar zijn met GPT-4.
Open source generatieve AI-modellen hebben wijdverspreide toepassingen gevonden in verschillende sectoren. De samenwerking tussen IBM en NASA resulteerde in de ontwikkeling van een open source taalmodel (LLM) dat is getraind op geografische-ruimtelijke gegevens en bijdraagt aan initiatieven op het gebied van klimaatverandering.
Organisaties in de gezondheidszorg maken gebruik van open source generatieve AI voor toepassingen op het gebied van diagnostiek, optimalisatie van behandelingen, beheer van patiëntgegevens en initiatieven op het gebied van de volksgezondheid. De financiële sector heeft ook zijn eigen open source LLM, FinGPT, omarmd voor verschillende financiële toepassingen.
In de wereld van propriëtaire generatieve AI zetten industriereuzen als OpenAI en Google de toon. OpenAI’s GPT-4, met ongeveer 1,8 biljoen parameters, heeft een uitzonderlijk probleemoplossend vermogen en genereert content. Google’s Bard, met 137 miljard parameters, interpreteert en reageert snel en accuraat op menselijke vragen.
Deze eigen generatieve AI-tools vinden toepassingen in verschillende organisaties. Duolingo introduceerde Duolino Max, waarin de natuurlijke taalverwerking van GPT-4 is geïntegreerd. Khan Academy’s Khanmigo is een AI-chattool met GPT-4, en Microsofts Bing Chat-service maakt gebruik van GPT-4 om zoekopdrachten te verbeteren en gesprekken in natuurlijke taal te voeren.
Het dilemma: open source vs. propriëtaire generatieve AI
Het debat rond open sourcing generatieve AI-modellen is toegenomen, vooral na een recent incident waarbij onderzoekers een propriëtair generatief AI-systeem genaamd MegaSyn vroegen om giftige moleculen te maken, wat resulteerde in een aantal moleculen die leken op bekende zenuwgassen.
Dit werpt een brandende kwestie op: tegenstanders van het open sourcen van generatieve AI zijn van mening dat het moet worden opgesloten om misbruik te voorkomen, terwijl voorstanders van open source aanvoeren dat propriëtaire modellen te veel macht concentreren in de handen van een selecte groep.
Conclusie
Generatieve AI transformeert industrieën, maar de keuze tussen open source en propriëtaire modellen is cruciaal. Open source staat voor maatwerk en transparantie, terwijl propriëtaire betrouwbaarheid en ondersteuning biedt.
Open source generatieve AI vraagt om resources, maar biedt controle en kostenefficiëntie. Propriëtaire modellen bieden gespecialiseerde expertise en veiligheid.