Wat is Federated Learning?
Federated learning, ook bekend als collaborative learning, is een nieuwe benadering van machine learning (ML). Deze methode benut de kracht van gedecentraliseerde gegevensbronnen, waardoor het mogelijk wordt om modellen gezamenlijk te trainen op verschillende apparaten of knooppunten. De data blijven hierbij lokaal bewaard, wat zorgt voor privacybescherming en efficiënte modelontwikkeling.
Bij federated learning verwerkt elk gekoppeld apparaat zijn lokale data met een AI-model (artificial intelligence) om de modelparameters te verbeteren. Deze bijgewerkte resultaten worden teruggestuurd naar de centrale server, die ze samenvoegt met de input van andere apparaten in het netwerk.
Deze verwerkingswijze betekent dat AI-modellen niet langer afhankelijk zijn van een enkele dataset op één server, datawarehouse of datameer.
Google introduceerde federated learning in 2016 als een alternatieve machine learning benadering met de publicatie van “Communication-Efficient Learning of Deep Networks from Decentralized Data”, een onderzoekspaper door een team van Google-wetenschappers.
Hoe werkt federated learning?
Google’s eerste onderzoekspaper over dit onderwerp beschrijft dat bij federated learning elke client een lokale dataset traint zonder deze naar de server te uploaden. In plaats daarvan berekent elke client een update van het huidige globale model op de server, en alleen deze update wordt gedeeld.
Een basisoverzicht van de interactie tussen de centrale server en de downstream apparaten is als volgt:
- Een organisatie zet een voorgetraind of ongetraind model in op een centrale server;
- Vervolgens distribueren ze het globale AI-model naar downstream clients, apparaten of servers;
- De clients trainen het model op lokaal opgeslagen gegevens zonder deze terug te sturen naar de cloud;
- De client stuurt de bijgewerkte modelparameters terug naar de centrale server (dit proces kan worden versleuteld voor extra beveiliging);
- Het globale AI-model verzamelt de parameters die door de clients zijn doorgestuurd en werkt zijn besluitvormingsproces bij;
- De server stuurt het bijgewerkte model terug naar alle downstream apparaten en servers.
ML op deze manier uitvoeren maakt het mogelijk dat AI-modellen continu getraind worden op een gedecentraliseerde dataset, zelfs als apparaten tijdelijk geen internetverbinding hebben.
Dit betekent ook dat organisaties de rekenkracht van verspreide apparaten kunnen bundelen om de snelheid en prestaties van modeltraining te verhogen.
Waarom is federated learning belangrijk?
Federated learning is een cruciale innovatie in machine learning om verschillende redenen.
Een belangrijke reden is dat het organisaties in staat stelt AI-modellen te trainen aan de rand van het netwerk. Door een gecentraliseerd AI-model te trainen met gedecentraliseerde data van diverse apparaten, zoals servers, smartphones, IoT-apparaten en wearables, kunnen waardevolle inzichten worden verkregen.
Tegelijkertijd minimaliseert federated learning de overdracht en verwerking van persoonlijke gegevens door derden, dankzij het ontbreken van gecentraliseerde gegevensopslag. Dit bevordert privacy en geeft gebruikers meer controle over hun data.
Organisaties kunnen federated learning inzetten om het risico op niet-naleving van gegevensbeschermingsregelgeving zoals de GDPR (General Data Protection Regulation) van de EU of HIPAA (Health Insurance Portability and Accountability Act) te verminderen.
Het is ook zeer waardevol voor organisaties in sterk gereguleerde sectoren zoals de financiële en gezondheidszorgsector, die voorzichtig moeten zijn met het verwerken van persoonlijk identificeerbare informatie (PII), patiëntgezondheidsinformatie, betalingsgegevens en andere gereguleerde data.
Gecentraliseerd vs. Decentraal federated learning
Er zijn twee hoofdtypen federated learning: gecentraliseerd en gedecentraliseerd. Bij gecentraliseerd federated learning (het meest voorkomende type) verwerken apparaten aan de rand van het netwerk data lokaal en sturen updates naar een centrale server.
Bij gedecentraliseerd federated learning wordt daarentegen geen centrale server gebruikt, maar werkt een netwerk van verbonden apparaten samen om parameters te aggregeren. Elk apparaat downloadt een AI-model, verwerkt lokale gegevens en stuurt de resultaten naar andere apparaten voor aggregatie.
Functie | Gecentraliseerd federated learning |
Gedecentraliseerd federated learning |
Aanpak voor modelaggregatie | Een centrale server verzamelt de modelparameters van alle apparaten voor het verwerken en verzenden van updates. | Een netwerk van aangesloten apparaten verzamelt de modelparameters. |
Enkelvoudig storingspunt | Ja, de centrale server is een single point of failure. Als de centrale server uitvalt, komt de modelaggregatie tot stilstand. | Nee, er is geen enkelvoudig foutpunt. Als er één knooppunt uitvalt, dan kan de rest van de knooppunten zien dat het onbereikbaar is en doorgaan met het samenvoegen van de modelresultaten. |
Prestaties | Kan traag zijn door de afhankelijkheid van één server. | Efficiëntere algemene prestaties doordat de werklast wordt verdeeld. |
Nauwkeurigheid model | Kan nauwkeuriger zijn dan gedecentraliseerd federated learning als de centrale server toegang heeft tot veel gegevens. | De nauwkeurigheid hangt af van de kwaliteit van de gegevens die op elk apparaat zijn opgeslagen en de reken- en verwerkingsmogelijkheden die ze bezitten. |
Verwerkingslatency | Mogelijk door centrale serververwerking. | Over het algemeen lager door gedistribueerde werklast. |
Gebruikscases | Ideaal voor toepassingen waarbij een hoge mate van nauwkeurigheid belangrijk is, zoals medische diagnose. | Ideaal voor gebruikssituaties waarbij het belangrijk is om bestand te zijn tegen uitval, zoals slimme woning apparaten. |
Wat zijn de voordelen van federated learning?
Er zijn een aantal belangrijke voordelen die federated learning biedt aan moderne organisaties. Deze omvatten:
- Organisaties kunnen gecentraliseerde AI-modellen bouwen terwijl ze voldoen aan de regelgeving voor de naleving van gegevensprivacy;
- Inzichten genereren uit apparaten aan de rand van het netwerk;
- Opschalen om gegevens van miljoenen apparaten te verzamelen;
- Het ontbreken van een verbinding met een centrale server leidt tot snellere modeltraining;
- Gegevensverwerking kan lokaal plaatsvinden op apparaten zonder internetverbinding;
- Het risico verkleinen dat een centrale server het doelwit wordt of gecompromitteerd wordt.
Conclusie
Federated learning is een essentiële benadering van AI-ontwikkeling geworden voor organisaties die inzichten willen verzamelen vanuit de rand van het netwerk en tegelijkertijd regelgevingsrisico’s willen vermijden. Door federated learning op de juiste manier in te zetten, kunnen organisaties vertrouwen op het veilig verkrijgen van inzichten uit hun gegevens zonder lokale of internationale gegevensbeschermingswetten te overtreden.