Wat is extract transform load (ETL)?
Extract transform load (ETL) is het proces van extractie, transformatie en laden tijdens databasegebruik, maar vooral tijdens het gebruik van gegevensopslag. Het omvat de volgende subprocessen:
- Gegevens ophalen uit externe gegevensopslag- of transmissiebronnen
- Gegevens omzetten in een begrijpelijk format, waarbij gegevens meestal worden opgeslagen samen met een foutdetectie- en correctiecode om te voldoen aan operationele behoeften
- Gegevens verzenden en laden naar de ontvangende entiteit
Techopedia verklaart extract transform load
De eerste fase van een ETL-proces richt zich op het ophalen van de gegevens uit de opslagbron. De meeste projecten voor gegevensopslag integreren gegevens uit verschillende bronsystemen. Elk individueel systeem kan een aparte gegevensorganisatie of -indeling hebben. Veel voorkomende structuren van brongegevens zijn relationele databases en pure gegevensbestanden. Het kan ook gaan om niet-relationele databasepatronen zoals informatiebeheersystemen of andere gegevensstructuren zoals de VSAM (Virtual Storage Access Method) of ISAM (IBM Security Acces Manager). Gegevensbronnen kunnen zelfs externe bronnen zijn, zoals gegevens die van het internet komen of via een scansysteem.
De transformatiefase gebruikt een reeks regels of bewerkingen om pure gegevens van de bron op te halen, om vervolgens de gegevens in hun uiteindelijke vorm af te leveren voor manipulatie aan de ontvangende kant. Sommige gegevensbronnen hebben heel weinig of zelfs geen gegevensverwerking nodig. Soms zijn een of meer transformaties nodig om te voldoen aan de zakelijke en technische vereisten van de target database.
De fase waarin gegevensoverdrachts plaatsvindt, is gericht op het verzenden van gegevens naar de ontvangende entiteit, wat waarschijnlijk gegevensopslag is. Afhankelijk van de behoeften van de toepassing kan dit proces heel eenvoudig of heel ingewikkeld zijn. Sommige methoden voor gegevensopslag kunnen oude gegevens vervangen door cumulatieve gegevens. Het bijwerken van geëxtraheerde gegevens gebeurt normaal gesproken op periodieke basis.