Wat betekent tokeniseren?
Tokeniseren is het opsplitsen van een reeks strings in stukjes zoals woorden, sleutelwoorden, zinnen, symbolen en andere elementen die tokens worden genoemd. Token kunnen individuele woorden, zinnen of zelfs hele zinnen zijn. Tijdens het tokenisatieproces worden sommige tekens, zoals leestekens, verwijderd. De tokens worden de input voor een ander proces zoals parsing en text mining.
Tokenisatie wordt gebruikt in de informatica, waar het een grote rol speelt in het proces van lexicale analyse.
In de cryptowereld gaat het tokeniseren terug naar blockchaintechnologie en standaarden zoals Ethereums ERC-20 en ERC-721, die interoperabele tokens standaardiseren.
Aanvankelijk waren tokens vooral nutstokens voor toegang tot blockchaindiensten. Het concept evolueerde echter naar veiligheidstokens voor echte activa en de hoogst gewaardeerde NFT’s voor unieke digitale items, gedreven door de behoefte aan veilig, transparant en efficiënt beheer en handel in digitale activa.
Techopedia legt uit wat tokeniseren is
Tokenisatie vertrouwt meestal op eenvoudige heuristieken om tokens te scheiden door een paar stappen te volgen:
- Tokens of woorden worden gescheiden door witruimte, leestekens of regeleinden.
- Witruimte of leestekens kunnen al dan niet worden opgenomen, afhankelijk van de behoefte
- Alle tekens binnen aaneengesloten strings maken deel uit van het token. Tokens kunnen bestaan uit alle alfatekens, alfanumerieke tekens of alleen numerieke tekens.
Tokens zelf kunnen ook scheidingstekens zijn. In de meeste programmeertalen kunnen bijvoorbeeld identifiers samen met rekenkundige operatoren geplaatst worden zonder spaties. Hoewel het lijkt alsof dit als een enkel woord of token verschijnt, beschouwt de grammatica van de taal de wiskundige operator (een token) als een scheidingsteken, dus zelfs als meerdere tokens bij elkaar staan, kunnen ze nog steeds gescheiden worden via de wiskundige operator.