Was ist Tokenisierung?
Unter Tokenisierung versteht man die Zerlegung einer Folge von Zeichenketten in Teile wie Wörter, Schlüsselwörter, Phrasen, Symbole und andere Elemente, die als Token bezeichnet werden.
Token können einzelne Wörter, Phrasen oder sogar ganze Sätze sein.
Bei Tokenisierung werden einige Zeichen, wie z. B. Interpunktionszeichen, weggelassen. Die Token werden zur Eingabe für andere Prozesse wie Parsing und Text Mining.
Tokenisierung kommt in der Informatik zum Einsatz, wo sie im Prozess der lexikalischen Analyse eine große Rolle spielt.
Tokenisierung einfach erklärt
In der Regel beruht die Tokenisierung auf einfachen Heuristiken, um die Token in wenigen Schritten zu trennen:
- Token oder Wörter werden durch Leerzeichen, Satzzeichen oder Zeilenumbrüche getrennt.
- Leerzeichen oder Interpunktionszeichen können je nach Bedarf eingefügt werden oder nicht.
- Alle Zeichen innerhalb zusammenhängender Zeichenketten sind Teil des Tokens. Token können aus allen Alpha-Zeichen, alphanumerischen Zeichen oder nur aus numerischen Zeichen bestehen.
Token selbst können ebenfalls Trennzeichen sein. So können in den meisten Programmiersprachen Bezeichner zusammen mit arithmetischen Operatoren ohne Leerzeichen gesetzt werden.
Obwohl dies als ein einziges Wort oder Token erscheint, betrachtet die Grammatik der Sprache den mathematischen Operator (ein Token) als Trennzeichen, so dass selbst wenn mehrere Token aneinandergereiht sind, sie dennoch durch den mathematischen Operator getrennt werden können.