Tokenisierung

Was ist Tokenisierung?

Unter Tokenisierung versteht man die Zerlegung einer Folge von Zeichenketten in Teile wie Wörter, Schlüsselwörter, Phrasen, Symbole und andere Elemente, die als Token bezeichnet werden.

Token können einzelne Wörter, Phrasen oder sogar ganze Sätze sein.

Bei Tokenisierung werden einige Zeichen, wie z. B. Interpunktionszeichen, weggelassen. Die Token werden zur Eingabe für andere Prozesse wie Parsing und Text Mining.

Tokenisierung kommt in der Informatik zum Einsatz, wo sie im Prozess der lexikalischen Analyse eine große Rolle spielt.

Tokenisierung einfach erklärt

In der Regel beruht die Tokenisierung auf einfachen Heuristiken, um die Token in wenigen Schritten zu trennen:

  • Token oder Wörter werden durch Leerzeichen, Satzzeichen oder Zeilenumbrüche getrennt.
  • Leerzeichen oder Interpunktionszeichen können je nach Bedarf eingefügt werden oder nicht.
  • Alle Zeichen innerhalb zusammenhängender Zeichenketten sind Teil des Tokens. Token können aus allen Alpha-Zeichen, alphanumerischen Zeichen oder nur aus numerischen Zeichen bestehen.

Token selbst können ebenfalls Trennzeichen sein. So können in den meisten Programmiersprachen Bezeichner zusammen mit arithmetischen Operatoren ohne Leerzeichen gesetzt werden.

Obwohl dies als ein einziges Wort oder Token erscheint, betrachtet die Grammatik der Sprache den mathematischen Operator (ein Token) als Trennzeichen, so dass selbst wenn mehrere Token aneinandergereiht sind, sie dennoch durch den mathematischen Operator getrennt werden können.

Verwandte Begriffe

Margaret Rouse

Margaret Rouse ist eine preisgekrönte technische Autorin und Dozentin. Sie ist für ihre Fähigkeit bekannt, komplexe technische Themen simpel und nachvollziehbar zu erklären. In den letzten zwanzig Jahren sind ihre Erklärungen auf TechTarget-Websites erschienen und sie wurde in Artikeln der New York Times, des Time Magazine, USA Today, ZDNet, PC Magazine und Discovery Magazine als Quelle und Expertin zitiert. Wenn Sie einen Vorschlag für eine neue Definition haben oder eine technische Erklärung verbessern möchten, schicken Sie einfach Margaret eine E-Mail oder kontaktieren Sie sie auf LinkedIn oder Twitter.