Was bedeutet Datenredundanz?
Datenredundanz ist eine Bedingung, die in einer Datenbank oder einer Datenspeichertechnologie geschaffen wird, in der dieselben Daten an zwei verschiedenen Stellen gespeichert sind.
Dabei kann es sich um zwei verschiedene Felder in einer einzigen Datenbank oder um zwei verschiedene Stellen in verschiedenen Softwareumgebungen oder Plattformen handeln. Wann immer Daten wiederholt werden, handelt es sich um Datenredundanz.
Datenredundanz kann versehentlich auftreten, wird aber auch absichtlich zu Sicherungs- und Wiederherstellungszwecken vorgenommen.
Techopedia erklärt die Datenredundanz
Innerhalb der allgemeinen Definition von Datenredundanz gibt es verschiedene Klassifizierungen, die darauf beruhen, was in der Datenbankverwaltung als angemessen und was als übermäßig oder verschwenderisch betrachtet wird. Verschwenderische Datenredundanz liegt im Allgemeinen vor, wenn ein bestimmtes Datenelement nicht wiederholt werden muss, sondern aufgrund ineffizienter Codierung oder Prozesskomplexität doppelt vorhanden ist.
Verschwenderische Datenredundanz kann zum Beispiel auftreten, wenn in derselben Datenbank inkonsistente Duplikate desselben Eintrags gefunden werden. Unbeabsichtigte Datenredundanz kann aufgrund ineffizienter Kodierung oder überkomplizierter Datenspeicherungsprozesse auftreten und stellt ein Problem in Bezug auf Effizienz und Kosten dar.
Da das Vorhandensein doppelter oder unnötiger Datenfelder behoben werden sollte, können die zur Beseitigung von Inkonsistenzen erforderlichen Abgleich-, Integrations- und Normalisierungsvorgänge kostspielig und zeitaufwändig sein. Fehler, die durch den Zugriff auf die falschen, redundanten Datensätze entstehen, können zu zahlreichen Problemen mit Kunden führen. Und schließlich kann sich der zusätzliche Speicherplatz, den die redundanten Daten beanspruchen, mit der Zeit aufaddieren und zu aufgeblähten Datenbanken führen.
Eine positive Art der Datenredundanz dient dem Schutz der Daten und der Förderung der Konsistenz. Mehrere Instanzen derselben Datensätze können für Sicherungszwecke, Disaster Recovery (DR) und Qualitätskontrollen genutzt werden.
Redundante Daten können absichtlich gespeichert werden, indem komprimierte Versionen von Sicherungsdaten erstellt werden, die wiederhergestellt werden können und Teil spezifischer DR-Strategien sind. Im Falle eines Cyberangriffs oder einer Datenpanne kann es beispielsweise von entscheidender Bedeutung sein, dieselben Daten an verschiedenen Orten zu speichern, um die Kontinuität des Betriebs sowie die Schadensbegrenzung zu gewährleisten.
Die Datenredundanz kann auch dazu genutzt werden, die Geschwindigkeit von Aktualisierungen und den Datenzugriff zu verbessern, wenn die Daten auf mehreren Systemen gespeichert sind, auf die verschiedene Abteilungen zugreifen können.
Viele Entwickler halten es für akzeptabel, dass Daten an mehreren Orten gespeichert werden. Entscheidend ist, dass es ein zentrales Masterfeld oder einen zentralen Speicherplatz für diese Daten gibt, so dass alle Stellen, an denen Daten redundant sind, über einen zentralen Zugriffspunkt aktualisiert werden können. Andernfalls kann die Datenredundanz zu großen Problemen mit der Dateninkonsistenz führen, wenn eine Aktualisierung nicht automatisch ein anderes Feld aktualisiert. Dies führt dazu, dass Daten, die eigentlich identisch sein sollten, am Ende unterschiedliche Werte aufweisen.
Wenn Vorbeugung nicht ausreicht, kann eine Normalisierung der Datenbank oder ein Abgleich erforderlich sein, um bereits vorhandene Redundanzen zu beseitigen. Zunächst wird eine Reihe von Normierungsregeln definiert, um festzulegen, was “normale Daten” sind. Dann wird die Datenbank überprüft, um sicherzustellen, dass die Abhängigkeiten in allen Spalten und Tabellen korrekt durchgesetzt werden und dass alle unnötigen Duplikate korrekt behandelt werden.