Single Points of Failure sind einzelne Ereignisse, die den gleichzeitigen Datenverlust in Live-Daten und Backup-Daten herbeiführen können, so dass nach diesem Ereignis Daten inklusive aller Backups verloren sind.
Bei jeder Backup Strategie muss hinterfragt werden, ob es spezielle Ereignisse geben kann, bei denen Daten inkl. derer Backups verloren gehen können. Gängige Szenarien sind Einbrüche in Systeme durch Hacker und die Verschlüsselung von Daten und Backups oder der Missbrauch von Passwörtern durch Personen, die im Besitz der Passworte sind. Auch eine falsche Automatisierung kann zum kompletten Datenverlust führen, wenn gelöschte oder beschädigte Daten auf alle Backupziele geschrieben werden bevor der Fehler bemerkt wird.
Hat man sich früher in erster Linie auf Redundanz und räumliche Trennung verlassen so sind durch die immer stärkere Vernetzung von System heutzutage neue Gefahren für Daten und Backups entstanden, die neue Backup Strategien erfordern.
Eine vollständige Backup Strategie muss automatisiert laufen, die Kontrolle über die Daten verteilen und Fehler erkennen.
Alle automatisierten Verfahren kommen nicht ohne eine Versionierung am Ziel aus, da nur so die Kontrolle über Daten wirksam verteilt werden kann.
Versionierung
Backups sollten versioniert werden, damit im Fehlerfall ein bestimmter Datenstand wiederhergestellt werden kann. Dies ist wichtig für den Fall, dass die letzte Backupversion bereits Fehler oder Probleme enthält, die nicht bemerkt wurden.
Es gibt verschiedene Verfahren, Versionierungen zu erstellen. Es kann auf Basis von Archiven, Diff Dateien oder des Dateisystems erfolgen. Auf Dateisystemebene gibt es abhängig vom Dateisystem verschiedene Verfahren.
Eine entscheidende Frage ist, wo die Versionierung erfolgt. Erfolgt sie an der Quelle hat die Quelle volle Kontrolle über alle Versionen, was ein Single Point of Failure darstellt. Wir raten zu einer Versionierung am Ziel oder einer Kombination von Versionierung auf Quelle und Ziel.
Rechteverteilung: Push vs. Pop Backups
Bei der Rechteverteilung geht es um die Frage, wer und welche Systeme Zugriff auf ein Backup haben. Schreibt ein System Daten aktiv auf ein Ziel (Push-Backup), so hat dieses System die Kontrolle über das Backup, auch das ist ein Single Point of Failure.
Bei Pop-Backups holt das Backupsystem die Daten ab, in diesem Fall kann die Quelle keinen aktiven Einfluss auf das Backup nehmen, indirekt aber schon.
In beiden Fällen ist zur Vermeidung von Single Point of Failure eine Versionierung am Ziel erforderlich.
Einen Sonderfall stellen Cloud-Backups dar. Cloud Backups erfolgen in der Regel im Push Verfahren, die meisten Cloudspeicher bieten allerdings keine ausreichende Funktionalität, um Backups zu Versionieren und von den Push-Berechtigungen zu trennen. Hier ist die Wahl der richtigen Cloud entscheidend.
Data Corruption
Data Corruption ist ein Sammelbegriff für alle Ereignisse, die Daten beschädigen können. Neben den typischen Hardware Defekten, wie fehlerhafte Sektoren, gibt es versteckte Ereignisse, die der Controller-Hardware verborgen bleiben. Diese Ereignisse nennt man Silent Data Corruption oder Bitrot.
Schutz vor korrupten Daten mittels RAID
Grundsätzlich kann ein Raid Volumen vor korrupten Daten schützen, aber nur vor einer bestimmten Kategorie von korrupten Daten, nämlich Fehler, die der Controller erkennen kann. Die Korrektur erfolgt transparent, wenn Daten zugegriffen werden oder im Rahmen des Raid Scrubbing. Beim Raid Scrubbing wird jeder einzelne Sektor aller Platten auf Konsistenz geprüft.
Was passiert mit Fehlern, die der Controller nicht erkennen kann? Kippt ein Bit auf einer Platte, ohne, dass der zugehörige Sektor defekt ist, kann die Logik des Raids nicht mehr entscheiden, was richtig und was falsch ist, die Datei ist korrupt. Was nach wenig klingt sorgt in der Praxis dafür, dass eine Datei völlig unbrauchbar werden kann.
Die Lösung besteht in der Verwendung eines Next Generation Filesystems mit aktivierten Checksummen.
Schutz vor korrupten Daten mittels Next Generation File System
Ein Next Generation Files System wie BTRFS ist in der Lage, neben den Daten Checksummen zu führen. Um Fehler zu erkennen gibt es auch hier ein spezielles Scrubbing Verfahren, das Data Scrubbing. Hierbei werden alle Daten gegen die Checksummen geprüft, gekippte Bits können so zurückgedreht werden.
Kein vollständiger Schutz ohne Scrubbing
Wie oben beschrieben gibt es verschiedene Arten von Fehlern, die korrupte Dateien hervorrufen können. Über Scrubbing Verfahren können die Daten wirkungsvoll geschützt werden.
Das bedeutet aber auch, dass das führende System diese Verfahren unterstützen muss. Kippt ein Bit unbemerkt auf einem Windows Client, wird dieser Fehler auch unbemerkt in alle Backups geschrieben.
Schaut man sich nach Jahren alte Urlaubsfotos an und stellt fest, dass Fotos durch Silent Data Corruption vollständig unbrauchbar sind, so wird dieser Fehler auch in allen Backups sein. Dies kann jede Art von Datei betreffen. Einzige Lösung ist ein führendes System, dass Data Scrubbing unterstützt oder eine Versionierung, die bis vor den Zeitpunkt der Data Corruption zurück reicht.
Zusammenfassung
Aktuelle NAS Systeme bieten für alle diese Anforderungen einfache Lösungen. Gerne beraten wir sie und erarbeiten für ihre Anforderungen eine vollständige Backup-Strategie.
Bitte kontaktieren sie uns einfach.