Technische Aspekte der Langzeitarchivierung von Daten

R. Ecker, Satz-Rechen-Zentrum, Frankfurt am Main

1. Einleitung

Seit einigen Jahren werden in zunehmendem Umfang elektronische Dokumente den Benutzern in aller Welt über Internet und andere Datennetze zur Verfügung gestellt. Wir stehen hier am Beginn einer Entwicklung, deren Ziel darin besteht, alle wichtigen Informationen jederzeit und von überall auf Knopfdruck abfragbar bereit zu halten.

Die Begeisterung, mit der Benutzer auf diese neue Art des Informationszuganges reagieren, wirkt als Katalysator für weitere Projekte und wird nach Meinung von Experten bereits in wenigen Jahren das Informationsverhalten entscheidend beeinflussen. Es besteht darüber hinaus kein Zweifel, daß tiefgreifende gesellschaftliche und ökonomische Veränderungen folgen werden.

Bibliotheken - traditionell eine der tragenden Säulen der konventionellen Informationsvermittlung - erkennen und nutzen die Chance, nun auch in der Bereitstellung elektronischer Informationen eine Führungsrolle zu übernehmen. Nationale und internationale öffentliche Einrichtungen, Firmen und private Förderer stellen erhebliche Mittel für Erfassung, Speicherung und Bereitstellung der Dokumente zur Verfügung.

Fehler in der Vergangenheit haben immer wieder dazu geführt, daß wertvolle Daten verloren gegangen, unbrauchbar oder wertlos geworden sind. In der Tat sind digitale Dokumente in vielfacher Hinsicht in ihrem Erhalt bedroht. Es ist daher an der Zeit, der langfristigen Sicherung der Daten besonderes Augenmerk zu widmen.

2. Lebensdauer von Speichermedien

Vom Standpunkt der gesicherten Lebensdauer ist Stein oder Ton das ideale Langzeitspeichermedium, denn die ältesten überlieferten Schriftdokumente befinden sich auf diesen Trägern. Auch Pergament und säurefreies Papier sind hervorragend stabile Materialien, ganz im Gegensatz zu säurehaltigem Papier, das sich tragischerweise zu spät als gänzlich ungeeignet erwiesen hat. Der Mikrofilm soll nach neuesten Hochrechnungen bis zu 500 Jahre halten. Unbestritten stellt er einen bewährten analogen Langzeitspeicher hoher Dichte dar.

Weil elektronische Speicher relativ neu sind, kann es auch noch keine hinreichenden praktischen Erfahrungen in Bezug auf ihre Haltbarkeit geben. Zeitraffertests haben erbracht, daß optische Speicherplatten, wie die CD ROM oder die WORM-Disc, bei sorgfältiger Lagerung eine Haltbarkeit von über 100 Jahren erreichen sollten. Selbst Untersuchungsergebnisse über die Lebensdauer von Magnetbanddaten sprechen heute von mindesten 20 Jahren. Angesichts der einfachen Kopierbarkeit elektronischer Daten verliert damit die Frage der Lebensdauer des Mediums an Relevanz.

Auf Magnetplatten gespeicherte Daten gehen mit dem ersten Head-Crash verloren. Auf RAM-Speichern werden die Daten mit dem Abschalten des elektrischen Stroms gelöscht. Beide Medien sind daher für die Langzeitarchivierung denkbar ungeeignet.

3. Digitale und Digitalisierte Daten

Im Umfeld der digitalen Bibliothek unterscheiden wir Digitale Dokumente, die von vorne herein in elektronischer Form erstellt wurden, und Digitalisierte Dokumente, die durch elektronische Erfassung der analogen Version (zum Beispiel auf Papier gedruckt) erhalten wurden, sowie Mischformen.

Unter dem Gesichtspunkt der Langzeitarchivierung sind Digitale Dokumente problematisch, weil das bequeme Papieroriginal fehlt.

Obwohl zur Zeit bereits viele digitale Zeitschriften herausgegeben werden, es werden täglich mehr, ist die Frage ihrer Langzeitarchivierung und damit auch ihrer Zitierfähigkeit noch nicht geklärt. In wie weit ist das Datei-Format oder gar die Erstellungssoftware Bestandteil des Dokumentes, das es in seiner Identität zu erhalten gilt? Wer stellt die Archivierung sicher? Der Autor, der Verlag, Bibliotheken? Wer sorgt für die laufende Migration auf neue Datenträger, Hardware, Software? Dies sind jedoch weniger technische denn organisatorische Fragen.

Wesentlich komfortabler ist die Situation der Digitalisierten Dokumente, weil noch das Papier-Original vorhanden ist, auf das als zusätzliche Speicherform im Notfall zurückgegriffen werden kann. Aus der digitalen Kopie eines Papierdokumentes läßt sich auch eine originalgetreue Kopie in hoher Druckqualität erstellen, die dann an Stelle eines etwa durch Säurefraß vernichteten Originals treten könnte.

4. Kriterien der Langzeitarchivierung

Als relevant für die Langzeitarchivierung sehe ich folgende drei technische Kriterien, deren Wichtigkeit jedoch unterschiedlich bewertet wird:

Unter Wertbeständigkeit verstehe ich hier, daß die technische Qualität des Systems und der Daten den langfristig erkennbaren Anforderungen gerecht wird.

4.1 Wertbeständigkeit des Datenspeichers

Für die Wertbeständigkeit des Datenspeichers gelten folgende Kriterien:

Die bereits zitierte Lebensdauer von 100 Jahren für optische Speicher halte ich für mehr als ausreichend. Wesentlich problematischer sehe ich die Verfügbarkeit von Abspielgeräten. Wir dürfen uns nicht von der relativ langen Formattreue von CD und CD ROM täuschen lassen. Nun sind mit der DVD neue Formate höherer Speicherdichte auf dem Markt und weitere Entwicklungen werden folgen. Als Faustregel darf man auch in Zukunft alle fünf Jahre einen Technologiewechsel erwarten. Bei den WORM-Platten beobachte ich sogar zur Zeit die Einführung der vierten Generation innerhalb von gut 10 Jahren. Die Anbieter von Abspielgeräten verfolgen zumeist die Regel, nicht mehr als zwei Gerätegenerationen parallel zu pflegen. Dies würde bedeuten, daß die gigantischen Datenmengen mit hohen Kosten im Rythmus von 10 Jahren umkopiert werden müßten. In der Tat sind heute frühe Anwender WORM-basierter Archivsysteme längst mit der Überspielung auf eine neue Datenträgergeneration befaßt.

Ähnliches, wie für die Abspielgeräte, gilt auch für die Lesesoftware zur Interpretation der gespeicherten Daten und ihrer Visualisierung am Bildschirm oder über Drucker. Auch ihre Pflege wird angesichts immer neuer Betriebssysteme nicht beliebig fortgeführt werden.

Hier wird deutlich, daß nicht die Haltbarkeit der Datenträger sondern die Lebensdauer der Abspielsysteme den bestimmenden Zeitfaktor in der Langzeitarchivierung darstellt.

4.2 Wertbeständigkeit der Daten selbst

Nicht jedes heute erzeugte Digitalisat wird in 10, 20 oder 100 Jahren noch den Ansprüchen der Benutzer in Hinblick auf technische Qualität und Standards genügen. Was können, was müssen wir tun, damit der Wert der digitalen Daten langfristig sichergestellt wird?

Digitale Dokumente sind hier eher unproblematisch, weil sie zumeist als codierte Texte in einem offenen Standardformat, das sich leicht konvertieren läßt, vorliegen.

Völlig anders stellt sich jedoch die Situation bei digitalisierten Dokumenten dar. Um ein gedrucktes Buch über das Internet verfügbar zu machen, muß es in elektronischer Form erfaßt werden. Der zentrale Schritt besteht dabei in der Digitalisierung des Dokumentes mittels eines Scanners. Bei diesem Vorgang wird aus der Druckvorlage durch optische Abtastung ein Abbild in Form von vielen Bildpunkten erhalten. Dieses Abbild wird als Datei gespeichert.

Wichtige Kriterien für die Festlegung der Digitalisierungsparameter ergeben sich aus der Art der Vorlagen und der geplanten Nutzung der digitalen Daten.

In der Folge sind einige Beispiele für die Variationsbreite von Vorlagen aufgeführt:

· Papiervorlagen

Gebunden - Einzelblätter - Karteikarten

einseitig - doppelseitig bedruckt

Übliches Seitenformat bis ca. DIN A4 - Kleinformate - Großformate bis A0 und größer

Text - Graphiken - Halbton - Farbe etc.

· Filmvorlagen

Mikrofilm

Mikrofiche

Filmlochkarte

Diafilm

großformatige Reprofilme etc.

· andere Vorlagen

Gegenstände (dreidimensional)

etc.

Die folgenden Beispiele zeigen einige der Möglichkeiten zur Nutzung und Weiterverarbeitung digitaler Images:

· Darstellung am Bildschirm

· Darstellung durch Ausgabe über einen Drucker

Lokaler Ausdruck einzelner Seiten des Dokumentes

Nachdruck des gesamten Dokumentes

Reproduktion des Dokumentes in professioneller Qualität

Erstellung von Postern in höchster Farbtreue und Druckauflösung

· Weiterverarbeitung

Maschinelle Inhaltskategorisierung (z.B. Dokumenttyp-Analyse)

Maschinelle Volltexterzeugung mittels OCR/ICR

Maschinelle Vektorisierung von Strichgraphiken

Es ist unbestritten, daß es sehr schwierig sein wird, Qualitätsanforderungen für künftige Nutzungsarten eines digitalisierten Dokumentes realistisch abzuschätzen.

Für das Scannen beispielsweise eines Buches stehen folgende Vorgehensweisen zur Verfügung, deren Vor- und Nachteile im Einzelfall beurteilt werden:

Üblicherweise bewegt sich die Bandbreite für die Scanauflösung (Anzahl der Bildpunkte) zwischen 100 und 600 dpi, in besonderen Fällen auch bis 3000 dpi („dots per inch“), für die Bildtiefe bei Schwarz/Weiß-Vorlagen zwischen 1 und 12 Bit, bei Farbvorlagen bis zu 3 x 12 Bit.

Direkt proportional zu der gewählten Auflösung und Bildtiefe ist die Größe der Bilddatei. Während zum Beispiel eine DIN A4 Seite in der Standard Fax-Auflösung von 100 dpi mit 1 Bit Bildtiefe ein Speichervolumen von ca. 100 Kilobyte erfordert, erreicht die Dateigröße mit 600 dpi und 3 x 8 Bit Farbe annähernd 100 Megabyte.

Falls die direkt nach dem Scannen erzielbare Qualität nicht den an sie gestellten Anforderungen entspricht, kann durch Bildnachbearbeitung eine Qualitätsverbesserung versucht werden. Vom Grundsatz her sind den Möglichkeiten der Bildmanipulation keine technischen sondern höchstens finanzielle Grenzen gesteckt. Zu den typischen Beispielen billiger, weil in der Regel automatisierter, Nachbearbeitungsmethoden zählen:

4.3 Wertbeständigkeit der Metadaten

Die von einer Druckseite nach dem Scannen erhaltene Bilddatei beschreibt im Grunde nicht mehr als die graphische Darstellung dieser Druckseite. Damit diese „Images“ verwaltet, recherchiert und wieder ausgegeben werden können, wird nun eine Indexierung als zusätzliche Erschließung der Seite oder eines aus einer Gruppe von Seiten bestehenden Dokumentes vorgenommen. Diese Erschließung erfolgt nach technischen, bibliographischen und inhaltlichen Gesichtspunkten und kann in fast beliebiger Tiefe bis hin zum recherchierbaren Volltext des Dokumentes gehen.

Metadaten werden - von wenigen Ausnahmen abgesehen - mit ihren zugehörigen Imageseiten in einer Datenbank verknüpft. Daher ist es auch grundsätzlich möglich, Metadaten zu einem späteren Zeitpunkt zu verändern. Dennoch ist es unumgänglich, die Dokumente bereits von Anfang an ausreichend zu erschließen.

5. Speicherung der Daten

Das bei dem Einscannen erhaltene Image bildet den sogenannten „Digitalen Master“ in der höchsten Qualität. Als langfristig zu erhaltende Archiv-Version sollte der digitale Master in einem standardisierten Format unter verlustfreier Datenkompression auf einem langlebigen Datenträger gespeichert werden. Als Dateiformat für die Speicherung bitonaler Scans hat sich TIFF in Kombination mit dem Kompressionsalgorithmus nach CCITT G4 international durchgesetzt. Als weiteres Format wäre eventuell noch PNG zu nennen.

Von diesem digitalen Master können dann anwendungsspezifische Nutzungskopien, wie eine „Onlineversion“ für die Bildschirmanzeige und eine „Downloadversion“ für das Herunterladen auf den eigenen Rechner erstellt werden.

Für die Onlineversion genügt zumeist eine Auflösung in Bildschirmqualität, d.h. ca. 100 dpi. Hier eignen sich vor allem die Formate JPEG und GIF. TIFF wird von den meisten Web-Browsern noch nicht unterstützt. Als Formate für die Downloadversion eignen sich PDF und Postscript, bei kleineren Dokumenten auch HTML.

Bei den Speichermedien wird zur Zeit ein Trend weg von den großen optischen WORM-Platten hin zur kleineren CD-R (CD Recordable) als Langzeitspeicher für die Archiv-Version und zu schnellen Magnetplatten für die Speicherung der Nutzungskopie festgestellt. Es wird dringend empfohlen, mindestens eine weitere Sicherungskopie des digitalen Masters zu erstellen und räumlich entfernt von dem Original aufzubewahren.

Eine Übersicht der empfohlenen Parameter und Formate für digitalisierte Dokumente ist in den folgenden Tabellen wiedergegeben.

Texte, Strichgraphik

Scannen

(300)/400/600 dpi

1 Bit

Speichern

TIFF/CCITT G4

1 Bit

Viewing

70-120 dpi

GIF

1-4 Bit

Gallery/Thumbnails

15 dpi

GIF

1 Bit

Download

300/400/600 dpi

PDF

1 Bit

... aber, falls Vorlagen in altdeutscher Schrift einer OCR-Konversion unterzogen werden sollen, sind ca. 4 Bit Graustufen erforderlich.

S/W - Rasterabbildungen, Fotos

Scannen

300dpi

8 Bit

Speichern

TIFF unkomprimiert

8 Bit

Viewing

512x768 bis 1024x1536

JPEG

4 Bit

Gallery/Thumbnails

~ 100x150

JPEG

4 Bit

Download

2048x3072

JPEG

8 Bit

Manuskripte

Scannen

300dpi

8 Bit

Speichern

TIFF unkomprimiert

8 Bit

Viewing

512x768 bis 1024x1536

JPEG

1-4 Bit

Gallery/Thumbnails

~ 100x150

JPEG

< 8 Bit

Download

2048x3072

JPEG

8 Bit

Farbige Abbildungen

Scannen

200-300dpi

3x8 Bit

Speichern

TIFF unkomprimiert

Farbkeile !

3x8 Bit

Viewing

512x768 bis 1024x1536

JPEG

3x8 Bit

Gallery/Thumbnails

~ 100x150

JPEG

8 Bit

Download

2048x3072

JPEG

3x8 Bit

3-D Objekte à 2-D Darstellung

Scannen

200-300dpi

3x8 Bit

Speichern

TIFF unkomprimiert

Farbkeile !

3x8 Bit

Viewing

512x768 bis 1024x1536

JPEG

3x8 Bit

Gallery/Thumbnails

~ 100x150

JPEG

8 Bit

Download

2048x3072

JPEG

3x8 Bit

Akzeptabe Kompression für JPEG-Files

Bei Graustufen: maximal 10:1

Bei Farbe: maximal 15:1

6. Bereitstellung der Daten im DMS

G. Die digitalen und die digitalisierten Dokumente werden auf Dokumentenservern abgelegt. Diese Server verfügen über große Massenspeicher sowie über ein Softwaresystem, das Speicherung, Verwaltung und Zugriff auf die Daten steuert.

H. Der Dokumentenserver verfügt über eine spezielle Schnittstelle, die dem Nutzer den Zugang zu den Daten per Internet ermöglicht.

Herzstück jedes digitalen Archivs ist das Dokumentenmanagementsystem (DMS), welches für die Verwaltung aller Daten und die Steuerung aller Abläufe zuständig ist.

Das DMS basiert in der Regel auf einer relationalen Datenbank. Es greift auf die Speichersysteme für die Dokumente, die bibliographischen (Katalog-) Daten und die inhaltserschließenden Daten (Volltexte, Inhaltsverzeichnisse, Register) zu. Für den automatisierten Datenimport aller drei Kategorien bestehen entsprechende Importschnittstellen. Die Software stellt sicher, daß die erforderlichen Nutzungskopien entweder direkt im Zuge des Datenimports oder später auf Anforderung (“on the fly“) formatgerecht erzeugt und die verschiedenen Header-Informationen eingetragen werden.

Der externe Zugriff wird über eine Internet/Intranetschnittstelle gewährleistet. Daneben besteht eine lokale Exportschnittstelle zur Ausgabe von Daten auf CD-R oder als elektronischer Auflagendruck. Für die interne Bearbeitung und Recherche sind ebenfalls geeignete Schnittstellen vorhanden.