Einführung
Meine kurze Darstellung über die Entwicklung von Standards für elektronische Publikationen möchte ich damit beginnen, Ihnen einige Worte über mich selbst zu sagen, die vielleicht auch meine Voreingenommenheit verständlich machen werden. Obwohl ich in den letzten drei Jahren als Consultant gearbeitet habe, verbrachte ich die ersten 20 Jahre meines Arbeitslebens im Management des - vorwiegend wissenschaftlichen - Verlagswesen. Ich bin Verleger und tendiere deshalb dazu, die Perspektive des Verlegers auf die Fragen des elektronischen Publizierens anzuwenden.In meiner Arbeit als Consultant beschäftige ich mich hauptsächlich mit den Auswirkungen neuer Technologien auf das Management von Verlagsprozessen. Dies erklärt auch mein Interesse an Standards für elektronische Publikationen. Die wesentlichen Fragen, die beantwortet werden müssen, sind: Brauchen wir Standards für elektronisches Publizieren, und wenn ja: Wie können diese entwickelt werden?
Standards für Elektronische Inhaltsverzeichnisse
Statt zu versuchen, diese Fragen nur abstrakt zu beantworten, möchte ich über zwei Projekte berichten, an denen ich beteiligt war, und die sich mit der Entwicklung von Standards für die Speicherung und šbertragung von elektronischen Inhaltsverzeichnissen (electronic tables of contents oder EToCs) beschäftigen. Das erste Projekt, welches 1994 begann, sollte einen ersten Entwurf für einen Standard für EToCs für Zeitschriftenpublikationen entwickeln. Das zweite, welches 1995 begann, entwickelt, aufbauend auf dem ersten Projekt, Standards für EToCs für Bücher. Beide Projekte werden von Book Industry Communications (BIC) koordiniert. BIC ist eine britische Körperschaft, die von der britischen Publishers' Association, der Library Association, der Booksellers' Association und der British Library finanziert wird. Die Projekte werden vom Research Fund der British National Bibliography gesponsert.Diese beiden sind die ersten zwei BIC-Projekte, die sich direkt mit der Entwicklung von Standards für die Publikation von Inhalten befassen; bisher (seit seiner Gründung 1991) hat sich BIC vor allem mit der Entwicklung von Standards für elektronische Handelsbeziehungen und für bibliographische Datenbanken von Verlagen befaát. Aus diesen Arbeiten heraus entwickelte sich die Erkenntnis, daá einige Standards für die Publizierung von Inhalten wesentlich sind, wenn die Nutzer irgendeine Chance haben sollen, einen bestimmten Inhalt, an dem sie interessiert sind, genau zu identifizieren und zu lokalisieren.
Von dieser Erkenntnis aus war es nur ein kleiner Schritt bis zu der Erkenntnis, daá das erste Gebiet, wo Standards entscheidend sind, die Meta-Daten sind, also Informationen über Informationen. Die Hauptgründe für diese Erkenntnis sind zweifellos einleuchtend. Es ist besonders wichtig, Standards zu haben, wenn Informationen aus mehr als einer Quelle miteinander verbunden werden, um den Wert der Daten zu erhöhen. Dies trifft ganz sicher für Meta-Daten zu. Man kann sogar behaupten, daá Meta-Daten das einzige Gebiet sind, in dem so etwas wie eindeutig definierte Standards angewendet werden können.
So entschlossen wir uns, daá der Ausgangspunkt Inhaltsverzeichnisse sein sollten, und ganz speziell Inhaltsverzeichnisse von Zeitschriften, für die es einen schon etablierten kommerziellen Bedarf gibt.
Wirtschaftliche Rechtfertigung
Es bietet sich hier vielleicht an, ein paar Worte über die wirtschaftlichen Aspekte der Entwicklung von Standards zu sagen. Ich bin auf jeden Fall dafür, Standards nur dann zu entwickeln, wenn sie auch mit großer Wahrscheinlichkeit angenommen werden. Das bedeutet, daß sie sicher dort am effektivsten sind, wo sie einen schon existierenden Bedarf decken. Obwohl unsere Berichte natürlich nicht dafür gedacht sind, irgendein bestimmtes kommerzielles Modell für die Verwertung von elektronischen Inhaltsverzeichnissen darzustellen, setzten sie doch voraus, daß ihre Anwendung einen kommerziellen Wert besitzen wird. Die genaue Art dieses Wertes ist jedoch noch nicht ganz klar.Während ich an dem EToC-Projekt gearbeitet habe, sprach ich auch ausführlich mit mehreren kommerziellen Anbietern von EToC-Daten für Bibliotheken. Ich entdeckte dabei, daß mindestens drei dieser Dienstleistungsunternehmen denselben Anbieter in den Philippinen benutzten, um immer wieder die selben Daten, fast zur selben Zeit, einzutippen. Diese mangelnde Effizienz ist für niemanden von Interesse, außer natürlich für den Anbieter auf den Philippinen. Auf den ersten Blick scheint es aber nicht jedem innerhalb der Angebotskette einsichtig zu sein, daß die Ineffizienz des einen jedem anderen auch schadet. Und wirklich: Oft erlebe ich, wenn ich mich mit Problemen dieser Art in der Angebotskette beschäftige, daß die Bereitschaft fehlt, auf Lösungen hinzuarbeiten, die offensichtlich nur jemand anderem in dieser Kette von Nutzen sein werden. Dabei gibt es nur eine Geldquelle in jeder Angebotskette. Demzufolge sollte es doch einleuchten, daß das Geld, welches nur ausgegeben wird, um die Infrastruktur zu erhalten, Geld ist, das jedem anderen in der Kette verloren geht. Ziel der Entwicklung von Standards ist es, diese Verschwendung zu begrenzen.
Bei der Beschäftigung mit Standards für elektronisches Publizieren müssen wir deshalb nach dem Punkt suchen, an welchem wir den ersten qualitätskontrollierten und standardisierten Arbeitsgang vorfinden. Dies ist der erste Arbeitsschritt beim Verleger.
Was ist ein Zeitschrifteninhaltsverzeichnis?
Als ich mit dem Zeitschriftenprojekt begann, hatte ich eine ziemlich genaue Vorstellung davon, wie ein Inhaltsverzeichnis aussieht: Eine Liste von Titeln und Autorennamen. Fast genauso wie die, die auf der ersten Seite einer typischen Zeitschrift stehen. Es wurde mir jedoch schnell klar, daß meine Idee von einem Inhaltsverzeichnis für das was gebraucht wird, ungenügend war. Wir brauchten tatsächlich einen Standard für die gesamte šberschrift des Artikels, einschließlich eines Abstracts.Dies kompliziert die kommerziellen Belange zusätzlich, denn Verleger haben im zunehmenden Maße festgestellt, daß Abstracts als solche schon einen Wert haben, ebenso wie der gesamte Zeitschriftenartikel. Ich will aber nochmals betonen, daß die Entwicklung des Standards unabhängig von der Entwicklung des kommerziellen Modells ist.
Wenn es mir jedoch gestattet ist, diesen Punkt kurz beiseite zu stellen, so scheint mir, daß es doch sehr im Interesse der Verleger sein sollte, die Nutzung ihrer Inhaltsangaben in den Bibliotheken zu fördern, die ihre Zeitschriften abonnieren oder ihre Bücher kaufen. Ich bin deshalb schon sehr überrascht, daß einige Verleger versuchen, Bibliotheken davon abzuhalten, Inhaltsverzeichnisse von gedruckten Zeitschriften, die sie abonnieren, zu photokopieren und weiterzuleiten. Es würde mir gleichermaßen nützlich erscheinen, allen Nutzern einer bestimmten Bibliothek freien und unbegrenzten Zugang zum Inhaltsverzeichnis einer Publikation zu gestatten, welche die Bibliothek abonniert.
Die technologische Plattform
Nachdem wir entschieden hatten, daß wir einen Standard entwickeln müssen, der die gesamte Artikelüberschrift umfasst, bedeutete das, daß die Entscheidung über die technologische Plattform für den Standard im Wesentlichen schon für uns getroffen war. Da wir uns entschieden hatten, beim ersten Arbeitsschritt des Verlegers zu beginnen, bedeutete dies, eine Technologie zu nutzen, die in den Produktionsprozeß des Verlegers eingebettet sein kann. Das heißt also, daß wir keine andere realistische Möglichkeit hatten als SGML (Standard Generalised Markup Language) zu nutzen.Wir wußten aber auch, daß der Einsatz von SGML-Standards nicht leicht ist. Viel Arbeit an Standards ist bereits von Verlegern geleistet worden und noch mehr wurde bereits begonnen. Die schon geleistete Arbeit hat die Schwierigkeiten für große Verlagshäuser aufgezeigt, eine einzige Standard-SGML DTD (Document Type Definition) innerhalb eines einzelnen Verlagsprogramms zu entwickeln. Ganz zu schweigen von einem Standard, der sich für mehrere Verlagshäuser eignen würde.
Die Europäische Arbeitsgruppe zu SGML, eine Gruppe europäischer Verleger und anderer, die an SGML interessiert sind, ist vielleicht der Entwicklung eines solchen Standards am nächesten gekommen. Diese Gruppe hat erfolgreich ein DTD entwickelt, genannt MAJOUR, auf den sich die DTDs, welche von den meisten Zeitschriftenverlagen genutzt werden, stützen. Ich möchte betonen, daß sie sich lediglich auf MAJOUR stützen. Kein Verleger, mit dem wir gesprochen haben, benutzt MAJOUR vollständig unverändert.
Zur selben Zeit, als wir an unserem Projekt gearbeitet haben, hat eine andere Gruppe von Verlegern, die OASIS-Gruppe (Organisation for Articles Standards in Science, eine lose Assoziation von STM-Verlegern), auch an der Entwicklung von Standards für ein "Minimum-Daten-Set" für Zeitschriftenüberschriften gearbeitet. Diese Arbeit war auch lose mit MAJOUR verbunden, zielte aber nicht darauf ab, eine SGML DTD zu entwickeln.
Auf einer gut besuchten offenen Zusammenkunft der Verleger, die im September 1994 in London stattfand, entschieden die Anwesenden überraschend einheitlich, daß wir die MAJOUR DTD als unseren Standard nutzen sollten - ein Standard für Speicherung und šbertragung. Das sollte aber nicht bedeuten, daß jeder Verleger die reine MAJOUR für die eigene, interne Nutzung anwenden müßte, ein Weg der sich als unbeschreitbar erwiesen hatte. Es bedeutete lediglich, daß alle Verleger DTDs nutzen sollten, die für Austauschzwecke in MAJOUR konvertiert werden konnten. Da die meisten Verleger eine erweiterte MAJOUR nutzen (um es noch komplexer zu machen), sollte diese rückwärtige Kompatibilität nicht zu schwierig zu erreichen sein.
Es gab eine wesentliche Voraussetzung, nämlich daß MAJOUR kompatibel mit dem "Minimum-Daten-Set" der OASIS-Gruppe sein mußte, welches bis zu diesem Zeitpunkt noch nicht vollständig war. Dies ist zweifelsohne eine der größten Schwierigkeiten, die entstehen, wenn man Standards entwickeln will - daß man, um ihre Akzeptanz zu sichern, häufig darauf warten muß, daß andere ihre Arbeit beenden, um die Ergebnisse in den zu entwickelnden Standard einzubauen.
Identifizierung einzelner Artikel
Dasselbe traf auch für ein anderes wesentliches Gebiet der Meta-Daten-Standards zu: das Problem der Identifizierung einzelner Artikel. In diesem Falle waren wir sehr daran interessiert, eng mit SISAC (Serials Industry Systems Advisory Committee), der amerikanischen Vereinigung für die Standards von Zeitschriften, zusammenzuarbeiten. Sie haben unsere Arbeit mit den EToCs sehr unterstützt. Und damit diese effektiv sein würde, brauchten wir ihre Zustimmung. Sie haben über mehrere Jahre hinweg einen Standard entwickelt, den viele Verleger für die Identifizierung von einzelnen Zeitschriftenausgaben und die Artikel innerhalb der Ausgaben angenommen haben; dies ist der SICI (Serials Item and Contribution Identifyer), NISO Standard Z39/56. Es gab auch andere Mitbewerber, unter ihnen die BIBLID (Bibliographic Identification of Contributions in Serials and Books). Jedoch hat der SICI den Vorteil, bereits aktiv genutzt zu werden. Etwas, was offensichtlich bei anderen Identifikationsschemen nicht der Fall ist.Es hat sich jedoch herausgestellt, daß SICI vom Standpunkt des Verlegers aus einige wesentliche Nachteile aufweist, die hauptsächlich mit der Identifizierung einzelner Artikel bereits vor der Veröffentlichung zu tun hat. Es war uns versprochen worden, daß diese Probleme in einer šberarbeitung der SICI diskutiert werden und bis Ende 1994 gelöst sein sollte. Es wird Sie vielleicht nicht weiter überraschen, daß diese Revision jetzt schon 12 Monate Verspätung hat, was eine entscheidende Ursache für Verzögerungen bei uns ist.
Viele Anstrengungen werden gegenwärtig unternommen, um universelle Schemen für die Identifizierung von digitalem Inhalt jeglicher Art zu entwickeln: Text, Graphik, Ton, bewegliche Bilder. Die vorgeschlagenen Schemen können in zwei Gebiete unterteilt werden: diejenigen, die "intelligente" Zahlen verwenden und die, die komplett "nichtssagende" Zahlen nutzen. In meinem Vortrag habe ich jedoch keine Zeit, bei diesem Thema ins Detail zu gehen.
Es scheint jedoch klar zu sein, daß wir uns den Luxus, auf eine universelle Lösung zu warten, die möglicherweise Jahre oder noch Jahrzehnte dauern wird, nicht leisten können. Verleger und die Nutzer von Verlagsprodukten brauchen eine pragmatische Lösung, die sehr schnell angewendet werden kann.
Der SICI hat in seiner überarbeiteten Version, die nun wirklich in Kürze fertiggestellt sein soll, mehrere Vorteile:
- 1. Er ist zumindest ein "halb-intelligenter" Kode, der auf der ISSN-Nummer basiert.
- 2. Er hat zwei Formen, die beide gleichwertig sind. Eine erlaubt es dem Verleger, eine willkürliche, fortlaufende Nummer herauszugeben, die einen einzelnen Artikel unzweideutig identifizierbar macht, bevor die Paginierung der Zeitschriftenausgabe, in welcher er erscheinen wird, erstellt wird. Sie gestattet ebenfalls die Identifizierung eines Artikels, der vielleicht niemals gedruckt wird.
- 3. Er beschäftigt sich mit dem wesentlichen Problem der "legacy documents", also wie wir die große Anzahl von Zeitschriftenartikeln, die gedruckt sind (und vielleicht ungedruckt existieren), identifizieren können. Der SICI kann akkurat vom gedruckten Dokument durch den Nutzer rekonstruiert werden.
Es gibt kaum Zweifel, daß gemeinsam mit anderen Identifikationsschemen der SICI irgendwann verschwindet, oder jedenfalls in ein größeres Schema inkorporiert werden wird. Bis dies jedoch geschieht, hat er Vorteile, die wir in keinem anderen Identifikationsschema finden. Wir haben deswegen seine Einführung empfohlen.
Probleme
Sollte dies schon wie eine bemerkenswert direkte Route zur Entwicklung eines vorläufigen Standards aussehen, so gibt es doch eine Reihe von Fragen, die aufgekommen sind und für die es noch einige Zeit zu ihrer Lösung bedürfen wird. Das erste Problem bezieht sich auf die Identifikatoren.Eine Gruppe von Verlegern, geführt von Elsevier in den USA, haben ein Identifikationsschema, genannt PII, das dem SICI-Schema ziemlich ähnlich aber doch nicht mit ihm identisch ist, entwickelt. Es ist wirklich wichtig, daß es nicht zwei ähnliche und dabei inkompatible Identifikationsschemen gibt; uns ist im Moment noch unklar, warum dieses alternative Schema als notwendig erachtet wird.
Das zweite Problem bezieht sich auf die Kompatibilität zwischen dem OASIS "Minimum-Daten-Set" und der MAJOUR DTD. Inkompatibilitäten, obwohl offensichtlich von relativ geringer Art, die vor allem zum Problem der notwendigen und wahlweisen Datenelemente entstehen, haben sich als nicht kompromißfähig erwiesen.
Das SSSH!
In diesem Falle war es die einzige mögliche Lösung, eine Variante der MAJOUR DTD zu entwickeln, die bekannt ist als SSSH! (steht für Simplyfied SGML for Serial Headers). Diese Variante, die von Francis Cave, einem der führenden SGML-Experten entwickelt wurde, wird in unserem Bericht veröffentlicht werden.
Elektronische Inhaltsverzeichnisse für Bücher
Parallel zur späteren Stufe der Entwicklung der EToCs Standards für Zeitschriften haben wir ebenfalls einen Standard für die EToCs für Bücher entwickelt. Auch in diesem Falle wird das EToC DTD wieder mehr Informationen bieten als ein einfaches Inhaltsverzeichnis, wie es im gedruckten Buch erscheint. Da wir keinen existierenden Standard finden konnten, der unseren Anforderungen entsprach, mußte diese Arbeit von ganz vorne begonnen werden. Der DTD, den mein Mit-Autor Ken Moore entwickelt hat, wird die šbertragung eines kompletten bibliographischen Eintrags und des Inhaltsverzeichnisses selbst gestatten.Es gab mehrere Probleme bei der Entwicklung dieses Standards. Eine der ersten Schwierigkeiten, die wir überwinden mußten, war die Frage, wie man die Elemente des Inhaltsverzeichnisses selbst verschlüsseln sollte. Im Gegensatz zu zwei Artikelüberschriften haben die verschiedenen Bestandteile der Inhaltsverzeichnisse keine genaue semantische šbereinstimmung. Ein Kapitel in einem Buch folgt nicht unbedingt der selben logischen Einteilung eines Textes wie ein Kapitel in einem anderen Buch. Es ist sogar möglich, genau dasselbe Buch in unterschiedliche "Kapitel" einzuteilen.
Ein Inhaltsverzeichnis eines Buches ist ein intellektuelles Konstrukt: die einzige Möglichkeit, die wir finden konnten, um es zu bearbeiten, war, der Logik des Autors oder Verlegers, der das Inhaltsverzeichnis geschrieben hat, zu folgen und den verschiedenen Elementen des Inhaltsverzeichnisses arbiträre "Ebenen" zuzuordnen. Auf diese Weise bleiben die hierarchischen Beziehungen zwischen den Elementen innerhalb des jeweiligen Inhaltsverzeichnisses erhalten, und es impliziert keine Beziehung zwischen den Elementen in zwei verschiedenen Inhaltsverzeichnissen.
Die Identifizierung von einzelnen Abschnitten in Büchern
Wieder hatten wir einige Schwierigkeiten mit der Methode zur Identifizierung von einzelnen "Abschnitte" von Büchern. Und wieder existiert bisher kein Standard, der all unsere Forderungen erfüllt. Wir haben deshalb die Entwicklung eines Standards, ähnlich wie SICI, empfohlen, der sich auf die ISBN bezieht. Dieser könnte sehr schnell entwickelt werden und uns eine gleichermaßen vorläufige und pragmatische Lösung zur Fragmentidentifizierung wie der SICI bieten.
Lektionen für die Entwicklung von Standards für elektronische Publikationen
Was habe ich über die Entwicklung von Standards für elektronische Publikationen gelernt? Ich erhebe nicht den Anspruch auf eine umfassende Kenntnis, aber bestimmte Dinge sind mir doch klar geworden:1. Institutionen, wie BIC and SISAC, die nicht nur eine Interessengruppe vertreten, sind viel besser geeignet für die Entwicklung von Standards von elektronischen Publikationen als Gruppen, die lediglich einen Teil der Informationskette repräsentieren. Ebenfalls ist es äußerst wichtig, internationale Kooperation zu sichern. Dies ist im allgemeinen relativ leicht, denn die verschiedenen internationalen Gruppen sind daran gewöhnt, zusammenzuarbeiten. Momentan gibt es zuviele Gruppen, - meistens Gruppen von Bibliothekaren oder von Verlegern - die sich mit der Schaffung von Standards beschäftigen ohne die Ergebnisse anderer Gruppen zu berücksichtigen.
2. Der Prozeß dauert lange, denn oft ist man abhängig vom Abschluß der Arbeit anderer. Es ist aber besser, darauf zu warten, als ständig das Rad neu zu erfinden und zu riskieren, wichtige Interessenten vor den Kopf zu stoßen. Nur wenn Standards entwickelt werden, die für jeden in der Informationskette akzeptabel sind und die alle Meinungen berücksichtigen, werden sie genutzt werden.
3. Es gibt Grenzen der Standardisierung. Wenn es wirklich nötig ist, Daten aus verschiedenen Quellen miteinander zu verbinden, ist Standardisierung essentiell. Dagegen wird es nicht erfolgreich sein, Standards zu entwickeln, die den kompletten Inhalt abdecken. Wenn es schon relativ schwierig gewesen ist, SGML-Standards für Artikelüberschriften und Inhaltsverzeichnisse von Büchern zu entwickeln, so liegt die Entwicklung von Standards für ganze Texte außerhalb des Machbaren. Es ist auf jeden Fall positiv, daß die Verleger dazu tendieren, standardisierte technologische Plattformen - SGML und PDF (Portable Document Format) - zu nutzen, und daß sie sich in bestimmten Bereichen darum bemühen, standardisierte Herangehensweisen für Gebiete wie die Installation von CD-ROM Produkten zu entwickeln.
4. Es gibt noch andere Gebiete, wie z.B. das Urheberrecht, wo ein ähnlicher kooperativer und internationaler Ansatz gefordert sein wird.
In diesem Vortrag habe ich mich auf Standards bezogen, die in unserem Bericht als vorläufig bezeichnet werden. Dies ist sehr wichtig. Sie können nur durch die wirkliche Nutzung bestätigt werden. Wir sind optimistisch, daß beide Standards im Verlauf des Jahres 1996 umfassend getestet werden, und daß sich ihr konzeptioneller Wert bestätigt. Es wird dann möglich sein, kommerzielle Modelle für ihren Einsatz zu etabilieren.