iX 12/2017
S. 110
Wissen
Publishing
Aufmacherbild

PDF 2.0 minimiert Wildwuchs des Dokumentenformats

E pluribus unum

Nach jahrelanger Vorarbeit veröffentlichte die ISO im Juli 2017 den Standard ISO 32000-2 für PDF 2.0. Die neue Version holt viele Extensions zurück ins Standarddokument und macht Schluss mit alten Zöpfen in Sachen Verschlüsselung. Doch natürlich lässt auch PDF 2.0 einige Wünsche offen.¹

Im Sommer 2017 wurde als ISO 32000-2 ein fast 1000 Seiten starkes Dokument mit der Bezeichnung „Document management – Portable document format – Part 2: PDF 2.0“ veröffentlicht. Nach jahrelanger Arbeit konnte das zuständige ISO-Komitee damit den Nachfolger von PDF 1.7 (ISO 32000-1) vorlegen. Im Gegensatz zu einer verbreiteten Vorstellung bedeutet das übrigens nicht, dass „die ISO“ ein neues Datenformat erfindet. Tatsächlich bietet die International Organization for Standardization nur den Rahmen, in dem sich Experten die Köpfe heißreden, über Vorschläge abstimmen und schließlich das gemeinsame Ergebnis formulieren und veröffentlichen können. Im konkreten Fall waren PDF-Fachleute aus vielen Ländern beteiligt, große Unternehmen ebenso vertreten wie kleinere. Die meisten PDF-Hersteller sind Mitglieder der PDF Association. Da dieser Industrieverband eine „Kategorie-A-Liaison“ zu den mit PDF befassten ISO-Komitees unterhält, spielte diese Organisation auch eine wichtige Rolle bei der Entwicklung des neuen Standards.

Während ISO 32000-1 das Format PDF 1.7 des PDF - Erfinders Adobe technisch unverändert zum internatio nalen Standard erklärte, enthält der neue Standard Beiträge aus vielen Quellen. Naturgemäß steuerte Adobe wieder wichtige Teile bei. Doch auch die anderen Mitglieder des Gremiums trugen zu den Neuerungen bei und setzten unter anderem auch durch, dass einige Altlasten aus PDF entfernt wurden.

Die Neuerungen bezieht PDF 2.0 aus verschiedenen Quellen. Hier sind (wenig überraschend) zunächst die bisherigen Acrobat-Versionen beziehungsweise deren Dateiformat zu nennen. PDF 2.0 übernimmt aber auch Features aus anderen PDF-Standards. Die Spezialformate PDF/A (Archivierung), PDF/X (Druckvorstufe) und PDF/VT (variable Daten) führten nämlich einige Hilfskonstrukte ein, die bisher nicht Teil des Hauptformats waren. PDF 2.0 holt dies nach, sodass künftige Versionen dieser Standards wieder als echte Teilmenge von PDF spezifiziert werden können, ohne dass dafür eigene Erweiterungen definiert werden müssen.

Wirklich neue Features wurden vor allem für die Druckproduktion sowie die Barrierefreiheit (Tagged PDF) hinzugefügt. Schließlich gab es an vielen Stellen im Standard Klarstellungen redaktioneller und technischer Art. So wird jetzt zum Beispiel die Verarbeitung transparenter Objekte genauer spezifiziert und die Verschachtelungsregeln für die Strukturelemente von Tagged PDF werden explizit aufgelistet. Letztere waren bisher über den Text verstreut und mussten vom Entwickler erst mühsam zusammengetragen werden.

Im Prinzip rückwärtskompatibel

Auch wenn es noch wenig konkrete Ankündigungen der Hersteller zur Unterstützung von PDF 2.0 in Viewern, RIPs (Raster Image Processors), Verarbeitungs- und sonstiger PDF-Software gibt, kann man darauf vertrauen, dass zumindest die im ISO-Komitee vertretenen Firmen an der konkreten Umsetzung arbeiten. Die meisten Erweiterungen sind in dem Sinn kompatibel, als dass ältere Software in der Regel PDF 2.0 einlesen oder verarbeiten kann, wobei die Neuerungen natürlich nicht genutzt werden können. Von dieser Regel gibt es auch offensichtliche Ausnahmen, insbesondere bezüglich der Verschlüsselung (siehe unten).

Eine Voraussetzung für dieses Verhalten ist allerdings, dass die Software eine Datei nicht gleich wegen der Versionsnummer ablehnt, die am Anfang jeder PDF-Datei steht. Bei Acrobat DC ist dies für PDF 2.0 derzeit noch der Fall: Der Versuch, eine solche Datei zu öffnen, wird mit einer Warnung quittiert. Nach Wegklicken der Warnung wird das Dokument aber – soweit eben möglich – angezeigt. Diese Warnung soll mit dem nächsten Acrobat-Update aus dem Continuous Track entfallen, womit Adobe den ersten Schritt zur formalen Unterstützung von PDF 2.0 geht.

Mit PDF 1.7 führte Adobe die sogenannten Extension Levels ein. Darunter sind PDF-Erweiterungen zu verstehen, die bestimmte Features auf eine Basisversion draufsatteln, ohne die Basisversionsnummer zu ändern. Die konstant gehaltene Basisversion PDF 1.7 zusammen mit den sprunghaften Extension Levels ergab etwas unübersichtliche Versionsnummern. So lautet das Dateiformat von Acrobat 9 beispielsweise PDF 1.7 Extension Level 3, während Acrobat X mit PDF 1.7 Extension Level 8 arbeitet. Ab Acrobat XI wurden die (wenigen) Neuerungen dann gar nicht mehr als separate Version gekennzeichnet.

Ein wichtiges Ziel von PDF 2.0 war es deshalb, diese Erweiterungen zum einen wieder einzufangen und zum anderen klar zu definieren. Eine Bereinigung war insbesondere bei der integrierten Verschlüsselung dringend erforderlich. Acrobat 9 führte AES-Verschlüsselung und Unicode-Passwörter ein. Da das Verfahren zur Ableitung des AES-Schlüssels aus dem Passwort jedoch eine Schwäche aufwies, wurde das Verfahren mit Acrobat X verbessert. Nur dieser neuere starke Algorithmus ist Teil von PDF 2.0. Der Standard löst dabei ein weiteres Problem: Adobes Beschreibung der AES-Verschlüsselung war lückenhaft, sodass man nur mittels Reverse Engineering und vieler Experimente die entsprechenden Funktionen kompatibel implementieren konnte. ISO 32000-2 dokumentiert nun die Details der AES-Verschlüsselung in PDF zum ersten Mal vollständig und korrekt.

Zu den weiteren Funktionen, die PDF 2.0 aus den letzten Acrobat-Versionen übernimmt, zählen die Multimedia-Features in den sogenannten Rich Media Annotations. Sie stellen Audio-, Video- und 3D-Inhalte im PDF dar. Für 3D-Modelle implementiert PDF 2.0 das Format PRC, das mittlerweile ebenfalls als ISO-Standard veröffentlicht wurde. Auch die Bemaßung von Geodaten, also die Zuordnung geografischer Weltkoordinaten zu Seiteninhalten, fällt in diese Kategorie.

Bei digitalen Signaturen orientierte sich Adobe ab Acrobat X an den CAdES-Formaten, die im Rahmen der ETSI standardisiert wurden, und übernahm sie als PAdES für PDF (siehe Kasten „Formate und Definitionen im PDF-Umfeld“). Diese Formate bilden die Grundlage des eIDAS-Frameworks für den EU-weit einheitlichen Umgang mit Signaturen. PAdES basiert auf modernen Signaturkonzepten mit Schutzvorkehrungen für gewisse Angriffsszenarios sowie Unterstützung für die Langzeitarchivierung (Long Term Validation, LTV). All diese Konzepte sind in PDF 2.0 enthalten.