iX 12/2023
S. 140
Praxis
Tools und Tipps

Document AI mit Deepdoctection

Wer Deep Learning zur automatisierten Analyse beliebiger Dokumente einsetzt, braucht viele verschiedene Techniken und KI-Modelle. Die Python-Bibliothek Deepdoctection vereinheitlicht den Zugriff darauf.

Von Dr. Janis Meyer

Document AI ist KI für Papierkram. Dabei geht es also mal nicht um aufregende Bildgeneratoren und neunmalkluge Chatbots, sondern darum, PDF-Anhänge in E-Mails zu klassifizieren, Dokumentenstapel in Einzeldokumente zu zerlegen oder in Rechnungen zu erkennen, wo die Artikelpositionen zu finden sind. Auch das Parsen von Dokumenten, Tabellenextraktion und optische Zeichenerkennung (OCR) gehören in dieses Umfeld. Damit deutet sich schon an, dass sich Document AI aus einem Sammelsurium aller möglichen Techniken bedient. Und hier kommt Deepdoctection ins Spiel, eine Python-Bibliothek unter der Apache-2-Lizenz, die bei der Extraktion von Informationen aus Dokumenten – PDFs oder Scans – unterstützt und Struktur in die Arbeitsabläufe bringt.

In konkreten Anwendungen zur Analyse von Dokumenten geht es darum, mehrere Modelle in einer bestimmten Abfolge aufzurufen. So parsen Objektdetektoren ein Dokument und grenzen Elemente wie Titel, Tabellenrahmen oder Fließtext voneinander ab. Ein OCR-Modell extrahiert den Text. Anschließend müssen überlappende Wort- und Layoutregionen in ein Dokumentensegment wie eine Tabelle überführt werden. Zu guter Letzt entsteht eine JSON-Datei mit der ermittelten Struktur.

Kommentieren