Anzeige
0
0 Stimmen
50
40
30
20
10
Hersteller: Zur Website
Preis: kostenlos
Lizenz: Open Source
Betriebssystem: Linux, Mac, Windows
Download-Größe: keine Angabe
Downloadrang: 291
Datensatz zuletzt aktualisiert: 11.01.2023
Alle Angaben ohne Gewähr

Wer Dokumente einscannt, hat das Problem, dass sie in Bild-Dateien umgewandelt werden und sich nicht nach Texten und Wörtern durchsuchen lassen. Tesseract OCR analysiert solche Bilddateien und extrahiert die darin enthaltenen Texte.

Erkennt über 100 Sprachen

​Tesseract OCR nutzt die OCR-Engine "libtesseract", die für die Erkennung von Zeichen und Textzeilen zuständig ist. Zudem kann die Open-Source-Software mit UTF-8 umgehen und unterstützt so über 100 Sprachen. Das Ergebnis speichert die Software in Textdateien, PDF-Dokumenten, HTML-, XML- und TSV-Dateien.

Tesseract einsetzen

Tesseract eignet sich als Kommandozeilen-Programm unter anderem für Entwickler, die die Texterkennung automatisieren wollen. Der Quellcode der Software wird von der Community auf GitHub bereitgestellt, wo zudem ein Wiki und FAQ für Beispiele und häufige Fragen zu finden ist.

Tesseract für Python

Tesseract lässt sich unter anderem mit der Programmiersprache Python nutzen. Dazu gibt es auf GitHub die Python-Bibliothek "pytesseract", um Texte in Bilddateien und PDFs zu erkennen. Hierzu gibt es auf heise+ den Artikel "Texterkennung mit Tesseract und Python" aus der c't 7/2019, Seite 146.

Siehe auch:


Kommentare

{{commentsTotalLength}} KommentarKommentare

Kommentare öffnen Weitere Kommentare laden...

Das könnte dich auch interessieren