hOCR (Standard)

hOCR ist ein offener Standard, der ein Datenformat beschreibt, das der Repräsentation von Texterkennungsergebnissen dient. Mit diesem Format lassen sich zusätzlich zum Text dessen Layout, Erkennungsgenauigkeit, Formatierungen und andere Informationen erfassen. Das Format baut auf XHTML (oder auch HTML) auf. Metadaten werden nach der Dublin-Core-Konvention zur Einbettung von Metadaten in HTML in speziellen <meta>-Tags abgespeichert.

Software

Das Format wurde in Googles OCRopus eingeführt. Außer von OCRopus kann das Format auch von CuneiForm, von HOCR, einer auf hebräische Schrift spezialisierten Texterkennungssoftware, und ab Version 3.0 auch von Tesseract direkt erzeugt werden.

Die hocr-tools sind ein Paket von Werkzeugen zur Verarbeitung (Zusammenfügen, Aufteilen, Einfügen von Metadaten) und Analyse von hOCR-Daten. Mit hocr2pdf[1] existiert ein Kommandozeilenwerkzeug zur Erzeugung von maschinell durchsuchbaren Bilder-PDF-Dateien anhand von hOCR-Daten.

Einzelnachweise

  1. exactcode.de/site/open_source/exactimage/hocr2pdf
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. The authors of the article are listed here. Additional terms may apply for the media files, click on images to show image meta data.