Region wählen
Global Web Site - English
North America - English
Western Europe - English
Western Europe - Deutsch
Western Europe - Français
Western Europe - Italiano
Russia - Русский
Ukraine - Русский
Australia - English
Czech Republic - Čeština
Slovakia - Slovenský
China - 简体中文
Greece - Ελληνικά
Brazil - Português
South America - Español
Turkey - Türkçe
Mal angenommen, Sie möchten einen Zeitungsartikel oder einen gedruckten Vertrag digitalisieren. Sie könnten Stunden mit Abtippen und Korrekturen der Tippfehler verbringen. Oder Sie könnten alle benötigten Unterlagen mittels Scanner (oder Digitalkamera) und Optical Character Recognition Technologie innerhalb weniger Minuten ins digitale Format umwandeln.
Optical Character Recognition (Optische Zeichenerkennung), oder kurz OCR, ist eine Technologie, die die Umwandlung unterschiedlicher Dokumente, wie beispielsweise gescannter Papierdokumente, PDF-Dateien oder Digitalbilder in editierbare und durchsuchbare Daten ermöglicht.
Stellen Sie sich vor, Sie haben ein Dokument in Papierform – zum Beispiel einen Zeitungsartikel, eine Broschüre oder einen Vertrag, den Ihnen Ihr Partner als PDF-Anhang geschickt hat. Offensichtlich reicht ein Scanner nicht aus, um die relevanten Informationen aus diesen Dokumenten herauszuziehen und beispielsweise im bearbeitbaren Microsoft Word-Format wiederzugeben. Alles, was ein Scanner leisten kann, ist ein Bild des Dokuments zu erstellen. Und dieses ist lediglich eine Ansammlung schwarzer, weißer oder farbiger Bildpunkte, die tabellarisch angeordnet und in der Fachsprache unter dem Begriff Rastergrafik bekannt sind. Zum Auslesen und Weiterverwenden der Informationen aus gescannten Dokumenten, Digitalbildern oder Nur-Bild-PDFs benötigt man eine OCR-Software, die in den Bildern Buchstaben erkennt, diese zu Wörtern zusammensetzt und aus diesen wiederum ganze Sätze baut. Damit ermöglicht Ihnen die Software den Zugang zum eigentlichen Inhalt der Dokumente, den Sie anschließend weiter bearbeiten können.
Welche Mechanismen genau den Menschen die Erkennung von Objekten ermöglichen, ist noch nicht bis ins Letzte erforscht, doch die drei Grunderkennungsprinzipien sind Wissenschaftlern wohl bekannt - Einheit, Zweckmäßigkeit und Anpassungsfähigkeit (Integrity, Purposefulness und Adaptability, kurz (IPA)*. Auf diesen Kernprinzipien basiert auch die ABBYY FineReader OCR und imitiert so die menschliche Art, Objekte zu erkennen.
Lassen Sie uns zunächst einen Blick darauf werfen, wie FineReader OCR Text erkennt. Als Erstes analysiert das Programm die Struktur der Dokumentabbildung. Es unterteilt eine Seite in Elemente wie Textblöcke, Tabellen, Bilder usw. Anschließend werden Zeilen in Wörter und schließlich Wörter in Buchstaben aufgeteilt. Wurden erstmal die einzelnen Buchstaben ausgemacht, vergleicht das Programm diese mit einer Reihe von Musterbildern und stellt zahlreiche Hypothesen auf, um welchen Buchstaben es sich hierbei handelt. Basierend auf diesen Hypothesen untersucht das Programm die unterschiedlichen Arten, auf welche Linien in Wörter und Wörter in Buchstaben aufgeteilt werden können. Nach Verarbeitung einer sehr großen Anzahl solcher Wahrscheinlichkeitshypothesen trifft das Programm schließlich eine Entscheidung und präsentiert den erkannten Text.
Zusätzlich bietet ABBYY FineReader Wörterbuchunterstützung für 36 Sprachen. Dies erlaubt eine Sekundäranalyse der Textelemente auf Wortebene. Mit Wörterbuchunterstützung gewährleistet das Programm eine noch genauerer Analyse und Dokumenterkennung und vereinfacht zudem die Verifizierung der Erkennungsergebnisse.
* IPA
Auf welchem Prinzip basiert FineReader OCR?
Die am weitesten entwickelten und damit fortschrittlichsten Systeme zur Texterkennung, wie auch ABBYY FineReader OCR, zielen auf die Imitation der Erkennung von Objekten, wie sie in der Natur oder auch bei Tieren vorkommt. Im Kern basieren diese Systeme auf den drei Grundprinzipien Einheit, Zweckmäßigkeit und Anpassungsfähigkeit. Das Prinzip der Einheit besagt, dass das beobachtete Objekt immer als ein aus vielen miteinander verbundenen Einzelteilen bestehendes „Ganzes“ betrachtet werden muss. Das Prinzip der Zweckmäßigkeit setzt voraus, dass jede Interpretation von Daten stets einem bestimmten Zweck dienen muss. Und das Prinzip der Anpassungsfähigkeit schließlich bedeutet, dass das Programm fähig sein muss, zu lernen.
Man muss kein OCR-Spezialist sein, um die Vorteile einer OCR Applikation zu erkennen, die auf den IPA-Prinzipien aufgebaut ist. Auf Basis dieser Prinzipien wendet das Programm eine äußert flexible und intelligente Erkennungsmethode an, die der menschlichen Art, Objekte zu erkennen, sehr nahe kommt.
Nach jahrelanger Forschung ist es ABBYY gelungen, die oben beschriebenen IPA-Prinzipien in seine OCR-Technologie zu integrieren.
Digitale Bilder unterscheiden sich von gescannten Dokumenten und Nur-Bild-PDFs. Sie haben oft Fehler, wie beispielsweise Verzerrungen an den Ecken und sind ungenügend beleuchtet, was es den meisten OCR-Applikationen schwer macht, Text richtig zu erkennen. Die neueste Version von ABBYY FineReader unterstützt die Adaptive Erkennungstechnologie, die speziell für die Verarbeitung von Digitalbildern entwickelt wurde. Sie bietet eine große Bandbreite an Features zur Verbesserung der Qualität solcher Bilder und erlaubt so eine neue Verwendung und damit eine optimale Nutzung Ihrer Digitalkamera.
Mehr Informationen über OCR für Digitalfotos finden Sie hier.
Die Verwendung von ABBYY FineReader OCR ist einfach – der Prozess durchläuft für Gewöhnlich drei Stufen: Öffnen (Scannen) des Dokuments, Erkennen sowie Speichern im gewünschten Format (DOC, RTF, XLS, PDF, HTML, TXT usw.) oder Export der Daten direkt in eine Office-Applikation, z.B. Microsoft Word, Excel oder Adobe Acrobat.
Die neueste Version von ABBYY FineReader unterstützt zudem den Automatisierungsmodus, der vor allem bei der Verarbeitung regelmäßig wiederkehrender Aufgaben unverzichtbar ist. Mit diesem Feature kann Texterkennung automatisch ablaufen, ohne manuelle Aktivierung der einzelnen Schritte.
Mit FineReader OCR haben erkannte Dokumente das gleiche Layout, wie die Originale. Hochentwickelte, leistungsstarke OCR-Software erspart Ihnen viel Zeit und Aufwand bei der Erstellung, Verarbeitung und Wiederverwendung vieler unterschiedlicher Dokumente. Mit ABBYY FineReader OCR können Sie Papierdokumente einscannen, um sie später zu Bearbeiten und an Kollegen und Partner weiter zu leiten. Sie können Zitate aus Büchern und Zeitschriften entnehmen und in eigene Studien und Arbeitspapiere einbauen, ohne sie abtippen zu müssen. Mit einer Digitalkamera und FineReader OCR können Sie unterwegs Texte von Bannern, Postern und Fahrplänen erfassen und die so gewonnenen Informationen weiter verwenden. Auf die gleiche Art und Weise können Sie Informationen aus Papierdokumenten und Büchern erfassen – wenn beispielsweise kein Scanner zur Hand ist oder nicht verwendet werden kann. Zusätzlich können Sie OCR Software zur Erstellung durchsuchbarer PDF-Archive nutzen.
Der gesamte Prozess der Datenumwandlung aus einem Papierdokument, einem Bild oder einer PDF-Datei dauert weniger als eine Minute, und das finale, erkannte Dokument sieht exakt so aus wie das Original!
Mehr Informationen darüber, wie Ihnen OCR Software im Alltag helfen kann, finden Sie hier.