Das Extrahieren und Wiederverwenden von Daten aus gescannten Dokumenten, Kamerabildern und reinen Bild-PDFs kann schwierig sein.
Eine technologisch fortschrittliche ML-basierte OCR-Engine kann die Aufgabe jedoch effizient ausführen.
In diesem Artikel wird erläutert, wie eine OCR-Engine funktioniert und warum das OCR SDK möglicherweise genau das Richtige für Ihre Bedürfnisse ist.
Was ist optische Zeichenerkennung (OCR)?
OCR – Optical Character Recognition – konvertiert ein Textbild in ein KI-fähiges maschinenlesbares Textformat.
OCR bietet gegenüber einfachen Scans enorme Vorteile, da Sie die Wörter in der Bilddatei mit einem Texteditor nicht bearbeiten, durchsuchen oder zählen können.
OCR kann das Bild jedoch in ein Textdokument umwandeln und dessen Inhalt als Textdaten speichern.
Welche Bedeutung hat eine OCR-Engine?
Heutzutage besteht der Großteil der Geschäftsabläufe aus dem Empfang von Informationen aus Printmedien. Rechnungen, Papierformulare, gescannte Rechtsdokumente und gedruckte Verträge sind Teil der Geschäftsprozesse.
Die Aufbewahrung und Verwaltung dieser großen Mengen an Papierkram nimmt viel Zeit und Platz in Anspruch.
Hier bietet OCR Vorteile für die papierlose Dokumentenverwaltung gegenüber manuellen Eingriffen, die mühsam und langsam sind.
Eine verbesserte KI-basierte OCR-Technologie löst das Problem, indem sie Textbilder in Textdaten umwandelt, die von anderer Unternehmenssoftware analysiert werden können.
Die verarbeiteten Daten werden dann integriert, um Analysen durchzuführen, Abläufe zu optimieren und Prozesse zu automatisieren, was letztendlich die Produktivität verbessert.
Wie funktioniert eine OCR-Engine?
Image Acquisition
Die Bilderfassung ist der erste Schritt, bei dem ein Scanner Dokumente einliest und in Binärdaten umwandelt. Er kategorisiert die hellen Bereiche als Hintergrund und die dunklen Bereiche als Text, um das gescannte Bild zu analysieren.
Bildvorverarbeitung
Der Erfassungsprozess ist mit Schmutz und Fehlern verbunden. Daher bereinigt die OCR-Engine das Bild zunächst und beseitigt die Fehler vor dem Lesen.
Diese Reinigungstechniken:
- Deskewing or kippen: Beheben Sie Ausrichtungsprobleme während des Scans.
- Entflecken: Entfernen Sie alle digitalen Bildflecken, die die Kanten von Textbildern glätten.
- Kästchen und Linien werden im Bild bereinigt.
- Erkennung des Skripts für mehrsprachige OCR-Technologie.
Texterkennung
Mustererkennung und Merkmalsextraktion sind die beiden Haupttypen von OCR-Algorithmen, die OCR-Software hauptsächlich zur Texterkennung verwendet.
Musterabgleich
Der nächste Schritt ist die Übereinstimmung des Musters durch die Trennung eines Zeichenbildes namens Glyphe und Vergleichen mit einem ähnlich gespeicherten Glyph.
Der Vorgang funktioniert nur, wenn die gespeicherte Glyphe eine ähnliche Schriftart und Skalierung wie die Eingabeglyphe aufweist.
Merkmalsextraktion
Der nächste Schritt ist die Merkmalsextraktion. Dabei werden die Glyphen in Merkmale wie Linien, geschlossene Schleifen, Linienrichtung und Linienschnittpunkte zerlegt.
Diese Funktionen finden die beste Übereinstimmung oder den nächsten Nachbarn unter den verschiedenen gespeicherten Glyphen.
Nachbearbeitung
Nach der Analyse konvertiert das System die extrahierten Textdaten schließlich in eine Computerdatei.
Was sind typische OCR-Anwendungsfälle?
- Bankwesen: OCR-Technologie unterstützt die Bankenbranche bei der Bearbeitung und Überprüfung von Kreditdokumenten, Einzahlungsschecks und anderen Finanztransaktionen. Sie verbessert die Betrugsprävention und erhöht die Transaktionssicherheit.
- GesundheitswesenOCR hat das Gesundheitswesen revolutioniert. Es verarbeitet Patientenakten, einschließlich Behandlungen, Tests, Krankenhausakten und Versicherungszahlungen. Es hat kürzlich dazu beigetragen, Arbeitsabläufe zu optimieren und den manuellen Arbeitsaufwand im Krankenhaus zu reduzieren und gleichzeitig die Akten aktuell zu halten.
- Rechtliche Dokumentation: OCR-Technologie ermöglicht das Scannen wichtiger, genehmigter Rechtsdokumente und deren Speicherung in einer elektronischen Datenbank für den bequemen Abruf. Die Dokumente können dann von vielen Personen eingesehen und geteilt werden.
- LogistikDie Logistikbranche war vor der Einführung der OCR-Technologie weniger effizient. Die manuelle Eingabe von Geschäftsdokumenten war zeitaufwändig und fehleranfällig. Dank Foresight mussten Mitarbeiter die Daten in mehrere Buchhaltungssysteme eingeben. Logistikunternehmen nutzen OCR, um Paketetiketten, Rechnungen, Quittungen und andere Dokumente effizienter zu verfolgen. Mit Amazon Textract kann die Foresight-Software Zeichen in vielen verschiedenen Layouts präziser lesen und so die Geschäftseffizienz steigern.
Welche wichtigen Vorteile bieten OCR-Engines Unternehmen heute?
- Arbeitsabläufe automatisieren
- Umwandlung schreibgeschützter Dateien in bearbeitbaren Text
- Erstellen von Hördateien
- Übersetzen von Fremdsprachen
- Formulare und Fragebögen verwalten
- Schnellere und präzisere Dateneingabe
Wie können Sie ein OCR-SDK integrieren?
Das OCR-SDK von FileStack hilft beim Digitalisieren von Dokumenten und beim Extrahieren und Organisieren von Daten aus Kreditkarten, Reisepässen, Führerscheinen und Steuerbelegen, ohne dass Sie einen Finger rühren müssen.
OCR von FileStack organisiert und rationalisiert den Datenerfassungsprozess, sodass Sie dies nicht tun müssen.
Um den Text aus den komplexen Dokumenten in den Bildern zu extrahieren, verfügt FileStack über zwei verschiedene, auf maschinellem Lernen basierende Lösungen, die präzise funktionieren.
- Unüberwachtes Lernen mit intelligenter Bildverarbeitung
- Überwachte Segmentierung
Erweiterte Tools zur Dokumenterkennung und -vorverarbeitung sind die neueste Ergänzung von FileStack, die die Genauigkeit erhöhen können.
Zunächst lädt die API von FileStack die Bilder in ihre Datenbanken hoch. Anschließend werden sie in ein einheitliches Format umgewandelt und auf eine Standardgröße geändert.
Anschließend werden sie in Tools zur Dokumentenerkennung und -vorverarbeitung eingespeist, um das Bild für die OCR-Engine übersichtlicher zu gestalten. Die Ergebnisse generieren eine JSON-Antwort, die alle Informationen der extrahierten Texte im Originalbild enthält.
In der Verarbeitungs-API ist OCR als synchroner Vorgang verfügbar. Gehen Sie wie folgt vor:
| OCR |
Dementsprechend lautete die Antwort:
| { "dokumentieren": { „Textbereiche“: [ { „Begrenzungsrahmen“: [ { „x“: 834, „y“: 478 }, { „x“: 3372, „y“: 739 }, { „x“: 3251, „y“: 1907 }, { „x“: 714, „y“: 1646 } ], „Zeilen“: [ { „Begrenzungsrahmen“: [ { „x“: 957, „y“: 490 }, { „x“: 3008, „y“: 701 }, { „x“: 2977, „y“: 1009 }, { „x“: 925, „y“: 797 } ], „Text“: „Filestack kann erkennen“, „Wörter“: [ { „Begrenzungsrahmen“: [ { „x“: 957, „y“: 490 }, { „x“: 1833, „y“: 580 }, { „x“: 1802, „y“: 888 }, { „x“: 925, „y“: 797 } ], „Text“: „Dateistapel“ }, { „Begrenzungsrahmen“: [ { „x“: 1916, „y“: 589 }, { „x“: 2266, „y“: 625 }, { „x“: 2235, „y“: 932 }, { „x“: 1884, „y“: 896 } ], „Text“: „kann“ }, { „Begrenzungsrahmen“: [ { „x“: 2336, „y“: 632 }, { „x“: 3008, „y“: 701 }, { „x“: 2977, „y“: 1009 }, { „x“: 2304, „y“: 939 } ], „Text“: „erkennen“ } ] }, { „Begrenzungsrahmen“: [ { „x“: 860, „y“: 858 }, { „x“: 3330, „y“: 1049 }, { „x“: 3301, „y“: 1421 }, { „x“: 831, „y“: 1229 } ], „Text“: „gedruckt und handschriftlich“, „Wörter“: [ { „Begrenzungsrahmen“: [ { „x“: 860, „y“: 858 }, { „x“: 1550, „y“: 912 }, { „x“: 1521, „y“: 1283 }, { „x“: 831, „y“: 1229 } ], „Text“: „gedruckt“ }, { „Begrenzungsrahmen“: [ { „x“: 1677, „y“: 922 }, { „x“: 2047, „y“: 951 }, { „x“: 2018, „y“: 1321 }, { „x“: 1648, „y“: 1292 } ], „Text“: „und“ }, { „Begrenzungsrahmen“: [ { „x“: 2107, „y“: 954 }, { „x“: 3330, „y“: 1049 }, { „x“: 3301, „y“: 1421 }, { „x“: 2078, „y“: 1326 } ], „Text“: „handschriftlich“ } ] }, { „Begrenzungsrahmen“: [ { „x“: 749, „y“: 1305 }, { „x“: 2504, „y“: 1486 }, { „x“: 2469, „y“: 1826 }, { „x“: 714, „y“: 1645 } ], „text“: „Texte mit OCR“, „Wörter“: [ { „Begrenzungsrahmen“: [ { „x“: 749, „y“: 1305 }, { „x“: 1233, „y“: 1355 }, { „x“: 1198, „y“: 1695 }, { „x“: 714, „y“: 1645 } ], „text“: „Texte“ }, { „Begrenzungsrahmen“: [ { „x“: 1317, „y“: 1364 }, { „x“: 1910, „y“: 1425 }, { „x“: 1875, „y“: 1765 }, { „x“: 1282, „y“: 1704 } ], „Text“: „mit“ }, { „Begrenzungsrahmen“: [ { „x“: 1972, „y“: 1431 }, { „x“: 2504, „y“: 1486 }, { „x“: 2469, „y“: 1826 }, { „x“: 1937, „y“: 1771 } ], „Text“: „OCR“ } ] } ], „Text“: „Filestack kann gedruckte und handschriftliche Texte mithilfe von OCR erkennen.“ } ] }, „Text“: „Filestack kann gedruckte und handschriftliche Texte mithilfe von OCR erkennen“, „Textbereichsprozentsatz“: 23.40692449819434 } |
Abhängig von den Antwortparametern können Sie die OCR-Antwort auf Ihr Bild wie folgt erhalten:
| https://cdn.filestackcontent.com/security=p:<POLICY>,s:<SIGNATURE>/ocr/<HANDLE> |
Sie können OCR in einer Kette mit anderen Aufgaben verwenden, z. B. doc_detection:
| https://cdn.filestackcontent.com/security=p:<POLICY>,s:<SIGNATURE>/doc_detection=coords:false,preprocess:true/ocr/<HANDLE> |
Verwenden Sie OCR auch mit einer externen URL:
| https://cdn.filestackcontent.com/<FILESTACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/<EXTERNAL_URL> |
Verwenden Sie abschließend OCR mit Speicheraliasen:
| https://cdn.filestackcontent.com/<FILESTACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/src://<STORAGE_ALIAS>/<PATH_TO_FILE> |



