Het extraheren en hergebruiken van gegevens uit gescande documenten, camerabeelden en PDF's met alleen afbeeldingen kan lastig zijn.
Een technologisch geavanceerde ML-gebaseerde OCR-engine kan de taak echter efficiënt uitvoeren.
In dit artikel leggen we uit hoe een OCR-engine werkt en waarom de OCR SDK wellicht de juiste keuze is voor uw behoeften.
Wat is optische tekenherkenning (OCR)?
OCR- Optical Character Recognition – zet een afbeelding van tekst om in een AI-gestuurd, machinaal leesbaar tekstformaat.
OCR biedt enorme voordelen ten opzichte van eenvoudige scans, omdat u de woorden in het afbeeldingsbestand niet kunt bewerken, zoeken of tellen met een teksteditor.
OCR kan de afbeelding echter omzetten in een tekstdocument, waarbij de inhoud ervan als tekstgegevens wordt opgeslagen.
Wat is het belang van een OCR-engine?
Tegenwoordig omvatten de meeste bedrijfsprocessen het ontvangen van informatie uit gedrukte media. Facturen, papieren formulieren, gescande juridische documenten en gedrukte contracten maken deel uit van bedrijfsprocessen.
Het kost veel tijd en ruimte om dergelijke grote hoeveelheden papierwerk op te slaan en te beheren.
OCR biedt voordelen op het gebied van papierloos documentbeheer ten opzichte van handmatig ingrijpen, wat omslachtig en traag is.
Verbeterde OCR-technologie op basis van kunstmatige intelligentie (AI) lost dit probleem op door tekstafbeeldingen om te zetten in tekstgegevens die door andere bedrijfssoftware kunnen worden geanalyseerd.
De verwerkte gegevens worden vervolgens gebruikt om analyses uit te voeren, de bedrijfsvoering te stroomlijnen en processen te automatiseren, wat uiteindelijk de productiviteit verbetert.
Hoe werkt een OCR-engine?
Image Acquisition
Beeldacquisitie is de eerste stap, waarbij een scanner documenten leest en omzet in binaire data. De lichte gebieden worden gecategoriseerd als achtergrond en de donkere gebieden als tekst om de gescande afbeelding te analyseren.
Voorbewerking van afbeeldingen
Het acquisitieproces gaat gepaard met fouten en onvolkomenheden. Daarom reinigt de OCR-engine eerst de afbeelding en verwijdert de fouten voordat deze wordt gelezen.
Deze reinigingstechnieken:
- Rechtzetten or kanteling: los uitlijningsproblemen op tijdens de scan.
- ontspikkelen: verwijder alle digitale beeldvlekken die de randen van tekstafbeeldingen verzachten.
- Vakken en lijnen worden in de afbeelding schoongemaakt.
- Herkenning van het script voor meertalige OCR-technologie.
Tekstherkenning
Patroonherkenning en kenmerkextractie zijn de twee belangrijkste typen OCR-algoritmen die OCR-software voornamelijk gebruikt voor tekstherkenning.
Patroonaanpassing
De volgende stap is het matchen van het patroon door een karakterafbeelding met de naam te scheiden glyph en deze te vergelijken met een soortgelijk opgeslagen teken.
Het proces werkt alleen als het opgeslagen teken een lettertype en schaal heeft die vergelijkbaar zijn met het invoerteken.
Functie extractie
De volgende stap is feature-extractie. Dit proces splitst de symbolen op in features zoals lijnen, gesloten lussen, lijnrichting en lijnkruisingen.
Deze functies vinden de beste match of de dichtstbijzijnde buur tussen de verschillende opgeslagen glyphs.
Nabewerking
Na analyse zet het systeem de geëxtraheerde tekstgegevens ten slotte om in een computerbestand.
Wat zijn typische OCR-gebruiksgevallen?
- BankierenOCR-technologie helpt de banksector bij het verwerken en verifiëren van documenten voor leningdocumenten, stortingscheques en andere financiële transacties. Het heeft fraudepreventie verbeterd en de transactiebeveiliging verhoogd.
- GezondheidszorgOCR heeft een revolutie teweeggebracht in de gezondheidszorg. Het verwerkt patiëntendossiers, waaronder behandelingen, tests, ziekenhuisdossiers en verzekeringsuitkeringen. Het heeft onlangs geholpen de workflow te stroomlijnen en de handmatige werkzaamheden in ziekenhuizen te verminderen, terwijl de dossiers up-to-date blijven.
- Juridische documentatie: OCR-technologie maakt het mogelijk om belangrijke, goedgekeurde juridische documenten te scannen en op te slaan in een elektronische database, zodat ze gemakkelijk terug te vinden zijn. Vervolgens kunnen de documenten ook door meerdere mensen worden bekeken en gedeeld.
- LogistiekDe logistieke sector was minder efficiënt vóór de komst van OCR-technologie. Voorheen was het handmatig invoeren van bedrijfsdocumenten tijdrovend en foutgevoelig. Dankzij Foresight moesten medewerkers de gegevens in meerdere boekhoudsystemen invoeren. Logistieke bedrijven gebruiken OCR om pakketlabels, facturen, bonnen en andere documenten efficiënter te volgen. Met Amazon Textract kan Foresight-software tekens nauwkeuriger lezen in verschillende lay-outs, wat de bedrijfsefficiëntie verhoogt.
Op welke manieren helpen OCR-engines bedrijven tegenwoordig?
- Werkstromen automatiseren
- Alleen-lezen bestanden omzetten in bewerkbare tekst
- Audible-bestanden maken
- Vertalen van vreemde talen
- Formulieren en vragenlijsten beheren
- Snellere en nauwkeurigere gegevensinvoer bereiken
Hoe kunt u een OCR SDK integreren?
Met de OCR SDK van FileStack kunt u documenten digitaliseren en gegevens uit creditcards, paspoorten, rijbewijzen en belastingbonnen extraheren en ordenen zonder dat u er ook maar iets voor hoeft te doen.
Met OCR van FileStack wordt het gegevensvastleggingsproces georganiseerd en gestroomlijnd, zodat u dat niet meer hoeft te doen.
Om de tekst in complexe documenten in de afbeeldingen te extraheren, heeft FileStack twee verschillende, op machine learning gebaseerde oplossingen die nauwkeurig werken.
- Ongeleid leren met intelligente beeldverwerking
- Begeleide segmentatie
De nieuwste toevoeging van FileStack is de geavanceerde detectie- en voorverwerkingstools voor documenten, die de nauwkeurigheid kunnen verhogen.
Eerst uploadt de API van FileStack de afbeeldingen naar zijn databases. Vervolgens worden ze getransformeerd naar een uniform formaat en aangepast naar een standaardformaat.
Vervolgens worden ze ingevoerd in documentdetectie- en voorbewerkingstools om de afbeelding duidelijker te maken voor de OCR-engine. De resultaten genereren een JSON-respons met alle informatie over de geëxtraheerde teksten in de originele afbeelding.
In de verwerkings-API is OCR beschikbaar als synchrone bewerking. Volg deze taak:
| OCR |
Het antwoord luidde als volgt:
| { “document”: { “tekst_gebieden”: [ { “bounding_box”: [ { “x”: 834, “j”: 478 }, { “x”: 3372, “j”: 739 }, { “x”: 3251, “j”: 1907 }, { “x”: 714, “j”: 1646 } ], “lijnen”: [ { “bounding_box”: [ { “x”: 957, “j”: 490 }, { “x”: 3008, “j”: 701 }, { “x”: 2977, “j”: 1009 }, { “x”: 925, “j”: 797 } ], “tekst”: “Filestack kan detecteren”, “woorden”: [ { “bounding_box”: [ { “x”: 957, “j”: 490 }, { “x”: 1833, “j”: 580 }, { “x”: 1802, “j”: 888 }, { “x”: 925, “j”: 797 } ], “tekst”: “Bestandsstapel” }, { “bounding_box”: [ { “x”: 1916, “j”: 589 }, { “x”: 2266, “j”: 625 }, { “x”: 2235, “j”: 932 }, { “x”: 1884, “j”: 896 } ], “tekst”: “kan” }, { “bounding_box”: [ { “x”: 2336, “j”: 632 }, { “x”: 3008, “j”: 701 }, { “x”: 2977, “j”: 1009 }, { “x”: 2304, “j”: 939 } ], “tekst”: “detecteren” } ] }, { “bounding_box”: [ { “x”: 860, “j”: 858 }, { “x”: 3330, “j”: 1049 }, { “x”: 3301, “j”: 1421 }, { “x”: 831, “j”: 1229 } ], “tekst”: “gedrukt en handgeschreven”, “woorden”: [ { “bounding_box”: [ { “x”: 860, “j”: 858 }, { “x”: 1550, “j”: 912 }, { “x”: 1521, “j”: 1283 }, { “x”: 831, “j”: 1229 } ], “tekst”: “afgedrukt” }, { “bounding_box”: [ { “x”: 1677, “j”: 922 }, { “x”: 2047, “j”: 951 }, { “x”: 2018, “j”: 1321 }, { “x”: 1648, “j”: 1292 } ], “tekst”: “en” }, { “bounding_box”: [ { “x”: 2107, “j”: 954 }, { “x”: 3330, “j”: 1049 }, { “x”: 3301, “j”: 1421 }, { “x”: 2078, “j”: 1326 } ], “tekst”: “handgeschreven” } ] }, { “bounding_box”: [ { “x”: 749, “j”: 1305 }, { “x”: 2504, “j”: 1486 }, { “x”: 2469, “j”: 1826 }, { “x”: 714, “j”: 1645 } ], “tekst”: “teksten die OCR gebruiken”, “woorden”: [ { “bounding_box”: [ { “x”: 749, “j”: 1305 }, { “x”: 1233, “j”: 1355 }, { “x”: 1198, “j”: 1695 }, { “x”: 714, “j”: 1645 } ], “tekst”: “teksten” }, { “bounding_box”: [ { “x”: 1317, “j”: 1364 }, { “x”: 1910, “j”: 1425 }, { “x”: 1875, “j”: 1765 }, { “x”: 1282, “j”: 1704 } ], “tekst”: “gebruikmakend van” }, { “bounding_box”: [ { “x”: 1972, “j”: 1431 }, { “x”: 2504, “j”: 1486 }, { “x”: 2469, “j”: 1826 }, { “x”: 1937, “j”: 1771 } ], “tekst”: “OCR” } ] } ], “tekst”: “Filestack kan gedrukte en handgeschreven teksten detecteren met behulp van OCR” } ] }, “tekst”: “Filestack kan gedrukte en handgeschreven teksten detecteren met behulp van OCR”, “tekst_oppervlakte_percentage”: 23.40692449819434 } |
Afhankelijk van de responsparameters kunt u als volgt een OCR-respons op uw afbeelding krijgen:
| https://cdn.filestackcontent.com/security=p:<POLICY>,s:<SIGNATURE>/ocr/<HANDLE> |
U kunt OCR gebruiken in een keten met andere taken, zoals doc_detection:
| https://cdn.filestackcontent.com/security=p:<POLICY>,s:<SIGNATURE>/doc_detection=coords:false,preprocess:true/ocr/<HANDLE> |
Gebruik ook OCR met een externe URL:
| https://cdn.filestackcontent.com/<FILESTACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/<EXTERNAL_URL> |
Gebruik ten slotte OCR met opslagaliassen:
| https://cdn.filestackcontent.com/<FILESTACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/src://<STORAGE_ALIAS>/<PATH_TO_FILE> |



