Advertentie

Tekst uit afbeeldingen halen was nog nooit zo eenvoudig als nu dankzij de optische tekenherkenning (OCR) -technologie.

Met OCR kunnen we allerlei nuttige dingen doen, zoals zoeken naar afbeeldingen met behulp van tekstquery's, documenten reproduceren zonder ze met de hand uit te typen, en zelfs handgeschreven tekst omzetten in digitale tekst Hoe een afbeelding met handschrift naar tekst te converteren met OCRWilt u handgeschreven notities digitaliseren om ze te bewerken of ze voor later bewaren? Hier zijn de beste OCR-tools om handschrift naar tekst te converteren. Lees verder .

Maar wat is optische karakterherkenning? Hoe werkt het eigenlijk? Het lijkt misschien zwarte magie, maar aan het einde van dit artikel heb je een goed begrip van hoe computers letters en woorden kunnen herkennen.

Hoe optische karakterherkenning werkt

Om te begrijpen hoe tekst uit een afbeelding wordt gehaald, moeten we eerst begrijpen wat afbeeldingen zijn en hoe ze op computers worden opgeslagen.

EEN pixel

instagram viewer
is een enkele stip van een bepaalde kleur. Een beeld is in wezen een verzameling pixels. Hoe meer pixels in een afbeelding, hoe hoger de resolutie. Een computer weet niet dat een afbeelding van een wegwijzer echt een wegwijzer is - hij weet alleen dat de eerste pixel deze kleur is, de volgende pixel is die kleur en geeft alle pixels weer die u kunt zien.

Dit betekent dat tekst en niet-tekst niet verschillen van een computer, en daarom is optische tekenherkenning zo moeilijk. Met dat in gedachten, hier is hoe het werkt.

Stap 1: De afbeelding voorbewerken

Voordat tekst kan worden getrokken, moet de afbeelding op bepaalde manieren worden gemasseerd om het extraheren gemakkelijker en waarschijnlijker te maken. Dit wordt voorverwerking genoemd en verschillende softwareoplossingen gebruiken verschillende combinaties van technieken.

De meest voorkomende voorverwerkingstechnieken zijn:

Binarisatie
Elke afzonderlijke pixel in de afbeelding wordt geconverteerd naar zwart of wit. Het doel is om duidelijk te maken welke pixels bij tekst horen en welke pixels bij de achtergrond horen, wat het daadwerkelijke OCR-proces versnelt.

Binarisatie voor optische karakterherkenning

Rechtzetten
Aangezien documenten zelden met perfecte uitlijning worden gescand, kunnen tekens scheef of zelfs ondersteboven eindigen. Het doel hier is om horizontale tekstregels te identificeren en vervolgens de afbeelding te roteren zodat die lijnen eigenlijk horizontaal zijn.

Ontvlek
Of de afbeelding nu is gebinariseerd of niet, er kan ruis zijn die de identificatie van karakters kan verstoren. Ontvlekken verwijdert die ruis en probeert de afbeelding glad te strijken.

Lijnverwijdering
Identificeert alle lijnen en markeringen die waarschijnlijk geen tekens zijn en verwijdert ze vervolgens, zodat het daadwerkelijke OCR-proces niet in de war raakt. Het is vooral belangrijk bij het scannen van documenten met tabellen en dozen.

Zonering
Scheidt de afbeelding in verschillende stukken tekst, zoals het identificeren van kolommen in documenten met meerdere kolommen.

Zonering voor optische karakterherkenning
Beeldcredits: WayneRay /Wikimedia

Stap 2: de afbeelding verwerken

Allereerst probeert het OCR-proces de basislijn vast te stellen voor elke tekstregel in de afbeelding (of als het in de voorbewerking was gezoneerd, zal het elke zone één voor één doorlopen). Elke geïdentificeerde regel karakters wordt één voor één afgehandeld.

Voor elke regel tekens identificeert de OCR-software de afstand tussen tekens door te zoeken naar verticale lijnen van niet-tekstpixels (wat duidelijk zou moeten zijn met de juiste binarisatie). Elk stuk pixel tussen deze niet-tekstregels wordt gemarkeerd als een 'token' dat één teken vertegenwoordigt. Daarom wordt deze stap genoemd tokenisatie.

Beeldverwerking voor optische karakterherkenning

Zodra alle potentiële karakters in de afbeelding zijn getokeniseerd, kan de OCR-software twee verschillende technieken gebruiken om te identificeren welke karakters die tokens eigenlijk zijn:

Patroonherkenning
Elk token wordt pixel-tot-pixel vergeleken met een hele set bekende glyphs - inclusief getallen, leestekens en andere speciale symbolen - en de dichtstbijzijnde overeenkomst wordt gekozen. Deze techniek staat ook bekend als matrix-matching.

Er zijn hier verschillende nadelen. Ten eerste moeten de tokens en glyphs van vergelijkbare grootte zijn, anders komt geen van hen overeen. Ten tweede moeten de tokens in een vergelijkbaar lettertype zijn als de glyphs, wat handschrift uitsluit. Maar als het lettertype van het token bekend is, kan patroonherkenning snel en nauwkeurig zijn.

Functie-extractie
Elk token wordt vergeleken met verschillende regels die beschrijven wat voor soort personage het kan zijn. Bijvoorbeeld, twee verticale lijnen van gelijke hoogte, verbonden door een enkele horizontale lijn, is waarschijnlijk een hoofdletter H.

Deze techniek is handig omdat deze niet beperkt is tot bepaalde lettertypen of formaten. Het kan ook genuanceerder zijn in het herkennen van de subtiele verschillen tussen een hoofdletter I, kleine letters L en het cijfer 1. Het nadeel? Het programmeren van de regels is veel complexer dan het simpelweg vergelijken van de pixels in een token met de pixels in een glyph.

Stap 3: Nabewerking van de afbeelding

Zodra alle token-matching is voltooid, kan de OCR-software het gewoon een dag noemen en de resultaten aan u presenteren. Maar meestal moet er wat meer geknuffeld worden om ervoor te zorgen dat je niet met je ogen rolt naar onzinnige resultaten.

Lexicale beperking
Alle woorden worden vergeleken met een lexicon van goedgekeurde woorden en alle woorden die niet overeenkomen, worden vervangen door het woord dat het best past. Een woordenboek is een voorbeeld van een lexicon. Dit kan helpen bij het corrigeren van woorden met foutieve tekens, zoals 'doorn' in plaats van 'th0rn'.

Applicatiespecifieke optimalisaties
Wanneer OCR wordt gebruikt in niche-instellingen, zoals voor medische of juridische documenten, kan een speciaal soort OCR worden gebruikt dat speciaal is ontworpen voor die instelling. In deze gevallen zoekt de OCR-software mogelijk naar wiskundige vergelijkingen, branchespecifieke termen, enz.

Natuurlijke taal
Deze geavanceerde techniek corrigeert zinnen door een taalmodel te gebruiken dat beschrijft hoe waarschijnlijk het is dat bepaalde woorden door andere woorden worden gevolgd. Het lijkt op de technologie die voorspelt welk woord je vervolgens wilt typen op een mobiel toetsenbord.

Als het goed wordt gedaan, kan dit resulteren in tekst die opmerkelijk leesbaar is.

Aanbevolen optische tekenherkenningstools

Nu je weet hoe OCR werkt, zou het gemakkelijk moeten zijn om te zien dat niet alle OCR-tools gelijk zijn gemaakt. De nauwkeurigheid van uw resultaten hangt sterk af van hoe goed de software de verschillende OCR-technieken implementeert die in dit artikel worden besproken.

We raden OneNote hiervoor ten zeerste aan, wat slechts één reden is waarom het Evernote verslaat voor het maken van aantekeningen Evernote vs. OneNote: welke app voor het maken van aantekeningen is geschikt voor u?Evernote en OneNote zijn geweldige notitie-apps. Het is moeilijk om tussen de twee te kiezen. We hebben alles vergeleken, van interface tot notitieorganisatie om u te helpen kiezen. Wat werkt het beste voor jou? Lees verder . Als u bereid bent te betalen voor een premiumoplossing, overweeg dan OmniPage. Zie onze vergelijking van OneNote vs. OmniPage voor OCR Gratis vs. Betaalde OCR-software: Microsoft OneNote en Nuance OmniPage vergelekenMet OCR-scannersoftware kunt u tekst in afbeeldingen of PDF's converteren naar bewerkbare tekstdocumenten. Is een gratis OCR-tool zoals OneNote goed genoeg? Laten wij het uitzoeken! Lees verder . Voor mobiele documenten moet je deze eens bekijken OCR-apps voor Android-apparaten 6 Beste Android OCR-apps voor het extraheren van tekst uit afbeeldingenMoet u gedrukte tekst digitaliseren zodat u er een zachte kopie van kunt behouden? Als dat zo is, hebt u alleen een hulpmiddel voor optische tekenherkenning (OCR) nodig. Lees verder .

Hoe gebruik je OCR? Heeft u favoriete OCR-tools die we niet hebben genoemd? Laat het ons weten in de reacties hieronder!

Joel Lee heeft een B.S. in computerwetenschappen en meer dan zes jaar professionele schrijfervaring. Hij is de hoofdredacteur van MakeUseOf.