Advertentie

Javier vraagt:

Ik ben een schrijver van korte verhalen en verhalen. Ik zoek een gratis Optische karakter erkenning (OCR) of Intelligente karakterherkenning (ICR) programma om mijn oude manuscripten van afbeeldingen of foto's te scannen, zodat ik ze kan converteren naar Microsoft Word-bestanden.

Zijn er gratis en nauwkeurige programma's die dit kunnen doen? Helaas heb ik geen scanner, maar heb ik wel toegang tot een digitale camera met een resolutie van 20 megapixels.

manuscript

Kannons antwoord:

Zoals je al zei, zijn er verschillende soorten karakterherkenningstechnologieën die automatisch handgeschreven of getypte teksten kunnen omzetten in digitale karakters. De nauwkeurigheid van dit soort software varieert sterk tussen verschillende implementaties. Sommigen converteren letter voor letter en anderen kunnen hele woorden converteren. Er zijn drie algemene categorieën van deze software:

  • Optical Character Recognition (OCR)
  • Intelligente karakterherkenning (ICR)
  • Intelligente woordherkenning (IWR)
instagram viewer

Optische karakter erkenning

In werkelijkheid is OCR een algemene term en vaak worden alle methoden die in dit artikel worden beschreven OCR genoemd - Wikipedia geeft OCR echter zijn eigen classificatie, maar moderne implementaties hebben de neiging om meerdere samen te voegen methoden. Dus wat doet het? OCR zet individuele - getypeerde of handgeschreven - letters om in digitale karakters. Dus de software kijkt naar een document en probeert het vervolgens om te zetten in platte tekst door te raden wat elk teken is.

De software is niet perfect. OCR-software kan individuele karakters met een vergelijkbare vormgeving verkeerd interpreteren, wat resulteert in verkeerd gespelde woorden en onnauwkeurige resultaten. Meestal kunnen gebruikers de door een OCR-programma gegenereerde tekst naar een tekstverwerker kopiëren en de spelfouten automatisch herstellen. Vaak verschijnen fouten als vergelijkbare tekens. De letter 'd' kan bijvoorbeeld worden weergegeven als 'cl'.

Maar als het gaat om handgeschreven teksten, doet OCR het niet zo goed. In ieder geval zijn de meeste gratis implementaties tragisch slecht. Er zijn enkele commerciële producten die dat kunnen werkelijk spijker handgeschreven transcriptie, maar hun prijzen plaatsen ze volledig buiten het bereik van het grote publiek. Er zijn bijvoorbeeld Lexmark's ReadSoft OCR-software. Deze enterprise-only software kost duizenden dollars.

geannoteerde tekst

Intelligente karakterherkenning

ICR is een subset van OCR die gespecialiseerd is in het omzetten van handgeschreven tekst in individuele digitale karakters. Aangezien uw aantekeningen en manuscripten handgeschreven zijn, is een ICR-programma het handigst. Ik weet echter niet zeker hoe nauwkeurig ze teksten kunnen converteren die zijn geschreven in vreemde talen, zoals Spaans. Net als bij OCR kunnen gebruikers de kwaliteit van de uitgevoerde teksten verbeteren door ze naar een tekstverwerker te kopiëren met spellingcorrectie ingeschakeld en vervolgens met de hand te proeflezen.

Een karaktertest: 10 lettertypespellen die typografie bewijzen, kunnen leuk zijn

Intelligente woordherkenning

De nieuwste evolutie van OCR en ICR is Intelligente woordherkenning software. In plaats van individuele karakters te herkennen, probeert het hele handgeschreven woorden te vertalen. Net als OCR en ICR vertaalt Intelligent Word Recognition woorden vaak verkeerd en moet de gebruiker eventuele gemaakte fouten handmatig corrigeren.

Wat is de beste gratis OCR-software?

Er zijn veel opties beschikbaar. Tesseract is waarschijnlijk de beste open source (en gratis) OCR-software die er is. Voor zover ik weet, kijkt het alleen naar individuele karakters en niet naar hele woorden.

Omdat u Microsoft Word gebruikt (wat de beste is, meest aanpasbare spellingcontrole Spelling- en grammaticacontrole in Microsoft WordU kunt de ingebouwde hulpprogramma's voor spelling- en grammaticacontrole van Microsoft Word aanpassen aan uw behoeften. U kunt AutoCorrectie zelfs gebruiken om uw typen te versnellen. Lees verder in de bedrijven), kunt u gewoon de hele tekst naar Word kopiëren en vervolgens een spellingcontrole uitvoeren om spelfouten op te ruimen.

Tesseract is eigenlijk een OCR-engine die wordt uitgevoerd vanaf de opdrachtregel. Tenzij u bereid bent om te gaan met de moeilijkheid om een ​​opdrachtregelprogramma te gebruiken, wilt u waarschijnlijk iets gebruiksvriendelijker installeren. Er is een downloadbare "front-end" (of een grafische gebruikersinterface) waarmee u Tesseract kunt gebruiken als een tool voor slepen en neerzetten: PDF OCR X. Installeer eerst het softwarepakket en voer het vervolgens uit. Je ziet dan een venster:

PDF OCR-interface

Vervolgens sleept u het afbeeldingsbestand gewoon naar het venster. Zodra de afbeelding is geladen, voert u de OCR-transcriptiesoftware uit. Het kan een minuut of zo duren.

Helaas bleek het helemaal niet geschikt voor het behandelen van uw tekst. Zo ziet het eruit na het extraheren van tekst uit het document:

OCR-beeldextractie met behulp van tesseract

Aangezien het erop lijkt dat u Microsoft Office al gebruikt, is de beste optie waarschijnlijk ook van Microsoft. Ik vermoed dat je een exemplaar van Microsoft Office bezit, waaronder OneNote. Deze is uitgerust met redelijk geavanceerde OCR-technologie.

Ook op beide iOS en Android, is er ook de volledig gratis Microsoft Office Lens, die JPEG (en andere afbeeldingsindelingen) rechtstreeks in tekst kan omzetten. Wat de mobiele versies zo geweldig maakt, is dat je een afbeelding kunt opnemen, uploaden naar het cloudcomputersysteem van Microsoft en vervolgens de tekstextractie van OneNote op een desktop kunt uitvoeren.

Het proces is redelijk eenvoudig. Maak eerst een foto van je tekst. Als je hebt besloten om de OneNote-app te gebruiken, hoef je het bestand alleen op te slaan in je OneDrive-account. Breng de afbeelding anders over naar uw computer en zet deze neer op OneNote.

Klik vervolgens met de rechtermuisknop op de afbeelding en selecteer KopiërenTekst uit afbeelding vanuit het contextmenu.

onenote extractie van tekst

Klik vervolgens met de rechtermuisknop op een leeg gedeelte van OneNote (of in een toepassing voor het lezen van tekst) en plak de tekst erin. De uitgevoerde tekst van uw document ziet er als volgt uit:

onenote OCR-tekstextractie

Helaas doen de resultaten van OneNote dat niet overal in de buurt van een goede baan, het produceren van volslagen onzin. Dit kan worden veroorzaakt door een combinatie van factoren, zoals een vervormd beeld of schrijven dat niet in een rechte lijn is gedaan, of simpelweg omdat de software niet goed genoeg is.

Op dit moment heeft de beste oplossing voor OCR op handgeschreven documenten betrekking op machine learning: specifiek diepgaand leren. Diep leren is een geavanceerde methode om een ​​computer te trainen om taken uit te voeren waar voorheen alleen mensen in uitblonken, zoals gezichtsherkenning (Picasa doet gezichtsherkenning Gezichtsherkenning gebruiken in Picasa-webalbums Lees verder , geloof het of niet). Google heeft onlangs DeepMind gekocht, dat zich ontwikkelt diepgaande technologie Coole onderzoeksprojecten die de toekomst kunnen veranderenZullen megabedrijven als Google, Microsoft, IBM en Intel toekomstige generaties de wereld geven die we ons nu alleen maar kunnen voorstellen? Deze spannende onderzoeksprojecten zeggen dat het een belofte is die ze zullen nakomen. Lees verder . Deze belangrijke acquisitie had een groot effect: Microsoft verliest van Google in OCR Microsoft vs Google - Wie leidt de race voor kunstmatige intelligentie?Onderzoekers op het gebied van kunstmatige intelligentie boeken tastbare vooruitgang en mensen beginnen weer serieus over AI te praten. De twee titanen die de race voor kunstmatige intelligentie leiden, zijn Google en Microsoft. Lees verder . Op dit moment biedt Google een van de meest geavanceerde (en gratis) methoden: Google Keep.

Google Keep (die we voor het eerst hebben beoordeeld in 2013 Simpele opmerkingen voor onderweg: Google Keep voor Android beoordeeldEr zijn een aantal fantastische notitie-apps, maar hier is er een die een nadere blik verdient: Google Keep, een notitie-houder die zowel een fantastisch uitziende Android-app als een gelikte webapp heeft. Lees verder ) biedt ook een mobiele versie van hun app voor Android. Net als bij OneNote, kunt u de afbeelding opnemen en deze rechtstreeks naar de Google-cloud overbrengen. Sleep de afbeelding gewoon naar het Google Keep-venster. Klik vervolgens op de menuknop (drie verticale stippen) en selecteer Grijp afbeeldingstekst vanuit het contextmenu.

Google Keep

Zo ziet het eruit na het uitpakken van de tekst:

18-07-2015_19u45_34

Google Keep wint

Zoals u kunt zien, domineert Google Keep de concurrentie. De resultaten kunnen nog verder worden verbeterd door een beeldbewerkingsprogramma 10 gratis tools voor foto-editor om het meeste uit uw opnamen te halenWat is er gebeurd met alle snapshots die je in het verleden hebt gemaakt? Als je plannen en ideeën hebt, zijn hier enkele geweldige Windows en enkele platformonafhankelijke tools om ze mee te verwerken. Lees verder om het contrast te vergroten en de afbeelding recht te trekken.

Hopelijk helpen die opties. Als u meer OCR-opties nodig heeft, kijk dan op de 5 beste OCR-tools De 5 beste OCR-tools voor het extraheren van tekst uit afbeeldingenAls je pakken papier hebt, hoe krijg je dan al die gedrukte tekst omgezet in iets dat een digitaal programma kan herkennen en indexeren? Houd een goede OCR-software in de buurt. Lees verder , voor meer informatie.

Kannon is Tech Journalist (BA) met een achtergrond in internationale aangelegenheden (MA) met de nadruk op economische ontwikkeling en internationale handel. Zijn passies zijn gadgets uit China, informatietechnologieën (zoals RSS) en productiviteitstips en -trucs.