Hoe tekst uit PDF's en afbeeldingen op Linux te extraheren met gImageReader

Als je een student bent of als je werk veel afbeeldingen en pdf's gebruikt, zou je op een gegeven moment de behoefte hebben gevoeld om tekst uit een afbeelding of document te extraheren.

Gelukkig maakt tekstextractie dit mogelijk. En er zijn verschillende tools die u hiervoor kunt gebruiken. gImageReader is een van de vele tools. Het is gratis te gebruiken en werkt met zowel afbeeldingsbestanden als PDF-documenten.

Laten we een duik nemen om gImageReader in detail te bekijken en te zien hoe u het kunt gebruiken om tekst uit afbeeldingen en PDF's te extraheren.

Wat is gImageReader?

gImageReader is een app waarmee je tekst uit afbeeldingen en PDF's op Linux kunt extraheren. Het is in wezen een GUI of front-end om de Tesseract OCR-engine, een open source engine ontwikkeld door Hewlett-Packard die wordt beschouwd als een van de beste beschikbare OCR-engines.

Met gImageReader kunt u met een paar simpele klikken eenvoudig en vrij nauwkeurig tekst uit afbeeldingen of PDF-documenten extraheren. U kunt de geëxtraheerde tekst vervolgens exporteren naar een tekst- of PDF-bestand voor verder gebruik.

instagram viewer

Kenmerken van gImageReader

gImageReader heeft de volgende functies:

Importeer PDF-documenten en afbeeldingen uit verschillende bronnen (schijf, scanapparaten, klembord en screenshot)
Afbeeldingen of documenten batchgewijs verwerken, d.w.z. tekst uit meerdere afbeeldingen of documenten tegelijk extraheren
Herken tekstfragmenten als platte tekst of hOCR-documenten
Ingebouwde spellingcontrole
Automatische tekstgebieddetectie
Basisbewerking van afbeeldingen/documenten
Uitvoer opslaan als tekstbestand

Hoe gImageReader op Linux te installeren

gImageReader is beschikbaar op de meeste grote Linux-distributies. Maar voordat u doorgaat met de installatie ervan, moet u de Tesseract OCR-engine op uw systeem installeren.

Open hiervoor de Softwarebeheer op uw systeem en zoek naar tesseract. Wanneer het een lijst met resultaten retourneert, installeer dan de tesseract-ocr en tesseract-ocr-eng pakketjes. U kunt ook opdrachtregelpakketbeheerders gebruiken om het pakket te installeren als u meer vertrouwd bent met de terminal.

Bekijk hierna de installatie-instructies in de volgende secties om gImageReader op uw computer te installeren.

Als u Debian of Ubuntu gebruikt, opent u de terminal en voert u de onderstaande opdrachten uit om gImageReader te installeren:

sudo add-apt-repository ppa: sandromani/gimagereader
sudo apt-krijgen update
sudo apt installeren gimagelezer

Op Fedora, CentOS of Red Hat Enterprise Linux (RHEL):

sudo dnf installeren gimagereader-qt

Op Arch Linux of Manjaro:

sudo pacman -S gimagereader

openSUSE-gebruikers kunnen gImageReader installeren met:

sudo zypper installeren gimagelezer

Als je een andere Linux-distro gebruikt, kun je gImageReader vanaf de bron bouwen door de instructies te volgen op GitHub van gImageReader.

Hoe gImageReader op Linux te gebruiken

gImageReader is vrij eenvoudig te gebruiken en werkt met allerlei soorten afbeeldingsbestanden en PDF-documenten. Volg de onderstaande instructies om tekst uit afbeeldingen of pdf's op Linux te extraheren.

Open het toepassingenmenu, zoek naar gImageReaderen start de app. Druk op de Maximaliseren knop in het gImageReader-venster om het in volledige schermweergave te openen.

Klik nu op de Voeg afbeeldingen toe knop in het linkerdeelvenster onder de werkbalk en gebruik de bestandsbrowser om de afbeelding(en) of PDF('s) te selecteren waaruit u tekst wilt extraheren.

Klik OK om de afbeelding(en) of PDF('s) naar gImageReader te importeren. Of, als u tekst wilt extraheren uit wat op het scherm wordt weergegeven, klikt u op de vervolgkeuzelijst naast de Voeg afbeeldingen toe knop en selecteer Screenshot maken. gImageReader maakt een screenshot van de inhoud van het scherm.

Nadat u de afbeelding aan gImageReader heeft toegevoegd, klikt u op de Uitvoervenster wisselen knop (een met het kladblokpictogram) om het uitvoervenster te openen. Hier verschijnt de tekst die u uit afbeeldingen of pdf's haalt.

Afhankelijk van hoe u verder wilt gaan, heeft u nu de mogelijkheid om de tekst in de afbeelding of PDF automatisch of handmatig te identificeren. Om dit automatisch te doen, klikt u op de Lay-out automatisch detecteren knop, en het zal alle tekstblokken in de geselecteerde afbeelding of PDF-document markeren.

Tik hierna op Selectie herkennen > Huidige pagina om het tekstextractieproces te starten.

U kunt de tekst ook handmatig selecteren door de muisaanwijzer op de tekst te plaatsen die u wilt extraheren en met het dradenkruis een kader te tekenen rond het gebied van waaruit u de tekst wilt extraheren. Druk dan op de Selectie herkennen knop om door te gaan.

Als het een PDF-document is en u tekst van verschillende pagina's wilt extraheren, tikt u op de Plus (+) knop om pagina's om te slaan.

Om terug te gaan, druk op de Minus (-) knop. Selecteer vervolgens de tekst die u wilt extraheren en druk op de Selectie herkennen knop om het uit te pakken.

Hoewel zeldzaam, kan het voorkomen dat gImageReader de geëxtraheerde tekst terugstuurt in een andere taal dan het Engels. Wanneer dit gebeurt, tikt u gewoon op de vervolgkeuzeknop naast Selectie herkennen en selecteer een van de Engelse opties.

Ten slotte, om de uitgepakte tekst op te slaan, klikt u op de Uitvoer opslaan knop. Hierdoor wordt het venster Opslaan weergegeven. Geef hier een naam aan het bestand en druk op OK.

Wat kunt u nog meer doen met gImageReader?

Zoals eerder vermeld, geeft gImageReader u ook de mogelijkheid om bepaalde aspecten van de geïmporteerde afbeeldingen of documenten te wijzigen, zoals hun helderheid, contrast en resolutie. Daarnaast kunt u indien nodig ook kleuren omkeren of de afbeeldingen of documenten roteren.

De meeste van deze opties kunnen nuttig blijken te zijn wanneer de tekst in een afbeelding of document niet leesbaar is voor gImageReader, en daardoor de tool verhindert de tekst te herkennen.

Om toegang te krijgen tot een van deze bewerkingsopties, klikt u op de Beeldbediening knop en er verschijnt een mini-werkbalk onder de hoofdwerkbalk. Selecteer hier de juiste knoppen om de gewenste bewerking op de afbeelding of het document uit te voeren.

Tekstextractie op Linux gemakkelijk gemaakt met gImageReader

Tekstextractie vereist vaak de juiste tool: een die een betrouwbare en nauwkeurige OCR-engine gebruikt die stelt het in staat om tekst in een afbeelding of document effectief te identificeren, zodat u het efficiënt kunt extraheren zonder enige gedoe.

gImageReader doet dit mooi, dankzij de Tesseract OCR-engine die het op de achtergrond gebruikt. Gezien het gebruiksgemak is gImageReader ongetwijfeld een van de beste tools voor tekstextractie die beschikbaar zijn voor Linux.

Als alternatief, als u op zoek bent naar een eenvoudigere oplossing, kunt u TextSnatcher bekijken, dat snel en vrij eenvoudig te gebruiken is.

About Technology - denizatm.com

Hoe tekst uit PDF's en afbeeldingen op Linux te extraheren met gImageReader

Wat is gImageReader?

Kenmerken van gImageReader

Hoe gImageReader op Linux te installeren

Hoe gImageReader op Linux te gebruiken

Wat kunt u nog meer doen met gImageReader?

Tekstextractie op Linux gemakkelijk gemaakt met gImageReader

Categorieën

Recent Post

Waarom zijn opvouwbare telefoons nog geen mainstream? Dit zijn de 8 dingen die ze missen

10 Arduino Uno-projectideeën om uw elektronische vaardigheden dit weekend te verbeteren

EPOS H3 Hybrid Review: indrukwekkende draadloze upgrade voor al uitstekende headset