L'anticamera del cestino

Raccolta differenziata di esperienze di dubbia utilità

Posts Tagged ‘OCR

Convertire un PDF in OCR in modo decente

with 2 comments

Ecco un modo per convertire un file pdf in txt su GNU/Linux con un riconoscimento OCR non dico perfetto ma per lo meno decente utilizzando il terminale.

Si da per scontato che siate in possesso di un pdf con le diverse pagine di testo scansionate in bianco e nero a 200dpi. La risoluzione non penso sia vincolante ma credo che avere una qualità decente in partenza possa essere utile al fine di ottenere un buon risultato.

I pacchetti che necessari che dovranno essere installati sono i seguenti:

sudo aptitude install imagemagick pdftk tesseract-ocr tesseract-ocr-ita

Per prima cosa convertiamo il pdf in pbm con il comando pdfimages contenuto nell’ottimo pacchetto poppler-utils (almeno su Ubuntu si chiama così).

pdfimages scan.pdf pag

pdfimages produrrà un file pbm per ciascuna pagina. A questo punto è necessario convertire i file pbm in tif poichè l’ocr che useremo richiede necessariamente questo formato di file come input. La conversione può essere fatta con il comando convert, contenuto nel pacchetto ImageMagik, eseguito in modo ciclico su ciascun file pbm.

for i in *.pbm; do convert $i $i.tif;done

E’ giunto il momento di fare partire il nostro OCR. Il programma che useremo è tesseract contenuto nel pacchetto tesseract-ocr. Importante è installare anche il pacchetto della lingua, nel mio caso ho installato tesseract-ocr-ita per la lingua italiana.

Per fare la conversione sempre in modo ciclico sui tif ho usato il comando seguente:

for i in *.tif; do tesseract $i $i.txt -l ita;done

Da notare il flag -l ita per la lingua italiana.

A questo punto non resta che unire i txt in un unico file

for i in *.txt; do cat $i >> testo_ocr; done

Il tile testo_ocr è il nostro risultato. Ovviamente tutti questi comandi possono essere concatenati in un unico script bash.

Buona conversione.

Written by Max-B

1 settembre 2010 at 17:17

Pubblicato su GNU/Linux

Taggato con

Iscriviti

Ricevi al tuo indirizzo email tutti i nuovi post del sito.

Unisciti agli altri 42 follower