gescannte PDFs effizient verkleinern (und OCR)

Bootdiskette · 22.01.2014

weil ich selbst ne weile mit der recherche zugebracht habe um dann alte nur analog vorliegende bücher digital archivieren und durchsuchen zu können:

--> buch mit einem buchscanner in tiff oder pdf ziehen
--> ghostscript zum ziehen der tiffs aus der pdf
--> convert oder mogrify zum skalieren der tiffs die man aus der gescannten pdf zieht, ebenso kann man damit bei reinen s/w-dokumenten über "-normalize -level 50%,50%" rauschen und graustufen entfernen (beide programme sind teil des imagemagick-pakets)
--> tiffcp um die einzeltiffs wieder aneinanderzukleben (komprimieren in diesem schritt empfohlen)
--> tiff2pdf um ein pdf daraus zu machen (hier nochmal komprimieren "-z" hat bei mir auch geholfen, "-p" für pagesize und "-F" für auf seitengröße skalieren)

180 MB --> knapp 17 MB für ca. 350 Seiten.

für OCR geht das hier:
http://blog.konradvoelkel.de/2010/01/linux-ocr-and-pdf-problem-solved/

oder man installiert sich das pdfsandwich skript. sehr hilfreich das ganze. die größenoptimierung mit OCR ist noch nicht ganz so gut weil ich meinen oben beschriebenen prozess da noch nicht eingebaut habe, aber es dürfte nicht allzu viel mehr platz verbrauchen wenn ich es hinreichend optimiert habe.

xornado · 23.01.2014

oder man nutzt die ocr funktion im adobe acrobat pro mit den einstellungen

Clearscan
English (oder welche sprache auch immer)
300 dpi.

Bootdiskette · 23.01.2014

ja, wenn man die paar hundert EUR für die lizenz investieren will (regulärer preis) oder lieber illegale software benutzt und zusätzlich noch entweder win oder mac benutzt.
ich nutze selbst linux und bin zusätzlich nicht in der position dass ich dringend knapp 100 EUR für eine software (student/teacher edition) ausgeben will, die ich nur seltenst brauche.
ich lerne gerne dinge wie shellskripting o. ä., daher ist die lösung mit freier software für mich das optimum.

xornado · 24.01.2014

Whatever floats your boat.

Wenn meine Firma das installiert, nutze ich das auch

Bootdiskette · 25.01.2014

klar, für die isses weniger eine frage des geldes. im öffentlichen dienst (ich) und für studenten ist es allerdings praktisch wenn man geld sparen kann durch einsatz von zeit. klar, hat eine weile gedauert aber nun geht's eben vollautomatisch für die zukunft.

automation done right

gescannte PDFs effizient verkleinern (und OCR)

Bootdiskette

xornado

Bootdiskette

xornado

Bootdiskette