- Mitglied seit
- 21.08.2010
- Beiträge
- 7.980
- Reaktionen
- 1.097
weil ich selbst ne weile mit der recherche zugebracht habe um dann alte nur analog vorliegende bücher digital archivieren und durchsuchen zu können:
--> buch mit einem buchscanner in tiff oder pdf ziehen
--> ghostscript zum ziehen der tiffs aus der pdf
--> convert oder mogrify zum skalieren der tiffs die man aus der gescannten pdf zieht, ebenso kann man damit bei reinen s/w-dokumenten über "-normalize -level 50%,50%" rauschen und graustufen entfernen (beide programme sind teil des imagemagick-pakets)
--> tiffcp um die einzeltiffs wieder aneinanderzukleben (komprimieren in diesem schritt empfohlen)
--> tiff2pdf um ein pdf daraus zu machen (hier nochmal komprimieren "-z" hat bei mir auch geholfen, "-p" für pagesize und "-F" für auf seitengröße skalieren)
180 MB --> knapp 17 MB für ca. 350 Seiten.
für OCR geht das hier:
http://blog.konradvoelkel.de/2010/01/linux-ocr-and-pdf-problem-solved/
oder man installiert sich das pdfsandwich skript. sehr hilfreich das ganze. die größenoptimierung mit OCR ist noch nicht ganz so gut weil ich meinen oben beschriebenen prozess da noch nicht eingebaut habe, aber es dürfte nicht allzu viel mehr platz verbrauchen wenn ich es hinreichend optimiert habe.
--> buch mit einem buchscanner in tiff oder pdf ziehen
--> ghostscript zum ziehen der tiffs aus der pdf
--> convert oder mogrify zum skalieren der tiffs die man aus der gescannten pdf zieht, ebenso kann man damit bei reinen s/w-dokumenten über "-normalize -level 50%,50%" rauschen und graustufen entfernen (beide programme sind teil des imagemagick-pakets)
--> tiffcp um die einzeltiffs wieder aneinanderzukleben (komprimieren in diesem schritt empfohlen)
--> tiff2pdf um ein pdf daraus zu machen (hier nochmal komprimieren "-z" hat bei mir auch geholfen, "-p" für pagesize und "-F" für auf seitengröße skalieren)
180 MB --> knapp 17 MB für ca. 350 Seiten.
für OCR geht das hier:
http://blog.konradvoelkel.de/2010/01/linux-ocr-and-pdf-problem-solved/
oder man installiert sich das pdfsandwich skript. sehr hilfreich das ganze. die größenoptimierung mit OCR ist noch nicht ganz so gut weil ich meinen oben beschriebenen prozess da noch nicht eingebaut habe, aber es dürfte nicht allzu viel mehr platz verbrauchen wenn ich es hinreichend optimiert habe.