Schlagwort-Archive: pdftk

awk script to remove objects from a pdf

First uncompress the pdf if it is compressed with pdftk:
pdftk myfile.pdf output unc.pdf uncompress

Then remove all objects that contain the keywords PDF-XChange|pdfxviewer.com|PDFXCViewer20|Click to buy NOW:

awk '
    BEGIN {
        found=0
    }
    {
    if ( $0 ~ /^[0-9 ]+obj/ ) {
        objectFound=1;
        objectLineCounter=0;
        objektZeilen[objectLineCounter]=$0;
        objectLineCounter++;
    } else if (objectFound == 1) {
        objektZeilen[objectLineCounter]=$0;
        if ( $0 ~ /PDF-XChange|pdfxviewer.com|PDFXCViewer20|Click to buy NOW/ ) {
            found=1;
        }
        if ( ( $0 ~ /endobj/ ) && ( found == 0 ) ) {
            for (i=0; i<length(objektZeilen); i++) {
                print objektZeilen[i];
            }
            delete objektZeilen;
            objectFound=0;
            found=0;
        }
        if ( ( $0 ~ /endobj/ ) && ( found == 1 ) ) {
            delete objektZeilen;
            objectFound=0;
            found=0;
        }
        objectLineCounter++;
    } else {
        print $0
    }
    }
' unc.pdf > test.pdf

Recompress and repair pdf with pdftk:
pdftk test.pdf output comp.pdf compress

Too bad it also removed the OCR layer. I couldn’t find out which layer is responsible for the OCR.

pdf bearbeiten (zusammenführen, drehen, teilen, extrahieren)

Kurz gesagt kann man all das was oben im Titel steht mit PDFsam (win/mac) anstellen.
Ansonsten für ein schnelles drehen kann gerne http://rotatepdf.net benützt werden (bedenke: man schickt seine pdfs sonstwo hin…)
Oder für die liebe Konsole „pdftk“ (drehen um 180° für alle Seiten eines pdf Dokuments: pdftk in.pdf cat 1-endS output out.pdf) oder bei einem dekomprimierten pdf „sed -i „s/Rotate 0/Rotate 90/g“ output.pdf“ um alle Seiten um 90° zu drehen. Zur Not mit pdftk mit „pdftk input.pdf output output.pdf uncompress“ dekomprimieren. Für alles andere man-page anschaun.