Beim Überführen von Print-Artikeln aus Zeitschriften ins PDF-Format hilft ein Perl-Skript, das den Ablauf über den Druckknopf am Scanner automatisiert.
Langjährige Leser wissen, dass die Perlsnapshot-Kolumne seit bald 14 Jahren läuft. Weniger bekannt ist allerdings die Tatsache, dass sich deswegen mehr als 150 Ausgaben des Linux-Magazins in der Wohnung des Autors stapeln und dort etwa zweieinhalb Regalmeter beanspruchen. Die Anmietung zusätzlichen Stauraumes verbietet sich mit einem Blick auf den Mietspiegel von San Francisco. Vor dem Entsorgen in die Altpapiertonne sollten sie zwecks Befriedigung von Nostalgie-Gefühlen noch ins PDF-Format überführt und mit dem Skript aus [2] in einer Datenbank abgespeichert werden.
Scanprogramme wie xsane
oder das Ubuntu neuerdings beiliegende
simple-scan
erledigen Einzelscans ohne viel Aufwand. Beim Einlesen
von mehreren Zeitschriftenseiten,
deren JPG-Bilder anschließend noch zu einem mehrseitigen
PDF-Dokument zusammenfließen müssen, ermattet ohne bessere
Automatisierung aber auch der fleißigste Scanner-Operator schnell.
![]() |
Abbildung 1: Neuen Ubuntu-Distros liegt das Programm simple-scan bei. |
Das Perl-Skript artscan
führt mittels eines
Terminal-basierten Menübalkens durch den Scanvorgang und
zeigt in einer Listbox in Echtzeit gerade
ablaufende Einzelschritte an (Abbildung 2).
Als zusätzliche Erleichterung muss der
Bediener lediglich den am Scanner
befindlichen grünen Knopf drücken, sobald die aktuelle Artikelseite
ordnungsgemäß auf dem Scanner positioniert ist (Abbildung 3).
Um eine Reihe bereits eingescannter Einzelbilder zu verwerfen, drückt der
User die Taste "N" ("new"), worauf das Skript die zwischengespeicherten
Scannerbilder verwirft.
![]() |
Abbildung 2: Das Programm protokolliert die einzelnen Schritte in einer Listbox mit. |
Nach dem Scannen der letzten Seite eines Artikels drückt der User
die Taste "F" ("finish")
auf der Curses-Oberfläche des Skripts. Dieses überführt daraufhin
die zwischengespeicherten Einzelseiten mittels des
Programms convert
aus dem Fundus der ImageMagick-Programmsammlung
vom .pnm-Format in JPEG-Bilder.
Die damit verbundene Kompression reduziert den Speicherbedarf um bis zu 90%.
Ein weiterer Aufruf von convert
bündelt die JPG-Sammlung dann zu
einem mehrseitigen PDF-Dokument und legt es in einem voreingestellten
Ausgabeverzeichnis ab. Die Fußzeile im Terminal zeigt den Pfad des
Ergebnisdokuments an.
Den Scanvorgang löst der User entweder durch Drücken der Taste "S"
im Skript aus oder aber durch den am Scanner befindlichen grünen Knopf.
![]() |
Abbildung 3: Auf Knopfdruck läuft der Scanner an und liest das Titelbild der Oktoberausgabe des Linux-Magazins aus dem Jahr 1996 ein. |
Während der Operator am Scanner hantiert und krampfhaft versucht, die Vorlage trotz des Falzes möglichst bündig einzulegen, wäre es äußerst umständlich, auch noch das im Terminal laufende Skript zu bedienen, um den Scanvorgang auszulösen. Scanner wie mein Epson verfügen deshalb über einen grünen Knopf, der über das USB-Interface ein Signal an den steuernden Rechner zurückgibt, der es beliebig interpretieren kann.
Das unter Ubuntu erhältliche Paket scanbuttond
[4] enthält einen
Dämon, der eventuell angeschlossene Scanner überwacht und jedesmal,
wenn ein Scannerknopf aktiviert wurde, das voreingestellte Skript
/etc/scanbuttond/buttonpressed.sh
aufruft. Fügt man in dieses eine
Zeile wie
kill -USR1 `cat /tmp/pdfs/pid`
ein, sendet es bei jedem Knopfdruck das Unix-Signal USR1 an einen Prozess,
der seine PID in der Datei /tmp/pdfs/pid
abgelegt hat. Das
Skript artscan
tut genau dies sofort nach dem Hochfahren, indem
es mittels der Funktion blurt()
aus dem Fundus des Moduls
Sysadm::Install die in Perl als $$ vorliegende PID des aktuellen
Prozesses samt einem abschließenden Zeilenumbruch in die pid-Datei schreibt.
![]() |
Abbildung 4: Der fertig gescannte Artikel im PDF-Format. |
Wie schon in früheren Kolumnen vorgestellt, tanzt auch die Terminal-Oberfläche
von artscan
im Takt mit dem POE-Framework vom CPAN. Das Modul
Curses::UI::POE stellt die Verbindung der POE-Eventschleife mit
der Curses-Library her, die ASCII-basierte Grafikelemente auf die
Terminaloberfläche zeichnet und auf Tastendrücke des Users reagiert.
Die Implementierung folgt aus Platzgründen nicht den strengen Regeln des Cooperative-Multitasking-Frameworks, in der eine Task niemals eine andere, wie zum Beispiel die graphische Oberfläche, blockieren darf. Da aber der User zum Beispiel während eines laufenden Scanvorgangs eh nicht viel unternehmen kann, als abzuwarten, bis dieser beendet ist, nimmt es das Skript nicht so genau und friert währenddessen einfach die UI ein.
001 #!/usr/local/bin/perl -w 002 use strict; 003 use local::lib; 004 use POE; 005 use POE::Wheel::Run; 006 use Curses::UI::POE; 007 use Sysadm::Install qw(:all); 008 use File::Temp qw(tempfile); 009 use File::Basename; 010 011 my $PDF_DIR = "/tmp/artscan"; 012 mkd $PDF_DIR unless -d $PDF_DIR; 013 014 my $pidfile = "$PDF_DIR/pid"; 015 blurt "$$\n", $pidfile; 016 017 my @LBOX_LINES = (); 018 my $BUSY = 0; 019 my $LAST_PDF; 020 my @IMAGES = (); 021 my $HEAP; 022 023 my $CUI = Curses::UI::POE->new( 024 -color_support => 1, 025 inline_states => { 026 _start => sub { 027 $HEAP = $_[HEAP]; 028 $_[KERNEL]->sig( "USR1", 029 "article_scan" ); 030 }, 031 scan_finished => \&scan_finished, 032 article_scan => \&article_scan, 033 }); 034 035 my $WIN = $CUI->add("win_id", "Window"); 036 037 my $TOP = $WIN->add( qw( top Label 038 -y 0 -width -1 -paddingspaces 1 039 -fg white -bg blue 040 ), -text => "artscan v1.0" ); 041 042 my $LBOX = $WIN->add(qw( lb Listbox 043 -padtop 1 -padbottom 1 -border 1), 044 ); 045 046 my $FOOT = $WIN->add(qw( bottom Label 047 -y -1 -paddingspaces 1 048 -fg white -bg blue)); 049 050 footer_update(); 051 052 $CUI->set_binding(sub { exit 0; }, "q"); 053 $CUI->set_binding( \&article_new, "n"); 054 $CUI->set_binding( \&article_scan, "s" ); 055 $CUI->set_binding( \&article_finish, "f" ); 056 057 $CUI->mainloop; 058 059 ########################################### 060 sub article_new { 061 ########################################### 062 return if $BUSY; 063 @IMAGES = (); 064 footer_update(); 065 } 066 067 ########################################### 068 sub article_finish { 069 ########################################### 070 return if $BUSY; 071 $BUSY = 1; 072 073 $FOOT->text("Converting ..."); 074 $FOOT->draw(); 075 076 my @jpg_files = (); 077 078 for my $image ( @IMAGES ) { 079 my $jpg_file = 080 "$PDF_DIR/" . basename( $image ); 081 $jpg_file =~ s/\.pnm$/.jpg/; 082 push @jpg_files, $jpg_file; 083 task("convert", $image, $jpg_file); 084 } 085 086 my $pdf_file = next_pdf_file(); 087 088 $FOOT->text("Writing PDF ..."); 089 $FOOT->draw(); 090 091 task("convert", @jpg_files, $pdf_file); 092 unlink @jpg_files; 093 094 $LAST_PDF = $pdf_file; 095 @IMAGES = (); 096 097 lbox_add("PDF $LAST_PDF ready."); 098 footer_update(); 099 $BUSY = 0; 100 } 101 102 ########################################### 103 sub next_pdf_file { 104 ########################################### 105 my $idx = 0; 106 107 my @pdf_files = sort <$PDF_DIR/*.pdf>; 108 109 if( scalar @pdf_files > 0 ) { 110 ($idx) = ($pdf_files[-1] =~ /(\d+)/); 111 } 112 113 return "$PDF_DIR/" . 114 sprintf("%04d", $idx + 1) . ".pdf"; 115 } 116 117 ########################################### 118 sub task { 119 ########################################### 120 my($command, @args) = @_; 121 122 lbox_add("Running $command" . " @args"); 123 tap($command, @args); 124 } 125 126 ########################################### 127 sub article_scan { 128 ########################################### 129 return if $BUSY; 130 $BUSY = 1; 131 132 my($fh, $tempfile) = tempfile( 133 DIR => $PDF_DIR, 134 SUFFIX => ".pnm", UNLINK => 1); 135 136 lbox_add("Scanning $tempfile"); 137 138 my $wheel = 139 POE::Wheel::Run->new( 140 Program => "./scan.sh", 141 ProgramArgs => [$tempfile], 142 StderrEvent => 'ignore', 143 CloseEvent => "scan_finished", 144 ); 145 146 $HEAP->{scanner} = { 147 wheel => $wheel, file => $tempfile }; 148 149 $FOOT->text("Scanning ... "); 150 $FOOT->draw(); 151 } 152 153 ########################################### 154 sub scan_finished { 155 ########################################### 156 my($heap) = @_[HEAP, KERNEL]; 157 158 push @IMAGES, $heap->{scanner}->{file}; 159 delete $heap->{scanner}; 160 footer_update(); 161 $BUSY = 0; 162 } 163 164 ########################################### 165 sub footer_update { 166 ########################################### 167 my $text = "[n]ew [s]can [f]inish [q]" . 168 "uit (" . scalar @IMAGES . " pending)"; 169 170 if( defined $LAST_PDF ) { 171 $text .= " [$LAST_PDF]"; 172 } 173 $FOOT->text($text); 174 $FOOT->draw(); 175 } 176 177 ########################################### 178 sub lbox_add { 179 ########################################### 180 my($line) = @_; 181 182 if( scalar @LBOX_LINES >= 183 $LBOX->height() - 4) { 184 shift @LBOX_LINES; 185 } 186 push @LBOX_LINES, $line; 187 188 $LBOX->{-values} = [@LBOX_LINES]; 189 $LBOX->{-labels} = { map { $_ => $_ } 190 @LBOX_LINES }; 191 $LBOX->draw(); 192 }
Der in Zeile 26 definierte Start-Handler _start
speichert den
POE-Session-Heap in der globalen Variablen $HEAP
, damit auch die
per set_binding()
definierten Tastendruckhandler ab Zeile 52 auf
die Daten der UI-POE-Session zugreifen können. Damit das Programm
auf das Unix-Signal USR1 hin den Handler article_scan
anspringt, ruft
Zeile 28 die Methode sig()
des POE-Kernels auf und weist dem Signal
den POE-Zustand "article_scan"
zu. Dieser setzt in Zeile
32 die ab Zeile 127 definierte Funktion article_scan
als
Ansprungadresse. Den
dritte POE-Zustand, "scan_finished"
schließlich springt der Kernel
an, falls ein asynchron abgesetzter Scanvorgang später abgeschlossen ist.
Die grafische Oberfläche baut auf einem in Zeile 35 definierten
Window-Element auf und besteht aus einer Top-Leiste $TOP
,
einer Listbox $LBOX
und einer Fußzeile $FOOT
. Mit add()
fügt das Skript die Widgets von oben nach unten jeweils ins Hauptfenster ein.
Die Fußzeile kommt wegen dem Parameterpaar y -1
ganz unten
im Fenster zu liegen, die Breiteneinstellung -width 1
der Topleiste
bewirkt, dass sich die Leiste über die gesamte Breite des offenen
Terminalfensters erstreckt.
Auf einen Druck auf die Taste "N" hin ruft POE wegen des Bindings
in Zeile 53 die ab Zeile 60 definierte Funktion article_new()
auf,
die alle eventuell vorhandenen Elemente des globalen
Image-Arrays @IMAGES
löscht. Allerdings nur, falls die globale
Variable $BUSY
nicht gesetzt ist, was an verschiedenen Stellen des
Programms geschieht, die sicherstellen wollen, dass der User keine
Aktionen durch Tastendrücke auslöst.
Gerade laufende Aktivitäten meldet das Skript entweder über
$FOOT-
text()> in der Fußzeile oder aber mittels der
Funktion lbox_add()
, die einen Eintrag an die mittige
Listbox anhängt und überschüssige Elemente am oberen Rand abschneidet,
sodass sich die Illusion einer scrollenden Datei ergibt.
Aufgaben wie das konvertieren von Scanner-Rohdaten im .pnm-Format
nach JPEG erledigt die ab Zeile 118 definierte Funktion task
. Sie
reicht die ihr übergebenen Argumente mittels tap
aus dem
CPAN-Modul Sysadm::Install an die Shell weiter.
Die erzeugten PDF-Dateien numeriert das Skript von 0001.pdf ab durch und findet den nächsten Wert, indem es das PDF-Verzeichnis nach allen bisher angelegten PDF-Dateien durchsucht und die Nummer der letzten um Eins erhöht.
Den Scanvorgang könnte nun das CPAN-Modul Sane ([5]) steuern, doch
dann müsste sich das Skript um allerlei Krimskrams kümmern, wie zum
Beispiel das Freigeben der SANE-Schnittstelle beim Programmabbruch,
ohne das künftige Scanversuche hüngen. Statt dessen wählt es den
einfachen Weg des dem Sane-Paket beiliegenden Programm scanimage
,
das es über das Shell-Skript scan.sh
aufruft. Wie Listing 2 zeigt,
setzt es die Auflösung auf 300 dpi, was für normale Zeitschriften
ausreichen sollte. Der Parameter --mode
bestimmt mit dem Wert
"Color" einen Farbscan, der Default-Modus war bei meinem Epson
Schwarz-Weiß. Die von scanimage
auf STDOUT ausgegebene Bilddatei
im Rohdatenformat PNM leitet das Shell-Skript in eine Datei um,
deren Name ihm als Parameter vom Perl-Skript überreicht wurde.
1 scanimage -x 1000 -y 1000 \ 2 --resolution=300 --mode Color >$1
Der Epson-Scanner belichtet ohne die zusätzlichen Parameter
x
und y
allerdings nur einen kleinen Ausschnitt der
verfügbaren Fläche. Die im Shell-Skript verwendeten Werte von jeweils
1000 für -x
und -y
reduziert der Sane-Backend auf die
maximal verfügbare Fläche,
was beim Epson ziemlich genau der Größe einer Computerzeitschrift
entspricht. Für andere Scannertypen oder Print-Erzeugnisse
muss der User die verwendeten Parameter bei Bedarf noch anpassen.
Zum Einsammeln der Scanner-Rohdaten legt
das Skript mit dem CPAN-Modul File::Temp und der
daraus exportierten Funktion tempfile
in Zeile 132
temporäre Dateien an, die
wegen der Option UNLINK
nach dem Freigeben der letzten darauf
verweisenden Referenz automatisch wieder verschwinden.
Den Aufruf des im gleichen Verzeichnis ausführbar liegenden Scan-Skripts
scan.sh
übernimmt das POE-Rädchen POE::Wheel::Run, das einen Parallelprozess
startet, dort das Shell-Kommando mit der temporären Ausgabedatei
aufruft und wegen des Parameters
CloseEvent
nach getaner Arbeit den POE-Zustand scan_finished
anspringt. Dies geschieht asynchron, so dass new()
in Zeile 139
sofort wieder zurückkehrt. Damit das Rädchen auch nach dem Verlassen
der Funktion article_scan
ununterbrochen weiterläuft, speichert
Zeile 146 die Wheel-Daten im Session-Heap. Zeile 149 schreibt dann
noch schnell "Scanning ..." in die Fußzeile, bevor die Funktion
article_scan
endet und die Kontrolle zurück an den POE-Kernel geht,
der weiter folgende Events abarbeiet. Schließt endlich der Scanner
den Einlesevorgang ab, aktiviert das Wheel die Funktion scan_finished
ab Zeile 154, die die Wheel-Daten aus dem Heap löscht und den Namen
der temporären Datei mit den eingefangenen Rohdaten ans Endes
des globalen Arrays @IMAGES
anfügt.
Die Ubuntu-Pakete
imagemagick
,
libfile-temp-perl
,
libpoe-perl
,
libcurses-ui-perl
und
libsysadm-install-perl
installieren das nötige Rüstzeug, um das Skript
zum Laufen zu bringen. Das Mini-Shell-Skript scan.sh
landet ausführbar
im gleichen Verzeichnis wie das Hauptskript artscan
.
Bietet die Distro kein Paket für Curses::UI::POE an, ist dieses manuell
mit einer CPAN-Shell zu installieren. Geschieht dies mittels local::lib,
sollte das Skript dieses ebenfalls angeben, wie in Zeile 3 in artscan
,
andernfalls ist es nicht notwendig. Wer direkt mit dem Sane-Backend
des verwendeten Scanners herumspielen möchte,
dem sei das CPAN-Modul Sane empfohlen, das auf Ubuntu als libsane-perl
vorliegt.
Der Scanvorgang lässt sich mit einem Scanner mit Einzelblatteinzug noch effizienter gestalten. Ist der Archivar willens, das Heft mit einer dicken Schere oder Schneidemaschine am Falz aufzutrennen, kann der Scanner die Seiten automatisch eine nach der anderen Einziehen. Die Rückseiten folgen in einem zweiten Durchgang, und das Skript kann die Seiten wieder in die richtige Reihenfolge bringen.
Listings zu diesem Artikel: ftp://www.linux-magazin.de/pub/listings/magazin/2011/03/Perl
"Papiercontainer", Michael Schilli, http://www.linux-magazin.de/Heft-Abo/Ausgaben/2005/05/Papiercontainer
"SANE - Scanner Access Now Easy", http://www.sane-project.org/html
"scanbuttond", A scanner button daemon for Linux, http://scanbuttond.sourceforge.net
Perl-Modul Sane: http://search.cpan.org/~ratcliffe/Sane-0.03/lib/Sane.pm
![]() |
Michael Schilliarbeitet als Software-Engineer bei Yahoo! in Sunnyvale, Kalifornien. Er hat "Goto Perl 5" (deutsch) und "Perl Power" (englisch) für Addison-Wesley geschrieben und ist unter mschilli@perlmeister.com zu erreichen. Seine Homepage: http://perlmeister.com. |