Annotation of /trunk/spider/progspider

#!/usr/bin/perl -w
use strict;
use File::Find;
use Getopt::Long;
use File::Which;

my $collection;         # name which will be inserted
my $path_add;           # add additional info in path
my $verbose;
my $exclude;
my $skip_output;

#$verbose = 1;

my $result = GetOptions(
        "collection=s" => \$collection,
        "path=s" => \$path_add,
        "verbose!" => \$verbose,
        "debug!" => \$verbose,
        "exclude=s" => \$exclude,
        "skipoutput!" => \$skip_output,
);

die "usage: $0 [dir] ..." unless (@ARGV);

my $basedir = $0;
$basedir =~ s,/[^/]+$,/,;
require "$basedir/filter.pm";

my $pdftotext = which('pdftotext');

select(STDERR); $|=1;
select(STDOUT); $|=1;

print STDERR "using $pdftotext to convert pdf into html\n" if ($pdftotext && $verbose);

while (my $dir = shift @ARGV) {
        print STDERR "indexing $dir\n" if ($verbose);

        find({ wanted => \&file, 
                follow => 1,
                no_chdir => 1
        }, $dir);
}

sub dump_contents($$$) {
        my ($contents,$mtime,$path) = @_;

        return unless ($contents);      # don't die on empty files

        if ($exclude && $path =~ m/$exclude/i) {
                print STDERR "skip: $path\n" if ($verbose);
                return;
        }

        use bytes;
        my $size = length $contents;

        print STDERR " [$size]" if ($verbose);

        return if ($skip_output);

        # Output the document (to swish)
        print <<EOF;
Path-Name: $path
Content-Length: $size
Last-Mtime: $mtime
Document-Type: html*

EOF
        print $contents;

}

sub file {

        my $path = $_;
        my $contents;

        return if (-l $path);

        if ($pdftotext && -f $path && $path =~ m/\.pdf$/i) {

                print STDERR "$path {converting}" if ($verbose);

                open(F,"$pdftotext -htmlmeta \"$path\" - |") || die "can't open $pdftotext with '$path'";
                my $html;
                while(<F>) {
                        # XXX why pdftotext barks if I try to use this is beyond me.
                        #$contents .= $_;

                        $html .= $_;
                }
                close(F);

                return if (! $html);

                my $file_only = $path;
                $file_only =~ s/^.*\/([^\/]+)$/$1/g;

                my ($pre_html,$pages,$post_html) = ('<html><head><title>$path :: page ##page_nr##</title></head><body><pre>',$html,'</pre></body></html>');

                ($pre_html,$pages,$post_html) = ($1,$2,$3) if ($html =~ m/^(<html>.+?<pre>)(.+)(<\/pre>.+?)$/si);

                if ($collection) {
                        $pre_html =~ s/<title>(.+?)<\/title>/<title>$collection :: page ##page_nr##<\/title>/si;
                } else {
                        $pre_html =~ s/<title>(.+?)<\/title>/<title>$1 :: page ##page_nr##<\/title>/si ||
                        $pre_html =~ s/<title><\/title>/<title>$file_only :: page ##page_nr##<\/title>/si;
                }

                my $page_nr = 1;
                foreach my $page (split(/\f/s,$pages)) {
                        print STDERR " $page_nr" if ($verbose);
                        my $pre_tmp = $pre_html;
                        $pre_tmp =~ s/##page_nr##/$page_nr<\/title>/s;
                        dump_contents($pre_tmp . $page . $post_html,time(), $path) if ($page !~ m/^\s*$/s);
                        $page_nr++;
                }

        } else {

                return if (! -f $path || ! m/\.(html*|php|pl|txt|info|log|text)$/i);

                # skip index files
                return if (m/index_[a-z]\.html*/i || m/index_symbol\.html*/i);

                open(F,"$path") || die "can't open file: $path";
                print STDERR "$path" if ($verbose);
                while(<F>) {
                        $contents .= $_;
                }
                $contents .= "\n\n";

                $contents = filter($contents,$collection);

                # add optional components to path
                $path .= " $path_add" if ($path_add);

                dump_contents($contents,time(), $path);
        }

        print STDERR "\n" if ($verbose);
#       die "zero size content in '$path'" if (! $contents);

}

1	dpavlin	81	#!/usr/bin/perl -w
2	dpavlin	46	use strict;
3			use File::Find;
4	dpavlin	56	use Getopt::Long;
5	dpavlin	63	use File::Which;
6	dpavlin	46
7	dpavlin	56	my $collection; # name which will be inserted
8			my $path_add; # add additional info in path
9			my $verbose;
10	dpavlin	95	my $exclude;
11	dpavlin	98	my $skip_output;
12	dpavlin	46
13	dpavlin	57	#$verbose = 1;
14
15	dpavlin	56	my $result = GetOptions(
16			"collection=s" => \$collection,
17			"path=s" => \$path_add,
18			"verbose!" => \$verbose,
19			"debug!" => \$verbose,
20	dpavlin	95	"exclude=s" => \$exclude,
21	dpavlin	98	"skipoutput!" => \$skip_output,
22	dpavlin	56	);
23
24	dpavlin	99	die "usage: $0 [dir] ..." unless (@ARGV);
25	dpavlin	46
26			my $basedir = $0;
27			$basedir =~ s,/[^/]+$,/,;
28			require "$basedir/filter.pm";
29
30	dpavlin	63	my $pdftotext = which('pdftotext');
31	dpavlin	56
32	dpavlin	66	select(STDERR); $\|=1;
33			select(STDOUT); $\|=1;
34
35	dpavlin	63	print STDERR "using $pdftotext to convert pdf into html\n" if ($pdftotext && $verbose);
36
37	dpavlin	99	while (my $dir = shift @ARGV) {
38			print STDERR "indexing $dir\n" if ($verbose);
39	dpavlin	46
40	dpavlin	99	find({ wanted => \&file,
41			follow => 1,
42			no_chdir => 1
43			}, $dir);
44			}
45
46	dpavlin	66	sub dump_contents($$$) {
47			my ($contents,$mtime,$path) = @_;
48
49	dpavlin	95	return unless ($contents); # don't die on empty files
50	dpavlin	66
51	dpavlin	95	if ($exclude && $path =~ m/$exclude/i) {
52			print STDERR "skip: $path\n" if ($verbose);
53			return;
54			}
55
56	dpavlin	66	use bytes;
57			my $size = length $contents;
58
59			print STDERR " [$size]" if ($verbose);
60
61	dpavlin	98	return if ($skip_output);
62
63	dpavlin	66	# Output the document (to swish)
64			print <<EOF;
65			Path-Name: $path
66			Content-Length: $size
67			Last-Mtime: $mtime
68	dpavlin	81	Document-Type: html*
69	dpavlin	66
70			EOF
71			print $contents;
72
73			}
74
75	dpavlin	46	sub file {
76
77	dpavlin	63	my $path = $_;
78			my $contents;
79	dpavlin	46
80	dpavlin	92	return if (-l $path);
81
82	dpavlin	63	if ($pdftotext && -f $path && $path =~ m/\.pdf$/i) {
83	dpavlin	56
84	dpavlin	63	print STDERR "$path {converting}" if ($verbose);
85	dpavlin	46
86	dpavlin	66	open(F,"$pdftotext -htmlmeta \"$path\" - \|") \|\| die "can't open $pdftotext with '$path'";
87	dpavlin	63	my $html;
88			while(<F>) {
89			# XXX why pdftotext barks if I try to use this is beyond me.
90			#$contents .= $_;
91
92			$html .= $_;
93			}
94			close(F);
95
96	dpavlin	81	return if (! $html);
97
98	dpavlin	84	my $file_only = $path;
99			$file_only =~ s/^.*\/([^\/]+)$/$1/g;
100
101	dpavlin	66	my ($pre_html,$pages,$post_html) = ('<html><head><title>$path :: page ##page_nr##</title></head><body><pre>',$html,'</pre></body></html>');
102	dpavlin	63
103	dpavlin	72	($pre_html,$pages,$post_html) = ($1,$2,$3) if ($html =~ m/^(<html>.+?<pre>)(.+)(<\/pre>.+?)$/si);
104	dpavlin	66
105	dpavlin	72	if ($collection) {
106			$pre_html =~ s/<title>(.+?)<\/title>/<title>$collection :: page ##page_nr##<\/title>/si;
107			} else {
108	dpavlin	84	$pre_html =~ s/<title>(.+?)<\/title>/<title>$1 :: page ##page_nr##<\/title>/si \|\|
109			$pre_html =~ s/<title><\/title>/<title>$file_only :: page ##page_nr##<\/title>/si;
110	dpavlin	72	}
111	dpavlin	66
112			my $page_nr = 1;
113	dpavlin	72	foreach my $page (split(/\f/s,$pages)) {
114			print STDERR " $page_nr" if ($verbose);
115	dpavlin	66	my $pre_tmp = $pre_html;
116			$pre_tmp =~ s/##page_nr##/$page_nr<\/title>/s;
117	dpavlin	68	dump_contents($pre_tmp . $page . $post_html,time(), $path) if ($page !~ m/^\s*$/s);
118	dpavlin	66	$page_nr++;
119			}
120
121	dpavlin	63	} else {
122
123	dpavlin	81	return if (! -f $path \|\| ! m/\.(html*\|php\|pl\|txt\|info\|log\|text)$/i);
124	dpavlin	63
125			# skip index files
126			return if (m/index_[a-z]\.html/i \|\| m/index_symbol\.html/i);
127
128			open(F,"$path") \|\| die "can't open file: $path";
129			print STDERR "$path" if ($verbose);
130			while(<F>) {
131	dpavlin	98	$contents .= $_;
132	dpavlin	63	}
133			$contents .= "\n\n";
134
135			$contents = filter($contents,$collection);
136	dpavlin	66
137			# add optional components to path
138			$path .= " $path_add" if ($path_add);
139
140			dump_contents($contents,time(), $path);
141	dpavlin	46	}
142
143	dpavlin	66	print STDERR "\n" if ($verbose);
144	dpavlin	50	# die "zero size content in '$path'" if (! $contents);
145
146	dpavlin	66	}
147	dpavlin	46