/[webpac]/trunk/all2xml.pl
This is repository of my old source code which isn't updated any more. Go to git.rot13.org for current projects!
ViewVC logotype

Diff of /trunk/all2xml.pl

Parent Directory Parent Directory | Revision Log Revision Log | View Patch Patch

revision 62 by dpavlin, Fri Jul 4 20:11:48 2003 UTC revision 90 by dpavlin, Sun Jul 13 13:22:50 2003 UTC
# Line 58  my %type2tag = ( Line 58  my %type2tag = (
58          'isis' => 'isis',          'isis' => 'isis',
59          'excel' => 'column',          'excel' => 'column',
60          'marc' => 'marc',          'marc' => 'marc',
61            'feed' => 'feed'
62  );  );
63    
64  sub data2xml {  sub data2xml {
# Line 123  sub data2xml { Line 124  sub data2xml {
124                          # init vars so that we go into while...                          # init vars so that we go into while...
125                          ($swish,$display) = (1,1);                          ($swish,$display) = (1,1);
126    
127                          if ($swish || $display) {                          # while because of repeatable fields
128                            while ($swish || $display) {
129                                  ($swish,$display) = parse_format($type, $format,$row,$repeat_off++,$import2cp);                                  ($swish,$display) = parse_format($type, $format,$row,$repeat_off++,$import2cp);
130                                    if ($repeat_off > 1000) {
131                                            print STDERR "loop (more than 1000 repeatable fields) deteced in $row, $format\n";
132                                            last;
133                                    }
134                                    
135                                  # filter="name" ; filter this field through                                  # filter="name" ; filter this field through
136                                  # filter/[name].pm                                  # filter/[name].pm
137                                  my $filter = $x->{filter};                                  my $filter = $x->{filter};
# Line 230  sub data2xml { Line 237  sub data2xml {
237    
238          # dump formatted output in <html>          # dump formatted output in <html>
239          if ($html) {          if ($html) {
240                  $xml .= xmlify("html",$html);                  #$xml .= xmlify("html",$html);
241                    $xml .= "<html><![CDATA[ $html ]]></html>";
242          }          }
243                    
244          if ($xml) {          if ($xml) {
# Line 283  print STDERR "reading ./import_xml/$type Line 291  print STDERR "reading ./import_xml/$type
291                  }                  }
292          }          }
293    
294            my $fake_dir = 1;
295            sub fakeprogress {
296                    my $current = shift @_;
297    
298                    my @ind = ('-','\\','|','/','-','\\','|','/', '-');
299    
300                    $last_p += $fake_dir;
301                    $fake_dir = -$fake_dir if ($last_p > 1000 || $last_p < 0);
302                    if ($last_p % 10 == 0) {
303                            printf STDERR ("%5d / %5s [%-51s]\r",$current,"?"," " x ($last_p/20).$ind[($last_p/20) % $#ind]);
304                    }
305            }
306    
307          # now read database          # now read database
308  print STDERR "using: $type...\n";  print STDERR "using: $type...\n";
309    
# Line 373  print STDERR "using: $type...\n"; Line 394  print STDERR "using: $type...\n";
394                          }                          }
395                  }                  }
396          } elsif ($type_base eq "marc") {          } elsif ($type_base eq "marc") {
397          ## XXX  
398                  use MARC;                  use MARC;
399                                    
400                  $import2cp = Text::Iconv->new($config->{marc_codepage},$codepage);                  $import2cp = Text::Iconv->new($config->{marc_codepage},$codepage);
# Line 382  print STDERR "using: $type...\n"; Line 403  print STDERR "using: $type...\n";
403                  # optional argument is format                  # optional argument is format
404                  my $format = x($config->{format}) || 'usmarc';                  my $format = x($config->{format}) || 'usmarc';
405    
                 my %id_stored;  # to aviod duplicates  
   
406                  print STDERR "Reading MARC file '$marc_file'\n";                  print STDERR "Reading MARC file '$marc_file'\n";
407    
408                  my $marc = new MARC;                  my $marc = new MARC;
# Line 392  print STDERR "using: $type...\n"; Line 411  print STDERR "using: $type...\n";
411                          }) || die "Can't open MARC file '$marc_file'";                          }) || die "Can't open MARC file '$marc_file'";
412    
413                  my $i=0;        # record nr.                  my $i=0;        # record nr.
                 my $inc=1;  
                 my $max_i=1000;  
414    
415                  my $rec;                  my $rec;
416    
417                  while ($marc->nextmarc(1)) {                  while ($marc->nextmarc(1)) {
418    
419                          # XXX                          # XXX
420                          progress($i, $max_i);                          fakeprogress($i++);
                         $i += $inc;  
                         $inc = -$inc if ($i > $max_i || $i < 0);  
421    
422                          my $swishpath = $database."#".$i;                          my $swishpath = $database."#".$i;
423    
# Line 414  print STDERR "using: $type...\n"; Line 429  print STDERR "using: $type...\n";
429                                  print "Document-Type: XML\n\n$xml\n";                                  print "Document-Type: XML\n\n$xml\n";
430                          }                          }
431                  }                  }
432            } elsif ($type_base eq "feed") {
433    
434                    $import2cp = Text::Iconv->new($config->{feed_codepage},$codepage);
435                    my $prog = x($config->{prog}) || die "$database doesn't have 'prog' defined!";
436    
437                    print STDERR "Reading feed from program '$prog'\n";
438    
439                    open(FEED,"feeds/$prog |") || die "can't start $prog: $!";
440    
441                    my $i=1;        # record nr.
442    
443                    my $data;
444                    my $line=1;
445    
446                    while (<FEED>) {
447                            chomp;
448    
449                            if (/^$/) {
450                                    my $swishpath = $database."#".$i++;
451    
452                                    if (my $xml = data2xml($type_base,$data,$add_xml,$cfg,$database)) {
453                                            $xml = $cp2utf->convert($xml);
454                                            use bytes;      # as opposed to chars
455                                            print "Path-Name: $swishpath\n";
456                                            print "Content-Length: ".(length($xml)+1)."\n";
457                                            print "Document-Type: XML\n\n$xml\n";
458                                    }
459                                    $line = 1;
460                                    $data = {};
461                                    next;
462                            }
463    
464                            $line = $1 if (s/^(\d+):\s*//);
465                            $data->{$line++} = $_;
466    
467                            fakeprogress($i);
468    
469                    }
470          }          }
471  }  }
472    
# Line 426  __END__ Line 479  __END__
479    
480  =head1 NAME  =head1 NAME
481    
482  isis2xml.pl - read isis file and dump XML  all2xml.pl - read various file formats and dump XML for SWISH-E
483    
484  =head1 DESCRIPTION  =head1 DESCRIPTION
485    
486  This command will read ISIS data file using OpenIsis perl module and  This command will read ISIS data file using OpenIsis perl module, MARC
487  create XML file for usage with I<SWISH-E>  records using MARC module and optionally Micro$oft Excel files to
488  indexer. Dispite it's name, this script B<isn't general xml generator>  create one XML file for usage with I<SWISH-E> indexer. Dispite it's name,
489  from isis files (isis allready has something like that). Output of this  this script B<isn't general xml generator> from isis files (isis allready
490  script is tailor-made for SWISH-E.  has something like that). Output of this script is tailor-made for SWISH-E.
491    
492    =head1 BUGS
493    
494    Documentation is really lacking. However, in true Open Source spirit, source
495    is best documentation. I even made considerable effort to comment parts
496    which are not intuitively clear, so...
497    
498  =head1 AUTHOR  =head1 AUTHOR
499    

Legend:
Removed from v.62  
changed lines
  Added in v.90

  ViewVC Help
Powered by ViewVC 1.1.26