/[webpac]/trunk/all2xml.pl
This is repository of my old source code which isn't updated any more. Go to git.rot13.org for current projects!
ViewVC logotype

Diff of /trunk/all2xml.pl

Parent Directory Parent Directory | Revision Log Revision Log | View Patch Patch

revision 619 by dpavlin, Fri Dec 31 04:22:49 2004 UTC revision 650 by dpavlin, Thu Jan 27 20:23:36 2005 UTC
# Line 1  Line 1 
1  #!/usr/bin/perl -w  #!/usr/bin/perl -w
2    
3  use strict;  use strict;
4  use IsisDB;  use Biblio::Isis;
5  use Getopt::Std;  use Getopt::Std;
6  use Data::Dumper;  use Data::Dumper;
7  use XML::Simple;  use XML::Simple;
# Line 22  die "FATAL: can't find configuration fil Line 22  die "FATAL: can't find configuration fil
22  my $config;  my $config;
23    
24  #use index_DBI;         # default DBI module for index  #use index_DBI;         # default DBI module for index
25  use index_DBI_cache;    # faster DBI module using memory cache  #use index_DBI_cache;   # faster DBI module using memory cache
26    use index_DBI_filter;   # filter support for indexes
27  my $index;  my $index;
28    
29  my %opts;  my %opts;
# Line 257  sub data2xml { Line 258  sub data2xml {
258                          # init vars so that we go into while...                          # init vars so that we go into while...
259                          ($swish,$display) = (1,1);                          ($swish,$display) = (1,1);
260    
                         # placeholder for all repeatable entries for index  
   
261                          sub mkformat($$) {                          sub mkformat($$) {
262                                  my $x = shift || die "mkformat needs tag reference";                                  my $x = shift || die "mkformat needs tag reference";
263                                  my $data = shift || return;                                  my $data = shift || return;
# Line 684  print STDERR "reading ./import_xml/$type Line 683  print STDERR "reading ./import_xml/$type
683          my $start_t = time();          my $start_t = time();
684          sub progress {          sub progress {
685                  return if (! $show_progress);                  return if (! $show_progress);
686                  my $current = shift || 1;                  my $current = shift;
687                  my $total = shift || 1;                  my $total = shift || 1;
688                  my $p = int($current * 100 / $total);                  my $p = int($current * 100 / $total);
689                  if ($p != $last_p) {                  if ($p < $last_p || $current == 1) {
690                            $start_t = time();
691                            $last_p = 0;
692                    } elsif ($p != $last_p) {
693                          my $rate = ($current / (time() - $start_t || 1));                          my $rate = ($current / (time() - $start_t || 1));
694                          my $eta = ($total-$current) / ($rate || 1);                          my $eta = ($total-$current) / ($rate || 1);
695                          printf STDERR ("%5d [%-38s] %-5d %0.1f/s %s\r",$current,"=" x ($p/3)."$p%>", $total, $rate, fmt_time($eta));                          printf STDERR ("%5d [%-38s] %-5d %0.1f/s %s\r",$current,"=" x ($p/3)."$p%>", $total, $rate, fmt_time($eta));
# Line 696  print STDERR "reading ./import_xml/$type Line 698  print STDERR "reading ./import_xml/$type
698          }          }
699    
700          my $fake_dir = 1;          my $fake_dir = 1;
701            my $fake_pos = 0;
702            my $last_fake_t = time();
703          sub fakeprogress {          sub fakeprogress {
704                  return if (! $show_progress);                  return if (! $show_progress);
705                  my $current = shift @_;                  my $current = shift @_;
706    
707                  my @ind = ('-','\\','|','/','-','\\','|','/', '-');                  my @ind = ('-','\\','|','/','-','\\','|','/');
708    
709                    if ($current < $fake_pos) {
710                            $start_t = time();
711                            $last_fake_t = 0;
712                            $fake_dir = 1;
713                            $fake_pos = 0;
714                    }
715    
716                  $last_p += $fake_dir;                  if (time()-$last_fake_t >= 1) {
717                  $fake_dir = -$fake_dir if ($last_p > 1000 || $last_p < 0);                          $last_fake_t = time();
718                  if ($last_p % 10 == 0) {                          $fake_pos += $fake_dir;
719                          printf STDERR ("%5d / %5s [%-51s]\r",$current,"?"," " x ($last_p/20).$ind[($last_p/20) % $#ind]);                          $fake_dir = -$fake_dir if ($fake_pos > 38);
720                    }
721    
722                    if ($current % 10 == 0) {
723                            my $rate = ($current / (time() - $start_t || 1));
724                            printf STDERR ("%5d [%-38s] %0.1f/s\r",$current, " " x $fake_pos .$ind[($current / 10) % 8], $rate);
725                  }                  }
726          }          }
727    
# Line 720  print STDERR "using: $type...\n"; Line 736  print STDERR "using: $type...\n";
736                  my $isis_db = $cfg -> val($database, 'isis_db') || die "$database doesn't have 'isis_db' defined!";                  my $isis_db = $cfg -> val($database, 'isis_db') || die "$database doesn't have 'isis_db' defined!";
737    
738                  $import2cp = Text::Iconv->new($config->{isis_codepage},$codepage);                  $import2cp = Text::Iconv->new($config->{isis_codepage},$codepage);
739                  my $db = new IsisDB( isisdb => $isis_db );                  my $db = new Biblio::Isis( isisdb => $isis_db );
740    
741                    my $max_rowid = $db->count;
742    
743                  my $max_rowid = $db->{'maxmfn'} || die "can't find maxmfn";                  if (! $max_rowid) {
744                            print STDERR "FATAL: can't read ISIS database: $isis_db, skipping...\n";
745                            next;
746                    }
747    
748                  print STDERR "Reading database: $isis_db [$max_rowid rows]\n";                  print STDERR "Reading database: $isis_db [$max_rowid rows]\n";
749    
750                  my $path = $database;                  $path = $database;
751    
752                  for (my $row_id = 1; $row_id <= $max_rowid; $row_id++ ) {                  for (my $row_id = 1; $row_id <= $max_rowid; $row_id++ ) {
753                          my $row = $db->to_hash( $row_id );                          my $row = $db->to_hash( $row_id );
# Line 811  print STDERR "using: $type...\n"; Line 832  print STDERR "using: $type...\n";
832                  }                  }
833          } elsif ($type_base eq "marc") {          } elsif ($type_base eq "marc") {
834    
835                  require MARC;                  require MARC::File::USMARC;
836                                    
837                  $import2cp = Text::Iconv->new($config->{marc_codepage},$codepage);                  $import2cp = Text::Iconv->new($config->{marc_codepage},$codepage);
838                  my $marc_file = $cfg -> val($database, 'marc_file') || die "$database doesn't have 'marc_file' defined!";                  my $marc_file = $cfg -> val($database, 'marc_file') || die "$database doesn't have 'marc_file' defined!";
839    
840                  # optional argument is format                  # optional argument is format
841                  my $format = x($config->{marc_format}) || 'usmarc';                  warn "marc_format is no longer used!" if ($config->{marc_format});
   
842                  print STDERR "Reading MARC file '$marc_file'\n";                  print STDERR "Reading MARC file '$marc_file'\n";
843    
844                  my $marc = new MARC;                  my $marc = MARC::File::USMARC->in( $marc_file );
                 my $nr = $marc->openmarc({  
                                 file=>$marc_file, format=>$format  
                         }) || die "Can't open MARC file '$marc_file' with format '$format'";  
845    
846                  # read MARC file in memory                  if (! $marc) {
847                  $marc->nextmarc(-1);                          print STDERR "FATAL: can't read MARC file: $marc_file, skipping...\n";
848                            next;
849                    }
850    
851                  my $max_rec = $marc->marc_count();                  # count records in MARC file
852                    sub marc_count {
853                            my $filename = shift || die;
854                            my $file = MARC::File::USMARC->in($filename) || return;
855                            my $count = 0;
856                            while ($file->skip()) {
857                                    $count++;
858                            }
859                            return $count;
860                    }
861    
862                    my $count = marc_count($marc_file) || warn "no records in '$marc_file'?";
863    
864                  for(my $i=1; $i<=$max_rec; $i++) {                  my $i = 1;
865    
866                          progress($i,$max_rec);                  while( my $rec = $marc->next() ) {
867    
868                          # store value for marc_sf.pm                          progress($i,$count);
                         $main::cache->{marc_record} = $i;  
869    
870                          my $swishpath = $database."#".$i;                          my $swishpath = $database."#".$i;
871    
872                          if (my $xml = data2xml($type_base,$marc,$add_xml,$cfg,$database)) {                          if (my $xml = data2xml($type_base,$rec,$add_xml,$cfg,$database)) {
873                                  $xml = $cp2utf->convert($xml);                                  $xml = $cp2utf->convert($xml);
874                                  use bytes;      # as opposed to chars                                  use bytes;      # as opposed to chars
875                                  print "Path-Name: $swishpath\n";                                  print "Path-Name: $swishpath\n";
876                                  print "Content-Length: ".(length($xml)+1)."\n";                                  print "Content-Length: ".(length($xml)+1)."\n";
877                                  print "Document-Type: XML\n\n$xml\n";                                  print "Document-Type: XML\n\n$xml\n";
878                          }                          }
879    
880                            $i++;
881                  }                  }
882    
883                  print STDERR "\n";                  print STDERR "\n";
# Line 911  all2xml.pl - read various file formats a Line 942  all2xml.pl - read various file formats a
942    
943  =head1 DESCRIPTION  =head1 DESCRIPTION
944    
945  This command will read ISIS data file using OpenIsis perl module, MARC  This command will read ISIS data file using Biblio::Isis perl module, MARC
946  records using MARC module and optionally Micro$oft Excel files to  records using MARC::File module and optionally Micro$oft Excel files to
947  create one XML file for usage with I<SWISH-E> indexer. Dispite it's name,  create one XML file for usage with I<SWISH-E> indexer. Dispite it's name,
948  this script B<isn't general xml generator> from isis files (isis allready  this script B<isn't general xml generator> from isis files (isis allready
949  has something like that). Output of this script is tailor-made for SWISH-E.  has something like that). Output of this script is tailor-made for SWISH-E.

Legend:
Removed from v.619  
changed lines
  Added in v.650

  ViewVC Help
Powered by ViewVC 1.1.26