Myriad Blog 1.3.0 Sunday, Sep 21st, 2014 at 12:11am 

Thursday, Sep 30th, 2010 at 05:14pm
Kooplet et les fichiers longs en Perl
Dans la série "C'est un peu technique mais ça peut toujours être utile à un développeur qui passe par là", voici quelques astuces concernant la gestion de fichiers -très- longs et des valeurs 64 bits en Perl.
 
Tout d'abord, à quoi ça sert et pourquoi cet intérêt soudain pour un domaine somme toute assez peu passionant ?
 
Dans Kooplet, nous avons besoin de stocker des quantités assez importantes de données. Nous avons choisi de gérer nous-même les bases de données sous forme de fichiers, en langage Perl.
Un peu déformés par 20 ans d'informatique où 2 ou 4 Go étaient les limites absolues, car correspondant à la valeur maximale de ce qu'on peut stocker sur un entier long (32 bits),  nous nous étions résignés à mettre en place un système complexe de gestion de fichier par tranche, qui découperait automatiquement en morceaux nos bases de données lorsqu'elles deviendraient trop longues.
 
Mais avant de nous lancer dans le tronçonnage, nous avons essayé de créer en Perl un fichier de plus de 4 Go. Sans problème. Apparemment, aucune limite, donc nous pouvions espérer manipuler des fichiers sans limite de taille.
 
Il fallait d'abord vérifier que l'arithmétique entière au-delà de 32 bits, c'est-à-dire les entiers 64 bits, aussi appelés "long longs" fonctionne en Perl.
Notre version de Perl (5.8.8 sur système 32 bits) les gère effectivement, ou presque.
Apparemment (mais ce n'est pas certain, il s'agit peut-être d'une configuration de l'affichage), ils sont gérés jusqu'à des valeurs avoisinant 999 millions de milliards. Au-delà, l'affichage passe en virgule et exposant. Pas grave, cela devrait tout de même suffire.
 
Par contre, mauvaise surprise. Pour stocker un "long long" dans un fichier, on est censés utiliser la commande Perl : pack("Q",valeur)
Cette commande génère une erreur "Invalid type 'Q' in pack".  
Cela ne nous semble vraiment pas normal. Le langage permet de gérer des variables contenant des valeurs 64 bits, d'effectuer des calculs dessus, de se positionner dans un gros fichier à l'aide de ces variables, mais pas d'écrire ces variables en format binaire.
 
Bon, pas grave, nous avons contourné cela, en écrivant ces valeurs en 2 fois 32 bits. Pour les pinailleurs, les fichiers étant destinés à être lus par la machine qui les a écrits, nous ne nous sommes pas souciés de l'"endianness":
Quote:
Entier signé

 
Stockage : data=pack("lL",high,low)
avec high=int(value/$QSPLIT)
et        low=value%$QSPLIT
 
Lecture      : (high,low)=unpack("lL",data)
puis value=high*$QSPLIT+low
 
Entier non signé

 
Stockage : data=pack("LL",high,low)
 avec high=int(value/$QSPLIT)
et        low=value%$QSPLIT
 
Lecture      :      (high,low)=unpack("LL",data)
puis value=high*$QSPLIT+low

$QSPLIT étant la valeur non signée correspondant au franchissement des 32 bits, soit 4294967296
 
Il a ensuite suffi de reprendre tous nos programmes pour remplacer les valeurs 32 bits contenant les positions des divers éléments dans les fichiers par des valeurs 64 bits, puis de modifier tous les stockages et lectures de ce type de valeurs. Pas vraiment compliqué, mais ça a quand même pris une bonne journée.
 
Technophobes, vous pouvez rouvrir les yeux maintenant, c'est fini !
by Olivier Guillion


Most recent first
Oldest first

Top of page
Last update:  (c) Myriad 2013