Myriad Blog 1.3.0 Friday, Jul 25th, 2014 at 05:28pm 

Wednesday, Mar 10th, 2010 at 05:47pm
Kooplet étape 27

 
Un problème de consommation de mémoire nous empêchait de faire tourner le crawler trop longtemps sur notre machine Linux. Au bout d'un moment, le programme utilisait plusieurs centaines de Méga-octets, et avec 4 instances simultanées, cela faisait effondrer les performance du petit ordinateur qui le fait tourner.
 
Nous avons résolu le problème, qui n'était apparemment pas de notre coté, mais plus général à certains types de traitement dans le langage Perl. Nous avons également fixé une limite à la taille des fichiers analysés, considérant que des PDF de 50 Mo (si, si, on en a trouvé) contenaient probablement des scans de partitions papier et ne seraient donc de toute façon pas indexables.
 
Depuis, l'utilisation mémoire a été réduite à 3 ou 4 Mo par instance, ce qui nous permet de le faire tourner en permanence.  
 
On approche donc de la barre des 100 000 fichiers, trouvés sur une quarantaine de sites. Comme il nous l'a été demandé, nous allons prévoir une option (cachée ou pas) qui permette à l'utilisateur de connaître la liste des sites indexés, et éventuellement de nous en proposer d'autres.
by Olivier Guillion


Most recent first
Oldest first

Top of page
Last update:  (c) Myriad 2013