Myriad Blog 1.3.0 Saturday, Sep 20th, 2014 at 12:05am 

Friday, Dec 17th, 2010 at 05:03pm
Kooplet étape 91
 
Lorsque le robot d'indexation de Kooplet a terminé de balayer un site, il attends quelques jours avant de recommencer, et de vérifier si de nouveaux fichiers musicaux ont été mis en ligne sur ce site.
 
Lors de ce deuxième passage, il tombe sur une majorité de documents qui sont déjà indexés. Il faut donc une méthode rapide pour savoir si un fichier est déjà dans la base.
 
Malheureusement, il y avait une petite erreur dans la mise en place de cette méthode, et le robot pensait parfois à tort trouver des fichiers tout nouveaux, alors qu'ils étaient anciens et déjà collectés.
 
Résultat, pas mal de doublons dans la base, qu'il a fallu repérer après avoir corrigé l'erreur. Sur les 125000 documents collectés, environ 26000 sont des doublons qu'il faut donc éliminer de la base.  
 
Cette suppression va se faire tranquillement, en tâche de fond. La découverte de nouveaux documents allant plus vite que la suppression de ces doublons, le nombre total de fichiers indexés ne devrait pas baisser, mais simplement grimper un peu moins vite dans les prochains jours.
 
Ceci nous permet de tester l'élimination en masse d'entrées dans la base, ce que nous n'avions pas eu l'occasion de faire jusqu'ici. Apparemment, ça fonctionne.
 
Nous allons continuer à enrichir et nettoyer la base ce week-end.
by Olivier Guillion
Comments

Comment from Mick Friday, Dec 17th, 2010 at 05:27pm
kooplet
Quel travail! Bravo!
Mais prenez quand même un peu de repos, bien mérité, et passez de bonnes fêtes.
cordialement

Comment from Jean-Armand Friday, Dec 17th, 2010 at 11:59pm
(No subject)
"Méthode rapide" = clé de hachage ?

Comment from Olivier Guillion Saturday, Dec 18th, 2010 at 08:40am
@ Jean-Armand
Oui.  
Pour identifier un fichier, on calcule un CRC sur ses données, qu'on stocke dans une base additionnelle. C'est ce stockage qui ne fonctionnait pas bien.


Most recent first
Oldest first

Top of page
Last update:  (c) Myriad 2013