Lorsque le robot d'indexation de Kooplet a terminé de balayer un site, il attends quelques jours avant de recommencer, et de vérifier si de nouveaux fichiers musicaux ont été mis en ligne sur ce site. Lors de ce deuxième passage, il tombe sur une majorité de documents qui sont déjà indexés. Il faut donc une méthode rapide pour savoir si un fichier est déjà dans la base. Malheureusement, il y avait une petite erreur dans la mise en place de cette méthode, et le robot pensait parfois à tort trouver des fichiers tout nouveaux, alors qu'ils étaient anciens et déjà collectés. Résultat, pas mal de doublons dans la base, qu'il a fallu repérer après avoir corrigé l'erreur. Sur les 125000 documents collectés, environ 26000 sont des doublons qu'il faut donc éliminer de la base. Cette suppression va se faire tranquillement, en tâche de fond. La découverte de nouveaux documents allant plus vite que la suppression de ces doublons, le nombre total de fichiers indexés ne devrait pas baisser, mais simplement grimper un peu moins vite dans les prochains jours. Ceci nous permet de tester l'élimination en masse d'entrées dans la base, ce que nous n'avions pas eu l'occasion de faire jusqu'ici. Apparemment, ça fonctionne. Nous allons continuer à enrichir et nettoyer la base ce week-end. |