Myriad Blog 1.3.0 Saturday, Apr 19th, 2014 at 09:28am 

Thursday, Jan 28th, 2010 at 04:46pm
Recherche de séquence mélodique (Partie 9)
 
 
 Le robot d'indexation (crawler) a été amélioré, et gère maintenant correctement la navigation en mode "utilisateur enregistré", necessaire pour balayer le site cpdl.org.
 
Nous avons résolu quelques problèmes rencontrés au fur et à mesure. Par exemple, le robot allait exporer le lien "logout", ce qui le désenregistrait du site.  
Autre cas, celui d'une page dynamique qui contient un lien sur elle-même auquel a été ajouté un paramètre. Par exemple, la page /dossier/test qui pointe sur /dossier/test?param=1 qui pointe sur /dossier/test?param=1&param=1 qui pointe sur /dossier/test?param=1&param=1&param=1, etc.
Le robot ne peut pas comprendre qu'il s'agit de la même page cer l'adresse est différente et le contenu aussi.  
 
Nous avons résolu ce problème de boucle en limitant le nombre de liens successifs depuis la page d'accueil. On peut considérer que s'il faut plus de 20 clics pour arriver à une page, celle-ci n'a que peu d'intérêt...
 
Nous avons fait tourner le système une nuit entière, et il a collecté sans erreur quelques milliers de fichiers divers. Mais lorsque la liste de pages à explorer devient importante, le programme commence à consommer un peu trop de puissance processeur, aussi l'avons-nous aujourd'hui réécrit en quasi-totalité pour optimiser la bête, et rendre tout cela plus propre.  
Une nouvelle version du robot devrait donc pouvoir tourner ce week-end.
by Olivier Guillion
Comments

Comment from François Desjardins Saturday, Jan 30th, 2010 at 02:06pm
Recherche de séquence mélodique.
Très intéressant à suivre cette évolution de vos travaux. Merci.  


Most recent first
Oldest first

Top of page
Last update:  (c) Myriad 2013