Myriad Blog 1.3.0 Wednesday, Oct 1st, 2014 at 08:49am 

Thursday, Oct 7th, 2010 at 04:56pm
Kooplet, étape 61

 
Avant de relancer l'indexation des sites musicaux par Kooplet, nous avons décidé de reprendre à la base le "crawler", c'est-à-dire le programme qui se balade sur Internet pour repérer les fichiers intéressants.
 
En effet, il avait été programmé assez à la va-vite, et dans sa version actuelle, ne permettait qu'à une seule machine de procéder à ces recherches. Nous lançions donc plusieurs instances du programme sur une seule machine dédiée (tournant sur Linux).
 
La quantité de pages à balayer ne pouvant qu'augmenter au fur et à mesure que de nouveaux sites à indexer seraient découverts, nous avions peur qu'une seule machine, ce soit un peu juste.
 
Nous avons donc repensé l'architecture du crawler : un serveur centralisé (sur kooplet.com) gèrera donc les sites en cours d'exploration, les pages à visiter, les fichiers découverts et en attente de traitement. L'intégralité de ces données sera gérée en utilisant notre système de base de données.
 
Un client léger pourra être lancé sur autant d'ordinateurs que désiré, ces ordinateurs demandant au serveur la page à explorer et lui renvoyant soit les informations sur le contenu des fichier musicaux, soit les liens découverts dans la page Web. On pourrait ainsi envisager, lorsque le besoin s'en ferait sentir, de demander de l'aide à quelques-uns d'entre vous pour explorer l'arborescence des pages Web. Cela pourrait se faire soit au travers d'un petit programme indépendant, soit par une commande privée de MyrScript, directement dans Harmony Assistant.
 
Nous avons également besoin des traitements d'Harmony Assistant, ou de PDFtoMusic, pour transformer les données des fichiers musicaux collectés par le "crawler" en données simplifiées pouvant être utilisées par le moteur de Kooplet lors d'une recherche. Là aussi, nous pourrions faire appel à des utilisateurs volontaires pour nous aider à traiter toutes ces données, par l'intermédiaire d'une commande privée cachée dans ces logiciels.
by Olivier Guillion
Comments

Comment from Sylvain Machefert Thursday, Oct 7th, 2010 at 07:41pm
programme ou MyrScript
je suis plutôt partisan d'un petit programme indépendant, car si c'est un script MyrScript, il faut avoir HA ouvert.
Or mon ordi est souvent allumé mais pas toujours sur HA.
Si le programme appelle HA et PdfToMusic en ligne de commande, sans affichage, pour convertir des fichiers, alors c'est bon, et si en plus il est mis en priorité faible sur l'utilisation du processeur, c'est le top


Most recent first
Oldest first

Top of page
Last update:  (c) Myriad 2013