Myriad Blog 1.3.0 Sunday, Jan 25th, 2015 at 05:24pm 

Dev News Friday, Oct 29th, 2010 at 05:09pm
Kooplet, tape 69

 
Aprs mise au propre de certaines parties de gestion de la base de donnes qui pouvaient poser problme, nous avons relanc la collecte de fichiers, en vrifiant rgulirement l'intgrit des bases de donnes, ainsi que les rapports dans les fichiers-journaux.
 
Aucun problme sur environ 6000 fichiers, jusqu' ce que le plantage de base se reproduise nouveau. Nous avons pu, cette fois, grce au compte-rendu dtaill des oprations, comprendre ce qui s'tait pass :
 
Notre serveur Web est muni de protections pour viter qu'un ou plusieurs scripts puissent partir dans des boucles infinies et saturer la machine : aucun appel un script ne peut durer plus de 5 minutes. Au-del de ce dlai, la tche correspondant au script est automatiquement tue.
 
Or, un des fichiers que nous avions traiter tait un fichier ZIP, contenant plusieurs fichiers ABC, eux-mme contenant chacun plusieurs centaines de morceaux.
 
Cela faisait, dans un seul fichier, plusieurs milliers de morceaux de musique analyser, indexer, et stocker dans les bases de donnes. Ce processus prenait plus de 5 minutes, et le script tait alors termin abruptement, alors qu'il tait en plein dans l'criture des divers fichiers des bases de donnes.
 
Dans ce type de cas, il vaudrait mieux envoyer les morceaux un un plutt que tous d'un coup. Ainsi, chaque accs individuel ne serait que d'une fraction de secondes, aucun d'entre eux ne flirtant avec le temps limite attribu la tche.
 
En attendant de modifier le programme dans ce sens, nous avons mis en place dans notre script une vrification du temps pass, permettant de quitter proprement lorsqu'on dpasse 3 mn (histoire d'avoir un peu de marge). Ainsi, tous les morceaux contenus dans le ZIP ne seront pas pris en compte, mais la base devrait rester intgre.
 
Nous allons essayer de faire tourner l'indexation pendant ce week-end de trois jours, et voir si tout tient le choc.
by Olivier Guillion

Dev News Thursday, Oct 28th, 2010 at 04:45pm
Kooplet, tape 68

 
Nous avons pass une bonne partie de la journe tenter de localiser le problme de corruption de la base de donnes de Kooplet.  
 
L'ennui, c'est que cela ne semble se produire que dans de rares cas, aprs une collecte de plusieurs milliers de fichiers.
Nous avons essay de crer un programme de "stress" de la base de donnes, avec des milliers de cration, redimensionnement et suppression d'lments, mais cela n'a pas permis de reproduire cette erreur.
 
Nous avons donc relanc une collecte, aprs avoir truff notre code de marquage des oprations dans un fichier-journal. Nous esprons ainsi que, si cela se reproduit, nous pourrons nous en servir pour comprendre d'o a vient.
 
En attendant, nous collectons donc nouveau, tout en sachant qu'il faudra tout reprendre zro lorsque l'erreur aura t supprime.
by Olivier Guillion

Dev News Monday, Oct 25th, 2010 at 04:53pm
Kooplet, tape 66

 
Les appels la lecture de pages et de fichier sur Internet par le crawler ont t rendus non bloquants, mme sur Windows.
Pour ce faire, un processus indpendant est lanc pour l'envoi de commande et la lecture du rsultat sur Internet, et si ce processus ne rpond pas au bout d'un dlai imparti, il est automatiquement dtruit par le processus "pre".
Malheureusement, un oubli de programmation nous a fait analyser incorrectement quelques centaines de fichiers. Ils seront rcuprs au prochain balayage complet de chaque site.
 
Sylvain, en examinant les logs d'accs son site, nous a fait remarquer que notre robot ne tenait pas compte des indications du "robots.txt" en ce qui concerne les adresses ne pas balayer. Cela a t corrig.
 
Il a galement signal que notre robot essayait d'accder des pages inexistantes, croyant tort avoir trouv des liens sur celles-ci dans les pages dj visites.
Nous avons donc amlior cette partie.
 
Nous avons dtect quelques boucles de liens mal rsolues (page A qui contient un lien sur page B, qui contient un lien sur page A...). Normalement, cela aurait d tre trait automatiquement par le robot, qui ne devrait jamais passer deux fois au mme endroit. Il semble y avoir un problme dans certains cas...
by Olivier Guillion

Dev News Wednesday, Oct 20th, 2010 at 04:51pm
Kooplet, tape 65

 
Nous avons termin de vrifier le systme de parcours des pages Web (crawler), reprage et analyse des fichiers musicaux, et conversion de ces derniers en donnes utilisables par le moteur de recherche.
 
Nous avons reconstitu la liste d'une cinquantaine de sites Web qui avait servi nos premiers essais, et lanc une indexation de ces sites.
 
Pour l'instant, 4 instances du client d'indexation sont en cours sur un PC sous Windows, une autre est en test sur une machine Linux, et une ou plusieurs autres seront dmarres ce soir sur un PC personnel.
Les 3 machines fonctionneront toute la nuit, et nous verrons demain matin ce que a a donn.
 
Par contre, il s'agit seulement de la collecte des donnes. Ces dernires sont simplement stockes dans une base de donnes temporaire, limite arbitrairement 10000 lments (fichiers).
 
Pour les transformer en quelque chose d'utilisable par le systme de recherche, il faut extraire de ces donnes les informations musicales, ainsi que les divers textes. Ceci ne peut se faire pour l'instant qu' l'aide de nos versions de dveloppement d'Harmony Assistant et PDFtoMusic.  
 
Pour viter que tout s'arrte lorsque 10000 fichiers sont en attente d'analyse, il faut donc thoriquement que suffisamment d'instances de ces versions d'Harmony et PDFtoMusic tournent pour analyser les donnes plus rapidement qu'elles sont collectes. Il va nous falloir valuer l'usage combien de machines devront tre mobilises, et pour combien d'heures par jour.
by Olivier Guillion

Dev News Monday, Oct 18th, 2010 at 04:57pm
Kooplet, tape 64

 
La nouvelle version du robot d'indexation (crawler) de Kooplet a tourn ce week-end, sur un petit nombre de sites (moins d'une dizaine). Il a index ainsi un petit lot de 4000 fichiers.
 
La partie client du crawler demande peu de ressources sur la machine sur laquelle elle tourne, et devrait mme pouvoir tre lance depuis une cl USB ou un CD-ROM, car elle ne stocke aucun fichier sur le disque.  
 
Ceci nous a permis de vrifier les accs concurrentiels de plusieurs instances de ce client, ainsi que la bonne rcupration des donnes des fichiers musicaux.
 
Cependant, la vrification des doublons (mme fichier musical disponible des adresses diffrentes du mme site) ncessitait des balayages assez longs, nous avons donc mis en place un index crois pour une recherche plus rapide. Ceci nous a oblig recommencer le processus d'indexation depuis le dbut.
Cette semaine, nous devrions pouvoir relancer la cration de la base dfinitive.
by Olivier Guillion
 1 comment.

Dev News Thursday, Oct 14th, 2010 at 05:13pm
Kooplet, tape 63 et autre

 
Nous avanons toujours sur le systme de balayage des sites. Nous nous sommes heurts un problme assez compliqu qui n'avait jamais t rsolu convenablement dans la version prcdente du "crawler" : certains sites, pour tre parcourus correctement, ncessitent un enregistrement de l'utilisateur.
C'est le cas notamment de CPDL.
 
Afin d'conomiser la bande passante, les visiteurs se voient redirigs alatoirement vers des sites miroir, ce qui perturbait notre robot. Heureusement, le webmaster de CPDL est galement utilisateur de nos produits, il nous a donc aimablement ouvert un compte privilgi afin que nous puissions indexer tous les fichiers notre guise.
 
Mais la phase de "login" nous a pos quelques problmes. Le site est un wiki, donc pour viter que des robots puissent s'enregistrer tout seuls et s'amuser sur les pages, des protections anti-robot ont t mises en place. L'analyse nous a montr qu'elles taient similaires au systme anti-spam de notre blog. Nous avons donc du grer la prise en compte de cookies multiples, et rcuprer des donnes gnres dynamiquement sur les pages de log-in afin que notre robot puisse s'identifier correctement. Cela fonctionne maintenant.
 
 
Dans un tout autre domaine, nous avons reu ce matin un e-mail qui nous a fait beaucoup rire.
Un utilisateur trs soucieux de la confidentialit des changes sur Internet s'est inscrit notre liste de diffusion de la lettre d'information.
 
Dans l'e-mail de confirmation de l'inscription, nous terminons par le petit paragraphe suivant :
Quote:
Note : Afin d'viter les abus, l'adresse IP de la personne ayant demand ce message vous est communique ici.
Il s'agit de : xxx.xxx.xxx.xxx

Ceci permet d'viter qu'un robot automatique, le voisin qui vous avez ray la voiture, ou un collgue de bureau un peu farceur n'inscrive votre adresse e-mail votre insu juste pour rigoler. Avec l'adresse IP, vous pouvez vrifier que l'inscription provient bien de chez vous.
 
Voici donc le mail que nous avons reu en retour. Je me suis permis d'en modifier lgrement la syntaxe afin que son auteur ne considre pas que nous dvoilons en public des lments de correspondance prive .
Quote:
A ma demande d'information concernant vos produits, vous me menacez en me prcisant que vous avez mon adresse IP. Je me suis inscrit sans mauvaise intention et en retour, je suis agress par vous. Pour quelle raison ? Clarifiez votre dmarche, vous amliorerez ainsi votre image auprs de vos clients de bonne foi.

Si ce monsieur savait qu' chaque consultation d'une page sur un site, le serveur voyait son adresse IP en clair, je crains qu'il n'en perde d'un coup le sommeil et l'apptit. Les campagnes mdiatiques paranognes sur les dangers d'Internet ont, il semble, fait croire certains que l'adresse IP tait une information secrte, au mme titre que le code de carte bleue ou la combinaison de son coffre-fort...
by Olivier Guillion
 1 comment.

Dev News Tuesday, Oct 12th, 2010 at 04:46pm
Kooplet, tape 62

 
Le module serveur et le module client du "crawler" de kooplet sont crits, et fonctionnels. Le module client est trs lger, et consomme une puissance de calcul ngligeable (jamais plus de 1% de la puissance CPU). Il devrait pouvoir tourner en tche de fond sans effet notable.
 
Avant de lancer l'exploration des sites musicaux, il faut d'abord vrifier ces modules en profondeur, afin de s'assurer qu'ils respectent bien les paramtres imposs par les sites visits (fichier robots.txt), et que cette exploration se passe bien.
Il faut par exemple viter les boucles de liens (la page A a un lien sur la page B, qui a un lien sur la page A), et s'assurer que le module client ragit bien lorsque le site qu'il explore n'est pas correctement accessible.  
 
La version Windows du Perl ne permet pas de dfinir un timeout sur les accs Internet, donc un site qui ne rpond pas fait boucler le programme indfiniment. Dans la version Linux, par contre, cela fonctionne... presque.  
Il arrive en effet que certains accs trs lents finissent par bloquer le programme galement. Nous n'avons pas pu dterminer exactement dans quel cas, mais c'est assez gnant, car cela nous obligerait relancer le module client tous les deux ou trois jours en moyenne.
 
Nous prvoyons donc de dvelopper un module d'accs indpendant du corps principal du module, ce qui permettrait d'arrter son excution s'il ne rpond pas au bout d'un certain temps.
Ainsi, le module pourrait fonctionner sans ncessit d'intervention humaine sur n'importe laquelle des deux plateformes.  
by Olivier Guillion

Dev News Thursday, Oct 7th, 2010 at 04:56pm
Kooplet, tape 61

 
Avant de relancer l'indexation des sites musicaux par Kooplet, nous avons dcid de reprendre la base le "crawler", c'est--dire le programme qui se balade sur Internet pour reprer les fichiers intressants.
 
En effet, il avait t programm assez la va-vite, et dans sa version actuelle, ne permettait qu' une seule machine de procder ces recherches. Nous lanions donc plusieurs instances du programme sur une seule machine ddie (tournant sur Linux).
 
La quantit de pages balayer ne pouvant qu'augmenter au fur et mesure que de nouveaux sites indexer seraient dcouverts, nous avions peur qu'une seule machine, ce soit un peu juste.
 
Nous avons donc repens l'architecture du crawler : un serveur centralis (sur kooplet.com) grera donc les sites en cours d'exploration, les pages visiter, les fichiers dcouverts et en attente de traitement. L'intgralit de ces donnes sera gre en utilisant notre systme de base de donnes.
 
Un client lger pourra tre lanc sur autant d'ordinateurs que dsir, ces ordinateurs demandant au serveur la page explorer et lui renvoyant soit les informations sur le contenu des fichier musicaux, soit les liens dcouverts dans la page Web. On pourrait ainsi envisager, lorsque le besoin s'en ferait sentir, de demander de l'aide quelques-uns d'entre vous pour explorer l'arborescence des pages Web. Cela pourrait se faire soit au travers d'un petit programme indpendant, soit par une commande prive de MyrScript, directement dans Harmony Assistant.
 
Nous avons galement besoin des traitements d'Harmony Assistant, ou de PDFtoMusic, pour transformer les donnes des fichiers musicaux collects par le "crawler" en donnes simplifies pouvant tre utilises par le moteur de Kooplet lors d'une recherche. L aussi, nous pourrions faire appel des utilisateurs volontaires pour nous aider traiter toutes ces donnes, par l'intermdiaire d'une commande prive cache dans ces logiciels.
by Olivier Guillion
 1 comment.

Technical Tuesday, Oct 5th, 2010 at 04:58pm
Matriel d'enregistrement (2)

 
Nous avons donc reu notre microphone hier, et avons pu procder quelques tests.
Voici comment nous avons procd.
Dans la pice la moins rsonnante du btiment (sous les toits, avec des tentures au plafond qui amortissent les chos), nous avons plac cte cte:
 
- Un microphone stro Sony ECM-MS907 connect au Creative Nomad Jukebox 3, au travers d'un prampli mono Sound Professionals SP-PREAMP-10.
 
- Le Microphone Blue Yeti, connect en USB un ASUS EEE PC quip d'Audacity. Le slecteur de type d'enregistrement du microphone est rgl, sauf mention contraire, sur "Stro".
 
Nous avons ensuite jou de divers instruments, et avons enregistr simultanment sur les deux systmes. Voici les rsultats au format WAV non compress, avec un peu de blanc avant et aprs chacun, afin de pouvoir juger du bruit de fond. On entend parfois quelques bruits de rue et des "cui cui" d'oiseaux. On entend aussi de temps en temps le bruit du disque dur du Nomad qui change de piste .
 
Tout d'abord, trois notes la flte (un "tin whistle" irlandais en mtal), joues 60cm
 
Yeti    ---     Nomad

 
Trois notes de Glockenspiel, joues 60cm
 
Yeti    ---     Nomad

 
Deux cordes vide de guitare, joues 60cm
 
Yeti    ---     Nomad

 
 
Un accord de guitare, arpg, jou 30cm
 
Yeti    ---     Nomad

 
Enfin, nous avons un peu jou avec le Yeti, et notamment avec le slecteur de type d'enregistrement. Nous avons jou la mme chose trois fois, avec trois rglages diffrents :
 
Yeti, rglage "Stro"  
 
Yeti, rglage "Omni"  
 
Yeti, rglage "Cardiode"
 
 
Nous n'avons pas test la dernire position, destine l'enregistrement d'interviews.
La position "Omni" (enregistrement d'ambiance) est trs proche, dans nos tests, de la position "Cardiode" (enregistrement d'instrument solo), probablement parce que nous avons jou un son fort, plac en face du micro. Il faudrait effectuer d'autres tests, avec une saisie relle d'ambiance sonore.
 
En conclusion, pour nos oreilles non expertes, le Yti possde une bien meilleure dynamique, et un bruit de fond moindre, probablement d ses grandes membranes. Il reste assez lourd et encombrant, mais sa connexion directe en USB et l'utilisation d'un ordinateur portable permet un contrle beaucoup plus fin de l'enregistrement, amliorant ainsi grandement la facilit gnrale d'utilisation.
 
Pour les enregistrements sans possibilit d'espace ou de prparation, on privilgiera donc une solution lgre telle que le Nomad et le petit micro Sony, mais pour les enregistrements d'instruments, o l'interprte est notre disposition, il sera grandement prfrable d'utiliser le Yeti.
by Olivier Guillion


Full view
Reduced view
Most recent first
Oldest first
All
Didier Guillion
Olivier Guillion
Sylvie Ricard
All
Dev News
Technical
Mood
Memories
Myriad Life
To be seen
30 previous days
Apr 2006
May 2006
Jun 2006
Jul 2006
Aug 2006
Sep 2006
Oct 2006
Nov 2006
Dec 2006
Jan 2007
Feb 2007
Mar 2007
Apr 2007
May 2007
Jun 2007
Jul 2007
Aug 2007
Sep 2007
Oct 2007
Nov 2007
Dec 2007
Jan 2008
Feb 2008
Mar 2008
Apr 2008
May 2008
Jun 2008
Jul 2008
Aug 2008
Sep 2008
Oct 2008
Nov 2008
Dec 2008
Jan 2009
Feb 2009
Mar 2009
Apr 2009
May 2009
Jun 2009
Jul 2009
Aug 2009
Sep 2009
Oct 2009
Nov 2009
Dec 2009
Jan 2010
Feb 2010
Mar 2010
Apr 2010
May 2010
Jun 2010
Jul 2010
Aug 2010
Sep 2010
Oct 2010
Nov 2010
Dec 2010
Jan 2011
Feb 2011
Mar 2011
Apr 2011
May 2011
Jun 2011
Jul 2011
Aug 2011
Sep 2011
Oct 2011
Nov 2011
Dec 2011
Jan 2012
Feb 2012
Mar 2012
Apr 2012
May 2012
Jun 2012
Jul 2012
Aug 2012
Sep 2012
Oct 2012
Nov 2012
Dec 2012
Jan 2013
Feb 2013
Mar 2013
Apr 2013
May 2013
Jun 2013
Jul 2013
Aug 2013
Sep 2013
Oct 2013
Nov 2013
Dec 2013
Jan 2014
Feb 2014
Mar 2014
Apr 2014
May 2014
Jun 2014
Jul 2014
Aug 2014
Sep 2014
Oct 2014
Nov 2014
Dec 2014
Jan 2015
Jan 23rd, 2015 at 04:53pm 
Article from Didier Guillion
ACAM sur Mac tape 18
Jan 22nd, 2015 at 04:53pm 
Article from Olivier Guillion
Acam Winter tape 32
Jan 21st, 2015 at 04:54pm 
Article from Didier Guillion
ACAM sur Mac tape 17
Jan 20th, 2015 at 04:58pm 
Article from Olivier Guillion
Acam Winter tape 31
Jan 19th, 2015 at 04:55pm 
Article from Didier Guillion
ACAM sur Mac tape 16
Jan 16th, 2015 at 05:49pm 
Comment from dheo
Keyboard Input
Jan 16th, 2015 at 05:49pm 
Comment from dheo
Keyboard Input
Jan 16th, 2015 at 05:49pm 
Comment from dheo
Keyboard Input
Jan 16th, 2015 at 05:49pm 
Comment from dheo
Keyboard Input
Jan 16th, 2015 at 05:49pm 
Comment from dheo
Keyboard Input

Top of page
Last update:  (c) Myriad