Myriad Blog 1.3.0 Thursday, Apr 24th, 2014 at 10:20pm 

Friday, Sep 1st, 2006 at 05:30pm
Aspiration de site
Par le terme "aspirateur de site", on désigne un programme qui, lancé sur l'ordinateur de l'utilisateur lambda, récupère toutes les pages, images, et autres documents d'un site Web entier, ou d'une partie choisie de ce site, et les stocke sur le disque dur de l'utilisateur en question.
 
Ceci lui permet de consulter les pages par la suite, sans avoir besoin de les télécharger à chaque fois, ou même une fois que sa connexion internet a été coupée.
 
A priori, rien de bien méchant. Et pourtant...
 
Afin que la récupération du site soit la plus rapide possible, ces programmes récupèrent plusieurs pages en même temps, jusqu'à plusieurs centaines à la fois. Et, contrairement à un véritable visiteur, ils ne prennent pas le temps de les lire, de regarder les images avant de passer à la page suivante.
 
Un programme de ce type crée donc un nombre important de connexions simultanées au serveur Web, comme si brusquement, des milliers de personnes se connectaient en même temps.  
 
Mais là n'est pas le plus grave. Lorsqu'il s'agit d'une page "dynamique" comme ce blog ou un forum de discussion, à chaque connexion, un programme est lancé sur le serveur. Imaginez l'état de votre ordinateur si vous lanciez 500 ou 1000 petits programmes en même temps... Ca peine, ça fige, plus rien ne répond. Et pendant ce temps, les "vrais" visiteurs voient l'ensemble du site ralentir ou même carrément cesser de répondre, alors que l'aspirateur de site essaye d'établir toujours plus de connexions.
 
Alors pour assurer la sécurité de notre site et le confort de visite, nous avons dû mettre en place des mesures qui "banissent" automatiquement les personnes utilisant des aspirateurs de site.  Impossible de les prévenir, donc ces personnes voient simplement leur accès à la totalité de notre site Web interdit.
 
Les moteurs de recherche (Google, etc), qui fonctionnent sur le même principe qu'un aspirateur de site, prennent garde à ne pas surcharger le serveur qu'ils explorent, et à respecter les paramètres de consultation que le Webmaster a fixés. Ils ne se font donc pas "prendre" par ces protections.
 
Si la mésaventure vous est arrivée alors que vous tentiez de récupérer le contenu de notre site, alors ... vous ne pouvez pas lire cette page, donc mes instructions ne serviraient à rien
 
Plus sérieusement, envoyez un message à webmaster@myriad-online.com
Je vous débloquerai alors, si vous jurez de ne pas recommencer
by Olivier Guillion
Comments

Comment from Olivier Guillion Wednesday, Sep 6th, 2006 at 06:37pm
Re: Comment bloquer les aspirateurs de site ?
Je ne peux pas donner de conseil général sur ce point.
 
Dans mon cas, je n'ai mis en place cela que sur les scripts de pages dynamiques coté serveur qui consomment du CPU (recherches, forum...).  
Ils comptent les accès de chaque adresse IP au cours des 5 dernières minutes, et "grillent" celles qui abusent en envoyant une commande Unix (mise en place pour nous par notre hébergeur) qui les bloque par le firewall.
 
Mais il serait également possible, bien que beaucoup moins efficace, que le script, après contrôle de l'IP, génère juste un message du type "merci de ne pas utiliser d'aspirateur de site" pour les IP marquées comme trop demandeuses...

Comment from Cedric Wednesday, Sep 6th, 2006 at 02:22pm
Re: Comment bloquer les aspirateurs de site ?
Merci pour ces explications. Je vais commencer par mettre un compteur des IP des vsiteurs sur les pages d'un de mes sites.
 
Par contre je n'ai pas compris si toute la procédure se faisait au niveau du firewall (le compteur + l'inscription de l'IP dans les IP à bannir) ou si le comptage d'IP se faisait avec un script en language serveur sur les pages qui doit dialoguer avec le firewall et si oui, comment dialoguer avec le firewall ? Ou bien est-ce que l'inscription des IP sur le firewall est tout simplement manuelle ? (mais dans ce cas l'aspirateur aura eu tout le temps d'aspirer le contenu du site avant que son IP soit inscrite sur le firewall)
 
Pouvez-vous m'apporter des précisions sur ce sujet ?
 
Cedric
http://www.easy-web.fr

Comment from Olivier Guillion Tuesday, Sep 5th, 2006 at 03:41pm
Re: Comment bloquer les aspirateurs de site ?
Sur un serveur dédié, il suffit de mettre en place sur les scripts gérant les pages dynamiques "sensibles" un compteur d'accès de chaque adresse IP durant par exemple les 5 dernières minutes.
 
Au-delà d'un certain nombre d'accès dans cette période, on considère que ce n'est pas un humain, et on inscrit l'adresse IP dans le firewall du serveur.  Celle-ci est alors bloquée sur tout le site.
 
Ensuite, on peut aussi repérer les "spiders" qui ne tiennent pas compte du "robots.txt". Une page marquée comme ne devant pas être parcourue, et un lien caché vers cette page, invisible et impossible à cliquer par un humain.
Si quelqu'un y va, on sait que ce n'est pas un humain et qu'il ne respecte pas les convensions pour les spiders. Il est donc directement inscrit dans le firewall.
 
Voila, ce ne sont que quelques exemples.  

Comment from Cedric Tuesday, Sep 5th, 2006 at 03:03pm
Comment bloquer les aspirateurs de site ?
Bonjour,
 
Commen bloquer les aspirateurs de sites qui génénèrent trop de requètes sur le serveur ?
 
Cedric
http://www.easy-web.fr

Comment from fix Friday, Sep 1st, 2006 at 10:01pm
(No subject)
promis, juré, craché !


Most recent first
Oldest first

Top of page
Last update:  (c) Myriad 2013