Corsi on-line

YandexBot: come bloccarlo con un robots.txt

Lo YandexBot è il Robot del motore di ricerca russo Yandex, per quanto si tratti di una piattaforma assolutamente legittima (nel proprio paese occupa quasi il 65% del query market share) esso è noto per effettuare spiderizzazioni estremamente pesanti, una suo scansione potrebbe infatti consumare alcuni Gb di banda nell’arco di una singola giornata; troppo per una risorsa che ha il Cirillico come lingua madre e i cui utenti non dovrebbero essere particolarmente interessati ai contenuti scritti in Italiano.

Se la vostra applicazione risiede in un hosting di fascia media, probabilmente dovrete fare i conti con dei limiti ben precisi per quanto riguarda il traffico generato, per cui l’azione dello YandexBot potrebbe risultare deleteria dando luogo a tempi di latenza nel caricamento se non a downtime per via di statement quali “bandwidth limit exceeded“; a questo punto potreste decidere di non voler avere più nulla a che fare con Yandex.

Una prima soluzione potrebbe essere quella di produrre uno status 403 nel caso in cui tale motore di ricerca scateni il suo crawler contro di voi:

SetEnvIfNoCase User-Agent "^Yandex*" bad_bot
Order Deny,Allow
Deny from env=bad_bot

La digitazione semplice e veloce di questa direttiva da applicare ad un file .htaccess non si rivelerebbe però una buona pratica, in questo caso lo status HTTP 403 corrisponderebbe infatti  alla notifica Forbidden (Accesso negato) per una risorsa che in realtà non lo è; per cui la soluzione migliore dovrebbe essere utilizzare un comune robots.txt nel quale salvare la seguente direttiva:

User-agent: Yandex
Disallow: /

Naturalmente, la stessa tecnica potrà essere utilizzata per disabilitare la spiderizzazione da qualsiasi altro crawler consumi un’eccessiva quantità della vostra banda di traffico.

Post correlati
  • gianni

    Ciao è possibile utilizzare questa formula per le esclusioni:

    User-agent: googlebot
    Disallow: /wp-admin/
    Disallow: /wp-includes/

    User-agent: MJ12bot
    Disallow: /

    User-agent: Yandex
    Disallow: /

    ecc.

  • maxbossi

    Ciao e benvenuto su Mr.Webmaster
    Grazie per il tuo contributo. Ciao

I più letti del mese
Tematiche