Corsi on-line

Differenze fra robots.txt e meta tag robots

Il passaggio di uno spider che scansiona (più o meno periodicamente) il nostro sito è considerato sintomo di buona salute in maniera direttamente proporzionale alla frequenza di tale passaggio. Potremmo a volte trovarci con l’esigenza di non far indicizzare alcune pagine, per motivi di privacy o per motivi di prevenzione (pagine duplicate, pagine di categoria piene di tag, ecc.). L’utilizzo del file robots.txt e del meta tag robots ci possono aiutare, a patto di non considerarli come strumenti simili e sceglierne solo uno: hanno in realtà scopi e finalità diverse.

Il file robots.txt, che deve essere obbligatoriamente inserito nella root del sito, può dare delle indicazioni congiuntamente a tutti gli spider oppure creare istruzioni personalizzate (ad esempio inibire il solo Google ad accedere ad una sezione del sito) a livello di sito web. Il meta tag robots invece agisce a livello di singola pagina, dovendo essere dichiarato nella sezione <head>.

Entrambi i metodi non sono obbligatori, in loro assenza gli spider si comporteranno normalmente ed analizzeranno tutto ciò in cui si imbatteranno. Il file robots.txt però viene cercato di default dagli spider prima di ogni scansione.

Il robots.txt ha uno scopo più che altro preventivo, dato che comunica allo spider di non scansionare affatto una risorsa, una cartella o il sito intero. Nel caso seguente stiamo dicendo al solo bot di Google (denominato Googlebot – per altri nomi possiamo consultare la lista degli spider) di non accedere alla cartella “personale”

User-agent: Googlebot
Disallow: /personale/

Il meta tag robots invece si preoccupa di impedire l’indicizzazione della pagina sottoposta a scansione (con il valore “noindex”) ed eventualmente di impedire il proseguimento della scansione dei link verso altre risorse (con il valore “nofollow”), bloccando quindi anche il passaggio di PageRank e TrustRank:

<meta name="robots" content="noindex, nofollow">

Come possiamo notare, la differenza fondamentale fra i 2 metodi è che il robots.txt blocca completamente a monte la scansione, mentre il meta tag robots non può inibire la scansione della pagina ma solo la sua eventuale indicizzazione nell’archivio del motore di ricerca.

Se pertanto si voglia far comunque passare lo spider sulle proprie pagine e magari si voglia far seguire i naturali percorsi attraverso i link della pagina, impostando il valore “follow“, è meglio utilizzare il meta tag robots.

Se invece si voglia far ottimizzare il periodo di scansione del nostro sito, evitando pagine inutili ai fini SEO quali privacy, terms&condition e simili allora conviene rivolgersi al robots.txt: in questo modo lo spider potrà dedicarsi solo alle pagine realmente utili.

Post correlati
I più letti del mese
Tematiche