Corsi on-line

Come non indicizzare allegati su Google

La profondità ed efficacia di scansione del bot di Google è ormai rinomata ed anche i vari allegati testuali (doc, pdf, ecc.) vengono ormai agevolmente indicizzati con il loro testo ricco di informazioni. Potrebbe capitare però l’esigenza di non far apparire i nostri file nelle SERP: vediamo come utilizzare X-Robots-Tag su Apache per far capire allo spider di lasciar perdere la nostra risorsa.

Per ottenere il nostro scopo dovremo aggiungere qualche riga di codice al file .htaccess o al file httpd.conf. Mettiamo il caso in cui, per una qualsiasi motivazione, volessimo bloccare l’accesso dello spider di Google ai file PDF contenenti i curricula dei dipendenti e presentati nelle pagine di un sito; l’istruzione è abbastanza semplice ed intuitiva:

<Files ~ "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

Nella prima riga di codice si identifica chiaramente l’estensione (pdf) dei file che verranno bloccati. In alternativa potremo inserire altre estensioni contemporaneamente, separate da uno slash:

<Files ~ "\.(pdf|doc)$">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

In quest’ultimo caso abbiamo inibito l’indicizzazione di tutti i file PDF e DOC presenti nelle pagine sottoposte a scansione.

Questa direttiva rimanderà allo spider l’informazione di blocco, assieme agli altri dettagli sulla pagina che possono essere visualizzati tramite uno dei tanti strumenti di verifica delle intestazioni server.

La comodità di questo metodo è che non si limita agli allegati presenti in una singola pagina ma vale a livello globale per tutti gli allegati del nostro sito.

 

Post correlati
I più letti del mese
Tematiche