Robots.txt e l’Indicizzazione

Indicizzare significa far sì che il proprio sito appaia trai motori di ricerca, detto in poche parole. Affinchè questo accade ci si basa su vari valori, tra questi prende grande rilevanza il file Robots.txt.

Questo semplicissimo file di testo è di vitale importanza per l’indicizzazione del proprio sito. Al suo interno sono impostate le regole cui un Crawler, ovvero un bot che inviato dai Motori di ricerca indaga per indicizzare più pagine e siti possibili, deve rispettare per restringere, o meno, le sue ricerche all’interno di determinati siti o url.
Sembra difficile, ma spieghiamo in pratica come funziona e da cosa è formato.

LE BASI

I campi disponibili all’interno di Robots.txt sono tre. User-Agent e Disallow (o Allow) e la slash ( / ).
User-Agent specifica a quale bot specifico deve essere imposta la regola succevvisa. Digitando il carattere * la regola viene applicata a qualsiasi bot (GoogleBot, Alexa ect…).
Disallow (o Allow) specifica quale Url deve essere esclusa (o inclusa) dalla ricerca del bot specificato in User-Agent (se avete immesso il carattere * la regola Disallow è imposta a tutti i bot). Si può indicare sia un URL specifico sia una serie di URL. Ma vediamo qualche esempio.

Vuoi che il tuo sito venga indicizzato da tutti i bot del Web, affinchè possa apparire trai risultati dei motori di ricerca famosi, e non? Inserisci questo codice nel tuo file ROBOTS.TXT:

User-agent: *
Disallow:

oppure

User-agent: *
Allow: /

Vuoi che il tuo sito Non venga indicizzato da tutti i bot del Web? Inserisci questo codice nel tuo file ROBOTS.TXT:

User-agent: *
Allow:

oppure

User-agent: *
Disallow: /

Cosa succede? Nei primi codici specifichiamo che la regola è generica ed imposta a qualsiasi Bot/Crawler “giri” per il nostro sito dandogli pieno accesso al sito. Le seconde righe invece, specificano che blocchiamo ai bot l’intero sito. In pratica sbattiamo in faccia la porta ai bot.

Allow/Disallow tradotte significano, rispettivamente, Permettere/Impedire. Quindi la / (che poi non è altro che la slash poco prima dell’url del proprio sito: http://http://www.miosito ) è tremendamente importante.

Se volessi invece bloccare l’accesso ad una determinata pagina/sito? come fare?

User-agent: *
Disallow: /documenti_importanti/

Di consequenza un qualsiasi bot andrà ad escludere dall’indicizzazione la cartella http://www.miosito.it/documenti_importanti/

User-agent: *
Disallow: paginapersonale.html/
/
Qui, un qualsiasi bot andrà ad escludere dall’indicizzazione l’url http://www.miosito.it/paginapersonale.html/

Fate attenzione alle maiuscole! PAGINAPERSONALE.HTML e paginapersonale.html viene letto diversamente dai bot!
Il file in questione, infine, và salvato all’interno della directory principale.

LE MODALITA’ AUTOMATICHE

Google ha immesso una funzionalità per autogenerare da sè il file Robots.txt. Lo trovate in “Strumenti per Webmaster”.
Per chi possiede WordPress, come me, tutto è piu semplice. Basta andare in Impostazioni / Privacy e scegliere se si vuole permettere o no l’indicizzazione del sito ai Crawler. Il file verrà creato automaticamente.