News

5 febbraio 2012 - Spice Invaders: Gli alieni Pirata attaccano la Terra: Proteggila! (Anche MultiPlayer) Tweet Spice Invaders è uno dei mig ... +++ 5 febbraio 2012 - Spari per l’attesissimo titolo Ghost Recon: Future Soldier Tweet E’ stato rilasciato un ... +++ 4 febbraio 2012 - Dropbox regala 5GB ad i suoi utenti: Scopri come fare! Tweet Il famoso Dropbox ha rilascia ... +++ 3 febbraio 2012 - Rage Maker: creare le vignette Meme per Facebook! Tweet Chi ha un minimo di dimistich ... +++ 3 febbraio 2012 - Guarda le Partite di Calcio in diretta su Facebook: sono gratis! Tweet Ormai le modalità per non pa ... +++ 3 febbraio 2012 - Accessori iPhone/iPad a San Valentino: I Coupon per 15% di sconto! Tweet San Valentino si avvicina, e ... +++ 3 febbraio 2012 - Idee regalo per San Valentino? Sul Web piovono sconti fino al 60%! Tweet Si avvicina la data degli Inn ... +++ 3 febbraio 2012 - Fileserve torna, quasi, funzionante! Tweet Una news veloce per avvisare ... +++ 3 febbraio 2012 - PlayStation Vita ormai è fatta! Tweet Ieri la presentazione a Milan ... +++ 2 febbraio 2012 - Il nuovo mondo del Netherrealm Tweet Fatality! Le ultime novità p ... +++

Sigma

Robots.txt e l’Indicizzazione

Media King 24 gennaio 2010 3 Internet, Webmaster, WiKingdom

Indicizzare significa far sì che il proprio sito appaia trai motori di ricerca, detto in poche parole. Affinchè questo accade ci si basa su vari valori, tra questi prende grande rilevanza il file Robots.txt.

Questo semplicissimo file di testo è di vitale importanza per l’indicizzazione del proprio sito. Al suo interno sono impostate le regole cui un Crawler, ovvero un bot che inviato dai Motori di ricerca indaga per indicizzare più pagine e siti possibili, deve rispettare per restringere, o meno, le sue ricerche all’interno di determinati siti o url.
Sembra difficile, ma spieghiamo in pratica come funziona e da cosa è formato.

LE BASI

I campi disponibili all’interno di Robots.txt sono tre. User-Agent e Disallow (o Allow) e la slash ( / ).
User-Agent specifica a quale bot specifico deve essere imposta la regola succevvisa. Digitando il carattere * la regola viene applicata a qualsiasi bot (GoogleBot, Alexa ect…).
Disallow (o Allow) specifica quale Url deve essere esclusa (o inclusa) dalla ricerca del bot specificato in User-Agent (se avete immesso il carattere * la regola Disallow è imposta a tutti i bot). Si può indicare sia un URL specifico sia una serie di URL. Ma vediamo qualche esempio.

Vuoi che il tuo sito venga indicizzato da tutti i bot del Web, affinchè possa apparire trai risultati dei motori di ricerca famosi, e non? Inserisci questo codice nel tuo file ROBOTS.TXT:

User-agent: *
Disallow:

oppure

User-agent: *
Allow: /

Vuoi che il tuo sito Non venga indicizzato da tutti i bot del Web? Inserisci questo codice nel tuo file ROBOTS.TXT:

User-agent: *
Allow:

oppure

User-agent: *
Disallow: /

Cosa succede? Nei primi codici specifichiamo che la regola è generica ed imposta a qualsiasi Bot/Crawler “giri” per il nostro sito dandogli pieno accesso al sito. Le seconde righe invece, specificano che blocchiamo ai bot l’intero sito. In pratica sbattiamo in faccia la porta ai bot.

Allow/Disallow tradotte significano, rispettivamente, Permettere/Impedire. Quindi la / (che poi non è altro che la slash poco prima dell’url del proprio sito: http://www.miosito ) è tremendamente importante.

Se volessi invece bloccare l’accesso ad una determinata pagina/sito? come fare?

User-agent: *
Disallow: /documenti_importanti/

Di consequenza un qualsiasi bot andrà ad escludere dall’indicizzazione la cartella http://www.miosito.it/documenti_importanti/

User-agent: *
Disallow: paginapersonale.html/
/
Qui, un qualsiasi bot andrà ad escludere dall’indicizzazione l’url http://www.miosito.it/paginapersonale.html/

Fate attenzione alle maiuscole! PAGINAPERSONALE.HTML e paginapersonale.html viene letto diversamente dai bot!
Il file in questione, infine, và salvato all’interno della directory principale.

LE MODALITA’ AUTOMATICHE

Google ha immesso una funzionalità per autogenerare da sè il file Robots.txt. Lo trovate in “Strumenti per Webmaster“.
Per chi possiede WordPress, come me, tutto è piu semplice. Basta andare in Impostazioni / Privacy e scegliere se si vuole permettere o no l’indicizzazione del sito ai Crawler. Il file verrà creato automaticamente.

Supporto e Informazioni

Se risconti problemi nell'uso od hai dei dubbi sul contenuto dell'articolo accedi al forum. Ti suggeriamo di entrare a far parte della nostra Fan page per non perdere piu' nessun articolo!

Inoltre...

 
Robots.txt e l’Indicizzazione  

Ultimi Commenti

19 euro mensili? ricaricabile 1 euro al giorno? Vodafon...
basta che vieni su server irc.darksin.it e il canale e ...
Ottimissimo consiglio! Impost/gener/rete/dati cell e se...
Abbiamo personalmente segnalato le problematiche di que...
http://avocatitalia.com firme de avocatura italia, avoc...
Ciao, ho seguito passo passo la procedura, ma dopo aver...
La cosa mi farebbe assai piacere, soprattutto se consid...
Non funziona. Praticamenteago fatto il jailbreakme solo...
Ottima guida , sei grande. Grazie...
vai su impostazioni/generali/rete/e spegni dati cellula...
Salve a tutti utenti :) volevo chedervi se conoscete c...
Vi è un link per la guida del 4.2!...
Potrebbe anche essere che sei complice di loro... al gi...
Salve, nella guida parli della versione 3.3E, ma spiegh...
Niente è bello se non lo puoi condividere!! Wildshare...

Articoli Correlati

Consigli

Tags

, , , , , ,


Supporto Free

Fan page

 

Raggiungici sul forum ed ottieni assistenza su questo articolo!

 

3 Commenti

  1. TonyPuma scrive:

    Ciao mi chiamo Tony sono il WebMaster di PubbliPTR.Net Free NetWork Private
    Complimenti per il vostro sito web!!!
    Grazie per la vostra attenzione…

  2. Piero scrive:

    Ciao, seguendo il vostro consiglio ho creato il file robots.txt inserendo il codice:
    User-agent: *
    Disallow:
    Ma ho una piccola domanda a riguardo.
    Visto che questo codice serve per permettere di visualizzare tutte le pagine motori di ricerca, metterlo e non metterlo è la stessa cosa? Tanto fino ad oggi i motori di ricerca penso indicizzassero tutte le pagine ugualmente.
    Sperando che questa operazione mi serva vi faccio i complimenti anch’io per il sito!

    • Media King scrive:

      In realtà non risulta più così importante come lo era tempo fa. Con i nuovi sistemi di indicizzazione dei Motori di ricerca il file robots.txt è diventato quasi obsoleto. E’ buona norma, però, inserirlo ugualmente onde evitare problemi!

 
 

Lascia un commento

 
Per commentare effettua il login oppure scegli una tra le 3 modalita' proposte!


COMMENTA COME OSPITE
Puoi commentare senza registrarti, semplicemente compilando di volta in volta i moduli sottostanti. Se sei un abitue' del sito ti consigliamo le due modalita' successive.

REGISTRATI SU BLOOM
Registrandoti sulla Community Ufficiale di MK3000 hai diritto a svariate funzionalita', tra cui la possibilita' di commentare tutti gli articoli!Bloomizzati!

ASSOCIA IL TUO ACCOUNT FB
Puoi registrarti su MK3000 semplicemente associando il tuo Account su FB, cosi' da evitare noiose procedure di registrazione!
Effettua la registrazione utilizzando il tuo account Facebook!