Come utilizzare il file robots.txt per migliorare la scansione dei motori di ricerca sul tuo sito?

La funzione principale del file robots.txt è quella di comunicare ai bot di scansione dei motori di ricerca quali file indicizzare e quali no. Spesso si utilizza per specificare i file da non indicizzare sui motori di ricerca.

Per indicare ai motori di ricerca di indicizzare qualsiasi contenuto presente sul sito web, puoi aggiungere queste righe nel file robots.txt:

User-agent: *
Disallow:

Al contrario, se desideri che il contenuto di questo sito non venga aggiunto ai motori di ricerca, puoi utilizzare questo codice:

User-agent: *
Disallow: /

Per ottenere risultati più specifici, è necessario approfondire la sintassi di questo file. La dicitura "User-agent:" specifica per quali bots saranno valide queste impostazioni. Puoi utilizzare il valore "*" per fare in modo che la regola sia valida per tutti i bot di ricerca, oppure puoi specificare il nome del bot per cui impostare le condizioni.

La parte "Disallow:" indica i file e le cartelle che non devono essere indicizzate dai motori di ricerca. Ciascuna cartella o file su cui agire devono essere indicati su una nuova riga. Ad esempio, se desideri non indicizzare le cartelle "private" e "security" contenute in public_html dovrai specificare:

User-agent: *
Disallow: /private
Disallow: /security

La direttiva "Disallow:" utilizza la directory ‘root’ del tuo spazio hosting come base di partenza, pertanto il path da indicare dovrà essere /sample.txt e non  /home/user/public_html/sample.txt.

Hai trovato utile quest'articolo?