X

Come impostare correttamente il file robots.txt e come evitare i principali problemi

All’interno di questo articolo ti spiegheremo nel dettaglio che cos’è il file robots.txt e come dovrai utilizzarlo per migliorare il posizionamento del tuo sito web sui motori di ricerca.

Che cos’è il file robots e come impostarlo correttamente

Indice dei contenuti
  1. Che cos’è il file robots.txt
  2. Come impostare un file robots.txt
  3. Dove inserire il file robots.txt
  4. Come inserire il file robots.txt su più siti web
  5. I principali comandi da utilizzare all’interno del file robots.txt
  6. Come verificare il file robots.txt
  7. Come risolvere i principali problemi
  8. Conclusioni

Che cos’è il file robots.txt

Il file robots.txt è un semplice file di testo contenente delle stringhe speciali che servono per poter comunicare con i motori di ricerca quali Google, Bing, Yahoo; perché nel caso non lo sapessi, i motori di ricerca utilizzano appunto dei robot (Web Crawler) per controllare lo stato del tuo sito web, per indicizzare le pagine e gli articoli e nel caso in cui trovassero delle regole o restrizioni indicate all’interno del file le applicano.

La sintassi che bisogna utilizzare per la creazione del file robots.txt è molto semplice perché deve essere facilmente leggibile da questi robot quando passeranno a controllare il tuo sito web.

 

Come impostare un file robots.txt

Il file Robots.txt elenca fondamentalmente i nomi degli Spider su una linea, seguito da un elenco di directory o file da non indicizzare.

Ogni riga del file contiene un record. Ogni record ha la seguente sintassi :

<campo> : <valore>

I campi disponibili sono :

User-Agent il valore di questo campo contiene il nome del robot che si deve attenere alle restrizioni. Con il carattere * la regola viene applicata a qualsiasi robot.

Disallow il valore di questo campo contiene le pagine del sito che devono essere escluse dai robot durante l’indicizzazione. Si può indicare un URL specifico o una serie di URL appartenenti ad un pattern. Per ogni User-Agent è possibile specificare una o più restrizioni tramite Disallow.

Il file robots.txt è case sensitive quindi se blocchiamo la pagina /PAGINA_DA_BLOCCARE sarà differente da bloccare la pagina /pagina_da_bloccare.

Dove inserire il file robots.txt

Il file robots.txt viene inserito nella directory principale e puoi creare questo file semplicemente utilizzando il blocco note del tuo PC in quanto questo programma ti salva già il file nel formato .txt

Fai attenzione a rinominare il file correttamente altrimenti i motori di ricerca non riusciranno a trovarlo e quindi non potranno scannerizzare il tuo sito web; Il file deve essere rinominato in “robots.txt” facendo attenzione a non inserire le lettere maiuscole.

Una volta che avrai inserito il file nella cartella principale del sito, prova a verificare che tale file venga visualizzato in maniera corretta, provando semplicemente a visitare l’url dove è stato inserito, ovvero su tuosito.it/robots.txt.

Come inserire il file robots.txt su più siti web

I file robots.txt controllano lo scansionamento solamente all’interno del dominio e sottodominio in cui sono ospitati, pertanto se vuoi controllare il crawling su un altro sottodominio, hai bisogno di creare un file robots.txt separato. 

Questo significa che se il tuo sito principale si trova su dominio.it ed un altro tuo sito web si trova su sitoweb.it avrai bisogno di due file robots.txt.

Esempio:

public_html/robots.txt –> per il tuo sito principale dominio.it

public_html/sitoweb.it/robots.txt –> per l’altro tuo sito sitoweb.it

 

I principali comandi da utilizzare all’interno del file robots.txt

1. Per permettere l’accesso all’intero sito web, non indicare nulla nella direttiva Disallow e di conseguenza inserisci all’interno del file la seguente sintassi:

User-agent: *
Disallow:

2. Per bloccare un intero sito, utilizza una barra (/) sul campo Disallow:

User-agent: *
Disallow: /

3. Per bloccare una directory e il relativo contenuto, fai seguire il nome della directory da una barra (/).

User-agent: *
Disallow: /private_directory/

4. Per bloccare una pagina, indicala:

User-agent: *
Disallow: /private_file.html

Per segnalare il file Sitemap del sito.

Sitemap: http://www.esempio.com/sitemap.xml

 

Come verificare il file robots.txt

Puoi verificare la validità del file robots.txt accedendo all’interno dello strumento per webmaster di Google nonché Google Search Console.

Cliccando sul link sopra riportato, verrai automaticamente reindirizzato sullo strumento di verifica del file robots.txt , però ovviamente prima dovrai accedere all’interno di Google Search Console.

 

Come risolvere i principali problemi

  1. Posizionamento errato del file robots.txt: questo è uno tra i problemi più frequenti essendo che se non posizioni il file robots.txt in una cartella che non è la cartella root i bot non lo troveranno e non lo leggeranno; La soluzione, se ti accorgi che il tuo file robots.txt non viene visto dai bot, è semplicemente quello di assicurarti che si trovi nella cartella root e nel caso spostarcelo (esempio percorso root principale Xlogic –> public_html/robots.txt
  2. Gestione noíndex all’interno del file: Si tratta di un problema che sperimenti se il tuo sito è stato costruito prima del 2019 in quanto bisogna ricordare che tale sistema non è più utilizzato da Google all’interno dei file robots.txt; La soluzione consiste nel comunicare direttamente a Google gli eventuali contenuti che vuoi che vengano esclusi; per far questo ti basterà semplicemente aggiungere un tag nello head delle pagine che vuoi vengano ignorate.
  3. Indicizzazione involontaria sito web: Se stai costruendo un nuovo sito web e non vuoi farlo vedere a Google, devi inserire delle istruzioni specifiche per evitare che qualunque brandello del tuo sito appaia online prima che sia pronto; diverso il caso in cui tu abbia un sito web che non sta facendo quello che dovrebbe in termini di traffico, in quanto potresti avere erroneamente attivato le istruzioni per far sì che i bot evitino il tuo sito web; La soluzione consiste nel controllare che non siano state inserite erroneamente le istruzioni per non far vedere a Google il tuo sito web
  4. Non includere la Sitemap: Se non includi laSitemap XML all’interno del file robots.txt non avrai problemi a livello tecnico in quanto i bot riescono a vivere anche se all’interno del file robots.txt non è presente la Sitemap XML, ma è chiaro che stai perdendo un’occasione in quanto aggiungendo l’URL della Sitemap del tuo sito web darai una sorta di cartina geografica ai bot, che potranno così familiarizzare con la struttura principale del tuo sito web prima di cominciare ad analizzarlo nel dettaglio. Il suo utilizzo renderà più rapida l’indicizzazione ma comunica anche al motore di ricerca e ai suoi bot che le pagine inserite sono in qualche modo importanti; La soluzione consiste nel creare immediatamente una Sitemap nel caso in cui possedessi un sito web già online
  5. URL assolute e relative: Le URL assolute sono quelle che cominciano con http(s) e finiscono con l’ultima parola che identifica l’indirizzo della pagina o del contenuto mentre le URL relative sono quelle in cui viene tagliato tutto quello che non serve fino al contenuto cui realmente si fa riferimento. La soluzione consiste nel redigere il tuo file robots.txt utilizzando gli indirizzi URL relativi, in modo tale che i bot che devono analizzarlo sappiano esattamente dove andare.

Conclusioni

Creare ed impostare il file robots.txt è di fondamentale importanza per il tuo sito web, e siamo sicuri che se seguirai le indicazioni presenti all’interno di questo articolo non commetterai alcun errore ed il tuo sito web verrà indicizzato correttamente.

Ci auguriamo che questo articolo ti sia stato utile! A presto, il team di Xlogic

Come impostare correttamente il file robots.txt e come evitare i principali problemi ultima modifica: 2024-04-30T14:59:27+02:00 da Andrea (Xlogic.org)

Andrea (Xlogic.org):
Post Relativi

Questo sito utilizza i cookies.