Il File Robots è un file che si trova all’interno della root principale del sito web (public_html) e fornisce istruzioni ai Bot di Internet chiamati anche Robots o Crawlers.
Un Crawler è un programma che analizza in modo automatizzato ed analitico i contenuti di un sito web scaricando una copia della risorsa visitata.
Mediante il file robots.txt è possibile indicare quali parti del sito web si desidera non vengano consultate dai Robots ed è molto importante ai fini dell’indicizzazione dei motori di ricerca.
Di seguito i comandi che vengono eseguiti per comunicare con i Bot:
- User-Agent | Indica a quale Bot sono riferite le istruzioni, il carattere Asterisco * è il carattere WildCard
- Disallow | Indica il percorso da non indicizzare, il carattere slash / indica l’intero sito
- SiteMap | E’ il percorso che identifica il file che contiene la mappa del sito
- Allow | Permette la visita delle cartelle e dei files specificati ai Bot
- Host | Indica l’Host di riferimento nel caso dei siti con vari Mirror
Scopri come impostare un file robots per il controllo degli Spider
Che cos’è il file robots
ultima modifica: 2017-09-26T11:17:43+02:00
da