{"id":17913,"date":"2024-04-30T14:59:27","date_gmt":"2024-04-30T12:59:27","guid":{"rendered":"https:\/\/xlogic.org\/blog\/?p=17913"},"modified":"2024-04-30T14:59:27","modified_gmt":"2024-04-30T12:59:27","slug":"come-impostare-correttamente-il-file-robots-txt-e-come-evitare-i-principali-problemi","status":"publish","type":"post","link":"https:\/\/xlogic.org\/blog\/come-impostare-correttamente-il-file-robots-txt-e-come-evitare-i-principali-problemi.html\/","title":{"rendered":"Come impostare correttamente il file robots.txt e come evitare i principali problemi"},"content":{"rendered":"<p>All&#8217;interno di questo articolo ti spiegheremo nel dettaglio che cos&#8217;\u00e8 il file robots.txt e come dovrai utilizzarlo per migliorare il posizionamento del tuo sito web sui motori di ricerca.<\/p>\n<h2>Che cos&#8217;\u00e8 il file robots e come impostarlo correttamente<\/h2>\n<table style=\"border-collapse: collapse; width: 100%;\">\n<tbody>\n<tr>\n<td style=\"width: 100%;\"><strong>Indice dei contenuti<\/strong><\/p>\n<ol>\n<li>Che cos&#8217;\u00e8 il file robots.txt<\/li>\n<li><span style=\"font-family: inherit; font-size: inherit;\">Come impostare un file robots.txt<\/span><\/li>\n<li><span style=\"font-family: inherit; font-size: inherit;\">Dove inserire il file robots.txt<\/span><\/li>\n<li><span style=\"font-family: inherit; font-size: inherit;\">Come inserire il file robots.txt su pi\u00f9 siti web<\/span><\/li>\n<li><span style=\"font-family: inherit; font-size: inherit;\">I principali comandi da utilizzare all&#8217;interno del file robots.txt<\/span><\/li>\n<li><span style=\"font-family: inherit; font-size: inherit;\">Come verificare il file robots.txt<\/span><\/li>\n<li><span style=\"font-family: inherit; font-size: inherit;\">Come risolvere i principali problemi<\/span><\/li>\n<li><span style=\"font-family: inherit; font-size: inherit;\">Conclusioni<\/span><\/li>\n<\/ol>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<h3><strong>Che cos&#8217;\u00e8 il file robots.txt<\/strong><\/h3>\n<p>Il file\u00a0<strong>robots.txt<\/strong> \u00e8 un semplice file di testo contenente delle stringhe speciali che servono per poter comunicare con i motori di ricerca quali Google, Bing, Yahoo; perch\u00e9 nel caso non lo sapessi, i motori di ricerca utilizzano appunto dei robot (Web Crawler) per controllare lo stato del tuo sito web, per indicizzare le pagine e gli articoli e nel caso in cui trovassero delle regole o restrizioni indicate all&#8217;interno del file le applicano.<\/p>\n<p>La sintassi che bisogna utilizzare per la creazione del file robots.txt \u00e8 molto semplice perch\u00e9 deve essere facilmente leggibile da questi robot quando passeranno a controllare il tuo sito web.<\/p>\n<p>&nbsp;<\/p>\n<h3><strong>Come impostare un file robots.txt<\/strong><\/h3>\n<p>Il file Robots.txt elenca fondamentalmente i nomi degli Spider su una linea, seguito da un elenco di directory o file da non indicizzare.<\/p>\n<p>Ogni riga del file contiene un record. Ogni record ha la seguente sintassi\u00a0:<\/p>\n<pre><strong>&lt;campo&gt; : &lt;valore&gt;<\/strong><\/pre>\n<p>I campi disponibili sono\u00a0:<\/p>\n<p style=\"padding-left: 40px;\"><strong>User-Agent<\/strong> il valore di questo campo contiene il nome del robot che si deve attenere alle restrizioni. Con il carattere\u00a0<strong>*<\/strong> la regola viene applicata a qualsiasi robot.<\/p>\n<p style=\"padding-left: 40px;\"><strong>Disallow <\/strong>il valore di questo campo contiene le pagine del sito che devono essere escluse dai robot durante l\u2019indicizzazione. Si pu\u00f2 indicare un URL specifico o una serie di URL appartenenti ad un pattern. Per ogni\u00a0<em>User-Agent<\/em> \u00e8 possibile specificare una o pi\u00f9 restrizioni tramite\u00a0<em>Disallow<\/em>.<\/p>\n<p>Il file robots.txt \u00e8 case sensitive quindi se blocchiamo la pagina \/PAGINA_DA_BLOCCARE sar\u00e0 differente da bloccare la pagina \/pagina_da_bloccare.<\/p>\n<h2><\/h2>\n<h3><strong>Dove inserire il file robots.txt<\/strong><\/h3>\n<p>Il file robots.txt viene inserito nella directory principale e puoi creare questo file semplicemente utilizzando il blocco note del tuo PC in quanto questo programma ti salva gi\u00e0 il file nel formato <strong><em>.txt<\/em><\/strong><\/p>\n<p>Fai attenzione a rinominare il file correttamente altrimenti i motori di ricerca non riusciranno a trovarlo e quindi non potranno scannerizzare il tuo sito web; <strong>Il file deve essere rinominato in \u201crobots.txt\u201d<\/strong> facendo attenzione a non inserire le lettere maiuscole.<\/p>\n<p>Una volta che avrai inserito il file nella cartella principale del sito, prova a verificare che tale file venga visualizzato in maniera corretta, provando semplicemente a visitare l\u2019url dove \u00e8 stato inserito, ovvero su <strong>tuosito.it\/robots.txt<\/strong>.<\/p>\n<h2><\/h2>\n<h3><strong>Come inserire il file robots.txt su pi\u00f9 siti web<\/strong><\/h3>\n<p>I file robots.txt controllano lo scansionamento solamente all&#8217;interno del dominio e sottodominio in cui sono ospitati, pertanto\u00a0se vuoi controllare il crawling su un altro sottodominio, hai bisogno di creare <strong>un file robots.txt separato.\u00a0<\/strong><\/p>\n<p>Questo significa che se il tuo sito principale si trova su dominio.it ed un altro tuo sito web si trova su sitoweb.it avrai bisogno di <strong>due file robots.txt.<\/strong><\/p>\n<p>Esempio:<\/p>\n<p>public_html\/robots.txt &#8211;&gt; per il tuo sito principale dominio.it<\/p>\n<p>public_html\/sitoweb.it\/robots.txt &#8211;&gt; per l&#8217;altro tuo sito sitoweb.it<\/p>\n<p>&nbsp;<\/p>\n<h3><strong>I principali comandi da utilizzare all&#8217;interno del file robots.txt<\/strong><\/h3>\n<p><strong>1. Per permettere l\u2019accesso all&#8217;intero sito web<\/strong>, non indicare nulla nella direttiva Disallow e di conseguenza inserisci all&#8217;interno del file la seguente sintassi:<\/p>\n<pre>User-agent: *\r\nDisallow:<\/pre>\n<p><strong>2. Per\u00a0bloccare un intero sito<\/strong>, utilizza una barra (\/) sul campo Disallow:<\/p>\n<pre>User-agent: *\r\nDisallow: \/<\/pre>\n<p><strong>3. Per bloccare una directory e il relativo contenuto<\/strong>, fai seguire il nome della directory da una barra (\/).<\/p>\n<pre>User-agent: *\r\nDisallow: \/private_directory\/<\/pre>\n<p><strong>4. Per bloccare una pagina<\/strong>, indicala:<\/p>\n<pre>User-agent: *\r\nDisallow: \/private_file.html<\/pre>\n<p>Per segnalare il file\u00a0<strong>Sitemap<\/strong> del sito.<\/p>\n<pre>Sitemap: http:\/\/www.esempio.com\/sitemap.xml<\/pre>\n<p>&nbsp;<\/p>\n<h3><strong>Come verificare il file robots.txt<\/strong><\/h3>\n<p>Puoi verificare la validit\u00e0 del file robots.txt accedendo all&#8217;interno dello strumento per webmaster di Google nonch\u00e9 <a href=\"https:\/\/search.google.com\/search-console\/settings\/robots-txt\" target=\"_blank\" rel=\"noopener\"><strong>Google Search Console.<\/strong><\/a><\/p>\n<p>Cliccando sul link sopra riportato, verrai automaticamente reindirizzato sullo strumento di verifica del file robots.txt , per\u00f2 ovviamente prima dovrai accedere all&#8217;interno di Google Search Console.<\/p>\n<p>&nbsp;<\/p>\n<h3>Come risolvere i principali problemi<\/h3>\n<ol>\n<li><strong>Posizionamento errato del file robots.txt<\/strong>: questo \u00e8 uno tra i problemi pi\u00f9 frequenti essendo che se non posizioni il file robots.txt in una cartella che non \u00e8 la cartella root i bot non lo troveranno e non lo leggeranno; <strong>La soluzione<\/strong>, se ti accorgi che il tuo file robots.txt non viene visto dai bot, \u00e8 semplicemente quello di assicurarti che si trovi nella cartella root e nel caso spostarcelo (esempio percorso root principale Xlogic &#8211;&gt; public_html\/robots.txt<\/li>\n<li><strong>Gestione no\u00edndex all&#8217;interno del file:<\/strong> Si tratta di un problema che sperimenti se il tuo sito \u00e8 stato costruito prima del 2019 in quanto bisogna ricordare che tale sistema non \u00e8 pi\u00f9 utilizzato da Google all\u2019interno dei file robots.txt; <strong>La soluzione<\/strong> consiste nel comunicare direttamente a Google gli eventuali contenuti che vuoi che vengano esclusi; per far questo ti baster\u00e0 semplicemente aggiungere\u00a0un tag nello head delle pagine che vuoi vengano ignorate.<\/li>\n<li><strong>Indicizzazione involontaria sito web:<\/strong> Se stai costruendo un nuovo sito web e non vuoi farlo vedere a Google, devi inserire delle istruzioni specifiche per evitare che qualunque brandello del tuo sito appaia online prima che sia pronto; diverso il caso in cui tu abbia un sito web che non sta facendo quello che dovrebbe in termini di traffico, in quanto potresti avere erroneamente attivato le istruzioni per far s\u00ec che i bot evitino il tuo sito web; <strong>La soluzione<\/strong> consiste nel controllare che non siano state inserite erroneamente le istruzioni per non far vedere a Google il tuo sito web<\/li>\n<li><strong>Non includere la Sitemap: <\/strong>Se non includi laSitemap XML all\u2019interno del file robots.txt non avrai problemi a livello tecnico in quanto i bot riescono a vivere anche se all\u2019interno del file robots.txt non \u00e8 presente la Sitemap XML, ma \u00e8 chiaro che stai perdendo un\u2019occasione in quanto aggiungendo\u00a0l\u2019URL della Sitemap del tuo sito web darai una sorta di cartina geografica ai bot, che potranno cos\u00ec familiarizzare con la struttura principale del tuo sito web prima di cominciare ad analizzarlo nel dettaglio. Il suo utilizzo render\u00e0 pi\u00f9 rapida l\u2019indicizzazione ma comunica anche al motore di ricerca e ai suoi bot che le pagine inserite sono in qualche modo importanti; <strong>La soluzione<\/strong> consiste nel creare immediatamente una Sitemap nel caso in cui possedessi un sito web gi\u00e0 online<\/li>\n<li><strong>URL assolute e relative:<\/strong> Le URL assolute sono quelle che cominciano con <em>http(s)<\/em> e finiscono con l\u2019ultima parola che identifica l\u2019indirizzo della pagina o del contenuto mentre le URL relative sono quelle in cui viene tagliato tutto quello che non serve fino al contenuto cui realmente si fa riferimento. <strong>La soluzione<\/strong> consiste nel\u00a0redigere il tuo file robots.txt utilizzando gli indirizzi URL relativi, in modo tale che i bot che devono analizzarlo sappiano esattamente dove andare.<\/li>\n<\/ol>\n<h3><\/h3>\n<h3><strong>Conclusioni<\/strong><\/h3>\n<p>Creare ed impostare il file robots.txt \u00e8 di fondamentale importanza per il tuo sito web, e siamo sicuri che se seguirai le indicazioni presenti all&#8217;interno di questo articolo non commetterai alcun errore ed il tuo sito web verr\u00e0 indicizzato correttamente.<\/p>\n<p>Ci auguriamo che questo articolo ti sia stato utile! A presto, il team di Xlogic<\/p>\n","protected":false},"excerpt":{"rendered":"<p>All&#8217;interno di questo articolo ti spiegheremo nel dettaglio che cos&#8217;\u00e8 il file robots.txt e come dovrai utilizzarlo per migliorare il posizionamento del tuo sito web sui motori di ricerca. Che cos&#8217;\u00e8 il file robots e come impostarlo correttamente Indice dei contenuti Che cos&#8217;\u00e8 il file robots.txt Come impostare un file robots.txt Dove inserire il file [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_lmt_disableupdate":"no","_lmt_disable":"","footnotes":""},"categories":[5],"tags":[],"class_list":["post-17913","post","type-post","status-publish","format-standard","hentry","category-news"],"modified_by":"Andrea (Xlogic.org)","_links":{"self":[{"href":"https:\/\/xlogic.org\/blog\/wp-json\/wp\/v2\/posts\/17913","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/xlogic.org\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/xlogic.org\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/xlogic.org\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/xlogic.org\/blog\/wp-json\/wp\/v2\/comments?post=17913"}],"version-history":[{"count":0,"href":"https:\/\/xlogic.org\/blog\/wp-json\/wp\/v2\/posts\/17913\/revisions"}],"wp:attachment":[{"href":"https:\/\/xlogic.org\/blog\/wp-json\/wp\/v2\/media?parent=17913"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/xlogic.org\/blog\/wp-json\/wp\/v2\/categories?post=17913"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/xlogic.org\/blog\/wp-json\/wp\/v2\/tags?post=17913"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}