Questo tutorial ti spiegherà in modo semplice come si crea il file robots.txt direttamente su cPanel attraverso pochi comandi.
E’ anche possibile creare un file di testo (.txt) denominato robots.txt in un elaboratore di testi del tuo pc (notepad, word, ecc) e caricare il file una volta che tutte le istruzioni al suo interno sono complete.
Contents
Cos’è robots.txt ?
Robots.txt è un file di testo che indica ai crawler/spider (robot) dei motori di ricerca, attraverso righe di istruzione, quali pagine del sito web e files si desiderano o non si desiderano prelevare per l’indicizzazione in SERP (pagina dei risultati del motore di ricerca).
Robots.txt si deve trovare nella directory principale del tuo sito. Ad esempio, se il tuo sito ha indirizzo , il file dovrà essere individuabile dai robot all’indirizzo .
Creare robots.txt dal cPanel
Per utilizzare un file robots.txt è necessario innanzitutto creare un file chiamato appunto robots.txt ed inserirlo nella root principale del tuo sito: public_html.
Una volta entrato nel cPanel, vai su Gestione File e seleziona: Radice Web (public_html)
Crea nuovo file (1) dal nome robots.txt (scrivi anche “.txt”)
Appena creato, il file apparirà nella directory.
Selezionalo attraverso la sua icona e clicca su Modifica file con editor codice (in alto a destra)
Seleziona l’ URL dove questo file sarà disponibile (2): utf-8
Vai su Modifica (3)
Comparirà un text editor vuoto che ovviamente dovrai compilare (come fai con un qualsiasi editor di testo) con le istruzioni da far leggere al crawler.
Una volta terminato, clicca su Save changes
Cosa scrivere nel file robots.txt ?
Per agevolare la compilazione, ti mostro il contenuto del mio file robots.txt e ti spiego riga per riga il significato delle istruzioni.
Questo è il contenuto di robots.txt del mio sito web:
User-agent: *
Allow: *.css
Allow: *.js
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /tag/
Sitemap: https://raffaelesalvati.it/sitemap.xml
User-agent: * – questa prima voce significa che le istruzioni sono applicate ai robot di tutti i motori di ricerca;
Allow: *.css – permetti ai robot di recuperare tutte le risorse di CSS;
Allow: *.js – permetti ai robot di recuperare tutte le risorse di JavaScript;
NB: Le due righe di comando allow sono state implementate dal 28 luglio 2015 più che altro per una esigenza nata dal robot di Google (Googlebot). Di seguito puoi leggere la nota di Google Inc. di riferimento inviata ai webmaster: Di recente, i sistemi di Google hanno rilevato un problema con la tua home page che influisce negativamente sulla visualizzazione e sull’indicizzazione dei tuoi contenuti da parte dei nostri algoritmi. Nello specifico, Googlebot non può accedere ai tuoi file JavaScript e/o CSS a causa delle limitazioni del tuo file robots.txt. Questi file aiutano Google a comprendere se il tuo sito web funziona correttamente, pertanto bloccare l’accesso a questi asset può causare ranking inferiori a quelli ottimali.
Disallow: /wp-admin/ – non permetti ai robot di recuperare il contenuto della cartella “wp-admin”
Disallow: /wp-includes/ – non permetti ai robot di recuperare il contenuto della cartella “wp-includes”
Disallow: /tag/ – non permetti ai robot di recuperare il contenuto della cartella “tag”
NB: “Disallow: /tag/“ si inserisce per evitare penalizzazioni da parte dei motori di ricerca quando associ numerosi Tag ad un articolo. Altrettanto puoi fare con l’istruzione “Disallow: /category/“ nel caso di molte categorie associate ad un articolo.
Sitemap: https://raffaelesalvati.it/sitemap.xml – segnala ai robot la presenza del file sitemap.xml
Test ed invio del file robots.txt ai motori di ricerca
Come indicato all’inizio dell’articolo, è importante che il file sia salvato nella directory principale altrimenti non potrà essere rintracciato da nessun crawler.
Per testare ed inviare il file robots.txt a Google fai riferimento alle istruzioni ufficiali di Google Search Console.
Mentre per Bing puoi accedere alle istruzioni ufficiali di Bing Webmaster Tools.
Conosci i miei servizi?
Comments are closed.