Per indicizzare correttamente un sito web è necessario implementare la crawlability, per aiutare i motori di ricerca a scansionarlo.
Perchè un sito risulta indicizzato male?
- Se un sito non è ben indicizzato, spesso si tratta di un problema di crawlability, ovvero di leggibilità per il motore di ricerca
- I problemi più comuni che ostacolano l’indicizzazione di un sito sui motori di ricerca riguardano la fase di scansione o crawling
- Saper ottimizzare il crawl budget vuol dire saper orientare la lettura del sito da parte di Google in base ai contenuti più rilevanti
Chi si occupa di SEO ha come obiettivo principale quello di posizionare le pagine del proprio sito (o quello di un cliente) nella prima pagina della SERP, perchè è lì che aumentano molto le probabilità che queste pagine vengano cliccate.
Per raggiungere questo obiettivo i contenuti presenti nella pagina devono soddisfare la query (la domanda”) inserita nella barra del motore di ricerca.
Dal punto di vista della SEO tecnica, significa rendere le pagine del sito ben leggibili dal crawler del motore di ricerca.
Cos’è il web crawler e a cosa serve
Il crawler, anche chiamato web crawler o spider, è un bot del motore di ricerca che scansiona periodicamente tutti i contenuti presenti nel web, per raccogliere informazioni dalle pagine analizzate e aggiungerle al suo indice.
Fasi di indicizzazione di un sito web
L’indicizzazione di un sito web si svolge in 3 fasi:
- Scansione (crawling);
- Indicizzazione (indexing);
- Posizionamento (ranking).
Il crawling è la prima fase dell’indicizzazione, in cui tutti i contenuti presenti all’interno del web vengono passati in rassegna e ordinati all’interno di un database da un bot, che li classifica soffermandosi su questi elementi:
- SEO title
- Meta description
- Alt text delle immagini
- Le parti del testo evidenaziate in grassetto o in corsivo
- I link.
Il crawler si sposta tra le pagine del sito seguendo i link interni, utilizzandoli per costruire una mappa del sito e per creare una gerarchia interna, basata sul numero di collegamenti.
Il processo di crawling è iterativo, il che vuol dire che lo spider ritorna a intervalli regolari su pagine già scansionate alla ricerca di variazioni e nuovi contenuti.
Il crawler salva l’ultima versione ogni volta che si aggiorna il sito.
Cosa sono la crawlability e l’indexability?
Questa è la definizione fornita da Google:
I crawler guardano le pagine web e seguono i link su quelle pagine, proprio come faresti tu se stessi navigando sul Web. Passano da link a link e riportano i dati su tali pagine web ai server di Google.
Matt Cutts, ex ingegnere di Google, nel 2010 ha pubblicato un video interessante che spiega in dettaglio il processo di ricerca.
Entrambi questi termini si riferiscono alla capacità di un motore di ricerca di accedere e indicizzare le pagine su un sito web per aggiungerle al suo indice.
La crawlability descrive la capacità del motore di ricerca di accedere ad un sito ed eseguire la scansione del contenuto di una pagina.
Se un sito non presenta problemi di scansione, allora i web crawler possono accedere a tutti i suoi contenuti facilmente, seguendo i collegamenti tra le pagine.
L’indexability, invece, si riferisce alla capacità del motore di ricerca di analizzare e aggiungere una pagina al suo indice.
Anche riuscendo a scansionare un sito, Google potrebbe non essere in grado di indicizzare tutte le sue pagine a causa di eventuali problemi di indicizzazione.
Ottimizzare il crawl budget
Come abbiamo spiegato, crawlability vuol dire leggibilità di un sito web da parte del crawler.
Se il crawler è in grado di accedere a una pagina web e la scansiona correttamente significa che il sito è stato ottimizzato correttamente, altrimenti ignifica che sono presenti uno o più problemi di indicizzazione che ne bloccano il processo.
Nel caso in cui si verificasse questa situazione, il sito potrebbe non comparire all’interno dei risultati di ricerca organici (di Google o di altri motori di ricerca).
Il processo di indicizzazione dà priorità ad alcune pagine rispetto ad altre.
È importante sottolineare che non è necessario che tutte le pagine del tuo sito web vengano scansionate: la pagina dei contatti è inutile ai fini dell’indicizzazione, poiché riservata solo a una parte di utenti.
Per ottimizzare il crawl budget o budget di scansione, puoi contrassegnare le pagine meno rilevanti con il tag noindex, orientare la lettura con i tag canonici, limitarne la lettura mediante il set-up del file robots.txt.
Problemi di crawlability : quali sono i più comuni?
Se il tuo sito non risulta indicizzato correttamente e non hai un ritorno in termini di traffico, nonostante siano state usati creati contenuti pertinenti e usate keyword corrette, è molto probabile che si tratti di un problema di scansione.
Struttura del sito
Se il tuo sito presenta pagine che non sono linkate da nessun’altra parte, i web crawler potrebbero avere difficoltà ad accedervi.
Potrebbero comunque trovare quelle pagine tramite link esterni, a condizione che qualcuno faccia loro riferimento.
Struttura dei link interni
Una buona struttura interna dei link consene ai crawler di raggiungere rapidamente anche le pagine più nascoste di sito.
Una struttura scarsa o errata potrebbe inviarli in un vicolo cieco, con la conseguenza che a un crawler mancherebbero alcuni contenuti.
Errori del server
Problemi del server e redirect impediscono ai web crawler di accedere correttamente a tutti i contenuti del sito.
É necessario controllare periodicamente la presenza di segnalazioni di errori sul server.
Redirect in loop
I redirect delle pagine interrotte bloccano i crawler nel processo di ricerca delle pagine.
Questo comporta inevitabilmente dei problemi di crawlability.
Script non supportati e altri fattori tecnologici
Script come Javascript o Ajax possono bloccare i contenuti ai web crawler, quindi alcuni problemi di scansione potrebbero derivare dal tipo di tecnologia usata su un sito.
Blocco dell’accesso del crawler web
Infine, puoi bloccare deliberatamente l’accesso ai web crawler per non far indicizzare delle pagine sul tuo sito.
E ci sono alcune buone ragioni per farlo.
Ad esempio, potresti aver creato una pagina a cui vuoi limitare l’accesso pubblico.
Per farlo dovresti bloccare l’accesso anche ai motori di ricerca.
Tuttavia, è facile bloccare anche altre pagine per errore.
Un semplice errore nel codice, ad esempio, potrebbe bloccare l’intera sezione del tuo sito.
URL bloccati da Robots.txt
La prima cosa che un bot cerca sul tuo sito è il tuo file robots.txt, all’interno del quale puoi indirizzare il crawler, specificando “non consentire” sulle pagine che non desideri vengano scansionate.
Il file robots.txt è molto spesso la causa dei problemi di scansione di un sito.
Se le sue direttive sono errate, possono impedire a Google di eseguire la scansione delle tue pagine più importanti o permettere la lettura di quelle inutili ai fini dell’indicizzazione.
Puoi individuare il problema dal “rapporto sulle risorse bloccate” di Google Search Console, che mostra un elenco di host che forniscono risorse al tuo sito, che risultano bloccate dalle regole file robots.txt.
Errori 500 e 404
Il codice errore 500 rivela un problema del server su cui il sito è ospitato, mentre l’errore 404 dipende dal contenuto del sito stesso.
In entrambi i casi, se Google incontra questi errori quando arriva alla pagina è un grosso problema.
Dal momento che viaggia seguendo i link, per il crawler è come trovarsi in un vicolo cieco.
Dopo aver raggiunto un numero elevato di pagine di errore, il bot smette di eseguire la scansione della pagina e del tuo sito.
Anche questo tipo di errore può essere individuato facilmente tramite la Search Console di Google.
Errori di tag SEO
Una cattiva indicizzazione può dipendere anche da un uso sbagliato dei tag, se risultano potenzialmente fuorvianti per la lettura del bot, o se sono mancanti, errati o duplicati.
Un metodo veloce per individuare il problema è analizzare il traffico sul sito, principalmente il percorso degli utenti. Le pagine con la frequenza di rimbalzo più elevata possono rivelare delle criticità.
Analizza anche le funzionalità di scansione avanzate della Search Console che mostrano quanti link interni vengono reindirizzati a una sola pagina.
Fai attenzione agli elementi di best practice in questo passaggio, come l’assenza di reindirizzamenti 301 interni, la corretta impaginazione e le mappe dei siti complete.
Usabilità sui dispositivi mobile
L’usabilità sui dispositivi mobili è importantissima per la SEO.
Se il sito non è ritenuto utilizzabile su smartphone e tablet, Google potrebbe non mostrarlo nella SERP e questo comporta la perdita di una consistente percentuale di traffico.
Per arginare questi problemi si può intervnire attraverso un tool Google Search Console
LEGGI ANCHE: Google mobile friendly tester.
Contenuto scarno e crawlability
Se il tuo sito presenta ancora problemi anche dopo aver verificato tutti questi aspetti, è possibile che i contenuti presenti nelle pagine non siano considerati così rilevanti dai motori di ricerca.
Le pagine che presentano contenuti scarni vengono tralasciate da Google durante il processo di scansione, perché il contenuto non è abbastanza unico, non convalida i contenuti di altri siti giudicati autorevoli in quel settore oppure i collegamenti interni sono assenti o scarsi.
Analizzare il contenuto non indicizzato e curare la strategia di backlink verso le pagine che non ricevono traffico è una strategia consigliata, ma è necessario sottolineare l’importanza di aggiornare periodicamente le pagine e gli articoli con contenuti nuovi e interessanti.