Download - Come funziona l'indicizzazione su Google
Enrico Altavilla
Chi sono?
Consulente di search marketing
Ho iniziato nel 2000
Esperienza in agenzia e da freelance
Enrico Altavilla
Le quattro fasi
Comprensione della query
Selezione dei documenti
Attribuzione di un ordine
Composizione della SERP
Search
Enrico Altavilla
Che cosa significa indicizzare
Obiettivo
Individuare in archivio le risorse associate ad una parola o frase
Enrico Altavilla
Che cosa significa indicizzare
Problema
È una pazzia leggere l'intero archivio di risorse ogni volta che devo cercare una parola o frase
Enrico Altavilla
Che cosa significa indicizzare
Soluzione
Creo a monte un indice che, per ogni parola o frase conosciuta, elenca le risorse associate
Enrico Altavilla
Che cosa significa indicizzare
Indicizzare significa aggiungere all'indice un'associazione tra una parola/frase ed una
risorsa
convegnogt doc_1 doc_2 doc_3
Enrico Altavilla
Che cosa significa indicizzare
Significato moderno di "indicizzare"
Poter far parte dei risultati di ricerca
Enrico Altavilla
Che cosa significa indicizzare
L'indice serve a determinare quali risorse suggerire (indicizzazione), non in che ordine
suggerirle (ranking)
Enrico Altavilla
Crawling: raccomandazioni
Header
(Status)
Contenuto
Occhio all'istruzione Disallow!
Enrico Altavilla
Crawling: raccomandazioni
Occhio all'istruzione Disallow!
(in linea teorica non è mai necessaria)
Enrico Altavilla
Crawling: raccomandazioni
Occhio all'istruzione Disallow!
(può essere ignorata da Google se la pagina
contiene un pulsante )
Enrico Altavilla
Crawling: raccomandazioni
Date una bella letta ai codici di status HTTP!
(gli status 410 danno di tacco ai 404)
Enrico Altavilla
Crawling: raccomandazioni
I crawler non "arrivano" da specifiche pagine
(le regole basate sul Referrer non hanno effetto)
Enrico Altavilla
Crawling: raccomandazioni
I crawler di Google hanno un IP associato agli USA
(non gestite le lingue dei testi sulla base degli IP)
Enrico Altavilla
Crawling: raccomandazioni
Frequenza e profondità di crawling variano da sito a sito.
(in base a velocità del server, PageRank, ecc.)
Enrico Altavilla
Parsing
L'obiettivo del parser è identificare il tipo di informazione e smistarla verso il destinatario più
adatto
Enrico Altavilla
Parsing
Il parser analizza i contenuti di ciascuna risorsa in base al proprio formato
Enrico Altavilla
Parsing: raccomandazioni
Controllate sempre la validità delle meta-informazioni
(GWT evidenzia errori dei dati strutturati)
Enrico Altavilla
Parsing: raccomandazioni
Quando create link, fateli puntare a URL assoluti
(non lasciate al parser il compito di completare da sé eventuali URL parziali)
Enrico Altavilla
Parsing: raccomandazioni
Invece di link a URL assoluti si può usare il tag HTML <base> ?
(meglio di no)
Enrico Altavilla
Indexer
Per evitare che Google valuti, l'unica è non fargli percepire il dato
Far percepire i duplicati a Google
Non mischiare rel=canonical con direttive robots
Evitare di usare GWT per de-indicizzare risorse
Enrico Altavilla
Indexer
Il compito primario dell'indexer è quello di creare l'indice
In questa fase avviene anche parte della canonicalizzazione delle risorse
Enrico Altavilla
Indexer
Nell'indice vengono anche memorizzate informazioni sull'ubicazione della parola (titoli,
corpo, ancora di backlink, ecc.) e la grandezza dei testi
Enrico Altavilla
Che cosa significa indicizzare
Indicizzazione di testi
convegnogt doc_1 doc_2 doc_3
Enrico Altavilla
Indexer
Google sostanzialmente indicizza qualsiasi informazione riesce ad acquisire
Enrico Altavilla
Indexer
NOINDEX non significa più "non indicizzare" ma solo "non mostrare per nessuna ragione in SERP"
(fonte: John Mueller)
Enrico Altavilla
Indexer
E insomma, che devo fare per indurre il Grande Fratello ad ignorare del tutto una risorsa?
Enrico Altavilla
Indexer: raccomandazioni
Se usate un Disallow in robots.txt eviterete che la risorsa venga indicizzata per le parole che essa
contiene
(ma esistono sempre i testi dei backlink)
Enrico Altavilla
Indexer: raccomandazioni
Trucco sconsigliato: Istruzioni Noindex + Disallow in robots.txt
(per ora funziona ma il Noindex nel robots.txt è un'istruzione ufficiosa)
Enrico Altavilla
Indexer: raccomandazioni
Soluzione drastica: status HTTP 404/410
(solo se ne accettate le conseguenze)
Enrico Altavilla
Indexer: raccomandazioni
La richiesta di rimozione via GWT non è un reale NOINDEX.
(è una brutta pezza)
Enrico Altavilla
Indexer: raccomandazioni
Canonicalizzazione: fate percepire i duplicati a Google
(gestiteli con rel=canonical e pannello GWT per i parametri degli URL)
Enrico Altavilla
Indexer: raccomandazioni
Canonicalizzazione: occhio al rel=canonical
(non usatelo assieme a direttive meta robots NOINDEX, NOARCHIVE!)
Enrico Altavilla
Indexer: raccomandazioni
La prima volta in 13 anni che sento che una pagina può dare direttive di indicizzazione che
hanno effetto su altre pagine!
Enrico Altavilla
Search
Un elemento chiave: il contesto
In fase di Search, quasi tutti gli step tengono conto di caratteristiche dell'utente e del
dispositivo usato
Enrico Altavilla
Search
Comprensione della query
La query viene spesso modificata/estesa prima di essere usata per estrarre i documenti
Enrico Altavilla
Search
Selezione dei documenti
Le risorse con direttiva NOINDEX non vengono incluse nelle SERP
Enrico Altavilla
Search
Filtri e clustering
Da Safe-Search ai filtri anti-spam al clustering di risorse simili
Enrico Altavilla
Search
Attribuzione di un ordine (ranking)
È il momento in cui Google sfrutta i famigerati "200 e oltre segnali"
Enrico Altavilla
Search
Composizione della SERP
I risultati dei vari indici vengono uniti: questo è Google Universal Search
Enrico Altavilla
Search
Composizione della SERP
Layout e contenuti variano a seconda del dispositivo e degli obiettivi di leggibilità/usabilità.
Enrico Altavilla
Riepilogo
• Studiate e sfruttate il protocollo HTTP
• Controllate che il Disallow non faccia danni
• Aiuta avere server veloci e PageRank
• Grattacapi per i NOINDEX
• Non mischiate rel=canonical e NOINDEX
• Evitate di rimuovere risorse con GWT