come funziona l'indicizzazione su google

96
Enrico Altavilla Come funziona l'indicizzazione su Google Convegno GT, 13 dicembre 2013

Upload: searchbrain

Post on 15-Apr-2017

266 views

Category:

Marketing


0 download

TRANSCRIPT

Enrico Altavilla

Come funziona l'indicizzazione su Google

Convegno GT, 13 dicembre 2013

Enrico Altavilla

Orrori SEO

"Google mi ha indicizzato

in prima pagina"

Enrico Altavilla

Chi sono?

Consulente di search marketing

Ho iniziato nel 2000

Esperienza in agenzia e da freelance

Enrico Altavilla

Come è nato questo seminario

Informazioni frammentate

Enrico Altavilla

Come è nato questo seminario

Collegare le nozioni con un filo logico

© Brad Montgomery

© S. Krupp

© Keizers

Enrico Altavilla

Le quattro fasi

Crawling Parsing Indexing Search

Enrico Altavilla

Le quattro fasi

Attribuzione di priorità

Acquisizione delle risorse Crawling

Enrico Altavilla

Le quattro fasi

Analisi dei contenuti

Smistamento dei dati Parsing

Enrico Altavilla

Le quattro fasi

Trasformazione dei dati

Creazione di un indice

Indexing

Enrico Altavilla

Le quattro fasi

Comprensione della query

Selezione dei documenti

Attribuzione di un ordine

Composizione della SERP

Search

Enrico Altavilla

Le quattro fasi

Crawling Parsing Indexing Search

Interconnesse e dipendenti

Enrico Altavilla

Le quattro fasi

Crawling Parsing Indexing Search

Interconnesse e dipendenti

Enrico Altavilla

Le quattro fasi

Crawling Parsing Indexing Search

Interconnesse e dipendenti

Enrico Altavilla

Le quattro fasi

Crawling Parsing Indexing Search

Interconnesse e dipendenti

Enrico Altavilla

Le quattro fasi

Crawling Parsing Indexing Search

Interconnesse e dipendenti

Enrico Altavilla

Le quattro fasi

Indexing

Enrico Altavilla

Le quattro fasi

Crawling Parsing Indexing Search

Enrico Altavilla

Che cosa significa indicizzare

Enrico Altavilla

Che cosa significa indicizzare

Obiettivo

Individuare in archivio le risorse associate ad una parola o frase

Enrico Altavilla

Che cosa significa indicizzare

Problema

È una pazzia leggere l'intero archivio di risorse ogni volta che devo cercare una parola o frase

Enrico Altavilla

Che cosa significa indicizzare

Soluzione

Creo a monte un indice che, per ogni parola o frase conosciuta, elenca le risorse associate

Enrico Altavilla

Che cosa significa indicizzare

Indicizzare significa aggiungere all'indice un'associazione tra una parola/frase ed una

risorsa

convegnogt doc_1 doc_2 doc_3

Enrico Altavilla

Che cosa significa indicizzare

È un'attività svolta dal motore, non dal SEO

Enrico Altavilla

Che cosa significa indicizzare

Significato moderno di "indicizzare"

Poter far parte dei risultati di ricerca

Enrico Altavilla

Che cosa significa indicizzare

"Google mi ha indicizzato

in prima pagina"

Enrico Altavilla

Che cosa significa indicizzare

L'indice serve a determinare quali risorse suggerire (indicizzazione), non in che ordine

suggerirle (ranking)

Enrico Altavilla

Crawling Parsing Indexing Search

Enrico Altavilla

Crawling

Enrico Altavilla

Crawling

Crawler

Parser

Database

URL

Scheduler

Enrico Altavilla

Crawling

Crawler Server Richiesta HTTP

Risposta HTTP

Enrico Altavilla

Crawling

Crawler

Server

Robots.txt

Disallow: /

Richiesta

Risposta

Enrico Altavilla

Crawling

Crawler Server Richiesta

Risposta

Header

(Status)

Contenuto

Enrico Altavilla

Crawling: raccomandazioni

Header

(Status)

Contenuto

Occhio all'istruzione Disallow!

Enrico Altavilla

Crawling: raccomandazioni

Occhio all'istruzione Disallow!

(in linea teorica non è mai necessaria)

Enrico Altavilla

Crawling: raccomandazioni

Occhio all'istruzione Disallow!

(può essere ignorata da Google se la pagina

contiene un pulsante )

Enrico Altavilla

Crawling: raccomandazioni

Date una bella letta ai codici di status HTTP!

(gli status 410 danno di tacco ai 404)

Enrico Altavilla

Crawling: raccomandazioni

I crawler non "arrivano" da specifiche pagine

(le regole basate sul Referrer non hanno effetto)

Enrico Altavilla

Crawling: raccomandazioni

I crawler di Google hanno un IP associato agli USA

(non gestite le lingue dei testi sulla base degli IP)

Enrico Altavilla

Crawling: raccomandazioni

Frequenza e profondità di crawling variano da sito a sito.

(in base a velocità del server, PageRank, ecc.)

Enrico Altavilla

Parsing

Enrico Altavilla

Parsing

L'obiettivo del parser è identificare il tipo di informazione e smistarla verso il destinatario più

adatto

Enrico Altavilla

Parsing

Il parser analizza i contenuti di ciascuna risorsa in base al proprio formato

Enrico Altavilla

Parsing

I contenuti delle risorse HTML vengono separati per tipologia

Enrico Altavilla

Parsing

Parole

Meta-informazioni

Link

Enrico Altavilla

Parsing

Parole e meta-informazioni vengono inviate all'indexer

Enrico Altavilla

Parsing

I link vengono inviati al link graph

Enrico Altavilla

Parsing: raccomandazioni

Controllate sempre la validità delle meta-informazioni

(GWT evidenzia errori dei dati strutturati)

Enrico Altavilla

Parsing: raccomandazioni

Quando create link, fateli puntare a URL assoluti

(non lasciate al parser il compito di completare da sé eventuali URL parziali)

Enrico Altavilla

Parsing: raccomandazioni

Invece di link a URL assoluti si può usare il tag HTML <base> ?

(meglio di no)

Enrico Altavilla

Indexing

Enrico Altavilla

Indexer

Per evitare che Google valuti, l'unica è non fargli percepire il dato

Far percepire i duplicati a Google

Non mischiare rel=canonical con direttive robots

Evitare di usare GWT per de-indicizzare risorse

Enrico Altavilla

Indexer

Il compito primario dell'indexer è quello di creare l'indice

In questa fase avviene anche parte della canonicalizzazione delle risorse

Enrico Altavilla

Indexer

convegnogt doc_1

74,123,191

doc_2

9,84

doc_3

11,65

Enrico Altavilla

Indexer

Nell'indice vengono anche memorizzate informazioni sull'ubicazione della parola (titoli,

corpo, ancora di backlink, ecc.) e la grandezza dei testi

Enrico Altavilla

Che cosa significa indicizzare

Indicizzazione di testi

convegnogt doc_1 doc_2 doc_3

Enrico Altavilla

Che cosa significa indicizzare

Indicizzazione di immagini

doc_4 doc_5 doc_6

Enrico Altavilla

Che cosa significa indicizzare

Indicizzazione di concetti

doc_7 doc_8 doc_9

Enrico Altavilla

Che cosa significa indicizzare

Enrico Altavilla

Indexer

Grattacapo SEO: i contenuti da non far indicizzare

Enrico Altavilla

Indexer

L'istruzione NOINDEX ha perso il significato originario

Enrico Altavilla

Indexer

Google sostanzialmente indicizza qualsiasi informazione riesce ad acquisire

Enrico Altavilla

Indexer

Google ha cambiato alla chetichella il significato di NOINDEX

Enrico Altavilla

Indexer

NOINDEX non significa più "non indicizzare" ma solo "non mostrare per nessuna ragione in SERP"

(fonte: John Mueller)

Enrico Altavilla

Indexer

E insomma, che devo fare per indurre il Grande Fratello ad ignorare del tutto una risorsa?

Enrico Altavilla

Indexer

Mica semplice…

Enrico Altavilla

Indexer: raccomandazioni

Se usate un Disallow in robots.txt eviterete che la risorsa venga indicizzata per le parole che essa

contiene

(ma esistono sempre i testi dei backlink)

Enrico Altavilla

Indexer: raccomandazioni

Trucco sconsigliato: Istruzioni Noindex + Disallow in robots.txt

(per ora funziona ma il Noindex nel robots.txt è un'istruzione ufficiosa)

Enrico Altavilla

Indexer: raccomandazioni

Soluzione drastica: status HTTP 404/410

(solo se ne accettate le conseguenze)

Enrico Altavilla

Indexer: raccomandazioni

La richiesta di rimozione via GWT non è un reale NOINDEX.

(è una brutta pezza)

Enrico Altavilla

Indexer: raccomandazioni

Canonicalizzazione: fate percepire i duplicati a Google

(gestiteli con rel=canonical e pannello GWT per i parametri degli URL)

Enrico Altavilla

Indexer: raccomandazioni

Canonicalizzazione: occhio al rel=canonical

(non usatelo assieme a direttive meta robots NOINDEX, NOARCHIVE!)

Enrico Altavilla

Indexer: raccomandazioni

La prima volta in 13 anni che sento che una pagina può dare direttive di indicizzazione che

hanno effetto su altre pagine!

Enrico Altavilla

Search

Enrico Altavilla

Search

Enrico Altavilla

Search

Un elemento chiave: il contesto

In fase di Search, quasi tutti gli step tengono conto di caratteristiche dell'utente e del

dispositivo usato

Enrico Altavilla

Search

Comprensione della query

La query viene spesso modificata/estesa prima di essere usata per estrarre i documenti

Enrico Altavilla

Search

Selezione dei documenti

È il momento in cui gli indici vengono sfruttati

Enrico Altavilla

Search

Selezione dei documenti

Le risorse con direttiva NOINDEX non vengono incluse nelle SERP

Enrico Altavilla

Search

Filtri e clustering

Da Safe-Search ai filtri anti-spam al clustering di risorse simili

Enrico Altavilla

Search

Attribuzione di un ordine (ranking)

È il momento in cui Google sfrutta i famigerati "200 e oltre segnali"

Enrico Altavilla

Search

Composizione della SERP

I risultati dei vari indici vengono uniti: questo è Google Universal Search

Enrico Altavilla

Search

Composizione della SERP

Layout e contenuti variano a seconda del dispositivo e degli obiettivi di leggibilità/usabilità.

Enrico Altavilla

Riepilogo

Enrico Altavilla

Riepilogo

• Studiate e sfruttate il protocollo HTTP

• Controllate che il Disallow non faccia danni

• Aiuta avere server veloci e PageRank

• Grattacapi per i NOINDEX

• Non mischiate rel=canonical e NOINDEX

• Evitate di rimuovere risorse con GWT

Enrico Altavilla

Domande e approfondimenti

Proud Member of

Grazie!

Enrico Altavilla

www.searchbrain.it/altavilla