gestione del crawling e indicizzazione

Prendi il controllo!
Gestire accessi ed indicizzazione in modo efficace

Alessandro Martin
www.thinkpragmatic.net

Di cosa parliamo

Accesso ed indicizzazione

Cassetta degli attrezzi SEO

Miti e leggende

Domande

Scenario

Lo spider molto goloso......ma non tutte le pagine sono utili ed informative

Scenario

Lo spider dedica risorse limitate per ogni sito......meglio concentrare gli sforzi verso pagine utili

Accedendo ad un sito lo spider si fa delle domande

Arriva lo spider...

Quali risorse posso leggere?

Cosa posso farci?

Quali link posso seguire?

Cosa posso mostrare nelle SERP?

Come aiutare lo spider a rispondere a queste domande a nostro vantaggio...

Controllare lo spider!

Distinguiamo

CRAWLING

Accedere alle URL per scaricarne il contenutosenza processarlo

Distinguiamo

INDICIZZAZIONE

Processare il contenuto recuperato dal crawler esalvarlo in un archivio creando un indice

Dentro l'indice

Corretto codice di stato HTTP (200)

Link, link, link!

Possono aiutareSitemap XML

Feed RSS/Atom

Fuori dall'indice

Codici di stato HTTP404, 410

Robots Exclusion ProtocolLimitato, confuso ma utilissimo

Robot Exclusion Protocol

Standard de facto basato su specifiche minimali del '94 e '96

Successive integrazioni decise dai motoriCrawl-delay

Supporto pattern

Sitemap


User-agent: [nome] le istruzioni che seguono (fino ad una linea vuota) riguardano questo specifico crawler.

User-agent: Googlebot
Disallow: /

User-agent: Slurp
Disallow: /my/pics


Disallow: [percorso] impedisce l'accesso (download) ad una risorsa

Le URL possono essere presenti nelle SERP se linkate altrove

Accumulano PR!!!

Disallow: /spam/

Robots Exclusion Protocol

Allow: [percorso] specifica quanto descritto da una istruzione Disallow:

Disallow: /spam/Allow: /spam/egg.html


Pattern (molto meno espressivi delle regex)* qualunque carattere (implicito alla fine di riga)

$ fine della URL

Disallow: /dir

User-agent: Slurp
Disallow: /*jpg$


Sitemap: [URL Sitemap XML]

Sitemap: http://example.org/sitemap.xml


Il REP prevede anche istruzioni che danno una maggiore granularit alle direttive

Possono essere espresse nel doc HTML

Oppure negli header HTTPX-Robots-Tag: noindex

Robots Exclusion Protocol tag

noindex rimuove/non inserisce nell'indice

nofollow non segue i link

noodp non mostra la descrizione di DMOZ

noydir non mostra la descrizione di YDIR

Robots Exclusion Protocol tag

noarchive non crea e mostra la copia cache

nosnippet non visualizza lo snippet

unavailable_after: [data] rimuove dall'indice dopo [data]

Il mistero della direttiva noindex

noindex nel robots.txt?

Google la usa ma non lo dice...


lo dice ma non in inglese...


Meglio evitarlo

Falsi miti

Disallow fa sparire la pagina dalle SERP

Il bot non rispetta il robots.txt

Attributo nofollow non fa indicizzare

Domande?

Ringraziamenti

Enrico ''LowLevel'' Altavilla

Giacomo ''Everfluxx'' Pelagatti

sebastians-pamphlets.com

Tutti voi :-)

www.thinkpragmatic.net

Nota legale

Spider pig 2007-2009 ~Ionahipri http://snipurl.com/klj75

"I Simpson" TM & FOX. Tutti i diritti riservati

Muokkaa otsikon tekstimuotoa napsauttamalla

Muokkaa jsennyksen tekstimuotoa napsauttamallaToinen jsennystasoKolmas jsennystasoNeljs jsennystasoViides jsennystasoKuudes jsennystasoSeitsems jsennystasoKahdeksas jsennystasoYhdekss jsennystaso

gestione del crawling e indicizzazione

Technology