gestione del crawling e indicizzazione
TRANSCRIPT
Prendi il controllo!
Gestire accessi ed indicizzazione in modo efficace
Alessandro Martin
www.thinkpragmatic.net
Di cosa parliamo
Accesso ed indicizzazione
Cassetta degli attrezzi SEO
Miti e leggende
Domande
Scenario
Lo spider molto goloso......ma non tutte le pagine sono utili ed informative
Scenario
Lo spider dedica risorse limitate per ogni sito......meglio concentrare gli sforzi verso pagine utili
Accedendo ad un sito lo spider si fa delle domande
Arriva lo spider...
Quali risorse posso leggere?
Cosa posso farci?
Quali link posso seguire?
Cosa posso mostrare nelle SERP?
Come aiutare lo spider a rispondere a queste domande a nostro vantaggio...
Controllare lo spider!
Distinguiamo
CRAWLING
Accedere alle URL per scaricarne il contenutosenza processarlo
Distinguiamo
INDICIZZAZIONE
Processare il contenuto recuperato dal crawler esalvarlo in un archivio creando un indice
Dentro l'indice
Corretto codice di stato HTTP (200)
Link, link, link!
Possono aiutareSitemap XML
Feed RSS/Atom
Fuori dall'indice
Codici di stato HTTP404, 410
Robots Exclusion ProtocolLimitato, confuso ma utilissimo
Robot Exclusion Protocol
Standard de facto basato su specifiche minimali del '94 e '96
Successive integrazioni decise dai motoriCrawl-delay
Supporto pattern
Sitemap
Robot Exclusion Protocol
User-agent: [nome] le istruzioni che seguono (fino ad una linea vuota) riguardano questo specifico crawler.
User-agent: Googlebot
Disallow: /
User-agent: Slurp
Disallow: /my/pics
Robot Exclusion Protocol
Disallow: [percorso] impedisce l'accesso (download) ad una risorsa
Le URL possono essere presenti nelle SERP se linkate altrove
Accumulano PR!!!
User-agent: Googlebot
Disallow: /spam/
Robots Exclusion Protocol
Allow: [percorso] specifica quanto descritto da una istruzione Disallow:
Disallow: /spam/Allow: /spam/egg.html
Robot Exclusion Protocol
Pattern (molto meno espressivi delle regex)* qualunque carattere (implicito alla fine di riga)
$ fine della URL
User-agent: Googlebot
Disallow: /dir
User-agent: Slurp
Disallow: /*jpg$
Robots Exclusion Protocol
Sitemap: [URL Sitemap XML]
Sitemap: http://example.org/sitemap.xml
Robots Exclusion Protocol
Il REP prevede anche istruzioni che danno una maggiore granularit alle direttive
Possono essere espresse nel doc HTML
Oppure negli header HTTPX-Robots-Tag: noindex
Robots Exclusion Protocol tag
noindex rimuove/non inserisce nell'indice
nofollow non segue i link
noodp non mostra la descrizione di DMOZ
noydir non mostra la descrizione di YDIR
Robots Exclusion Protocol tag
noarchive non crea e mostra la copia cache
nosnippet non visualizza lo snippet
unavailable_after: [data] rimuove dall'indice dopo [data]
Il mistero della direttiva noindex
noindex nel robots.txt?
Google la usa ma non lo dice...
Il mistero della direttiva noindex
lo dice ma non in inglese...
Il mistero della direttiva noindex
Meglio evitarlo
Falsi miti
Disallow fa sparire la pagina dalle SERP
Il bot non rispetta il robots.txt
Attributo nofollow non fa indicizzare
Domande?
Ringraziamenti
Enrico ''LowLevel'' Altavilla
Giacomo ''Everfluxx'' Pelagatti
sebastians-pamphlets.com
Tutti voi :-)
www.thinkpragmatic.net
Nota legale
Spider pig 2007-2009 ~Ionahipri http://snipurl.com/klj75
"I Simpson" TM & FOX. Tutti i diritti riservati
Muokkaa otsikon tekstimuotoa napsauttamalla
Muokkaa jsennyksen tekstimuotoa napsauttamallaToinen jsennystasoKolmas jsennystasoNeljs jsennystasoViides jsennystasoKuudes jsennystasoSeitsems jsennystasoKahdeksas jsennystasoYhdekss jsennystaso