Googlebot
Googlebot è il robot che utilizza Google per processare i siti web. Non processa solo pagine HTML, ma anche estrae informazioni da file PDF, PS, XLS, DOC e altri.
La frequenza con che il Googlebot accede a un sito web dipende dal PageRank. Più il valore è alto, più frequenti saranno le visite del Googlebot alla pagina.
Per esempio, possiamo vedere come le pagine con PR10 (pochissime nel mondo) vengono visitate praticamente tutti i giorni, in cerca di novitá, mentre altri con PR0 possono rimanere settimane intere senza ricevere una visita. Potete comprobarlo accedendo al cache che Google ha della pagina.
Googlebot proverá ad accedere, come fanno la maggioranza dei robots dei motori di ricerca, al nostro “robots.txt”. In questo file si dovranno indicare le zone del nostro sito che non vogliamo che i motori di ricerca visitino e quindi indexino. Per maggiori informazioni sull’uso e la sintassi del “robots.txt” visitare la pagina www.robotstxt.org.
Una volta che il Googlebot abbia visitato la nostra pagina, seguira i link que incontra (los HREF y los SRC), visitando così anche altre pagine del nostro sito.
Si spiega, pertanto, l’importanza di avere link in altre pagine o siti web, cosicchè quando Google le visiterà, visiterá anche la tua.
Oltre al Googlebot, esitste un altro spider chiamato Freshbot que visita con maggior frequenza i canali di notizia e i siti web con tempi di aggiornamento rapidissimi (giornali, news, riviste online,…).
















