COME FUNZIONA UN MOTORE DI RICERCA |
Il processo di indicizzazione
I motori di ricerca sono sistemi per il reperimento pressoché istantaneo di informazioni contenute nel world wide web.
La ricerca avviene per “parole chiave”, o keyword, vale a dire specificando dei termini che definiscono l’argomento cercato, e il motore restituisce un elenco di indirizzi di pagine web che contengono le keyword specificate. Esso, dunque, contiene un programma in grado di analizzare le pagine web, in modo da stabilire se le parole chiave sono contenute in essa.
Benché tale lettura avvenga in un tempo estremamente ridotto, dato il numero smisurato di pagine web presenti in rete (decine di miliardi), sarebbe impensabile eseguire una ricerca in tempo reale. Pertanto, il motore di ricerca esegue periodicamente una lettura del web, memorizzandone parte dei contenuti in un archivio elettronico, detto indice (index).
Viste le dimensioni immense del WWW, oltre a problemi di tempo vi sono ovviamente problemi di spazio. Per questo, il motore di ricerca non memorizzerà nell’indice tutta la pagina web, bensì solo un “riassunto”, contenente parte del testo e di altre parti di codice ritenute significative. Oltre al sunto di una pagina, viene memorizzato il suo indirizzo (URL come http://www.il-paroliere.it/")
In tal modo, quando si esegue una ricerca, il motore interroga il database e in tempi molto brevi (salvo i limti della banda disponibile in quel momento) fornisce una lista di indirizzi di pagine che contengono le parole chiave specificate.
In tal modo si riduce la spaventosa quantità di informazioni presenti in rete, dislocate in una miriade di siti che si trovano su innumerevoli server, creando un indice. E’ semplice la similitudine con l’indice di un libro, un sommario del contenuto con i numeri delle pagine in cui tali informazioni sono reperibili. Nell’indice del motore di ricerca si trovano appunto gli indirizzi in cui è possibile trovare le informazioni dislocate in rete. Ecco perché il processo è definito indicizzazione.
Se l’indice è la componente statica del motore di ricerca, al centro del processo dell’indicizzazione c’ è lo “spider”. Il nome (spider=ragno) deriva dalla parola inglese spider web, ragnatela (sinonimi sono crawler, bot, robot, agent, scooter). Lo spider è il programma che percorre il web, legge automaticamente le pagine seguendo i link ipertestuali e ne memorizza nell’indice le informazioni salienti. Ogni motore di ricerca ha vari spider, che giorno dopo giorno percorrono il web in lungo e in largo indicizzando il numero più alto possibile di pagine web.
I 2 principali indici sono quelli di Google e Yahoo!, contenenti entrambi un numero di pagine web che si aggira fra i 10 e i 12 miliardi. Dunque la percentuale di web coperto dai motori di ricerca si aggira attorno al 15%, sempre secondo le stime più accreditate.
Non è solo la dimensione del web di per sé a rendere incompleti gli indici. Vi sono delle limitazioni tecnologiche intrinseche che rendono molte pagine, e talvolta interi siti, inaccessibili ai motori di ricerca. E’ bene dunque tenere presente che il processo di indicizzazione presenta numerosi punti di criticità, che contribuiscono all’incompletezza degl’indici dei motori di ricerca. Questi fanno capo a tre problematiche principali:
1 Irraggiungibilità: lo spider visita un sito se trova almeno un link che conduce ad esso. Molti siti non sono linkati e dunque risultano irraggiungibili.
Maggiore è il numero di link che puntano a un sito, maggiori sono le vie di accesso degli spider e maggiore è la probabilità di ricevere una loro visita.
2 Illeggibilità: i motori di ricerca prediligono siti statici con pagine scritte in html standard. Gli spider infatti trovano difficoltà ad entrare nei siti che usano tecnologie sofisticate, e/o grandi database. Il numero elevato di pagine di un sito, e le dimensioni eccessive rappresentano ulteriori ostacoli.
3 Aggiornamento: le nuove pagine messe online non entrano subito nell’indice. Gli spider passano a intervalli molto lunghi, e l’aggiornamento del database avviene quando un ciclo è completato. Questo può richiedere anche diversi mesi.
© STEFANO SANDANO - Strategie di web marketing e posizionamento nei motori di ricerca
EMAIL: stefano_ sandano(chiocciola) yahoo.it - Indirizzo skype : Steven 290467