Immaginiamo di aprire la home page di Google e di digitare la parola “polo”. In circa 1,30 secondi, il motore di ricerca Californiano, ci fornirà circa 1.530.000.000 risultati associati a quella parola. Ma come ci riesce?
Digitando “polo” potremmo intendere concetti diversi, spesso del tutto non correlati: un modello di t-shirt, un modello di auto, uno sport, un noto esploratore veneziano e veramente moltissime altre cose. Capire il contenuto dei circa 200.000.000 siti web attivi in internet [fonte: Netcraft] e fornire il risultato più corretto è un task di difficoltà considerevole.
Il primo step che un motore di ricerca come Google deve affrontare è quella di selezionare le pagine di interesse tra tutte quelle presenti nel web. Oltre a considerare le pagine che presentano la keyword inserita, il processo di selezione tiene in considerazione altri fattori come, ad esempio, la posizione delle parole all'interno della pagina o la posizione geografica della ricerca.
Occorre poi decidere l’ordine in cui presentare i risultati: qui entra in gioco il concetto di “importanza”, quanto una pagina può essere considerata degna di fiducia. L’algoritmo utilizzato per questo task, uno dei più importanti dell’intero processo, si chiama PageRank e si basa sul concetto statistico di ”random walk”. Supponiamo di posizionarsi su una qualunque pagina web in modo casuale e, ancora in modo casuale, di muoversi su un’altra pagina seguendo uno dei link presenti su quella di partenza. Dalla nuova pagina procediamo ancora in modo casuale e così di nuovo fino al momento in cui l'algoritmo “converge”. Ogni volta che passiamo da una pagina web, aumentiamo di 1 il suo punteggio (inizialmente posto a 0). Alla fine dell’intero processo le pagine con punteggio più alto occuperanno le prime posizioni. Ovviamente l'algoritmo è molto più complesso di così, ma questa è una buona approssimazione.
I miglioramenti che Google apporta al proprio browser sono costanti e spesso invisibili ai nostri occhi, ma ogni tanto dare uno sguardo a quello che avviene "under-the-hood" può farci capire come ottenere i migliori risultati.
Comments