I segreti di Google

Linda Pagli



Chi abbia avuto l’opportunità di cimentarsi con ricerche sul World Wide Web (la ragnatela grande come il mondo) prima dell’esistenza di Google, cioè più di dieci anni fa, è perfettamente consapevole del cambiamento radicale dovuto all’uso del nuovo strumento. Una vera e propria rivoluzione. Si parlava già allora di un "mare" di informazione racchiuso tra le pagine del Web, ma i coraggiosi che si avventuravano alla ricerca di una informazione specifica, senza avere un’idea precisa di dove reperirla, naufragavano miseramente. Avendo a disposizione un indizio, come l’indirizzo Web di un sito di partenza, se ne potevano seguire i link, cioè i rimandi a altri siti, sulle tracce dell’informazione cercata in una sorta di caccia al tesoro. Spesso ci si fermava esausti dopo una serie di tentativi inutili. L’informazione c’era, ma era in gran parte inaccessibile. Poi nacquero i cosiddetti motori di ricerca, strumenti pensati per risolvere il problema, ma estremamente deludenti all’inizio: quei primi motori di ricerca restituivano in seguito a una richiesta un numero enorme di risposte all’interno delle quali era difficilissimo reperire l’informazione voluta. Solo conoscendone il funzionamento e essendo del mestiere si poteva formulare le domande in modo sapiente e avere risposte soddisfacenti, per i comuni mortali l’informazione contenuta nel Web restava irraggiungibile.

Poi, circa dieci anni fa, arrivò Google e le cose cambiarono velocemente. Google è un motore di ricerca alla portata di tutti, facilissimo da usare; con esso l’informazione del Web è divenuta improvvisamente accessibile. Il suo successo deriva dalla bontà delle risposte: basta indicare due o tre parole chiave, non c’è bisogno di pensarci troppo, ed ecco, quasi immediatamente, apparire un elenco di risposte, cioè di indirizzi di pagine Web correlate da un piccolo brano di informazione, ordinate secondo la probabilità stimata che siano interessanti per il richiedente. Molto spesso la risposta che si cerca si trova nei primi posti della graduatoria. L’utilità di un mezzo così potente e efficace è ormai chiara a tutti: si usa per sapere dove andare al cinema, per ritrovare un amico perso di vista, per reperire il nome di uno scrittore che ci sfugge, le parole di una canzone, la ricetta della "crème brulée". Se il computer è acceso può essere più veloce cercare con Google, che nella propria agenda. Se vogliamo sapere la traduzione italiana di una poesia di Rimbaud, è sufficiente scriverne tra virgolette le parole iniziali: le virgolette obbligano il motore a cercare esattamente quella sequenza di parole, che verrà reperita se esiste sul Web una traduzione italiana corredata di testo originale. Possiamo anche verificare la correttezza di una frase in lingua straniera, ponendola ancora tra virgolette e guardando se appare in qualche testo codificato. Il funzionamento di Google, e ormai di tanti altri motori di ricerca disponibili, è sorprendente; in realtà i meccanismi fondamentali su cui è basato possono essere spiegati anche ai non addetti ai lavori.

Un motore di ricerca esamina preventivamente l’informazione presente sul Web, e con essa crea dei dizionari che mantiene nei propri computer. Le risposte alle ricerche vengono date sulla base dell’informazione presente nei dizionari e non cercandola sulla rete, richiederebbe troppo tempo. Le ricerche sul web sono invece costantemente eseguite da programmi appositi, detti spider (ragni ) o crowler (nuotatori) capaci di spostarsi da un sito all’altro, e reperire informazione. Di questi programmi ne vengono attivati tantissimi e spediti in giro in continuazione. Essi estraggono da ogni pagina le parole chiave più significative e frammenti di informazione ad essa associata. Quando tornano indietro dal viaggio nel Web, i dati raccolti vengono elaborati e riordinati e servono a costruire o aggiornare i dizionari del motore.

Il problema fondamentale è quello di selezionare tra tutte le pagine contenenti le parole chiave quelle più "rilevanti" rispetto a qualche criterio utile per gli utenti del motore. Se le parole chiave sono presenti in migliaia di pagine, quali di queste pagine, saranno le più interessanti per chi ha inoltrato la richiesta? Su questo problema si sono ingolfati i primi motori di ricerca. Era importante trovare un metodo valido e soprattutto automatico, che non richiedesse cioè l’intervento umano inevitabilmente lento e costoso. Google ha trovato per primo la soluzione con un’idea innovativa che ne ha decretato il successo immediato.

La storia la sanno ormai tutti, l’idea fu di due studenti di dottorato, poco più che ventenni all’epoca, Sergey Brin e Lawrence Page, che svilupparono Google come progetto all’università di Stanford, in California. Ma non dobbiamo sorprenderci più di tanto, i due fanno parte di quella generazione che è cresciuta a pane e computer e in più sono figli d’arte cioè di matematici e informatici, non è un caso che abbiano avuto l’idea vincente. Per il loro motore di ricerca si basarono su un’osservazione molto semplice: se una pagina è molto popolare sul Web, cioè citata da molte altre pagine, significa che ha contenuti validi o almeno ritenuti interessanti da molte persone ed è quindi probabile che la pagina sia interessante anche per chi ha formulato la richiesta. La pagina più popolare viene quindi posta in testa alla graduatoria delle pagine che formano la risposta. È dunque la popolarità di una pagina, espressa con un voto, detto page rank, a decretarne la posizione in graduatoria. Non esiste un criterio definito a priori, ma è la rete stessa del Web con i suoi riferimenti, ad assegnarle il voto. In base al criterio di popolarità non c’è ovviamente alcuna certezza rispetto alla qualità dell’informazione data in risposta, ma in tantissimi casi, con un po’ di pratica su la scelta delle parole chiave, il meccanismo funziona piuttosto bene e le risposte sono soddisfacenti.

In realtà l’assegnamento del voto alla pagina non è così semplice, ma si calcola con un metodo matematico più sofisticato, che tiene conto anche della popolarità delle pagine che rimandano alla pagina stessa e del numero di citazioni complessivo di ciascuna di esse. Intuitivamente, se una pagina è citata da un’altra pagina che a sua volta è molto popolare, la sua citazione avrà un peso maggiore di quella di una pagina sconosciuta. Se poi la pagina importante cita pochissime altre pagine, la citazione assumerà ancora maggiore importanza. Una pagina può ottenere quindi un voto alto con tantissime citazioni da pagine poco importanti, ma anche con poche citazioni di pagine molto popolari, che citano poche altre pagine.

Il page rank però non è l’unico criterio su cui Google si basa per costruire le graduatorie, pare che si tenga conto di numerosissimi altri parametri come, per esempio, il fatto che la pagina sia la pagina principale (home page) di qualche sito o la sua "freschezza", il fatto cioè che sia stata o meno usata di recente. Ma queste sono solo supposizioni ragionevoli, perché i criteri che determinano il voto, che pare siano un centinaio, sono coperti da brevetto e mantenuti rigorosamente segreti. L’efficienza di Google e la sua velocità di risposta è basata inoltre su un enorme parco macchine dove sono allocati fisicamente gli enormi dizionari su cui è riassunto l’intero Web. I milioni di richieste che arrivano simultaneamente possono venire soddisfatte grazie a questa potenza di calcolo e a meccanismi di ricerca estremamente sofisticati anch’essi mantenuti segreti.

Un grave limite dei motori di ricerca come Google è che l’importanza di una pagina è decretata dalla sua popolarità sul Web e non dalla sua qualità intrinseca, che non è in nessun modo garantita. Questo deve essere molto chiaro a tutti coloro che si servono di Google e di altri motori di ricerca, per fare buon uso dell’informazione reperita. Gli esempi visti precedentemente prevedono risposte di tipo semplice, il nome di una persona, la programmazione di un film, la pagina Web contenente la traduzione di una frase; in questi casi molto probabilmente si trova la risposta voluta. Se si cerca di approfondire un argomento invece si possono avere delle sorprese spiacevoli. I motori di ricerca non eseguono alcun filtro sull’informazione, si limitano a riportare quel che si trova in giro, la loro utilità è eccezionale in alcuni casi, ma praticamente nulla in altri. Umberto Eco, in una conferenza ha raccontato di un suo incontro interessante con Google:

"....ho digitato la parola "Graal" e ho analizzato i primi settanta siti segnalati. Sessantotto di questi erano puro ciarpame, materiale neonazista e pubblicitario, uno era credibile, ma conteneva una semplice descrizione da enciclopedia Garzantina, un piccolo saggio preciso, ma privo di particolare interesse.."

Eco inoltre si pone nei panni del giovane che debba selezionare l’informazione utile per un suo studio e sottolinea un problema fondamentale: i motori di ricerca non possono essere i sostituti di uno studio serio e approfondito sull’argomento dove l’informazione, una volta reperita deve essere opportunamente analizzata e filtrata. Nel caso di Eco la parola "Graal" indica oltre al sacro calice, un famoso gioco di ruolo, una scuola di geometria sacra, un albergo della costiera amalfitana, ecc. La parola chiave in questo caso ha molti significati e questa caratteristica non facilita il compito del motore di ricerca. Con parole chiave così evocative è meglio articolare una ricerca più specifica, accostando a Graal magari "sacro" oppure "calice", evitando così risposte completamente sbagliate. Per quanto riguarda la profondità della risposta invece, ricordiamoci come funziona Google, essa riflette il livello culturale degli utenti della rete, e se la pagina più gettonata sul Graal è una descrizione da Enciclopedia Garzantina significa che la maggioranza degli utenti si contenta di una semplice trattazione, magari non troppo approfondita, ma precisa e concisa. Nuove generazioni di motori di ricerca risolvono poi problemi del tipo di quello posto da Eco, raggruppando le risposte per argomenti, quando ve ne sia più d’uno, prima di presentarle sullo schermo.

Anche Alessandro Baricco, dalle pagine di Repubblica , vede in atto, a causa di Google, una vera e propria mutazione del concetto stesso di qualità. Si cambia radicalmente l’idea di cosa è importante e cosa no. Il valore di un concetto o di un’idea non è più qualcosa legato principalmente alle caratteristiche intrinseche ma alla sua popolarità e alla sua storia sul Web.

"..L’idea che capire e sapere significhino entrare in profondità, in ciò che studiamo, è una bella idea che sta morendo... l’essenza delle cose non è più nascosta in profondità, ma dispersa in superficie…"

Sulla rete si naviga, si rimane in superficie cioè invece di immergersi, non si va alla profondità delle cose. Non possiamo che essere d’accordo. E per questo motivo bisogna essere molto chiari sul significato del mezzo. Perché a nessuno venga in mente che le risposte di Google rappresentino un trattato accurato, esauriente e di qualità delle ricerca effettuata. Dobbiamo valutarlo per quello che è: la risposta relativa alla pagina più popolare. Google non è un’esortazione alla superficialità anche se un uso improprio la può favorire. I Bignami hanno aiutato generazioni di studenti superficiali e frettolosi, senza che nessuno li considerasse validi sostituti dei libri di testo. Best seller come i gialli di Faletti o "Va dove ti porta il cuore" di Susanna Tamaro hanno venduto milioni di copie in Italia senza che nessuno abbia mai detto (o forse qualcuno sì) che i due autori sono i più grandi scrittori italiani viventi. Così i motori di ricerca vanno usati con la piena consapevolezza di che cosa ci stanno dicendo. Solo un uso consapevole permette di sfruttarli al meglio e trasformarli in un valido aiuto in situazioni diverse.

Inoltre i pericoli non si fermano qui, l’informazione oltre ad essere di qualità scadente può essere addirittura falsa; sul Web ne circola parecchia, messa in rete per sbaglio o con finalità precise. E’ famosa la storia di una notizia riportata contemporaneamente da molti giornali, alla morte dello scrittore e giornalista americano Hunter S. Thompson. La notizia riportava una frase attribuita all’ex-presidente Nixon, che parlava del giornalista scomparso, come il rappresentante tipico di quella "faccia oscura, venale e incredibilmente violenta del carattere americano". La frase in realtà era stata scritta da Thompson e riferita all’ex-presidente! Evidentemente Google deve aver messo in testa alla graduatoria la notizia scambiata e questa è stata recepita acriticamente da molti giornalisti contemporaneamente. Certo la tentazione è grande, in una situazione di emergenza pescare da Google invece di affannarsi in una ricerca accurata è comodo e veloce, a volte esauriente. Dobbiamo quindi chiederci: quali condizioni favoriscono o scoraggiano quest’uso superficiale e/o spregiudicato dello strumento Google? Diventano cioè fondamentali le condizioni sociali in cui si inserisce l’uso delle tecnologia. Per esempio, è facile capire che giornalisti mal pagati o con orari di lavoro molto duri, possano cadere facilmente preda di una scorciatoia così facile nel compilare un necrologio.

Un’altra domanda interessante che ci possiamo porre è se le graduatorie dei motori di ricerca possano essere manipolate. La risposta è affermativa: viene fatto costantemente soprattutto per scopi economici. La tecnica si chiama in gergo Googlebombing e sfrutta le regole del motore, almeno quelle note, per manipolare le graduatorie, forzando artificialmente il page rank della pagina che si vuole promuovere. Se provate a inserire per la ricerca su Google le parole chiave miserable failure, fallimento miserabile, in testa alla graduatoria trovate un rimando alla pagina ufficiale di George Bush. Niente purtroppo è più attuale, il fallimento delle sue spedizioni di guerra è oramai davanti agli occhi di tutti, ma la cima della graduatoria Bush l’aveva già guadagnata nel 2003 con un documento che si riferiva alla guerra in Iraq, Come è stato possibile? È sufficiente che un numero opportuno di pagine Web contenga tra i vari documenti registrati, una frase con l’associazione tra le parole chiave e l’indirizzo del sito Web di George Bush. Ogni pagina dovrà contenere cioè, in corrispondenza di miserable failure, un link al sito di Bush. Se lo stratagemma è ripetuto un numero sufficiente di volte si ottiene l’effetto voluto. Più sono importanti sul Web coloro che partecipano al progetto, meno ne occorrono per far emergere la risposta voluta. L’associazione tra miserable failure e il presidente degli Stati Uniti può anche essere inserita in modo discreto perché risulti invisibile sullo schermo, basta usare dei caratteri dello stesso colore dello sfondo: a occhio nudo non si vede, il motore la trova lo stesso!

Su Google si può avere anche pubblicità a pagamento. Chi paga può vedere il suo sito in corrispondenza di certe parole chiave desiderate, ma va a posizionarsi in un altro elenco che viene correttamente allocato da Google al di fuori della graduatoria principale in una colonna speciale sulla destra dello schermo. Ma l’apparire in testa alla colonna di sinistra genera una pubblicità che è molto più efficace perché non è pagata, ma attribuita dalla rete. Allora ecco che anche in campo commerciale la tecnica del Googlebombing si è scatenata, ci sono ditte che vendono la visibilità sui motori di ricerca. Usano programmi che generano in modo automatico un numero sufficientemente grande di pagine fittizie che citano la pagina da promuovere per aumentarne il page rank, oppure disseminano la pagina di frasi comuni cercate sul Web di frequente, e vi lascio intendere quali siano le più frequenti, nascoste alla visione sullo schermo, con la tecnica detta sopra. In questo caso la pagina galleggerà in graduatorie che non le competono, ma potrà ugualmente apparire molto popolare e catturare l’attenzione di qualcuno. C’è in atto una battaglia continua tra i manipolatori e i motori di ricerca, che costantemente modificano leggermente i loro parametri e ricalcolano il ranking a cadenze regolari. Comunque le graduatorie vengono costantemente manipolate e non si può avere la garanzia che riflettano la reale popolarità sul Web. Gli elenchi contengono spesso pagine intruse in modo più o meno evidente. D’altronde l’imparzialità non è neppure garantita dagli stessi motori di ricerca, che mantenendo segreti gran parte dei parametri possono sempre riservarsi di alterare i risultati a loro piacimento.

Informazione di qualità discutibile, informazione falsa, informazione manipolata questo ci servono i motori di ricerca accanto al resto. Questi sono i rischi con cui ci si deve misurare quando ci si confronta col risultato di una ricerca. Sono i rischi del resto di quasi tutte le applicazioni su Internet, per sua stessa natura aperta e senza controlli. La rete ingloba comportamenti scorretti difficilmente censurabili senza una radicale trasformazione della filosofia anarchica su cui si basa. Ma la rete e il Web costituiscono un bene comune che tutta la comunità tiene in grande considerazione e visioni distorte o pilotate divengono obbiettivi di proteste violente e corali che circolano poi a grandissima velocità sulla rete e ne annullano o ne attenuano gli effetti. Se si vuole utilizzare al meglio i motori di ricerca bisogna non stancarsi di verificare continuamente la correttezza dell’informazione, a volte basta fare la stessa ricerca su due diversi motori, controllare i siti delle "bufale" per le notizie false e tenere presente che nel caso migliore l’informazione restituita da un motore in prima posizione è sempre e soltanto relativa alla pagina più popolare sul Web, che solo raramente corrisponde a quella qualitativamente più valida.

Cosa ci deve aspettare in futuro? Intanto la rete contiene una quantità enorme di informazione che non è stata ancora raggiunta completamente dai motori di ricerca, quindi le tecniche di navigazione e di reperimento dovranno essere ancora migliorate. C’e ancora molto spazio per l’inventiva e i progetti in studio e in corso di realizzazione sono numerosissimi e ambiziosi. Pare che l’ambizione sia cresciuta di pari passo al successo finanziario dei due giovani inventori di Google, che, come una missione, perseguono l’idea di portare sul Web e rendere accessibile tutto lo scibile umano. Un progetto in tale direzione è quello della biblioteca mondiale, che prevede di codificare e indicizzare tutti i libri del mondo. Google ha probabilmente la forza di portarlo a termine. Il progetto è ostacolato dall’industria editoriale, che viene trattata da oscurantista, anche se si può constatare con una certa ironia che proprio Google che difende così ferocemente i diritti d’autore sui propri metodi di ricerca e sui criteri di formazione delle graduatorie, potrebbe avere un maggiore riguardo per i diritti degli altri.

(Linda Pagli, docente della Facoltà di Informatica dell’Università di Pisa, è co-autrice, assieme a Fabrizio Luccio, del libro La rete. Dagli antichi codici a Internet, di prossima pubblicazione presso Bollati Boringhieri)








pubblicato da c.benedetti nella rubrica in teoria il 24 ottobre 2006