I Big Data sono i nuovi sondaggi?

Il Big Data sarebbe in grado di aiutare la polizia di Los Angeles a ridurre la criminalità. Si dice per rendere le città più intelligenti, e alcuni vedono in esso anche una valida alternativa alle misure restrittive per la lotta contro gli sconvolgimenti climatici. Perché il Big Data, apparentemente onnipotente, non ha ancora fagocitato il settore dei sondaggi? Leonardo Noleto, Data Scientist, Guillaume Pataut, matematico, e Guilhem Fouetillou, cofondatore della startup Linkfluence (specializzata in indagini Social e Web) e professore associato a Science Po Paris, espongono la loro opinione sulla questione.

Il Big Data è in grado di soppiantare i sondaggi come li conosciamo, cioè un insieme di metodi matematici che permettono di conoscere l'opinione di un gruppo di persone generalizzando a partire da un sotto-insieme? "Si tratta di una questione complessa", afferma Leonardo, suggerendo che la risposta potrebbe trovarsi da quache parte tra Angers, la tranquilla capitale dell'Angiò, e gli Stati Uniti.

Sondaggio e Big Data: metodi complementari?

Se gli abitanti di Angers non avessero apprezzato i concetti di lattine da 15 cl di Coca-Cola, quello dei Kinder Pinguì o ancora il lancio del formaggio Philadelphia, probabilmente questi prodotti non sarebbero mai stati commercializzati in Francia. Con una popolazione di 400.000 abitanti, la prefettura del Maine-et-Loire è conosciuta dai marchi di tutto il mondo per essere rappresentativa della Francia media, quindi, delle richieste dei consumatori. Il fenomeno, che dura da oltre 20 anni, è sfruttato sapientemente da due società: MarketingScan (del grouppo GfK-Médiamétrie) e Scannel (Kantar Worldpanel). Una startup, CityPanel, è nata nella città nel 2013, con l'ambizione di estendere ai servizi digitali (applicazioni mobili, siti Web, oggetti connessi...) i test sottomessi al profetico panel.
Sull'altra sponda dell'Atlantico vive Nate Silver, un esperto di statistica specializzato nei calcuoli di statistiche sportive. La previsione dei risultati delle partite e della possibile evoluzione della carriera dei giocatori della Major League di baseball è stata la sua fonte di guadagno all'inizio del 2000. Ma sono state le analisi politiche sulle elezioni presidenziali americane del 2008 che lo hanno reso celebre. Pubblicato su FiveThirtyEight.com, le sue previsioni hanno stupito tutti per la loro precisione: Nate Silver aveva predetto il vincitore in 49 dei 50 Stati, e anticipato la vittoria di Barack Obama molti mesi prima che si verificasse. Il suo segreto? Il Big Data, utilizzato per ponderare le previsioni degli istituti di sondaggio tradizionali.
"Come suggerisce Nate Silver, sondaggi e Big Data possono essere complementari, analizza Leonardo". Il caso di Angers, diventata l'oracolo dell'industria agroalimentare, dimostra che i metodi statistici, affinati in decine di anni di pratica, sona ancora pertinenti. "In base al budget disponibile, della popolazione da studiare, del tasso di risposta media constatato e del margine di errore accettato dal committente, dei modelli matematici che permettono di detrminare con precisione la dimensione e la composizione dei campioni da analizzare per ottenere risultati rappresentativi", completa Guillaume. "E non dimentichiamo che i sondaggi sono un metodo di osservazione della società tra molti altri: la sociologia, l’etnografia... o ancora la statistica nazionale, basata sul censimento della popolazione. Un settore in cui la Francia era all'avanguardia, con la creazione dell’INSEE nel 1946", ricorda Guilhem.

Il Big Data interessante per captare i segnali deboli e passare da una categorizzazione socio-professionale a una categorizzazione sociologica dei gusti dei consumatori

L’aspetto interessante del Big Data consiste nella sua capacità di captare le tendenze emergenti. Per generare nuove ipotesi. Per rispondere a questioni che non ci si sarebbe mai posti. "Sono stati raccolti più dati nel 2011 che tra l’invenzione della scrittura e quell'anno, riferisce Guilhem, citando il progetto Global Pulse ONU. E la quantità è cresciuta ulteriormente negli ultimi anni. Capiamo innanzitutto cosa significa il termine Big Data. Per Linkfluence,è la possibilità di captare e analizzare quello che gli utenti sperimentano, commentano o "likano" volontariamente su Internet (dati dichiarati), ma anche quello che fanno (osservazione dei comportamenti). Il Big Data costituisce il nuovo prisma attraverso cui osservare la società, senza che nessuno se ne accorga". Al contrario del sondaggio, la cui metodologia può distorcere il risultato. Come affermava Pierre Bourdieu già nel 1972, "il semplice fatto di porre la stessa domanda a tutti implica l'ipotesi che c'è un consenso sui problemi, cioè che esiste un accordo sulle domande che vale la pena di porre". In qualche modo, infatti, il sondaggio contribuisce a forgiare l'opinione che vuole sondare?
"Il Big Data permette di raccogliere i dati senza dispositivi-spia, e senza l'influenza dell'osservatore, spiega Guilhem. I sondaggisti hanno tutti in testa esperienze conosciute che dimostrano quanto il sesso, l'età o anche la bellezza di un inquirente possono alterare la sincerità delle risposte, soprattutto quelle degli uomini relativamente alla loro vita di fronte a una donna". "I sondaggi lavorano a partire da dati "provocati", aggiunge Leonardo. Il Big Data costituisce un cambiamento del paradigma, permettendo di esplorare i dati raccolti senza uno scopo preciso, e tracce lasciate dagli utenti senza che ne siano sempre consapevoli – cosa che solleva evidenti questioni etiche sul consenso degli utenti, la proprietà dei dati, il loro utilizzo e la loro vendita".
"A Linkfluence, che offre strumenti di monitoring e di analisi del Web per i marchi, c'è l'abitudine di dire che si ascolta solo quello che si vuole sentire. È ciò che si sperimenta negli spazi pubblici del Web. Ma le interazioni sui social network, il fatto di cliccare su "Mi piace" su un contenuto Facebook o di seguire un account su Twitter offre informazioni preziose sui principali interessi di una persona: click is the message. L’epoca in cui l'1% degli utenti produceva il 99% del contenuto è conclusa. Abbiamo accesso a una conversazione globale, in tempo reale. Il Big Data permette di passare da una categorizzazione per CSP – che presuppone che le categorie socio-professionali abbiano comportamenti omogenei – a una classificazione in base alle affinità, più vicino alla realtà. Ecco perché lo studio dei social è diventato importante, a condizione di prendere in considerazione il fatto che gli utenti si mettano in scena. Ricordati il detto: “On the Internet, nobody knows you’re a dog”. La posizione che si può adottare sul Web altera il livello di confidenzialità dei dati raccolti su alcuni soggetti, ad esempio nel quadro di uno studio relativo a una marca. Ma l'assenza di un dispositivo garantisce una maggiore spontaneità".

"Il Big Data costituisce il nuovo prisma attraverso cui osservare la società, senza che nessuno se ne accorga"

Lo scoglio delle correlazioni casuali

Il Big Data, per chi ne conosce le possibilità, è uno strumento rivoluzionario. Ma non è una bacchetta magica, che permetterà di eliminare l'intervento umano e e gli errori che l'analista commetterà suo malgrado. "Il mito del Big Data è che i dati, una volta raccolti, parlano da soli! si diverte Leonardo. Ovviamente, è falso. Oggi è facile– e sempre meno costoso – creare algoritmi che scomporranno i dati fino a rivelare delle correlazioni. La trappola è che correlazione non significa rapporto causa-effetto". Ciò che dimostra per assurdo il contributo faceto ricevuto da SNCF sulla piattaforma datascience.net (7). Alla fine del 2014, l'azienda pubblica proponeva di elaborare un modello che permettesse di stimare il numero di viaggiatori presenti alla stazione in un giorno qualsiasi della settimana, a partire dai dati resi pubblici relativi al trasporto ferroviario (opendata). "Qualcuno ha evidenziato la relazione tra la frequentazione delle stazioni e il numero di parrucchieri presenti al suo interno. Una relazione matematicamente valida, ma poco pertinente per prevedere l'affluenza di una stazione. Queste relazioni "assurde" possono eventualmente derivare da un caso, ma più spesso possono essere spiegate tramite la presenza di variabili nascoste. In questo modo, è molto probabile che più una stazione è frequentata, più avrà un valore economico". Le macchine un giorno possiederanno l'intelligenza necessaria a stimare la pertinenza di una correlazione? C'è chi lavora per sciogliere questo enigma che ad oggi resta ancora un mistero.

"Le macchine un giorno possiederanno l'intelligenza necessaria a stimare la pertinenza di una correlazione? Un enigma che ad oggi resta ancora un mistero."

I metodi statistici: utili per trovare gli indicatori pertinenti, sorpassati o necessari a verificare le ipotesi prodotte dal Big Data ?

Oggi il Big Data non ha fagocitato il mondo dei sondaggi. Piuutosto, si nota un avvicinamneto dei soggetti tradizionali alle startup che si sono lanciate nel Big Data (8). "Personalmente, non credo che i protocolli statistici sopravivranno", ci confida Guillaume, il cui lavoro in OVH consiste nell'immaginare gli algoritmi che permettono di esplorare dati. "Il Big Data ci mette di fronte a un volume e una varietà di dati che supera di gran lunga la capacità umana di analisi. Prima di iniziare a esplorare questi dati utilizzando gli algoritmi, spesso è necessario – per usare i termini matematici – ridurre la dimensione dello spazio di lavoro. I metodi statistici sono di grande aiuto per reperire gli indicatori pertinenti, che sono ancore di salvataggio in una marea di dati. Questo permette di semplificare il problema. Quando le neuroscienze, ad esempio, cercano di identificare il ruolo delle singole parti del cervello, il numero dei dati scaturiti dalla scansione celebrale è inverosimile. È necessario procedere utilizzando metodi di regressione o algoritmi prossimali per eliminare i dati inutili, o ponderare la loro influenza in una correlazione. I principi matematici degli algoritmi di base del Big Data, come l'analisi in componenti principali (PCA), o il Machine Learning, sono relativamente banali. Quando si parla di Big Data, ci si immagina equazioni complicate, enormi macchine che mangiano i dati e poi li sputano sotto forma di dashboard. C'è un aspetto molto meno spettacolare nel nostro lavoro: le ore trascorse a capire i dati, a strutturarli, a suddividere quelli che sono interessanti da quelli che non lo sono..." Leonardo è più scettico sul futuro dei metodi statistici: "La materia prima del Big Data non si presta sempre ai metodi statistici. I dati possono essere eterogenei: testi, immmagini, video... Più sono e più la data science mira ad apprendere dati (estrarre pattern). Le statistiche offrono un catalogo limitato di modelli. Si può trovare il modello giusto per dare un senso ai dati, ma non sempre". Guilhem, invece, vede nelle statistiche un mezzo per verificare le ipotesi prodotte dal Big Data: "Uno dei nostri clienti ha vissuto una crisi sui social. L’analisi delle conversazioni online mostrava che il bad buzz si era fortemente diffuso sul Web. Per sapere la percentuale della popolazione aveva sentito parlare di questa crisi, confinata al Web, l'inserzionista a effettuato un sondaggio tradizionale, che ha rivelato che il 25% della popolazione ne era al corrente. Non è un risultato trascurabile!"

L'analista, una protezione necessaria

Leonardo e Guillaume concordano sulla responsabilità che hanno sulle loro spalle: "Come si possono interpretare le statistiche per fargli dire qualunque cosa, così è possibile raccontare storie molto diverse a partire da uno stesso insieme di dati scaturiti dal Big Data, prevengono. In un mondo in cui le cifre acquistano sempre più importanza, è indispensabile restare diffidente – cercare di resistere, riappropriandosi delle cifre come raccomanda lo Stato-attivismo, dal titolo dell'opera collettiva pubblicata nel 2014. " L'intervento umano, con la soggettività, certo, ma anche la sua riflessione critica, non solo è indispensabile, ma anche salutare. Come spiega il ricercatore russo Evgeny Morozov, autore di un libro sul soluzionismo tecnologico: "Pensate all'entusiasmo attuale per i Big Data, con la sua capacità di fornire una visione potente basata esclusivamente su correlazioni. Secondo un libro recente (di Viktor Mayer-Schonberger e Kenneth Cukier), una volta che abbracceremo pienamente i Big Data, la società dovrà pagare una parte della sua ossessione per la causalità in cambio di correlazioni semplici: senza sapere perché, ma solamente cosa". Un vero problema, se immaginiamo ad esempio il Big Data applicato alle politiche pubbliche, che si baserebbero allora su serie di correlazioni per agire, senza cercare di correggere le ingiustizie o discriminazioni di cui potrebbero essere il segno.

"L'intervento umano, con la sua riflessione critica, non solo è indispensabile, ma anche salutare."

Caso particolare: i sondaggi politici

I sondaggi politici rappresentano un caso a parte. Captare i movimenti di opinione e le sensibilità politiche alla vigilia di un'elezione sembra diventato complicato. Come sottolinea il professore di Scienze Politiche Alain Garrigou in un articolo del Monde Diplomatique, l'ultimo errore record dei sondaggi è avvenuto per il référendum greco, mentre "le consultazioni referendarie, con la loro scelta si/no sono la più semplice delle prove per le previsioni". Si può pensare, quindi, in base agli esperimenti di Nate Silver, che il Big Data l'attenzione verso i social potrebbero essere utilizzati per ridurre il rischio di errore causato dalle correzioni applicate dai sondaggisti per ponderare quelle che pensano siano delle sovra-dichiarazioni o sotto-dichiarazioni.
All'epoca ricercatore all'"Université de technologie di Compiègne", Guilhem si era interessato al ruolo di Internet nella vittoria del no
al referendum del 2005 relativo alla costituzione europea. Utilizzando dei robot per studiare i contenuti dei siti e dei link, aveva rilevato un forte squilibrio quantitativo tra i siti sostenitori del sito del si e quelli del no, due volte più numerosi. Inoltre, aveva rilevato che la comunità del no era più densa e più attiva. Cosa pensa oggi del Web come terreno di sondaggio, attraverso la metodologia Big Data? "Il primo ostacolo di Internet è che sfugge a qualunque logica di rappresentatività". Alcune fasce d'età non sono connesse, altre iperconnesse. Le categorie di popolazione non sono rappresentate tutte. "Non esiste un metodo di ripresa che permetta di utilizzare i dati del Web per trarne risultati che siano rappresentativi di una popolazione. Questo non rappresenta un problema per le marche per cui lavoriamo, perché ricerchiamo sia i segnali deboli che preannunciano una tendenza, che il comportamento delle Community online e in questo ambito possiamo contare su un terreno solido ed esaustivo". Per i sondaggi politici, è più problematico. Nel 2005 il Web non veniva ancora considerato un media dai suoi utenti. "Siamo nel bel mezzo del mito della tribù originale, in cui l'osservazione da parte dell'etnologo non modifica i comportamenti. Oggi, i militanti politici sono consapevoli del potere di Internet". Le campagne si svolgono anche online, con la relativa pubblicazione di contenuti, commenti e stati sui social network, che mirano a influenzare l'opinione. Risultato: "Una parte del rumore che potrebbe captare il Big Data sarebbe in qualche modo fittizio. Nel caso delle campagne politiche, un'analisi quantitativa del Web rivelava meno l’opinione pubblica che il lavoro degli attivisti e dei militanti, che sono i più rumorosi sul Web". Una delle soluzioni? Non ascoltare tutto. "Studiare su Internet il peso dato agli argomenti all'interno dell'offerta mediatica è una buona metodologia di farsi un'idea dell'opinione, degli argomenti che possono capovolgere i risultati di una campagna. Bisogna reintrodurre, per questo tipo di studio, una logica meritorcratica. Nell'economia dell'attenzione, che è quella del Web, non tutti i contenuti hanno lo stesso valore. Non si può dare la stessa importanza a un robot che twitta messaggi politici e articoli del Monde.fr, che avrà diverse centinaia di migliaia di lettori". Se il Web non è un terreno affidabile per i sondaggi politici, non è un terreno fertile nemmeno per il marketing politico, un'attività a cui si presta, di tanto in tanto, Linkfluence. L'attenzione al Web e le previsioni basate sui risultati delle elezioni precedenti sono delle metodologie già utilizzate durante le campagne per realizzare un "micro-target elettorale". Grandi consumatori di sondaggi, i francesi non sono pronti a sapere il nome del loro prossimo Presidente molti mesi prima la sua elezione grazie ai dati calcolati dal Big Data. Ma sarebbe anche possibile che il dubbio sulla reale possibilità delle previsioni influenzerebbe gli elettori alle urne...ribaltando il risultato. Una testimonianza? La participazione al secondo turno delle elezioni regionali di dicembre 2015. Stéphane Rozès, consigliere politico citato da Le Monde.fr in un articolo su Nate Silver, spiegava di non essere stupito che il libro dello statista americano non è stato tradotto in francese: "L'idea stessa che uno statista possa preannunciare il risultati delle elezioni è barocco, un attentato all'immaginario politico francese".

Le sfide del Big Data

Al di fuori del caso molto specifico dei sondaggi politici, il Big Data si impone come un metodo di osservazione degli individui estremamente efficace, in particolare per comprendere i consumatori simili tra loro. Lo prova il caso della società Aldebaran Robotics, che utilizza il programma Radarly di Linkfluence per captare le conversazioni che riguardano la sua marca, ad esempio riguardo alla presenza del suo robot umanoide nel programma Salut les terriens in onda su Canal+. Con l'aiuto di Linkfluence, Aldebaran si è discostato dal modello tradizionale di comunicazione discendente, per realizzare un approccio concentrato sugli interessi di tutti gli utenti. Il Big Data non solo ci apre possibilità infinite, ma ci pone anche davanti a nuove sfide. Sfide tecniche, legate all'archiviazione dei dati e alla potenza di calcolo necessaria ad analizzare i dati - e qui entra in gioco OVH. Sfide intellettuali, con la nascita di una nuova disciplina: la "data science". Sfide etiche, con l'invenitabile presa di coscienza da parte degli utenti delle tracce che lasciano dietro di loro. "Il social, quello analizzato da Linkfluence, rappresenta solo una parte dei dati del Web, riferisce Guilhem. Domani, con gli oggetti connessi, l’utilizzo massivo dei social network, le tracce che lasciamo su Internet continuano ad esplodere e a documentare una parte sempre più importante della nostra vita. Questi dati non sono più di nostra proprietà, perhé abbiamo firmato dei CGU per accedere a una serie di servizi. È logico che le società, che mettono da parte piccole fortune per ospitarli, cercano di venderli". Siamo diventati tutti dei Digital Workers, nell'eccezione con cui il sociologo Antonio Casilli descrive il Digital Labour? Gli utenti dovranno essere pagati quando i loro dati vengono utilizzati per creare valore? Cosa ne pensano gli abitanti di Angers? Ammettiamo che il semplice fatto di porre la questione può portare alla luce un'opinione che fino a questo momento non esisteva...

"Gli utenti dovranno essere pagati quando i loro dati vengono utilizzati per creare valore?"

Linkfluence

Linkfluence, startup leader del Social Media Intelligence, propone solutions uniche di monitoring, di analisi e di attivazione dei social media. Grazie alla suite Radarly e ai servizi associati, Linkfluence capta e analizza oltre 130 milioni di pubblicazioni al giorno, per aiutare i marchi a prendere le decisioni migliori. Fondata nel 2006, questa azienda francese conta più di 180 collaboratori tra Francia, Germania, Rego Unito, Singapore e Cina, e la sua crescita è in continuo aumento. Linkfluence vanta anche più di 300 réfreferenze nel mondo, tra cui Danone, Sanofi, Orange, Accor, McDonald’s o ancora Groupama.
www.linkfluence.com | @linkfluence

Chi siamo
OVH - Specialista del Cloud e delle infrastrutture Internet, OVH offre prodotti e servizi innovativi, organizzati in 3 Universi: Web, Dedicated e Cloud. Dal 1999, anno della sua fondazione, l’azienda si è imposta come partner principale per migliaia di professionisti in tutto il mondo. OVH deve il suo successo a un modello di sviluppo basato sull’innovazione e sulla gestione completa della catena di produzione, dall’assemblaggio dei server, alla manutenzione delle infrastrutture e al supporto garantito ai suoi clienti. OVH fornisce soluzioni stabili e affidabili, a un rapporto qualità/prezzo ineguagliabile.

http://twitter.com/ovh_it

Article précédent

Roadmap 2016 dei prodotti OVH