Cosa abbiamo imparato sul trattamento dei dati dopo il Covid, secondo il data scientist Youyang Gu

Cosa abbiamo imparato sul trattamento dei dati dopo il Covid, secondo il data scientist Youyang Gu

Prima dell’esplosione della pandemia aveva realizzato modelli statistici per la finanza. Poi ha creato un modello di previsione dei decessi da coronavirus che si è rivelato tra i più corretti negli Stati Uniti

08/05/2021 , tempo di lettura 7 minuti
Immagine

Il data scientist Youyang Gu si considera un “realista”. Lo dichiara già sul suo profilo Twitter. Quello da cui ha diffuso le sue proiezioni sui contagi e i decessi da Covid-19 negli Stati Uniti, azzeccando praticamente quasi tutte le previsioni e diventando tra le fonti più consultate Oltreoceano durante la pandemia.  

Quando la scorsa primavera ha notato le proiezioni confuse sul Covid-19 – un modello prevedeva 2 milioni di morti negli Stati Uniti entro l’estate, un altro ne prevedeva 60.000 – Gu ha deciso di provare a realizzare un modello di previsione da solo. “Il mio obiettivo era produrre il modello più accurato possibile”, dice alla MIT Technology Review. “Non importa quali fossero gli scenari. Volevo solo spiegarlo dicendo: ‘Questa è la previsione più probabile o realistica di ciò che accadrà’”. 


In una settimana, ha creato così un modello di machine learning (apprendimento automatico) e lanciato il suo sito web di proiezioni sui contagi e i decessi da Covid-19. Dopodiché ha seguito il modello ogni giorno, pubblicando le proiezioni per 50 Stati degli Stati Uniti. A fine aprile, milioni di persone controllavano già il suo sito quotidianamente.


Lo sviluppo del modello

Laureato in matematica, con un master in ingegneria elettrica e informatica conseguito al MIT, Gu, 27 anni, stava lavorando a una startup di analisi dei dati sportivi quando è arrivata la pandemia. Ma ha messo in pausa quell’impresa quando gli sport si sono interrotti. E poi, semplicemente googlando “epidemiologia”, ha iniziato la sua incursione nei modelli di previsione per il Covid-19.


“Non avevo esperienza nei modelli sulle malattie infettive”, dice. Ma aveva avuto alcuni anni di esperienza come data scientist nella finanza, lavorando con modelli statistici, modelli che, sulla base di determinate ipotesi statistiche, analizzano i dati e fanno proiezioni su quale sarà il prezzo di un’azione in futuro.


“Si scopre che molti modelli di malattie infettive sono fondamentalmente modelli statistici”, afferma Gu. E l’obiettivo dell'accuratezza del settore finanziario, orientato al profitto, gli è servito nel campo epidemiologico. “Se non sai creare un modello accurato in finanza, non avrai più un lavoro”, dice. Al contrario, l’obiettivo nel mondo accademico, almeno dal punto di vista di Gu, non è tanto quello di creare modelli accurati, quanto piuttosto di pubblicare articoli e informare le politiche pubbliche. “Questo non vuol dire che non realizzano modelli accurati, ma solo che non ottimizzano la precisione”.


Il modello di Gu combina il machine learning con un classico simulatore di malattie infettive chiamato modello SEIR, che utilizza come input una serie di parametri, un intervallo più ipotetico per variabili come il numero di riproduzione di base, tasso di infezione, data del lockdown, data di riapertura e numero di riproduzione effettivo. In termini di output, il simulatore SEIR calcola prima le infezioni nel tempo, poi calcola i decessi (moltiplicando le infezioni per il tasso di mortalità dell’infezione).


Il sistema di machine learning genera quindi migliaia di combinazioni diverse per quei set di parametri, nel tentativo di trovare i parametri reali per ciascuna regione geografica. E apprende quali parametri generano le proiezioni di morte più accurate confrontando le previsioni SEIR con i dati reali sulle morti quotidiane diffuse dalla Johns Hopkins University. “Cerca di apprendere quali set di parametri generano decessi che corrispondono maggiormente ai dati effettivi osservati guardando al passato”, spiega Gu. “E poi utilizza quei parametri per prevedere e fare proiezioni sui decessi nel futuro”.


Le sue previsioni si sono dimostrate notevolmente accurate. Il 3 maggio, è apparso su CNN Tonight e ha condiviso le proiezioni del suo modello secondo cui gli Stati Uniti avrebbero raggiunto 70.000 morti il 5 maggio, 80.000 morti l’11 maggio, 90.000 morti il 18 maggio e 100.000 morti il 27 maggio. Con qualche arrotondamento, era tutto corretto.


Il modello non era perfetto, ovviamente, ma ha impressionato Nicholas Reich, biostatistico e ricercatore in malattie infettive presso l’Università del Massachusetts, il cui laboratorio, in collaborazione con i Centri statunitensi per il controllo e la prevenzione delle malattie (US Centers for Disease Control and Prevention), aggrega i risultati di circa 100 team di modellisti internazionali. Tra tutti i modelli aggregati, ha osservato Reich, il modello di Gu era “costantemente tra i primi”.


Il 6 ottobre, Gu ha pubblicato la sua previsione finale sui decessi, appena prima dell'ondata autunnale. Il modello prevedeva che ci sarebbero stati 231.000 morti negli Stati Uniti entro il 1 novembre. Il totale registrato entro quella data è stato di 230.995. Poi ha chiuso il suo progetto, perché a quel punto c’erano molti team che facevano buone previsioni. E poi a dicembre ha iniziato a monitorare l’implementazione del vaccino e il percorso verso l'immunità di gregge.


“È chiaro che non raggiungeremo l’immunità di gregge nel 2021, almeno sicuramente non in tutto il Paese”, dice. “E penso che sia importante, soprattutto se stai cercando di infondere fiducia, che si facciano discorsi ragionevoli su quando possiamo tornare alla normalità. Non dovremmo fissarlo su un obiettivo irrealistico come raggiungere l’immunità di gregge. Sono ancora cautamente ottimista sul fatto che la mia previsione originale a febbraio, per un ritorno alla normalità in estate, sia valida”.


Oggi è tornato a occuparsi di altri progetti. Ma nel frattempo è diventato 
membro del gruppo di consulenza tecnica dell’Organizzazione mondiale della sanità sulla valutazione della mortalità Covid-19, dove condivide la sua esperienza da consulente. “Ho sicuramente imparato molto nell’ultimo anno”, dice Gu. “È stato davvero illuminante”.


Le lezioni apprese dal suo lavoro

Lezione n. 1: Semplicità e dati

“Dal punto di vista della scienza dei dati, i miei modelli hanno mostrato l'importanza della semplicità, che è spesso sottovalutata”, afferma Gu. Il suo modello di previsione dei decessi era semplice non solo nel suo design ma anche nel suo approccio molto ridotto e “dal basso verso l’alto” per quanto riguarda i dati di input. Significa “iniziare dal minimo indispensabile e aggiungere complessità secondo necessità”, afferma. “Il mio modello utilizza solo le morti passate per prevedere le morti future. Non utilizza nessun’altra fonte di dati”.


Gu fa notare che altri modelli hanno attinto invece a una varietà eclettica di dati su casi, ricoveri, test, mobilità, uso di maschere, comorbidità, distribuzione per età, dati demografici, stagionalità della polmonite, tasso di mortalità annuale per polmonite, densità della popolazione, inquinamento atmosferico, altitudine, dati sul fumo, contatti segnalati, traffico passeggeri delle compagnie aeree, termometri, post di Facebook, ricerche su Google e altro ancora.


“C'è questa convinzione che se si aggiungono più dati al modello o lo si rende più sofisticato, il modello andrà meglio”, afferma. “Ma in situazioni reali come la pandemia, in cui i dati sono così tanti, devi mantenere le cose il più semplici possibile”. 


Lezione n. 2: ridurre al minimo i pregiudizi

Gu ritiene di avere avuto un vantaggio nell'affrontare il problema partendo da una tabula rasa. “Il mio obiettivo era semplicemente seguire i dati sul Covid per conoscere il Covid”, dice. “Questo è uno dei principali vantaggi della prospettiva di un estraneo alla materia”.


Ma non essendo un epidemiologo, Gu doveva anche essere sicuro di non fare supposizioni errate o imprecise. “Quando arrivano nuovi dati che vanno contro le nostre convinzioni, a volte tendiamo a trascurare quei nuovi dati o ignorarli, e questo può causare ripercussioni lungo la strada”, osserva. “Sicuramente mi sono ritrovato a cadere vittima di questo, e so che anche molte altre persone lo hanno fatto”.


Quindi, “essere consapevoli del potenziale pregiudizio che abbiamo e riconoscerlo, ed essere in grado di rivedere le nostre convinzioni – correggerle se i nuovi dati li smentiscono – è davvero importante, specialmente in un ambiente in rapido movimento come quello che abbiamo visto con Covid”.


Lezione n. 3: verifica le ipotesi

“Quello che ho visto negli ultimi mesi è che chiunque può fare affermazioni o manipolare i dati per adattarli alla narrativa di quello in cui vogliono credere”, dice Gu. Questo evidenzia l’importanza di formulare semplicemente ipotesi verificabili. Per me, questa è l’intera base delle mie proiezioni e previsioni. Ho una serie di ipotesi, e se queste ipotesi sono vere, allora questo è ciò che prevediamo accadrà in futuro”, dice. “E se le ipotesi finiscono per essere sbagliate, allora ovviamente dobbiamo ammettere che le ipotesi che facciamo non sono vere e adeguarci di conseguenza. Se non fai ipotesi verificabili, non c’è modo di dimostrare se hai effettivamente ragione o torto”.


Lezione n. 4: impara dagli errori

“Non tutte le proiezioni che ho fatto erano corrette”, dice Gu. Nel maggio 2020, ha previsto 180.000 morti negli Stati Uniti entro l’inizio di agosto. “È una cifra molto più alta di quanto abbiamo visto”, ricorda (ci sono stati circa 155.000 morti). La sua ipotesi si è rivelata errata, “e questo mi ha costretto a modificare le mie ipotesi”. 


Gu utilizzava un tasso fisso di mortalità per infezione di circa l’1% come costante nel simulatore SEIR. Quando in estate ha abbassato il tasso di mortalità dell’infezione a circa lo 0,4% (e successivamente a circa lo 0,7%), le sue proiezioni sono tornate a un intervallo più realistico.


Lezione 5: coinvolgere i critici

“Non tutti saranno d’accordo con le mie idee, e lo accolgo con favore”, dice Gu, che ha usato Twitter per pubblicare le sue proiezioni e analisi. “Cerco di rispondere alle persone il più possibile, di difendere la mia posizione e di discuterne. Ti costringe a pensare a quali sono le tue supposizioni e perché credi che siano corrette”.


Aggiunge: “Se non sono in grado di difendere adeguatamente la mia posizione, allora è davvero l’affermazione giusta? Mi aiuta a capire, interagendo con altre persone, come pensare a questi problemi. Quando altre persone presentano prove che contrastano le mie posizioni, devo essere in grado di riconoscere quando sbaglio in alcune delle mie ipotesi. E questo mi ha effettivamente aiutato moltissimo a migliorare il mio modello”.


Lezione 6: esercita un sano scetticismo

“Ora sono molto più scettico nei confronti della scienza e non è una brutta cosa”, dice Gu. “Penso che sia importante mettere sempre in discussione i risultati, ma in modo sano. È una linea sottile. Perché molte persone rifiutano apertamente la scienza, e nemmeno questo è il modo per farlo”.


“Ma penso che sia anche importante non fidarsi ciecamente”, continua. “Gli scienziati non sono perfetti”. È opportuno, dice, se qualcosa non sembra giusto, fare domande e trovare spiegazioni. “È importante avere prospettive diverse. Se c’è qualcosa che abbiamo imparato nell’ultimo anno, è che nessuno ha sempre ragione al 100%”.


“Non sto dicendo di essere stato perfetto”, ammette. “Ho sbagliato molte volte. Ma penso che tutti possiamo imparare ad avvicinarci alla scienza come un metodo per trovare la verità, piuttosto che la verità in sé”.