Una ricerca della task force del ministero dell’Innovazione fa luce su come i dati di Google Trends e di un chatbot possano aiutare a individuare andamenti dei contagi del coronavirus

Il progetto ha preso corpo tra marzo e aprile, quando il ministero dell’Innovazione ha arruolato una squadra di tecnici che analizzasse grandi flussi di dati per fronteggiare l’emergenza coronavirus. Obiettivo: anticipare tendenze nell’epidemia e pianificare la fase due nella lotta al Covid-19. E ora arrivano i primi risultati del lavoro di uno dei gruppi all’interno della task force di 74 esperti nominata dal governo, quello dedicato allo studio dell’impatto socio-economico del Sars-Cov-2. Lo studio considera il periodo dal primo gennaio all’11 maggio 2020 e si è basato sui trend nelle ricerche di Google e le domande sui sintomi da Covid-19 al chatbot sviluppato dalla startup di telemedicina Pagine Mediche e adottato, tra gli altri, da Regione Lombardia.
Stando al rapporto, specifiche parole chiave su Google e alcuni tipi di interazioni su Pagine Mediche permettono di stabilire una relazione con lo sviluppo dell’epidemia da coronavirus in Italia, identificando con alcuni giorni di anticipo un potenziale aumento dei casi.
La ricerca non è definitiva, perché ora servono analisi più approfondite, che fra l’altro tengano conto anche di altri effetti, nonché la messa in sicurezza le informazioni sul web da possibili manipolazioni. Se gli studi avanzati confermassero queste conclusioni, in futuro il governo potrebbe adoperare questi dati e integrarli con altri, come per esempio il numero di notifiche che l’app di contact tracing, Immuni, invierà ogni giorno per provincia, per avere forme di allerta preventiva con cui monitorare l’andamento della pandemia (o di altre emergenze a cui applicare questo metodo).
La ricerca su Google Trends
Ma andiamo con ordine. Lo studio è firmato da Digita4good, laboratorio di ricerca dell’università di Pavia dedicato all’uso delle tecnologie digitali per la risposta alle emergenze e per lo sviluppo sostenibile. Uno dei pochi gruppi di ricerca al mondo con cui Google ha condiviso a livello mondiale i propri dati. Lo coordina Stefano Denicolai, docente di gestione dell’innovazione alla facoltà di Economia dell’ateneo pavese e che siede nel gruppo di lavoro del ministero con Walter Quattrociocchi, a capo del laboratorio di Data science dell’università Ca’ Foscari di Venezia, e Andrea Lacalamita, fondatore dell’agenzia immobiliare online Homepal.
L’analisi su Google Trends è stata condotta usando molte parole chiave e frasi riconducibili ai sintomi del coronavirus: febbre, tosse, dispnea, difficoltà a respirare, diarrea, tachicardia e palpitazioni. È emerso che già prima del paziente uno di Codogno, reso noto il 21 febbraio, tra gennaio e febbraio 2020 le ricerche con la parola “febbre” erano più alte del 33% rispetto alla media dei quattro anni precedenti (2016-19), mentre quelle con keyword “tosse” sono aumentate del 28%. Le interrogazioni su “palpitazioni” sono cresciute nello stesso periodo dell’86%. “Questi incrementi sono indizi forti”, osserva Denicolai, e rafforzano lo scenario di un’infezione da Covid-19 che circolava in alcune zone d’Italia prima della scoperta del primo positivo.
È quindi possibile prevedere l’esplosione di un focolaio attraverso l’analisi dei trend di Google? La risposta non è così semplice. I ricercatori hanno correlato il trend tra i dati web con quelli dei bollettini della Protezione civile ed emergono due scenari. Nel primo si osservano picchi di ricerca di alcune parole chiave fino a dieci giorni prima del dato ufficiale. “In questo caso si può provare a fare early detection (rilevamento anticipato) rispetto ai numeri che emergono dai tamponi, che per loro natura arrivano successivamente rispetto al contagio”, osserva Denicolai. In un secondo scenario, l’incremento sul web arriva in ritardo di due o tre giorni di ritardo rispetto al comunicato della Protezione civile.
“In questo caso siamo di fronte a persone che si lasciano suggestionare dalle notizie”, spiega il docente. “È difficile concludere se “sia nato prima l’uovo o la gallina””, si legge sulla ricerca: “Probabilmente sussistono entrambi gli effetti contemporaneamente: i web data in qualche modo offrono segnali latenti circa l’evoluzione reale del contagio, ma sono difficili da interpretare in quanto risentono anche delle news che si leggono sui media”.
Tranne in un caso. È quello della parola chiave “dispnea”. In questo caso c’è un minor numero di ricerche e solo dopo il decreto del 7 marzo, quando il termine, che indica la difficoltà a respirare (uno dei sintomi più caratterizzanti del Covid-19), entra nel vocabolario di chi interroga Google. In questo caso si registrano picchi nelle ricerche tra i dieci e i sei giorni prima dell’incremento dei contagi e non ci sono ricerche successive. Insomma, se si osserva un aumento dell’uso di questa keyword il giorno 1, il giorno 10 si registra una curva ascendente nei contagi. E non ci sono strascichi successivi. Questo termine, quindi, potrebbe essere tenuto sotto controllo per individuare contagi latenti.
L’analisi del chatbot
L’altro strumento che ha usato il team è il chatbot di Pagine Mediche che consente di fare una autodiagnosi dei sintomi legati al Covid-19. “È stato tra i primi ad andare online a livello mondiale”, ricorda Roberto Ascione, amministratore delegato di Healthware, il cui braccio finanziario, Healthware Ventures, ha investito proprio in Pagine Mediche. Un primo riconosciuto anche dalla società di consulenza Frost & Sullivan. In risposta all’emergenza Covid-19, “sono partiti da un chatbot e hanno sviluppato poi un sistema di telemonitoraggio domiciliare”, aggiunge Ascione.
Nel periodo di studio si sono registrate 150.110 interazioni con il chatbot, di cui oltre la metà (65.912) dalla Lombardia. In base alle autodiagnosi, l’algoritmo di studio ha raggruppato gli utenti in cinque gruppi (cluster): un 20,2% costituito da persone con sintomi influenzali e allarmate dal Covid-19; un 26,9% con un rischio moderato di aver contratto il coronavirus, o forse pazienti allo stadio iniziale della malattia; il 10,4% con una probabile infezione da Sars-Cov-2; un 25% di anziani con febbre; un 17% senza specifiche caratteristiche (gli “altri”).
Se si correlano le ricerche dei cluster 2 e 3, ossia delle persone con un rischio moderato di Covid-19 o con probabilità di aver contratto il coronavirus, all’andamento ufficiale dei contagi, anche in questo caso si può individuare una forma di anticipazione. Nel caso del cluster 2 con 6-10 giorni di anticipo, mentre nel caso del cluster 3, che riguarda “casi più chiari e con una sintomatologia più importante ed evidente”, si legge nella relazione, come febbre oltre 38 e difficoltà a respirare, la curva viene anticipata di 4-6 giorni.
Le conclusioni della ricerca
“L’analisi di correlazione è un’esplorazione preliminare e va vista con cautela, ma suggerisce che due variabili sono direttamente o indirettamente correlate, che sussiste un legame fra le variabili”, chiosa Denicolai. E nel caso della ricerca dispnea su Google e di alcune interazioni su Pagine Mediche, sembrerebbe davvero sussistere un’anticipazione di una settimana sulla curva dei contagi. Per i ricercatori, “sono ben chiari limiti e rischi di trarre delle conclusioni solo sulla base di correlazioni, tuttavia queste prime indicazioni sono molto promettenti e sottolineano l’importanza di valorizzare dati dal web, che hanno un grande vantaggio: sono un flusso continuo di dati in tempo reale. Un vantaggio enorme quando si parla di una pandemia”.
“Il prossimo passo è validare questi risultati con metodologie più sofisticate e provare a costruire un modello di early detection basato su più fonti di dati – spiega Denicolai – tenendo a menti che i dati web possono essere manipolati”. Se uno Stato si basasse su queste solo informazioni per prendere le sue decisioni, i picchi nelle ricerche potrebbero essere indotti per spingere a scelte più drastiche della reale situazione. Quello che emerge, però, è che queste tecnologie possono essere di aiuto e che le indicazioni di varie fonti possono essere integrate per avere un quadro più chiaro della situazione. Le tendenze del web, per esempio, potrebbero essere incrociate con altri big data per anticipare le curve del contagio e predisporre le contromisure.
Il lavoro della task force non si ferma. Il gruppo ha in mano anche i dati di Facebook sugli spostamenti e sta sviluppando analisi sulle variazioni dei consumi degli italiani nel periodo di lockdown e in fase 2. Mentre Pagine Mediche sta ragionando sull’estensione dell’uso del chatbot ad altre malattie. “Si è visto che questo sistema è in grado di orientare le persone in modo funzionale – osserva Ascione -. Ora si sta studiando per altre patologie croniche, per fare un monitoraggio non invasivo e prevenire le riacutizzazioni con sistemi di medicina preventiva”.
Leggi anche
