Intervista di Luca Sambucci
In questi giorni ho avuto il piacere di scambiare due chiacchiere con Federico Cabitza, professore associato di Interazione Uomo-Machina per il Corso di Laurea in Informatica e docente titolare di Data Visualization per il Corso di Laurea Magistrale in Data Science presso il Dipartimento di Informatica, Sistemistica e Comunicazione dell’Università degli Studi di Milano-Bicocca. In quanto consulente di vari ospedali (Humanitas di Rozzano, Gavazzeni di Bergamo, il San Raffaele e l’Istituto Ortopedico Galeazzi di Milano) può essere annoverato a ragione tra i maggiori esperti di tecnologie di intelligenza artificiale applicate al settore sanitario italiano.
A giugno è uscito lo studio The Elephant in the Machine: Proposing a New Metric of Data Reliability and its Application to a Medical Case to Assess Classification Reliability che propone una nuova metrica per valutare l’affidabilità di un modello predittivo di machine learning.
Luca Sambucci: Potresti spiegare in cosa consiste lo studio “Elephant in the machine“?
Federico Cabitza: In sostanza proponiamo una nuova metrica per valutare la qualità dei dati con cui si addestra un modello predittivo di machine learning o, se vuoi, la sua affidabilità. Nel farlo cerchiamo anche di convincere chi ci legge dell’importanza di questa valutazione: sosteniamo infatti che per uno sviluppatore di modelli predittivi (o data scientist) limitarsi alla valutazione della qualità del modello predittivo in termini della semplice “accuratezza” (e qualunque altra metrica basata sul conteggio degli errori, come chiarirò più avanti) è pericoloso e irresponsabile, soprattutto se tali modelli devono essere usati nel mondo reale per applicazioni che possono avere un impatto sulla vita delle persone. Infatti, un modello perfettamente accurato e buono a replicare dati sporchi, non attendibili, cioè ciò che gli ingegneri chiamano “garbage” (spazzatura), non dovrebbe essere essere preso in considerazione in processi decisionali complessi, soprattutto in ambiti delicati come la medicina, in cui noi operiamo.
Quindi, per sviluppare la nostra nuova metrica, abbiamo cercato di rispondere alla domanda: come possiamo misurare il grado di affidabilità di un insieme di dati? Abbiamo pensato di collegare questa valutazione a quanto è degno di fiducia chi li ha prodotti, cioè chi ha generato le annotazioni del cosiddetto ground truth o “verità di riferimento”. Per farlo, adottiamo un modello diverso da quelli sviluppati finora, un modello che ricalca come noi umani tendiamo a fidarci di una persona: valutiamo la sua competenza e ci basiamo su quanto questi si dice sicuro dei suoi giudizi. I modelli tradizionali adottano un modello dell’influenza del caso nell’accordo tra annotatori (rater) basato sull’intera distribuzione di dati, mentre noi consideriamo la probabilità che due persone possano aver concordato su una etichetta “sparando a caso”: per questo motivo la nostra metrica è più solida delle altre rispetto a noti paradossi e permette di calcolare l’attendibilità di singoli record (mentre le altre metriche possono farlo solo su un insieme di record, possibilmente numeroso).
LS: Quindi ogni volta che leggiamo le percentuali di accuratezza in una ricerca che applica il machine learning alla medicina, dobbiamo considerarle più basse rispetto a quelle effettivamente riportate?
FC: Sì, perché avere un ground truth accurato al 100% è pressoché impossibile, soprattutto se questo è generato attraverso le interpretazioni di fenomeni complessi da parte di esseri umani che, pur esperti, sono pur sempre fallibili. Nel nostro contributo mostriamo anche un nomogramma, cioè un diagramma che permette di calcolare la “vera” accuratezza di un modello di machine learning, aggiustato per la attendibilità dei dati di addestramento.
Nell’ambito dei modelli ad alte prestazioni che sono sviluppati di questi tempi, l’impatto della qualità del training set sulle vere prestazioni è di circa il 6-7 per cento. Si noti che i migliori gruppi di ricerca competono ogni anno per migliorare lo stato dell’arte con scarti nell’ordine di decimali di singoli punti percentuali. Insomma, la maggior parte dei data scientist preferisce ignorare l’elefante che si trova nella loro stanza piuttosto che chiedersi come poter valutare e migliorare la qualità dei dati su cui basano i propri modelli predittivi.
LS: Perché parlate di “elefante”? Si tratta forse di un problema che tutti già conoscevano?
FC: Sì, gli inglesi usano l’espressione “elefante nella stanza” (elephant in the room) per indicare una cosa che, per quanto sia considerata vera e ovvia da tutti, viene più o meno coscientemente ignorata o minimizzata. Nel caso specifico, noi parliamo di “elephant in the machine” perché pensiamo che discutere seriamente, e costruttivamente, di attendibilità del ground truth (che in molti contesti, anche delicati come la medicina, è solitamente molto più bassa di quello che spereremmo) farebbe mettere in discussione molti dei risultati ottenuti in contesti sperimentali e di laboratorio. Molti temono che così facendo l’attenzione dei media (e degli investitori) si sposterebbe su altri ambiti, quali quelli della governance dei dati, e su attività relativamente periferiche rispetto allo sviluppo di modelli di machine learning, come lo sviluppo e diffusione di standard di interoperabilità, la raccolta dati in contesti di collective intelligence, e la data curation.
D’altro canto, non capisco come una intera comunità possa dare per scontato che un dato di riferimento sia accurato al 100% se questa assunzione in molti ambiti è semplicemente irrealistica e illusoria: non dedicare adeguata attenzione a come valutare e migliorare i dati di addestramento di sistemi di machine learning può essere una scelta “greedy”, che sul lungo periodo non può che portare un danno di credibilità all’impresa scientifica e tecnologica del machine learning, oltre che al rischio molto concreto di invitare le persone ad affidarsi eccessivamente a modelli che sono impropriamente considerati molto accurati. È possibile fare ricerca anche su questi aspetti. Ad esempio, noi a brevissimo pubblicheremo un lavoro che propone dei metodi alternativi al “voto di maggioranza” per identificare la risposta più corretta quando un insieme di valutatori (rater in inglese) si esprime senza aver raggiunto consenso unanime riguardo alla annotazione di un certo insieme di casi: abbiamo chiamato questi metodi “reductions” (perché un insieme di annotazioni sono ridotte ad una sola etichettatura target) e ce ne sono davvero di moltissimi tipi, alcuni dei quali ispirati anche a metodi di votazione concepiti nei secoli scorsi ed altri che invece fanno riferimento alle ultime scoperte in ambito di intelligenza collettiva.
Insomma, mentre in un contributo il nostro messaggio è piuttosto deprimente, perché abbiamo sostenuto che spesso ci illudiamo sulla accuratezza di molti modelli di intelligenza artificiale in medicina (in ambito supervisionato), in un altro contributo abbiamo cercato di contribuire positivamente a questo stato di cose, fornendo dei metodi computazionali per migliorare la qualità del ground truth sulla base di quello che è ragionevole avere: e cioè l’opinione di un insieme ristretto di esperti di dominio che analizzano un certo numero di casi “tipo”.
LS: Credi che lo stesso problema si applichi ad altre ricerche sul machine learning, anche se non in ambito medico?
FC: Certo! Qualunque dominio applicativo dove il ground truth è generato da parte di esperti umani che devono valutare situazioni o casi di non banale interpretazione ricade nel perimetro del nostro discorso: selezione delle risorse umane, valutazione del rischio di recidiva o fuga/inquinamento delle prove, valutazione del rischio di insolvenza, insomma, quasi tutti quegli ambiti in cui le decisioni automatizzate o supportate dal machine learning possono avere un effetto giuridicamente rilevante e riguardare condizioni che un tempo si definivano “sensibili”.
LS: Ci spieghi meglio come funziona la nuova metrica che proponete?
FC: La nostra metrica si basa su quella più semplice e intuitiva (che non sconta l’accordo dovuto al caso) che per ogni “istanza” o “oggetto” conta la frazione di coppie di esperti che sono in accordo tra di loro e ne fa la media su tutti gli oggetti. La nostra metrica modifica questa formula andando a pesare queste coppie di accordi: ogni coppia è pesata per il prodotto delle quantità che rappresentano il grado di convinzione dei due rispettivi esperti, opportunamente normalizzato. La giustificazione di questa definizione (e il fattore di normalizzazione) è di natura probabilistica, usando il Teorema di Bayes per calcolare la probabilità (condizionata al fatto che abbiamo osservato un accordo) che l’accordo osservato non sia dovuto al caso. Un vantaggio evidente della nostra metrica è che può essere applicata anche a livello di singola istanza. Di seguito riportiamo appunto le formule per il nostro indicatore di attendibilità bilanciata (weighted reliability, pho), definito a livello di riga e di intero dataset:
LS: Grazie ai tuoi progetti di intelligenza artificiale in ambito medico lavori a stretto contatto con il personale sanitario. Qual è secondo te la loro inclinazione verso i nuovi tool di intelligenza artificiale? C’è più speranza o scetticismo?
FC: È molto difficile generalizzare: come in ogni contesto, la predisposizione delle persone nei riguardi delle nuove tecnologie dipende da aspettative, conoscenze, competenze e anche preferenze e idiosincrasie personali, che non sono sempre del tutto legate a ragionamenti espliciti o razionali: esistono numerosi modelli (chiamati di prontezza, accettazione o adozione) che operalizzano questi fattori e che comprendono numerosi elementi di contesto, quali anche l’età, ma io in ambito medico metterei dentro anche la specialità medica.
Ma tra gli estremi della speranza e dello scetticismo, io direi che il sentimento che ho trovato essere più diffuso (lo dico da una posizione di privilegio, perché non lavoro solo al Galeazzi e al San Raffaele, due IRCCS tra i più importanti in Italia, ma faccio spesso eventi di formazione e divulgazione a pubblici medici molto eterogenei) direi piuttosto la curiosità. Il problema è che noi informatici non sappiamo ancora presentare adeguatamente i risultati delle nostre ricerche. Prendiamo ad esempio l’accuratezza e qualsiasi metrica si basi sul tasso di errore di un modello predittivo. Ai medici non interessa questo dato, buono solo per persone che pensano che tutti gli errori siano uguali. In medicina non lo sono. È quindi importante sviluppare metriche che siano più precise e radicate nelle preferenze ed esigenze dei medici in prima linea.
Noi ad esempio stiamo lavorando ad una metrica che permette di pesare diversamente falsi negativi e falsi positivi, a seconda delle esigenze intrinseche al compito classificatorio che il modello dovrebbe supportare (ad esempio, lo screening deve essere più specifico, la diagnosi specialista deve essere più sensibile), e casi facili e difficili (ad esempio, in un setting di cura primaria è più importante essere accurati sui casi facili; in un setting di cura secondaria o terziaria sui casi difficili oppure su quelli rari). Ma come valutare la difficoltà dei casi? Come valutare la interpretabilità di un modello di machine learning? Come valutarne la utilità e la costo-efficacia? Questi sono (alcuni degli) ambiti di ricerca che la comunità scientifica sta in larga parte trascurando, alimentando nei medici l’idea che molti informatici, anche di successo nelle loro comunità specialistiche, non stiano facendo altro che applicare quello che sanno fare, il machine learning ora, a dati medici, senza però conoscerne le peculiarità e le criticità dei contesti lavorativi che producono tali dati, e che quindi non stiano davvero sviluppando intelligenza artificiale medica e per i medici. Nel mio recente editoriale chiamo questo fenomeno la “forra” che divide development e operation. Ecco, per riuscire a trasferire valore e portarlo dai nostri laboratori al “punto di cura” dove lavorano i medici per il benessere dei loro pazienti, forse dovremmo costruire meno cattedrali e castelli (spesso solo dei bellissimi villaggi Potemkin), e invece costruire più ponti e più solidi. Questo lo sosterrò anche nel mio prossimo keynote al CD-MAKE 2020 Workshop on explainable Artificial Intelligence il prossimo Agosto.
LS: Qualche giorno fa in un tweet ti sei espresso contro l’assunto che lo sviluppo di software AI equivalga alla creazione di soluzioni, arrivando ad augurarti che tale asserzione venga considerata socialmente inammissibile. Il contesto del tweet riguardava una discussione sui ricercatori “mainstream” (maschi, bianchi, eterosessuali) che cercano di applicare le loro “soluzioni” tecnologiche a qualsiasi problema di bias, spesso peggiorando la situazione. Ci potresti spiegare meglio questo tuo pensiero?
FC: La tecnologia viene spesso proposta come una soluzione a dei problemi che riguardano la sfera sociale e culturale di organizzazioni o comunità. Spesso, però, come ha argomentato ad esempio Tenner, le soluzioni tecniche non ottengono i risultati sperati o, peggio, introducono nuovi problemi o peggiorano quelli esistenti: è la cosiddetta Cobra AI di cui parlo in un capitolo di prossima pubblicazione per i tipi della MIT Press.
Il soluzionismo tecnologico, come lo chiama Evgenij Morozov, o il tecnosciovinismo, come lo chiama Meredith Broussard, possono quindi fare più danni del problema stesso, anche perché distrae da soluzioni magari più semplici ma anche più efficaci, o attira finanziamenti e fondi che sarebbero stati spesi in modo più appropriato perseguendo altre strade e opzioni. L’unica soluzione a questa “forma mentis” filo-tecnologica, propugnata da chi non ha una comprensione adeguata della complessità che è tipica delle situazioni sociali in cui un problema si presenta o emerge, è allontanare chi dimostra questa superficialità da quei consessi in cui gli esperti sono tenuti a sviluppare politiche di intervento alternative e decidere quale opzione intraprendere, e la diffusione di una maggiore diffidenza nei confronti di chi pensa che la tecnologia, e in particolare ciò che può essere definito come intelligenza artificiale, sia la soluzione, anziché parte del problema (o meglio, parte di uno specifico modo di vedere le cose complesse, imprevedibili e difficilmente controllabili come un problema).
È importante che ogni volta che qualcuno propone l’intelligenza artificiale come parte della soluzione qualcuno si senta legittimato a chiedere a questa persona: cosa vuoi automatizzare? (un processo, un compito, una decisione); perché vuoi automatizzarlo? (maggiore efficienza, risparmi, efficacia, soddisfazione, sostenibilità umana, sociale o ambientale?). Nell’interesse di chi vuoi farlo? E, da ultimo, è importante che si ottenga una risposta non scontata a quella che ora è solo una domanda ironica che spesso si pongono le persone disilluse di un certo modo di sviluppare tecnologie digitali e consapevoli delle loro potenziali conseguenze inattese: “cosa mai potrebbe andare storto?” (What Could Possibly Go Wrong?)
Qualcosa andrà sempre storto: e se potrà farlo allora, prima o poi (cf. Murphy’s Law), lo farà. Spetta a noi capire come minimizzare la probabilità che l’innovazione sviluppi delle conseguenze inattese, il loro impatto sulla vita di utenti e cittadini e, soprattutto, evitare che facciano del male a chi non ha molto da guadagnare da essa.
LS: Infine, c’è qualche domanda che non ti ho fatto ma che ti avrei dovuto fare?
FC: Eh tante, ma annoierei te e i tuoi pazienti lettori. La chiudo qui e ti ringrazio dell’interesse per il mio lavoro e per i temi di ricerca che da qualche anno tratto insieme ai miei colleghi (tra cui ricordo Davide Ciucci, con cui dirigo il laboratorio MUDI (Modeling Uncertainty, Decisions and Interaction), del dipartimento di informatica dell’Università degli Studi di Milano-Bicocca, e due nostri ottimi studenti di dottorato, Andrea Campagner e Andrea Seveso, senza di loro molte delle idee che ti ho presentato o sarebbero rimaste in un cassetto o, cosa ancora più importante, non avrebbero la forma con cui le presentiamo ora alla comunità scientifica e professionale delle persone interessate all’evoluzione dell’Intelligenza Artificiale Medica basata sui dati.
Federico Cabitza ha conseguito la laurea in Ingegneria Informatica al Politecnico di Milano nel 2001 con una tesi su Intelligenza Artificiale Subsimbolica sotto la supervisione di Marco Somalvico. Dal 2001 ha lavorato come analista software nel settore privato, fino al 2004 come dipendente e fino al 2011 come consulente. Nel febbraio 2007 ha conseguito il dottorato di ricerca in informatica con una tesi su modelli e architetture computazionali a supporto del lavoro collaborativo in ambito aziendale sotto la supervisione di Carla Simone. Assunto come ricercatore nel 2011 dall’Università degli Studi di Milano-Bicocca, è attualmente professore associato presso il Dipartimento di Informatica del medesimo Ateneo, dove è titolare degli insegnamenti di Interazione Uomo-Macchina, Sistemi Informativi, Interaction Design e Data Visualization erogati nei corsi di Laurea di Informatica e Data Science. Insegna anche Interazione Uomo-AI al corso di dottorato in Informatica. Dal 2016 collabora con la Direzione Scientifica dell’IRCCS Istituto Ortopedico Galeazzi di Milano per la definizione di modelli predittivi basati su Machine Learning. Attualmente sta conducendo diversi studi con il servizio di Medicina di Laboratorio dell’IRCCS Ospedale San Raffaele in ambito COVID-19. E’ autore di più di 130 pubblicazioni scientifiche, molte delle quali relative a informatica medica e sistemi a supporto della collaborazione, della gestione della conoscenza e del processo decisionale in ambito ospedaliero.
Cabitza, F., Locoro, A., Alderighi, C., Rasoini, R., Compagnone, D., & Berjano, P. (2019). The elephant in the record: on the multiplicity of data recording work. Health informatics journal, 25(3), 475-490.
Cabitza, F., Campagner, A., Albano, D., Aliprandi, A., Bruno, A., Chianca, V., … & Messina, C. (2020). The Elephant in the Machine: Proposing a New Metric of Data Reliability and its Application to a Medical Case to Assess Classification Reliability. Applied Sciences, 10(11), 4014.
Campagner A, Sconfienza L, Cabitza F. H-Accuracy, an Alternative Metric to Assess Classification Models in Medicine. Stud Health Technol Inform. 2020;270:242-246. doi:10.3233/SHTI200159
Cabitza, F., Campagner, A., & Balsano, C. (2020). Bridging the “last mile” gap between AI implementation and operation:“data awareness” that matters. Annals of Translational Medicine, 8(7).
Cabitza, F. Campagner A., Del Zotti, F., Ravizza, A. Sternini F. (2020) All You Need Is Higher Accuracy? On The Quest For Minimum Acceptable Accuracy For Medical Artificial Intelligence. Proceedings of eHealth, the 12th International Conference on e-Health. 21 – 23 July 2020
In corso di pubblicazione:
Campagner, A., Ciucci, D., Svensson C.M., Figge, M.T., Cabitza F. (2020) Ground Truthing From Multi-Rater Labelling With Three-way Decisions and Possibility Theory
Cabitza F., (2020) Cobra AI: exploring some unintended consequences of our most powerful technology. In: Machines We Trust Getting Along with Artificial Intelligence. MIT Press.
DONA ORA E GRAZIE PER IL TUO SOSTEGNO: ANCHE 1 EURO PUÒ FARE LA DIFFERENZA PER UN GIORNALISMO INDIPENDENTE E DEONTOLOGICAMENTE SANO
Gli Scomunicati è una testata giornalistica fondata nel 2006 dalla giornalista Emilia Urso Anfuso, totalmente autofinanziata. Non riceve proventi pubblici.
Lascia un commento