L’intervista alla Dr.ssa Annalisa Trama (Istituto Tumori di Milano), coordinatrice del progetto
La ricerca sui tumori rari necessita di ampie collaborazioni per ottenere un numero adeguato di casi per i diversi studi, ma è spesso frenata da una sfida fondamentale: la scarsa disponibilità, interoperabilità e le difficoltà legate alla condivisione sicura dei dati sanitari. Il progetto IDEA4RC (Intelligent ecosystem to improve, the governance, the sharing, and the re-use of health data for rare cancers) si propone di affrontare di petto questo problema sviluppando un’infrastruttura IT innovativa, concepita per facilitare la condivisione anonima e il riutilizzo dei dati clinici tra i centri di eccellenza per i tumori rari europei. L’ambizione è quella di creare un ecosistema intelligente che promuova una governance efficace per il riuso dei dati, ne semplifichi l’accesso per la ricerca e, in ultima analisi, migliori la qualità delle cure offerte ai pazienti affetti da queste patologie complesse.
UN PROGETTO QUADRIENNALE CHE COINVOLGE 12 PAESI EUROPEI
Il progetto di durata quadriennale è stato avviato nel settembre 2022, è coordinato dall’Istituto Nazionale dei Tumori di Milano e finanziato dal programma Horizon Europe. Riunisce 25 partner provenienti da 12 Paesi. La validità dell’infrastruttura IDEA4RC sarà testata in progetti pilota condotti in 11 centri di eccellenza appartenenti alla rete EURACAN (European Reference Network for Rare Adult Solid Cancers).
“IDEA4RC si concentra sulla risoluzione dei problemi di interoperabilità dei dati, un ostacolo significativo alla condivisione efficace tra diversi ospedali”, racconta Annalisa Trama, dell’Istituto Tumori di Milano, coordinatrice del progetto.
Un modello di dati comune (Common Data Model - CDM) è una struttura logica condivisa che consente di organizzare e rappresentare dati provenienti da fonti diverse in un formato uniforme, facilitando così l’integrazione e l’analisi tra centri che li detengono in formati eterogenei. “Esistono diversi CDM in ambito sanitario, alcuni sono orientati allo scambio di informazioni per la cura del paziente piuttosto che al riutilizzo per la ricerca”, continua Trama. “IDEA4RC sta definendo un CDM orientato principalmente al riutilizzo dei dati raccolti durante le attività cliniche ordinarie, con l’obiettivo di renderli fruibili per la comunità scientifica. Inoltre, il CDM di IDEA4RC riconosce le specificità dell’oncologia, in particolare l’evoluzione nel tempo dei tumori (diagnosi, progressione, recidiva, etc.), aspetti che non erano stati pienamente rappresentati dai modelli di dati preesistenti, come quelli promossi dalla comunità ODSHI (Observational Health Data Sciences and Informatics). Questa standardizzazione è cruciale per superare la frammentazione ed eterogeneità dei dati esistente nei diversi ospedali.”
UNA SOLUZIONE IN GRADO DI ESTRAPOLARE I DATI TESTUALI DELLE CARTELLE CLINICHE
Una frontiera esplorata da IDEA4RC è l’elaborazione di dati non strutturati, come le note mediche. Grazie all’impiego di algoritmi di apprendimento automatico multilingue basati su Large Language Models (LLM) per il riconoscimento di entità mediche, il progetto mira a estrarre informazioni preziose da fonti testuali, ampliando significativamente la quantità di dati utilizzabili per la ricerca. Questi LLM, pur basandosi su modelli esistenti, vengono personalizzati per il riconoscimento delle entità specifiche del dominio oncologico che sono modellate nel CDM di IDEA4RC. Allo stato attuale, IDEA4RC si concentra sui dati clinici provenienti dalle cartelle cliniche elettroniche, tralasciando per il momento i dati omici, pur mantenendo l’intenzione di collaborare con altri progetti specializzati in questo tipo di informazione. “In quest’ottica, stiamo collaborando attivamente con altri progetti di ricerca europei focalizzati sui tumori, con l’ambizioso obiettivo di lanciare uno European common oncological data model”, spiega Trama. “Questo sforzo congiunto, su cui si è concentrata gran parte del lavoro nei primi anni del progetto, mira a creare uno standard condiviso per la rappresentazione dei dati oncologici a livello europeo per facilitarne il riutilizzo per scopi di ricerca.”
E LA PRIVACY?
Un altro aspetto tecnologicamente avanzato di questo progetto è l’adozione di un approccio di apprendimento federato. Questa tecnica innovativa consente di analizzare i dati sanitari mantenendoli nella loro sede originale, superando le problematiche legate allo spostamento di informazioni sensibili. Ogni set di dati viene convertito nel modello di dati comune (CDM), così da poter essere analizzato localmente all’interno di ambienti sicuri e protetti creati dal progetto, che garantiscono la riservatezza delle informazioni. Ogni centro clinico mantiene dunque il controllo sui propri dati, potendo definire i propri valori e limiti di condivisione. I metadati associati a ciascuna "capsula di dati" chiariscono quali informazioni sono disponibili per l’analisi. Quest’ultima viene eseguita localmente in ciascun centro attraverso un livello di intelligenza artificiale federata, permettendo un’elaborazione iterativa fino al raggiungimento di risultati comparabili a quelli ottenibili da un’analisi centralizzata, pur mantenendo i dati distribuiti.
COSA POTREBBE CAMBIARE NEI PROSSIMI 5 ANNI?
“Guardando al futuro, uno dei problemi cruciali che IDEA4RC intende affrontare è quello delle risorse necessarie per l’estrazione dei dati”, conclude Trama. Attualmente, molti studi si basano su personale dedicato all’inserimento manuale dei dati dalle cartelle cliniche. “IDEA4RC mira a sviluppare sistemi di estrazione automatica, con un’attenzione particolare ai dati non strutturati presenti nei testi clinici, e l’impiego del Natural Language Processing (NLP) e dei LLM customizzati rappresenta una frontiera innovativa in questo ambito”.
Altri due problemi da affrontare sono da una parte il diverso livello di preparazione tecnica degli ospedali coinvolti, dove non sempre è presente un expertise in grado di gestire le soluzioni innovative sviluppate e proposte dal progetto, e non da ultimo le complesse questioni legate alla privacy dei dati. Proprio le problematiche relative alla protezione dei dati stanno rallentando l’effettiva condivisione delle informazioni. Nonostante l’architettura federata del sistema, che prevede il mantenimento dei dati in locale, la complessità normativa e la mancanza di chiarezza interpretativa da parte degli stessi esperti legali rappresentano un freno significativo.
Seguici sui Social