Progetto BiTData

Il Progetto Inail BiTdata ideato da un team di ricercatori del laboratorio Biotecnologie (Inail dit), ha come caratteristica principale quella di avvalersi di competenze trasversali (Inail-DCOD, Università degli studi di Roma La Sapienza, dip Biotecnologie Cellulari ed Ematologia e Consorzio Interuniversitario per il Calcolo Automatico (Cineca)) che hanno avuto e ad oggi hanno la possibilità di lavorare in sinergia ognuno con la propria e specifica competenza (biologi, biotecnologi, biologi molecolari, bioinformatici, esperti di valutazione del rischio, ingegneri informatici ed esperti di intelligenza artificiale) per sviluppo di un prodotto fruibile da parte della comunità scientifica (una banca dati molecolare) e per l’analisi bioinformatica della grandi mole di dati raccolta.

Alcune delle competenze e attività del team di ricerca sono presenti al paragrafo “Nuove tecnologie Biotech, sicurezza e sviluppo sostenibile” sul sito dell’Inail: https://www.inail.it/cs/internet/attivita/ricerca-e-tecnologia/area-sicurezza-sul-lavoro/biotecnologie/settore-agroalimentare.html

 Cosa è la BiTData Inail?

La Banca Dati è denominata BiTdata in assonanza ai Big data, poiché si tratta di "dati molecolari BioTecnologici” che fungono quasi da "Biglietto Tecnologico" dell'esposizione occupazionale a xenobiotici. L’elevata quantità di dati analizzati e raccolti dalle diverse banche dati della comunità scientifica ha evidenziato come la loro elaborazione in forma di database li possa rendere più facilmente fruibili, fornendo un punto di accesso alla consultazione di questi dati. La raccolta dati è stata effettuata per ogni sostanza e per ciascuna patologia riportata nel nuovo elenco delle malattie professionali soggette all'obbligo di denuncia/segnalazione da parte dei medici, ai sensi dell'art. 139 del Testo unico (d.p.r. 1124/1965). Sono stati interrogati i seguenti repository: Sequence Read Archive (SRA), Gene Expression Omnibus (GEO), ArrayExpress e NCBI. Per ciascun esperimento è stata elaborata una breve descrizione in lingua inglese che permetta all'utilizzatore di comprendere rapidamente il disegno sperimentale e il tipo di dati. Tramite un apposito form di ricerca (testuale/avanzata) è possibile richiamare tutti i set di dati che corrispondono alle parole chiave inserite, limitando la ricerca a singoli campi o estendendola a più campi. Dai risultati della ricerca si può facilmente accedere tramite collegamenti ipertestuali alle pagine di accesso ai dati pubblici. Da tali pagine è possibile il download dei dati originali che possono poi essere utilizzati dall'utente finale del database per effettuare analisi in locale. Lo sviluppo della banca dati digitale BiTdata fruibile dal sito Inail (https://www.inail.it/cs/internet/attivita/ricerca-e-tecnologia/applicativi-per-la-salute-e-la-sicurezza-sul-lavoro/bitdata.html) nasce infatti allo scopo di supportare la comunità scientifica nella consultazione di dati che condividano metodiche simili e metadati di interesse nel campo della prevenzione e della epidemiologia. L’accesso alla banca dati prevede una fase di registrazione utente per ottenere delle credenziali univoche.

Gioiosa S., Berardinelli M.G., Paradisi A., Boccia P., Zanellato M. , Ceruti F., Sturchio E. “Sviluppo della banca dati molecolare Inail (BiTdata) come utile strumento per studi di esposizione occupazionale, Rivista Degli Infortuni E Delle Malattie Professionali - Fascicolo N. 3/2018, 487-502.

 Quando e come nasce?

Negli ultimi due decenni si è assistito al progresso di una vasta serie di discipline biomolecolari, le cosiddette tecnologie “omiche” (trascrittomica, genomica, proteomica, epigenomica); in generale, con il suffisso “-omico/a” si intende lo studio di specifici aspetti considerati nel loro complesso e/o su vasta scala. La diffusione delle discipline “omiche” e stata resa possibile principalmente grazie allo sviluppo di tecniche di indagine high-throughput ino grado di generare enormi quantitativi di dati relativi ai diversi livelli gerarchici di complessità biologica (DNA, mRNA, proteine, metaboliti, etc..), contribuendo a rivoluzionare l’approccio allo studio degli esseri viventi. Quindi, i recenti progressi delle tecnologie “omiche” hanno portato la comunità scientifica a sviluppare piattaforme affidabili per la raccolta di dati a livello genomico. Tali piattaforme includono i microarray e il Next Generation Sequencing (NGS) e le sue diverse applicazioni. Le piattaforme di tipo microarray (sviluppate con diverse tecnologie) consentono la raccolta dei dati relativi all’espressione genica di praticamente tutti i geni noti in un dato campione.

Il progressivo accumulo di tali grandi moli di dati generati con tecnologie “omiche” ha indotto la comunità scientifica a dotarsi di appositi repository digitali presso i quali sono depositati i dati relativi ai singoli esperimenti, per permetterne la fruizione e condivisione gratuita con l’intera comunità scientifica. Tali repository, pur condividendo tra di loro molte informazioni, presentano parziali ridondanze ma anche significative differenze e non sempre sono accessibili attraverso una interfaccia univoca e di semplice utilizzo da parte del singolo ricercatore.

Una delle sfide più importanti della bioinformatica attuale consiste nel rendere fruibili e accessibili i dati depositati e nello sviluppare strumenti che consentano di effettuare analisi comparate di campioni con caratteristiche biologiche paragonabili che sono stati oggetto di caratterizzazione da parte di scienziati diversi (meta-analisi). Tramite questo approccio è possibile in alcuni casi evidenziare caratteristiche che non possono essere individuate tramite l’analisi dei singoli esperimenti.

Da qui è nato il Progetto realizzato in collaborazione tra INAIL dit e Dipartimento di Biotecnologie Cellulari ed Ematologia dell’Università degli Studi La Sapienza di Roma, per la realizzazione e sviluppo di una banca dati molecolare specifica per l’esposizione lavorativa, progettata allo scopo di individuare set di dati rilevanti a fini della prevenzione, rendendo fruibili e accessibili i dati depositati nei “repository” pubblici e consentendo di effettuare analisi di campioni con caratteristiche biologiche comparabili. Per ciascun esperimento è stata elaborata una breve descrizione in lingua inglese che permetta all’utilizzatore di comprendere rapidamente il disegno sperimentale e il tipo di dati. Questa prima fase del lavoro ha portato alla collezione di alcune centinaia di set di dati che sono stati successivamente utilizzati per la costruzione del Database. Il Database è stato inizialmente generato tramite linguaggio mySQL per poter essere in una seconda fase integrato nel sito web Inail, in modo da permetterne la consultazione da parte della comunità scientifica, previa registrazione. L’attività di integrazione, comprensiva di sviluppo e messa in produzione della banca dati, è stata poi realizzata da Inail-Dcod, in collaborazione con Inail-Dit. Tale Banca Dati molecolare Inail è stata denominata quindi BiTdata, in assonanza ai Big data, si tratta infatti di “dati molecolari BioTecnologici” che fungono quasi da “Biglietto Tecnologico” dell’esposizione occupazionale.

A chi è rivolta e quali sono gli obiettivi?

La BiTdata è rivolta all’utenza esterna, alla comunità scientifica, ed è progettata allo scopo di individuare set di dati molecolari rilevanti a fini della prevenzione e sicurezza sul lavoro; sono così resi maggiormente fruibili e accessibili i dati depositati nei “repository” pubblici, consentendo di effettuare analisi di campioni con caratteristiche biologiche comparabili. Attraverso l'analisi dei dati si potrebbe condurre lo studio di meta-analisi di set di dati relativi all’esposizione ai medesimi fattori ambientali e occupazionali per l’identificazione di caratteristiche comuni (mutazioni, alterazioni dell’espressione di geni codificanti, alterazioni dell’espressione di RNA non codificanti, metilazione di regioni specifiche del genoma). L’analisi può essere condotta per una serie rappresentativa di casi selezionati sulla base dei dati raccolti e può essere condotta solo in presenza di dati paragonabili per tecnica utilizzata per l’analisi genomica e per la valutazione dell’esposizione a fattori di rischio. I risultati delle meta-analisi effettuate attraverso Bitdata hanno il vantaggio di subire minori distorsioni interpretative. La ricerca e lo sviluppo della banca dati digitale BiTdata potrebbe portare alla identificazione di nuovi potenziali biomarcatori e quindi a strumenti di screening precoce particolarmente utili nel monitoraggio di individui esposti a fattori di rischio significativi. L’uso di tali biomarcatori potrebbe aumentare il tasso di diagnosi precoce di patologie tumorali in soggetti a rischio riducendo i costi di cura e i costi sociali delle patologie tumorali in questione.

Inoltre, sappiamo che vi è un numero crescente di studi che suggeriscono che le influenze occupazionali e ambientali si estendono oltre le sequenze di DNA dei nostri geni: l’epigenetica è definita come lo studio dei cambiamenti ereditabili nell’espressione genica che non sono causati da cambiamenti nella sequenza del DNA. Un segnale epigenetico è un cambiamento ereditabile che non altera la sequenza nucleotidica di un gene ma la sua attività.

Le esposizioni ambientali e occupazionali agli agenti potenzialmente dannosi, incluse le esposizioni terapeutiche, le esposizioni associate alle abitudini di vita, e lavorative influenzano l’epigenoma di un individuo. Il numero delle pubblicazioni riguardanti i cambiamenti epigenetici indotti da esposizione occupazionale e ambientale continua ad aumentare, ma molti sono ancora i passi da compiere da parte della comunità scientifica prima che i dati epigenetici siano incorporati nel processo di valutazione del rischio. Quindi, considerata l’importanza del dibattito su come inserire i dati epigenetici nell’ambito del processo della valutazione del rischio in seguito ad esposizione a sostanze tossiche, la banca dati digitale BiTdata può essere considerata un utile strumento, contenitore di molteplici dati che possono permettere ai ricercatori di determinare scenari di esposizione e definire i biomarcatori rilevanti per il paradigma esposizione-malattia.

Quali sono i progetti che si possono portare avanti grazie alla banca dati?

L’attività di raccolta dei dati deve essere rinnovata con cadenza regolare al fine di mantenere nel prossimo futuro costantemente aggiornato il database elaborato. A tale scopo, tra le evoluzioni del progetto relativo alla banca dati digitale BiTdata, e sempre grazie alla collaborazione tra Dit e DCOD, è prevista l’applicazione di tecnologie di intelligenza artificiale a supporto delle attività di studio e catalogazione delle fonti, utili ad automatizzare le attività di ricerca e l’aggiornamento del relativo database. Tra i risultati ipotizzati dall’impiego di tali tecnologie nel progetto ci sono la riduzione delle attività manuali da parte dei ricercatori, la riduzione degli errori e la velocizzazione delle ricerche nei repository digitali. La tecnologia cognitive, di recente introduzione nel settore pubblico, non sostituisce il lavoro dell’uomo, ma contribuisce a rendere più efficienti le attività nelle quali viene impiegata. L’industrializzazione in una unica sequenza operativa delle fasi a partire da quella di ricerca fino a quella di pubblicazione in banca dati si basa su un recente approccio in ambito big data e intelligenza artificiale, procedendo in maniera strutturata a raccogliere, organizzare, analizzare e utilizzare il dato. Una volta industrializzata la procedura sarà possibile aggiornare con maggior frequenza e utilizzare più facilmente i dati in banca dati, aprendo così la possibilità di offrire servizi di analisi specifiche a terzi.

Infine, come attività di prosecuzione dello studio effettuato per lo sviluppo della BiTdata, i ricercatori del Dit hanno partecipato ad una Call Elixir per erogazione di ore calcolo, con il progetto dal titolo “Transcriptomes profiling after xenobiotics exposure to identify early biomarkers for differential diagnosis in lung and mesothelial cancer”, valutato positivamente dal comitato Elixir ed in fase di inizio attività. Elixir è la roadmap europea per la Bioinformatica volta, tra le altre cose, ad erogare risorse di High Performance Computing al fine di portare la ricerca bioinfomatica ad un livello sempre più rapido, avanzato ed integrato tra partner Europei. Per il Progetto Inail, sono state stanziate 50.000 ore calcolo da utilizzare presso il supercomputer Galileo, ospitato presso il Consorzio Interuniversitario per il Calcolo Automatico (CINECA).

https://www.inail.it/cs/internet/comunicazione/news-ed-eventi/news/news-progetto-bitdata-biotecnologie-prevenzione-2020.html

Questo sito utilizza i cookie tecnici per il proprio corretto funzionamento e cookie di terze parti per l'implementazione di alcune funzionalità esterne (ad es. Google Analytics). Navigando le pagine del sito o cliccando su 'OK' acconsenti all'impiego dei cookie.

Informativa completa