Approcci composizionali per la caratterizzazione e il mining di dati omici

Progetto: Research project

Description

Il rapido accumulo di dati su scala "omica", ottenuti attraverso tecnologie high-throughput, richiede un'adeguata sinergia tra compattezza/espressività di rappresentazione dei dati ed efficienza degli algoritmi per estrarre conoscenza dalla enorme mole di dati a disposizione. Nell'ambito di questo progetto di ricerca, proponiamo un'analisi sinergica di modelli per la caratterizzazione dei dati omici e algoritmi per il data mining che, in specifici contesti applicativi, consentiranno di:(obj1) ottenere una descrizione più significativa ed essenziale dei dati, tenendo in conto informazioni funzionali e/o strutturali dei dati omici; (obj2) elaborare strategie efficaci ed efficienti per analizzare i dati opportunamente caratterizzati, attraverso lo sviluppo di algoritmi specializzati. Come ulteriore contributo (obj3) del progetto, le tecniche proposte verranno implementate in prototipi e dimostratori per validare i risultati e diffonderli alle comunità interessate. Gli sforzi compiuti nell'implementazione delle tecniche proposte, sebbene in forma prototipale, ambiscono ad essere una potenziale attrazione per eventuali collaborazioni industriali in ambito di contributi tecnologici innovativi (Horizon2020, Priorità 2-leadership industriale).Le tre unità coinvolte, UNICAL, UNIPA, e UNIPD, hanno competenze complementari nella manipolazione di stringhe e grafi, e nello sviluppo di algoritmi di data mining per individuare sia regolarità che anomalie, entrambe essenziali per perseguire gli obiettivi principali del progetto. La qualità della ricerca è attestata dalla rilevanza internazionale dei contributi a queste aree (anche come collaborazioni spontanee tra i partecipanti al progetto), in particolare applicati alla bioinformatica e a grandi moli di dati. Inoltre, membri nelle unità hanno collaborazioni in corso con prestigiose istituzioni internazionali di Informatica, Matematica, Biologia e Bioinformatica. Le competenze del consorzio mostrano la potenzialità per guidare il progetto al di là dello stato dell'arte (Horizon2020 Priorità 1-Eccellenza Scientifica), e la presenza di solidi rapporti interpersonali, che sono alla base di una proficua collaborazione.Le attività saranno organizzate in quattro Work Package:WP1: caratterizzazione composizionale di sequenzeWP2: caratterizzazione composizionale di retiWP3: metodi computazionali per l'analisi di dati omiciWP4: prototipi, test ed esperimentiLe unità saranno coinvolte prevalentemente nella realizzazione di un WP, in base alla loro competenza principale, collaboreranno allo sviluppo di specifici aspetti di altri WP, e parteciperanno allo sviluppo di pacchetti sw. Infine, ricerca e innovazione al centro del progetto mirano allo sviluppo di algoritmi per l'analisi di dati omici che possano coadiuvare l'indagine biomedica verso scoperte scientifiche necessarie per affrontare importanti sfide della Società, come indicato dalla Priorità 3 di Horizon2020 - Sfide Sociali, per la Salute Pubblica.

Layman's description

Il principale obiettivo di questa proposta è la progettazione di metodi e algoritmi per l'estrazione di informazione da dati "omici", provenienti cioè da studi genomici, proteomici, ecc. La letteratura suggerisce che tutti i fattori che concorrono alla definizione della vita cellulare andrebbero studiati in sinergia per essere compresi a fondo, e dovrebbero anche essere integrati con dati di natura clinica. Infatti, è ormai universalmente riconosciuto all'interno della comunità scientifica che, per spiegare l'insieme dei processi della vita come una complessa interazione di sistemi biologici, è necessario integrare informazioni di natura sia micro- che macro-scopica. Tuttavia, una soluzione completa a questo problema non è ancora proponibile, data la complessità e vastità del problema.La nostra strategia è concentrare gli sforzi su specifici aspetti riguardanti l'analisi di sequenze e reti biologiche, in grado di modellare sia singoli elementi (es. i componenti cellulari), che le loro interazioni (es. tra proteine o tra malattie, ma anche interazioni eterogenee come tra geni e malattie). Sebbene esista un'ampia letteratura sullo studio di sequenze e reti biologiche quando queste sono analizzate separatamente o modellano la stessa tipologia di dati (e.g., reti di interazioni proteiche), non è stata ancora rivolta sufficiente attenzione al problema di estrarre conoscenza quando esse sono utilizzate in sinergia o modellano dati di tipo diverso (es., geni, proteine, malattie, dati clinici). Infatti se, da un lato, questo aiuterebbe nella comprensione di meccanismi quali ad esempio l'impatto di possibili variazioni genetiche sull'insorgere delle malattie, solo di recente si è iniziato a collezionare dati che descrivono variazioni biologiche insieme ad associazioni a livello macroscopico, e tradurre opportunamente questi dati in modelli da analizzare automaticamente è molto complesso. Descriveremo di seguito più in dettaglio la soluzione che proponiamo per contribuire in questa direzione.L'analisi dei dati richiede soluzioni efficienti per due sottoproblemi fondamentali: la caratterizzazione dei dati e la successiva fase di mining. La caratterizzazione è, nella maggior parte dei casi (incluso lo studio di dati omici), un passo necessario per modellare notevoli quantità di dati grezzi con una descrizione in grado di esprimere la complessità dell'informazione in essi codificata, e mantenere una compattezza tale da permettere la successiva analisi. Un ulteriore aspetto è l'antagonismo intrinseco tra l'espressività della caratterizzazione e l'efficienza degli algoritmi per estrarre la descrizione corrispondente. L'obiettivo principale del progetto è fornire caratterizzazioni efficienti di dati omici ottenuti da tecnologie high-throughput (HT) e progettare tecniche efficienti per analizzare i dati così caratterizzati.Nel contesto in analisi, la caratterizzazione è un aspetto fondamentale poiché i dati omici presentano notevoli problemi computazionali a causa della loro imponente quantità e grande dimensione, della complessità delle relazioni tra dati diversi (che necessitano di essere analizzati insieme) e di molte altre questioni specifiche delle applicazioni. Ad esempio, i sequenziatori HT producono sia sequenze (dati alfanumerici) che metadati (dati numerici) necessari per stimare l'affidabilità del processo di sequenziamento. La gestione di dati sia numerici che alfanumerici costituisce dunque un problema di per sé.Caratterizzati opportunamente i dati, è importante sfruttare tali caratterizzazioni per migliorare i processi di analisi dei dat

Key findings

Tecnologie dell'Informazione e delle Comunicazioni (ICT)
StatoAttivo
Data di inizio/fine effettiva1/1/12 → …