INDAM GNCS 2017

Project: Research project

Project Details

Description

Il progetto di ricerca presentato ha come principale obiettivo quello di contribuire a ridurre il gap esistente tra la disponibilit`a di big data biologici che presentano lecaratteristiche illustrate sopra e la proposta di tecniche automatiche che ne consentano un’adeguata organizzazione, gestione ed analisi. In particolare, ci si riferir`a a due aspetti fondamentali, che potrebbero avere importanti risvolti nella risoluzione di problemi biologici e che saranno pertanto oggetto di studio nell’ambito di questa proposta progettuale:1) Di recente, vi `e stato un notevole progresso nell’ambito delle tecnologie informatiche per la gestione di big data (es., Map-Reduce [4], Spark [9], ecc.). Tuttavia,i vantaggi prodotti da tali tecnologie non sono ancora stati utilizzati appieno nella progettazione di algoritmi per l’analisi di stringhe e grafi in ambito biologico. Adesempio, `e stato mostrato come avanzate tecniche algoritmiche opportunamente combinate con sistemi assai scalabili consentano di ottenere algoritmi efficienti per un importante aspetto di graph mining quale il calcolo di misure di centralità per i nodi di un grafo [3]. Analoghi studi non sono ancora stati condotti perproblematiche che coinvolgono il dominio biologico.2) Alcuni dei problemi tipici nel dominio biologico, soprattutto quando i dati diventano di dimensioni elevate, riguardano il fatto che spesso i componenti cellularinon possano essere analizzati a prescindere dalle relazioni che intercorrono tra di loro. Questo `e vero sia nel caso di componenti (es., proteine) che concorronoall’espletamento di una specifica funzione biologica, sia nel caso di componenti (es., geni) le cui mutazioni hanno un ruolo ben preciso per l’insorgere di una patologia. Servono quindi opportuni modelli per rappresentarli e tecniche adatte alla gestione di dati complessi ed eterogenei per analizzarli.

Layman's description

Obiettivo 1: Studio e progettazione di algoritmi. Un obiettivo primario sarà quello di effettuare uno studio approfondito volto a capire se e come `e possibile migliorare le prestazioni degli algoritmi sfruttando i vantaggi delle tecnologie di big data management.Task 1.1: Algoritmi per “big set” di sequenze. Si studierà come migliorare l’efficienza nell’ambito di algoritmi per l’estrazione di kmeri (ovvero, parole di lunghezzak) da grosse collezioni di stringhe. In particolare, si far`a riferimento al paradigma Map-Reduce ed alla tecnologia Apache Hadoop e si punterà l’attenzione anche sugli aspetti di ingegnerizzazione degli algoritmi per fare in modo che siano in grado di scalare su enormi quantità di dati. Parallelamente, si cercheranno di individuare delle strutture dati e delle tecniche di indicizzazione efficienti nel contesto in questione.Task 1.2: Algoritmi per “big graph”. Prendendo spunto da quanto fatto in letteratura per il calcolo di centralità dei nodi, si sceglieranno alcune misure usate peril calcolo di centralit`a degli archi di un grafo e se ne progetterà un’implementazione basata sul paradigma Map-Reduce e Spark, analizzando accuratamente il guadagno prestazionale rispetto alle implementazioni che non beneficiano di tali tecnologie.Obiettivo 2: Analisi di big data biologici. Il perseguimento dell’Obiettivo 1 consentirà di avere a disposizione delle primitive efficienti per la risoluzione di alcuni punti basilari nell’ambito di analisi sia di sequenze che di reti biologiche. Tali primitive, più legate ad aspetti strettamente algoritmici, potranno essere utilizzate per la progettazione di tecniche efficaci per la risoluzione di problematiche specifiche del contesto biologico.Task 2.1: Studio di reti funzionali. Si studieranno le proprietà statistiche e topologiche di reti funzionali costruite integrando dati provenienti da diversi databasepubblici che annotano informazioni su proteine, geni, RNA, funzioni, espressioni e malattie. Si utilizzeranno primitive progettate nell’ambito di tecnologie per l’analisi di big-data per effettuare allineamenti e clustering di queste reti di grandi dimensioni, al fine di risolvere specifiche problematiche biologiche. Ad esempio, individuare il ruolo di molecole ancora non del tutto caratterizzate, come i long non-coding RNA, nel decorso di malattie complesse come il cancro.Task 2.3: Tecniche basate su compressione e riduzione. Si proporranno delle tecniche basate sulla compressione di grandi numeri di sequenze biologiche prodotteda tecniche di nuova generazione, e sulla riduzione di reti di grandi dimensioni attraverso approcci di clustering e module-map detection. In tal modo, si semplificherà il processo di mining di queste categorie di dati, ottenendo auspicabilmente anche una ripulitura degli stessi.Task 2.4: Individuazione di outlier nel dominio biologico. Si proporranno tecniche di outlier detection e/o estrazione di pattern da sequenze e/o da reti biologiche,al fine di individuare anomalie/ripetizioni utili per caratterizzare le relazioni tra componenti cellulari e malattie complesse. In particolare, si far`a riferimento alla definizione di meccanismi per distinguere dati funzionali associati a pazienti sani e malati, costruendo opportuni modelli predittivi.

Key findings

Tecnologie dell'Informazione e delle Comunicazioni (ICT)
StatusFinished
Effective start/end date2/9/172/8/18