Metodi e modelli di apprendimento statistico supervisionato e non supervisionato per l'analisi di dati microarray e di dati funzionali

Progetto: Research project

Dettagli progetto

Layman's description

L'unità di ricerca intende affrontare le problematiche relative all'analisi dei dati ottenuti mediante microarray sia per quanto riguarda la fase di pre-processing dei dati (data editing), nota anche come analisi di basso livello, che l'analisi di alto livello finalizzata all'individuazione di un insieme di geni differenzialmente espressi da utilizzare per la definizione di una regola di classificazione delle unità statistiche. Con riferimento all'analisi di data editing dei microarray data, utilizzando l'esperienza che i membri dell'unità hanno maturato con la fase di pre-processing dei dati generati mediante l'utilizzo di diverse piattaforme tecnologiche (vedi Mineo e al. 2006a, 2006b, 2007a, 2007b, Augugliaro e Mineo 2008), quali ad esempio le piattaforme oligonucleotidiche ad elevata densità, piattaforme microfluidifiche, spotted array, bead arrays etc., verranno affrontate problematiche legate alla complessità dei dati grezzi ottenuti dai microarray. Più specificatamente, verrà affrontato sia il problema della omogeneizzazione dei dati generati mediante piattaforme tecnologiche diverse, sia lo studio dell'influenza di eventuali valori anomali e dei dati mancanti. Un utile approccio nella fase di pre-processing può anche essere rappresentato dall'Analisi dei dati funzionali (FDA), usato allo stesso tempo come strumento di denoising e per l'imputazione di dati mancanti (Ramsay and Silverman, 2002, 2005). Tale approccio è suggerito proprio dalla struttura funzionale dei dati microarray. Infatti, nella FDA si assume che i dati osservati siano realizzazioni di funzioni continue registrati in tempi discreti con errori casuali, così la generica osservazione è considerata come il risultato di un segnale più un rumore; convertire dati osservati in funzionali mira anche a ridurre tale componente erratica. La FDA preserva la struttura funzionale dei dati, lisciando i dati grezzi senza perdere troppo della loro variabilità. La FDA è stata applicata da componenti di questo gruppo di ricerca a data sets spazio-temporali multivariati relativi a concentrazioni di alcuni principali inquinanti (Agrò et al., 2009, Ruggieri et al. 2012) e può essere estesa a dati di tipo microarray. Con riferimento ai dati mancanti, la FDA può essere utilizzata congiuntamente alla Empirical Orthogonal Function (EOF) (Beckers and Rixen, 2003; Sorjamaa et al. 2009). L'uso congiunto di questi due approcci può fornire una ricostruzione migliore, specialmente in presenza di sequenze di lunghi gap, dovuti al malfunzionamento degli strumenti con cui i dati sono rilevati (vedi Ruggieri et al. 2010, Plaia et al. 2012). Con riferimento all'analisi di alto livello dei microarray data, il gruppo di ricerca intende lavorare sia sulla ricerca di nuove proposte, soprattutto in ambito di apprendimento statistico supervisionato e non supervisionato, basate sullo studio del processo generatore dei dati, sia sullo sviluppo di una nuova metodologia per la selezione della complessità ottimale del modello d'apprendimento statistico. Con riferimento al primo filone di ricerca, lo sviluppo di metodi di partizionamento non supervisionato che, differentemente da quanto usualmente proposto in letteratura, non siano basate su analisi a due stadi, cioè di un primo stadio per il preprocessing dei dati e un secondo stadio per la clusterizzazione congiunta dei geni e delle unità statistiche, ma sull'utilizzo della formalizzazione teorica del processo generatore dei dati, consentirà il superamento delle assunzioni di base, spesso troppo restrittive, su cui si fondano gli algoritmi che costituiscono lo stato dell'arte in ambito di partizionamento non supervisionato applicato ai microarray data, quali ad esempio algoritmo gene-shaving (Hastie et al, 2000), EMMIX-GENE (McLachlan et al, 2002), EMMIX-WIRE (Ng et al, 2006), spectral biclustering (Kluger et al, 2003) e plaid model (Lazzeroni and Owen, 2002). E' ben noto in letteratura che uno d
StatoAttivo
Data di inizio/fine effettiva1/1/12 → …

Fingerprint

Esplora i temi di ricerca toccati da questo progetto. Queste etichette sono generate sulla base dei riconoscimenti/sovvenzioni sottostanti. Insieme formano una fingerprint unica.