Tecniche di clustering di dati multivariati per la modellizzazione di sistemi complessi

Progetto: Research project

Dettagli progetto

Description

L'analisi empirica delle interazioni fra elementi di un qualsiasi sistema, e in particolare di sistemi complessi, è fondamentale per comprendere sia la struttura collettiva che le regole di base che governano il sistema e che eventualmente lo controllano. Spesso una analisi diretta delle interazioni fra gli elementi selezionati è molto difficile o impossibile. È quindi più semplice indagare l'effetto che le interazioni producono sugli elementi che appartengono al sistema. Quantità direttamente associate a singoli elementi possono essere misurate da apparati sperimentali automatici, a volte distribuiti sul territorio, ed il risultato di queste misure di solito consiste in un enorme set di dati multivariati. Lo studio dei dati multivariati copre un'ampia classe di sistemi. Esempi sono i sistemi fisici, biologici, ambientali, biomedici ed economici. Nel presente progetto diverse metodologie di clustering saranno applicate a sistemi di natura biomedica, ambientale e sociale. Per ciascuna applicazione si cercherà di ottimizzare l'estrazione dell'informazione fisica di interesse ai fini della modellizzazione fisica del sistema stesso. Questo progetto costituisce una sfida culturale innovativa il cui primo obiettivo è quello di applicare tecniche comuni di analisi di dati multivariati in ambiti diversi e con ampi riflessi applicativi. ECONOFISICA Lo studio delle cross-correlazioni tra i rendimenti di azioni scambiate in un mercato finanziario è fondamentale per rivelare l'emergenza di strutture collettive nel sistema. Un problema scientifico aperto riguarda la capacità delle Cross-Correlazioni (CC) tra serie storiche di rendimenti di predire le CC tra i rendimenti futuri. Questo è un problema non banale. Ad esempio, è noto che le proprietà strutturali CC in particolari fasi di mercato (e.g. in periodi di alta volatilità) sono molto diverse dalle proprietà strutturali tipicamente osservate. In questo progetto ci proponiamo di investigare e quantificare la capacità predittiva di diversi stimatori di cross-correlazione utilizzando metodi di fisica statistica, analisi multivariata e teoria dell’informazione. FISICA AMBIENTALE La produzione di energia, di prodotti di largo consumo ed il loro trasporto determinano l’introduzione di sostanze altamente inquinanti nell’ambiente che alterano l’equilibrio degli ecosistemi. Per limitare i danni all’ambiente sono stati avviati progetti di ricerca sulle fonti di energia rinnovabili. Per l’utilizzo dell’energia eolica è necessario avere informazioni sulla velocità del vento; queste possono essere ricavate descrivendo il moto delle masse d’aria e utilizzando modelli idrodinamici. Tali modelli si sono dimostrati spesso insufficienti a causa dell’impossibilità di includere nel modello tutti i dettagli microscopici del processo fisico, e della natura caotica della dinamica sottostante. Per superare queste difficoltà sono stati avviati studi sulle proprietà statistiche delle serie temporali della velocità e della direzione del vento, allo scopo di costruire modelli stocastici lineari (ARIMA), capaci di effettuare previsioni. FISICA MEDICA Il carcinoma mammario è la prima causa di morte per tumore per quanto riguarda la popolazione femminile dei paesi occidentali. La mammografia è attualmente considerata lo strumento diagnostico più efficace in grado di rivelare precocemente la presenza di un cancro. L’interpretazione delle immagini mammografiche presenta tuttavia delle difficoltà legate alla qualità dell’immagine, alle dimensioni delle lesioni e al contrasto tra le lesioni stesse e il tessuto circostante. Attraverso l’esame mammografico, le percentuali di malati riconosciuti e di persone sane correttamente classificate da un medico esperto possono subire un incremento nel caso in cui la lettura venga effettuata indipendentemente da due radiologi. A causa di problemi economici e organizzativi, può es

Layman's description

Obiettivi Il progetto si propone di monitorare sistemi complessi, attraverso un’analisi multivariata con tecniche di clustering, nel tentativo di pervenire a processi di modellizzazione di tali sistemi. Le tecniche di clustering sono usate per rilevare comunità di elementi nei sistemi indagati; nel presente progetto si intendono applicare tecniche di clustering e di modellizzazione in genere ai seguenti ambiti: Econofisica, Fisica Ambientale, Fisica Medica e Fisica Sanitaria. ECONOFISICA L'obiettivo della ricerca è di investigare e quantificare la capacità predittiva di diversi stimatori di CC applicati a serie storiche di rendimenti di azioni scambiate in un mercato finanziario. Il perseguimento di questo obiettivo è di interesse in quanto, a fronte di una vasta letteratura sull'incertezza statistica associata agli stimatori di CC, molto meno è noto l'effetto della non stazionarietà delle CC dei rendimenti delle azioni sulla capacità predittiva degli estimatori. Analizzeremo quanto l'informazione sulle CC contenuta in questi stimatori, che sappiamo essere statisticamente robusta, sia stabile nel tempo, ovvero quanto risenta della non stazionarietà delle proprietà statistiche dei rendimenti. FISICA AMBIENTALE L’obiettivo della ricerca riguarderà l’analisi della struttura delle correlazioni delle velocità orarie del vento registrate dal SIAS in diverse stazioni della Sicilia per il periodo 2003-2007. Dopo aver raggruppato le stazioni mediante tecniche di clustering, saranno sviluppati modelli stocastici per previsioni a breve termine, sia su singole stazioni che su più stazioni dello stesso cluster. La precedente analisi permetterà di individuare i siti più adatti per l’installazioni di WECS e di stimare le fluttuazioni di potenza immessa nella rete elettrica convenzionale. FISICA MEDICA Uno degli obiettivi di un CAD mammografico è quello di individuare nell’immagine zone di interesse (ROI), da sottoporre all’attenzione del medico, che contengano probabili lesioni tumorali. Le microcalcificazioni rappresentano uno dei segnali in mammografia la cui presenza è spesso correlata a lesioni tumorali. Nel presente progetto si focalizzerà l’attenzione su algoritmi in grado di clusterizzare porzioni di mammogrammi, opportunamente filtrati, allo scopo di individuare probabili cluster di microcalcificazioni. FISICA SANITARIA Per la discriminazione del LET della radiazione ionizzante viene qui proposta un'analisi delle righe EPR attraverso un’avanzata tecnica di statistica multivariata, la Maximum Likelihood Common-Factor Analysis(MLCFA). Gli obiettivi del presente progetto sono l'implementazione e l'ottimizzazione di procedure di acquisizione di spettri ESR e lo sviluppo di programmi di analisi dei dati ESR che tramite l'MLCFA permettano di riconoscere la qualità del fascio di radiazione che ha investito il campione. Metodologie La complessità degli algoritmi di clustering necessita spesso di opportune infrastrutture di calcolo. Il Dipartimento di Fisica e Tecnologie Relative, partecipando al progetto TRIGRID della Regione Sicilia, dispone di un nodo GRID per applicazioni scientifiche ed industriali. Su tale griglia sarà possibile mettere a punto e validare gli algoritmi di clustering per la varie applicazioni che il progetto si propone. ECONOFISICA L'investigazione della capacità predittiva degli stimatori di CC impone di comparare tra loro matrici di correlazione diverse. A questo scopo ci proponiamo di usare metodologie di analisi multivariata e teoria dell'informazione. In particolare compareremo le matrici di correlazione attraverso la distanza di Kullback-Leibler. Inoltre, utilizzeremo alcuni particolari stimatori di correlazione basati su tecniche di clustering gerarchico e di random matrix theory. FISICA AMBIENTALE Per raggruppare le stazioni in diversi gruppi sarà associata una distanza metrica a ciascuna coppia di stazioni basata sulla CC della velocità
StatoAttivo
Data di inizio/fine effettiva1/1/07 → …

Fingerprint

Esplora i temi di ricerca toccati da questo progetto. Queste etichette sono generate sulla base dei riconoscimenti/sovvenzioni sottostanti. Insieme formano una fingerprint unica.