ANALISI ED ELABORAZIONE DEI DATI MICROARRAY

Project: Research project

Project Details

Description

La tecnologia microarray, sviluppatasi nell’ultimo decennio, consente di caratterizzare tutti i geni di un individuo, o di una singola cellula, tramite un unico esperimento, mentre i metodi tradizionali, lavorando con un gene per volta, comportano costi e tempi elevati, fornendo, tra l’altro, una visione ristretta del funzionamento globale delle cellule. La tecnologia microarray rappresenta un grande passo avanti per la ricerca biomedica, in quanto, da un lato, permette di identificare geni sconosciuti o soggetti a mutazioni, dall’altro, consente di quantificare il livello di espressione dei geni in particolari condizioni, periodi di tempo o in diversi tessuti cellulari. I microarray altro non sono che vetrini da laboratorio su cui vengono immobilizzate sequenze note di basi azotate (probe o sonde), cui si legheranno, in una fase successiva dell’esperimento, campioni di sequenze di basi azotate libere (target). Esistono due tipologie di microarray: i microarray di oligonucleotidi (GeneChips o DNA Chips), introdotti per lo più dall’industria Affymetrix, e i microarray di cDNA o DNA microarray, sviluppati dall’Università di Stanford. La differenza fra le due diverse tipologie riguarda, fondamentalmente, alcune caratteristiche dei probe.
L’elaborazione dell’immagine microarray restituisce dati grezzi sul livello di espressione dei geni, dati che necessitano di essere pretrattati e normalizzati, prima di essere sottoposti all’analisi statistica vera e propria. In particolare, vengono contemplate varie tecniche di manipolazione dei dati, allo scopo di ottenere misure di intensità il più possibile affidabili. Il pre-trattamento dei dati, noto come preprocessing, si articola in tre differenti passi:
- la correzione per il background;
- la normalizzazione;
- la sintesi.
Il preprocessing, dunque, assume un ruolo fondamentale nella qualità delle misure di interesse e negli studi che di tali misure fanno uso. A tale proposito, si ritiene che l’uso della metodologia statistica moderna può notevolmente migliorare l’accuratezza e la precisione delle misure di espressione dei geni, rispetto alle procedure ad hoc proposte dalle aziende che hanno introdotto la tecnologia microarray. Senza una esatta dimensione della distorsione e della varianza di queste misure, i risultati di un’analisi farmacologica o medica potrebbero rivelarsi assolutamente ingannevoli. Con questa ricerca si vogliono illustrare le conseguenze pratiche che possono derivare, ad esempio, da una correzione non appropriata per la presenza di ibridazioni non specifiche e si vogliono fornire soluzioni basate su procedure di correzione del background più idonee. Un valido supporto per questo piano di lavoro sarà il progetto Bioconductor, sviluppato in ambiente R, che offre una serie di strumenti statistici per l’elaborazione dei dati microarray.

Layman's description

Lo studio condotto sulla tecnologia microarray fornisce vaste aree di interazione tra la biologia molecolare e la statistica computazionale. L’obiettivo di questo progetto è quello di analizzare ed elaborare dati microarray, focalizzando l’attenzione, in particolare, sulla fase nota come preprocessing, che riguarda la correzione per il background, la normalizzazione e la sintesi dei dati. La correzione per il background si rende necessaria in quanto l’intensità della luminosità emessa dalle sonde, marcate con materiali radioattivi o fluorescenti, non è determinata esclusivamente dal DNA (o RNA) ibridato (specific binding), ma è influenzata anche dal rumore ottico (optical noise) e dalle ibridazioni non specifiche, ovvero dai legami non complementari (non specific bindings). Una corretta modellizzazione del background porterebbe, dunque, ad una correzione più appropriata del segnale. La normalizzazione dei dati rende paragonabili i diversi array, in quanto considera le differenze sistematiche fra i diversi insiemi di dati ed elimina gli effetti non lineari dei colori etichettanti. Per ciascun gene, le intensità, normalizzate e corrette per il background, necessitano, inoltre, di essere sintetizzate in una quantità che stima una misura proporzionale all’ammontare di RNA etichettato, ovvero al livello d’espressione del gene.
Le metodologie proposte dall’industria Affymetrix (1999) pervengono a delle stime di espressione dei geni che presentano una varianza molto alta. L’approccio suggerito da Irizarry et al. (2003) conduce a delle stime meno accurate e consente di ottenere un lauto guadagno in termini di precisione. Poichè la perdita di accuratezza è dovuta probabilmente ad una correzione non appropriata per la presenza di ibridazioni non specifiche, riteniamo che considerare un modello statistico più idoneo per la descrizione del background, porterebbe a risultati più soddisfacenti. La base di partenza sarà il modello proposto per la prima volta da Rocke and Durbin (2001), ovvero il modello ADDIMULT (additive-multiplicative error model), che stima la relazione fra le intensità osservate e il livello di espressione del gene.
Nella fase di questa ricerca si ritiene fondamentale il ricorso al progetto Bioconductor, uno dei più importanti progetti open source nati nell’area della biotecnologia computazionale. Oltre a fornire pacchetti software per l’analisi dei dati, non solo microarray, ma anche Affymetrix, Bioconductor ha come obiettivo rendere le diverse ricerche condotte con tali tecnologie riproducibili e il più possibile integrate.
StatusActive
Effective start/end date1/1/05 → …

Fingerprint

Explore the research topics touched on by this project. These labels are generated based on the underlying awards/grants. Together they form a unique fingerprint.