MISURE DI DIPENDENZA PER TABELLE DI CONTINGENZA

Progetto: Research project

Dettagli progetto

Description

L’analisi delle relazioni che intercorrono tra variabili categoriali si basa, tradizionalmente, sulle informazioni fornite dalle tabelle di contingenza. Osservata una tabella a doppia entrata, è possibile sintetizzare e quantificare l’associazione tra due variabili categoriche mediante il ricorso ad opportuni indici. Le misure di associazione sono dunque stime numeriche dell’intensità della dipendenza statistica fra due variabili. La letteratura statistica propone una moltitudine di tali misure, che possono essere suddivise in due categorie: la prima categoria riguarda variabili misurabili su scala nominale e considera misure basate sulla statistica X2 di Pearson; la seconda categoria riguarda variabili misurabili su scala ordinale e considera misure basate sulla concordanza/discordanza. Le statistiche maggiormente utilizzate per testare l’associazione su dati rilevati su scala nominale si basano sulle contingenze, le differenze tra le frequenze congiunte osservate e le corrispondenti frequenze teoriche di indipendenza, che risultano nulle in caso di indipendenza in distribuzione. E’ importante sottolineare che le misure di associazione basate sulle contingenze non crescono mai negativamente in presenza di associazione negativa, non distinguendo così l’associazione dalla dissociazione, a meno che non riguardino tabelle dicotomiche. Di contro, gli indici costruiti per variabili che presentano categorie ordinabili, pur distinguendo la concordanza dalla discordanza, soffrono il limite di poter risultare nulli anche in assenza di indipendenza. Inoltre, per entrambe le classi di indici, i valori massimi delle misure in esame non sempre vengono raggiunti in corrispondenza di tabelle in cui l’intensità della dipendenza raggiunge il valore più alto. In questo progetto ci si propone di individuare le tabelle di massima dipendenza, al fine di costruire un indice di associazione per tabelle genericamente rxc, che risulti, in valore assoluto, normalizzato. Tale indice potrà assumere, dunque, anche valori negativi, ma solo in presenza di dissociazione, e raggiungerà i valori estremi del range [-1,+1] solo se le frequenze all’interno della tabella di massima dipendenza rispetteranno determinate proprietà. Ad esempio, la variabilità tra tali frequenze dovrà risultare minima, se il dominio di riferimento comprende tutte le tabelle con lo stesso totale n di osservazioni.

Layman's description

L’obiettivo di questo progetto è quello di costruire una misura di dipendenza tra variabili categoriali che funzioni bene per tabelle di contingenza quadrate e, più genericamente, per tabelle di dimensione rxc. Tale misura, che presumibilmente sarà funzione delle contingenze, dovrà presentare dei vantaggi rispetto ad altre note misure di dipendenza trattate in letteratura e garantire determinate proprietà. In particolare, un buon indice dovrebbe variare in tutti i punti di una scala da -1 a 0 e da 0 a -1 quando una unità di frequenza si sposta all’interno delle celle della tabella, assumendo valore 0 in caso di indipendenza, valori positivi in caso di associazione positiva e valori negativi in caso di associazione negativa. Tale informazione non è fornita dagli indici basati sull’X2 di Pearson, che al massimo possono variare nel range [0,1], non distinguendo così l’associazione dalla dissociazione. Un buon indice di associazione, inoltre, dovrebbe raggiungere i valori estremi soltanto per quelle tabelle in cui la dipendenza è massima. Gli indici basati sull’X2 di Pearson raggiungono il valore massimo non sempre in tale situazione. Si intende dimostrare, dunque, che le tabelle che risultano realmente di massima dipendenza rappresentano solo un sottoinsieme delle tabelle che risultano di massima dipendenza per gli indici di associazione maggiormente usati in pratica. Dello stesso problema soffrono gli indici di cograduazione, che pur variando nel range [-1,+1] presentano un altro limite: quello di valere 0 non solo in caso di perfetta indipendenza. Tali indici, infatti, risultano nulli anche quando il numero delle osservazioni concordanti risulta pari a quello delle osservazioni discordanti. Un'ulteriore proprietà desiderabile per un buon indice di associazione è l'invarianza per permutazione di righe e colonne della tabella di contingenza in esame: il valore dell’indice considerato non dovrà cambiare, anche se potrà cambiare il suo segno. Individuato l'indice con le proprietà suelencate, l'obiettivo di questo progetto è anche quello di investigare sulla distribuzione di probabilità del nuovo indice, ai fini di trattarne gli aspetti inferenziali.
Nella letteratura statistica sono presenti tre diversi approcci per risolvere problemi riguardanti la misura dell’associazione e di conseguenza risulta diverso il dominio delle tabelle di riferimento degli indici in esame. Il primo approccio considera fissata la distribuzione marginale di un solo carattere. Il secondo approccio considera fissate le distribuzioni marginali di entrambi i caratteri. Infine, l’ultimo approccio non pone nessun vincolo sulle distribuzioni marginali e considera come dominio di riferimento l’insieme di tutte le tabelle aventi lo stesso totale n di osservazioni. Il secondo approccio si basa sulla definizione di classe di Fréchet. Data una tabella di contingenza rxc, tutte le possibili tabelle aventi le stesse distribuzioni marginali costituiscono la classe di Fréchet. E’ necessario sottolineare che:
1) a ciascuna tabella appartenente alla stessa classe di Fréchet è sempre associata la medesima tabella contenente le frequenze teoriche di indipendenza;
2) la tabella di indipendenza non appartiene necessariamente alla classe di Fréchet, anche se ha le stesse distribuzioni marginali, poiché le frequenze teoriche di indipendenza possono non essere numeri interi;
3) la classe di Fréchet fa ovviamente parte dell’insieme delle tabelle con n fissato.
Ai fini di un confronto tra indici, e ai fini di individuare le tabelle in cui la dipendenza è massima, generare tutte le tabelle appartenenti al dominio considerato sarebbe improponibile, poiché il numero delle tabelle cresce al crescere di n, r e c. D’altra parte, sarebbe anche inutile poiché, come è noto, se r è minore di c, le tabelle in cui vi è una perfetta dipendenza unilaterale sono solo quelle che presentano, in
StatoAttivo
Data di inizio/fine effettiva1/1/07 → …

Fingerprint

Esplora i temi di ricerca toccati da questo progetto. Queste etichette sono generate sulla base dei riconoscimenti/sovvenzioni sottostanti. Insieme formano una fingerprint unica.