Metodologie di Intelligenza Artificiale per il trattamento e l'analisi dei dati (etnotesti, parlato, iconografia) appartenenti all'Atlante Linguistico della Sicilia. Interfacce intelligenti per la interrogazione del sistema informativo dell'ALS.

    Progetto: Research project

    Dettagli progetto

    Description

    La ricerca nel campo della linguistica oggi sempre più spesso manifesta la necessità di essere coadiuvata da sistemi informativi a supporto dei processi di gestione dei dati e delle attività di controllo. I risultati scientifici raggiunti nell’ambito della ricerca sull’Atlante Linguistico Siciliano, alla quale questa unità di ricerca collabora sin dal 2003, hanno richiesto infatti l’utilizzo di tecnologie complesse che non possono prescindere dall’ausilio dei moderni strumenti di automazione e di calcolo. Secondo alcuni ricercatori del progetto ALS[1], infatti, l’avvento dell’informatica ed il suo connubio con la linguistica, non solo permette di utilizzare le tecniche moderne per asservirle alle necessità della linguistica, ma di impostare i problemi linguistici secondo una ‘filosofia’ informatica, così da sfruttare tutte le potenzialità fornite dall’uso dell’elaboratore. La tematica della ricerca qui proposta riguarda lo studio e la sperimentazione di metodologie di Intelligenza Artificiale per il trattamento e l'analisi dell’intervista etnodialettale all’interno della omonima sezione dell'Atlante Linguistico della Sicilia. Il sistema informativo dell’ALS (ASLDB), già sviluppato per la sezione sociovariazionale (PRIN 2005) sarà integrato con la progettazione di una sua componente dedicata agli studi etnodialettali, per poter gestire l’intera intervista etnodialettale (etnotesti, parlato, iconografia, e contributi filmici) come nucleo informativo di base. L’architettura del sistema informativo nel suo complesso sarà costruita per il trattamento del dato “parlato” (non soltanto “parola”) e sarà necessariamente multilivello, per rispondere ad interrogazioni sia sul piano linguistico che etnografico.Il contributo che l’unità operativa intende apportare è la definizione e lo sviluppo di metodologie e tecniche che i) consentano la conservazione del dato acquisito sul campo in modo da preservarne le irrinunciabili caratteristiche di polimorfia, varietà e variazione linguistica ed etnografica, ii) rendano più semplice per il ricercatore linguista la consultazione del sistema informativo e lo studio del dato che contiene. Tra gli obbiettivi del progetto riveste ruolo fondamentale la messa a punto di metodologie di interrogazione della base di dati che non prescindano dal dominio linguistico. Il processo di definizione degli obiettivi nasce dalla necessità di definire strumenti “intelligenti” atti ad aumentare le possibilità di esplorazione del contenuto informativo dell’archivio senza essere costretti all’apprendimento di tecniche proprie della ricerca avanzata (data mining, linguaggi di interrogazione di basi di dati) che esulano dalle specificità del ricercatore linguista che ha elevate competenze sul dominio trattato. L’utilizzo di strumenti tecnologici deve servire da volano nel processo di ricerca e nel campo della prova degli obiettivi della ricerca.In particolare l’obiettivo complessivo si articola in cinque fasi parallele:1. Progettazione e realizzazione della sezione etnodialettale del sistema informativo dell’ALS2. Rappresentazione della conoscenza basata su ontologie relative all’ALS;3. Studio e messa a punto di tecniche sub-simboliche per il recupero delle informazioni, l’induzione automatica di spazi concettuali e rappresentazioni di frasi in linguaggio naturale;4. Realizzazione di interfacce “intelligenti” attraverso menu contestuali e/o agenti conversazionali;5. Sviluppo di metodologie di cartografia digitale basate su sistemi informativi geografici.Il sistema da realizzare è un’applicazione multi-livello nella quale l’interfa

    Layman's description

    Il contributo che l’unità operativa intende apportare è la definizione e lo sviluppo di metodologie e tecniche che i) consentano la conservazione del dato acquisito sul campo in modo da preservarne le irrinunciabili caratteristiche di polimorfia, varietà e variazione linguistica ed etnografica, ii) rendano più semplice per il ricercatore linguista la consultazione del sistema informativo e lo studio del dato che contiene.In particolare il programma di ricerca si articola in cinque fasi parallele, dettagliate nel prosieguo della sezione:1. Progettazione e realizzazione della sezione etnodialettale del sistema informativo dell’ALS2. Rappresentazione della conoscenza basata su ontologie [2] relative all’ALS;3. Studio e messa a punto di tecniche sub-simboliche per il recupero delle informazioni, l’induzione automatica di spazi concettuali e rappresentazioni di frasi in linguaggio naturale;4. Realizzazione di interfacce “intelligenti” attraverso menu contestuali e/o agenti conversazionali;5. Sviluppo di metodologie di cartografia digitale basate su sistemi informativi geografici.1. Progettazione e realizzazione della sezione etnodialettale del sistema informativo dell’ALSQuesta fase prevede la progettazione e realizzazione della sezione etnodialettale del sistema informativo dell’ALS. L’intero testo dell’intervista, sia in forma sonora che in trascrizione integrale (normalizzata e fono-ortografica; mentre la trascrizione fonetica sarà riservata soltanto ai contesti, ma a tutti i contesti, linguisticamente pregnanti e destinati alla cartografazione) sarà archiviato ed etichettato su diversi livelli sia linguistici che etnografici. Verrà allo scopo definito uno schema XML descrittivo della architettura di marcature che intende utilizzare, a partire dagli schemi già definiti per la sezione sociovariazionale in ALSML (cfr. fase 5 di seguito). Una prima ipotesi di popolazione prevede l’acquisizione di dati, linguistici e etnografici, pregressi – reperiti dallo spoglio di opere diatopicamente orientate (in particolar modo dal Vocabolario siciliano di G. Piccitto, dall’AIS e dall’ALI, ma anche da altre diverse fonti nelle quali sia inequivocabile la relazione con lo specifico punto linguistico) – e la loro correlazione con informazioni raccolte sul campo, soprattutto in funzione di una loro valutazione diacronica. Irrinunciabile, in questa sezione dell’ALS, è ovviamente anche la correlazione con documenti iconografici (disegni e fotografie, sia reperiti dallo spoglio che rilevati sul campo) e filmici, che saranno archiviati e opportunamente annotati all’interno dell’ALSDB.Il sistema di annotazione dell’intero testo dell’intervista consentirà di svolgere indagini su diversi ordini di varianti linguistiche (con indici di frequenza, e dunque con informazioni di tipo quantitativo, desunti automaticamente), correlate alle caratteristiche degli informatori coinvolti e al tipo di stimolo relativo a ogni risposta. I risultati dell’indagine potranno essere espressi sia in distribuzione spaziale (per esempio nella forma di carte geoetnolinguistiche, attraverso la componente ALSGIS oggetto della fase 5) che in liste ordinate, utilizzabili soprattutto nella prospettiva della redazione di Lessici modulari (per esempio, lessico dei giochi fanciulleschi, lessico della cultura alimentare, lessico agro-pastorale, ecc.) e/o settoriali (per esempio, Lessico del pane, ecc.) o di Lessici (sub-)areali (per esempio, lessico delle Madonie, ecc).Il dato sonoro archiviato e indicizzato sulla base del testo trascritto. Sarà quindi possibile il suo recupero (totale o parzia

    Key findings

    Tecnologie dell'Informazione e delle Comunicazioni (ICT)
    StatoFinito
    Data di inizio/fine effettiva9/22/0810/21/10