D2I
Integrazione, Warehousing e Mining di sorgenti eterogenee

Temi
Unità
Unità di ricerca: Università di Roma "La Sapienza"
Dipartimento di Informatica e Sistemistica

Programma di Ricerca dell'unità (modello B)


Responsabile Scientifico dell' unità di Ricerca 
Prof. Maurizio Lenzerini Dipartimento di Informatica e Sistemistica Universita' degli Studi di Roma "La Sapienza"
Via Salaria 113, I-00198 Roma, Italy
Tel: +39 - 06 - 8841954
Fax: +39 - 06 - 85300849
E-mail: lenzerini@dis.uniroma1.it
Home page: http://www.dis.uniroma1.it/~lenzerini


Partecipanti al programma dell' unità di Ricerca

Partecipante Dipartimento/Istituto Qualifica
CALI' ANDREA INFORMATICA E SISTEMISTICA Dottorando
CADOLI MARCO INFORMATICA E SISTEMISTICA Prof. associato
CATARCI TIZIANA INFORMATICA E SISTEMISTICA Prof. ordinario
CALVANESE DIEGO INFORMATICA E SISTEMISTICA Ricercatore
DE GIACOMO GIUSEPPE INFORMATICA E SISTEMISTICA Ricercatore
LEMBO DOMENICO INFORMATICA E SISTEMISTICA Dottorando
LENZERINI MAURIZIO INFORMATICA E SISTEMISTICA Prof. ordinario
SALZA SILVIO INFORMATICA E SISTEMISTICA Prof. associato


Titolo specifico del programma svolto dall'unità di ricerca

Viste integrate di dati provenienti da sorgenti eterogenee: metodi e strumenti per la modellazione, l'interrogazione e la visualizzazione


Descrizione del programma e dei compiti dell'Unità di Ricerca
La descrizione verra' fornita relativamente ai due temi del progetto nei quali l'unita` di Roma e` coinvolta: integrazione e data mining, e relativamente alla costruzione del repository di meta-dati. Nell'ambito dei singoli temi, si fara' riferimento alle 4 fasi del progetto.
Relativamente alle attivita` che riguardano il repository di meta-dati, l'unita` di Roma coordinera` il lavoro svolto in stretta collaborazione tra tutte le unita`. La prima fase prevede la definizione dei metodi di rappresentazione e di gestione dei meta-dati necessari per produrre le specifiche per il repository, che fornira` la base comune per le metodologie e gli strumenti che verranno sviluppati nell'ambito del progetto. Il prodotto di questa prima fase sara` un rapporto tecnico, prodotto in collaborazione con le altre unita`, contenente le specifiche per il repository di meta-dati (D0.R1). Nella seconda fase verra' definita precisamente la struttura del repository di meta-dati, e verra' specificato l'insieme dei servizi che il repository stesso dovra' offrire. Il prodotto di questa seconda fase sara` un rapporto tecnico, prodotto in collaborazione con le altre unita`, contenente la specifica dell'architettura funzionale del repository di meta-dati (D0.R2). La terza fase prevede la realizzazione delle varie funzionalita` del repository di meta dati, sotto la guida dell'unita` di Roma. Il prodotto di questa fase e` il repository di meta-dati (D0.P1), realizzato in collaborazione da tutte le unita`. La quarta fase prevede un utilizzo del repository di meta-dati nella sperimentazione degli strumenti sviluppati nelle fasi precedenti. Per questa fase non e` previsto un prodotto specifico per l'attivita` che riguarda il repository.
Relativamente al tema dell'integrazione, l'unita' di Roma prevede nella prima fase di studiare e analizzare i nuovi requisiti che emergono sulla integrazione di dati quando si considerano sorgenti fortemente eterogenee, cioè sorgenti strutturate (es: basi di dati) e semistrutturate (es: documenti HTML e XML). Le problematiche tipiche di integrazione verranno indagate nell'ambito di questo nuovo contesto. Verranno studiati i requisiti per nuovi metodi di rappresentazione dei dati, tenendo conto della presenza di sorgenti semistrutturate. Verranno confrontati i modelli per dati semistrutturati proposti in letteratura, allo scopo di caratterizzarne il potere espressivo. Verranno indagati metodi per definire e specificare parametri di qualità delle sorgenti (affidabilità, completezza, ridondanza, accuratezza, ecc.) e i metodi per la riconciliazione di dati provenienti da sorgenti eterogenee. Si analizzeranno i metodi esistenti per il problema del query rewriting e del query answering using views. Il prodotto di questa prima fase saranno un rapporto tecnico su metodi e tecniche di estrazione, rappresentazione ed integrazione di sorgenti strutturate e semistrutturate, prodotto in collaborazione con le altre unita` (D1.R1), ed un rapporto tecnico contenente una rassegna sui metodi per il query rewriting e il query answering using views (D1.R5).
Nella seconda fase si svilupperanno le tecniche intelligenti di tipo semi-automatico per l'identificazione e la riconciliazione di eterogeneità basate sulle proprietà dei dati, che saranno parte integrante della metodologia per la costruzione di viste riconciliate di dati semi-strutturati provenienti da sorgenti eterogenee, sviluppata in collaborazione con le altre unita`. Verranno inoltre definiti algoritmi per la riscrittura di interrogazioni rispetto ad un insieme di viste (query rewriting e query answering using views), estendendo, modificando e adattando gli approcci attuali tenendo conto della esistenza di sorgenti semistrutturate. Il prodotto di questa fase sara` un rapporto tecnico su metodologia e strumenti per la riconciliazione dei dati (D1.R11).
Nella terza fase, che prevede la realizzazione di prototipi che implementino le funzioni enucleate dai risultati scientifici prodotti nella fase precedente, si realizzera` un prototipo per gli algoritmi di query rewriting e query answering using views sviluppati nella fase 2 e per la riconciliazione dei dati (D1.P3). Particolare cura verra` dedicata alla integrabilita` del prototipo con gli ambienti e gli strumenti definiti e progettati dalle altre unita`; in particolare l'ambiente di supporto alla costruzione di una vista globale (Unita` di Modena), lo strumento di estrazione di proprietà inter-schema (Unita` della Calabria) e il Query Manager per la gestione di query globali (Unita` di Modena). A questo proposito, il repository comune di meta-dati rappresenta un elemento fondamentale nell'architettura globale del sistema di integrazione, in quanto permette un facile scambio e riutilizzo di tutti i metadati prodotti e utilizzati dai diversi strumenti.
Nella quarta fase verra` completata la realizzazione del prototipo per gli algoritmi di query rewriting e query answering using views e per la riconciliazione dei dati, e la sua integrazione con gli altri strumenti. Verranno sperimentate e validate le metodologie e gli strumenti per la riconciliazione dei dati sviluppati nelle fasi precedenti, utilizzando le sorgenti Telecom. Il prodotto della quarta fase sara` un rapporto tecnico sui risultati della sperimentazione delle metodologie e dei prototipi per l'integrazione, prodotto in collaborazione con le altre unita` (D1.R12).
Relativamente al tema del data mining, l'obiettivo dell'unita' di Roma consiste nella realizzazione di un prototipo di sistema di data mining di nuova generazione, che sia "user-centered" ed in cui tecniche e strumenti di data mining esistenti siano integrati con nuove componenti che mirano a fornire un supporto sostanziale all'utente in tutte le fasi della scoperta di informazioni. Caratteristiche distintive del sistema saranno non soltanto la possibilita' di integrare sistemi diversi in un ambiente integrato ed orientato all'utente, ma anche la capacita' di fornire nuove soluzioni sia ad alcuni dei problemi aperti esistenti sia nelle singole tecniche di data mining, sia a quelli derivanti dalla integrazione di tecniche diverse in un unico ambiente. Preliminare alla definizione del sistema sara' uno studio teorico che sistematizzi e formalizzi il rapporto esistente tra le varie modalita' di visualizzazione dei dati e le varie attivita ' di scoperta di informazioni. Il sistema dovra' avere le seguenti caratteristiche fondamentali:
1. fornire varie modalita' di visualizzazione atte a trasmettere efficacemente proprieta' rilevanti dei dati;
2. fornire varie strategie di ausilio per permettere all'utente di formulare facilmente un piano per la scoperta di informazioni nascoste;
3. fornire primitive per la creazione semi-automatica di nuove visualizzazioni ad-hoc, a seconda del tipo dei dati e degli obiettivi dell'utente;
4. essere adattabile ai vari tipi di utenti, offrendo automaticamente le modalita' di visualizzazione e strategie di ricerca piu' appropriate;
5. essere flessibile e capace di integrare sistemi e tecniche esistenti in un ambiente omogeneo.
Il sistema, nel corso del suo sviluppo, sara' validato tramite la stretta interazione con gruppi di potenziali utenti quali la Telecom Italia. L'architettura del sistema conterra' tre tipi di componenti fondamentali, organizzate in diversi "strati":
1. componenti per la visualizzazione dell'informazione (che implementino diverse metafore visuali e tecniche per il mining visuale);
2. componenti per il "knowledge discovery" (che implementino piu' tecniche diverse per la scoperta di informazioni); e,
3. componenti per la gestione dei dati (che forniscano le strutture multidimensionali necessarie per memorizzare e manipolare i dati).
I primi due insiemi di componenti lavoreranno in stretta connessione, come agenti cooperanti all'ottenimento di un obiettivo comune, cioe' la scoperta di informazioni. Per esempio, una prima analisi visuale dei dati potrebbe evidenziare una zona particolare da studiare con tecniche specifiche di knowledge discovery, il risultato prodotto potrebbe essere poi di nuovo visualizzato, e cosi' via. Il terzo strato del sistema (cioe' lo strato addetto alla gestione dei dati) agira' invece come server per gli altri due. In ogni caso, l'utente potra' accedere a tutte le componenti tramite un'interfaccia amichevole ed adattiva (che si adatti, cioe', ai vari tipi di utente) e guidare l'intero processo. Specifici risultati del progetto riguarderanno:
a) un modello di formalizzazione delle rappresentazioni visuali e del loro legame (in termini di efficacia) con dati, utenti e compiti;
b) tecniche di proiezione di spazi multidimensioni su spazi due-tre dimensionali allo scopo di evidenziare caratteristiche di ripetitivita' nei dati;
c) nuove strutture di dati che possano velocizzare i cambiamenti nella visualizzazione derivanti da azioni dell'utente (raggiungendo cosi' una interattivita' "near-real-time");
d) nuove visualizzazioni atte a rappresentare grandi insiemi di dati.
Nella prima fase, sistemi ed approcci esistenti verranno confrontati sulla base di un insieme di casi reali di applicazione, allo scopo di scoprirne da una parte le mancanze da superare, e, dall'altra, le caratteristiche positive da mantenere. I risultati di questi confronti verranno riportati in un rapporto tecnico prodotto in collaborazione con le unita` di Bologna e della Calabria, che costituira` il prodotto della prima fase (D3.R1).
Questa fase fornira' inoltre gli input alla seconda fase, riguardante sia la definizione dell'architettura del sistema, sia un insieme di risultati teorici su alcuni dei problemi centrali evidenziati. L'unita` di Roma si concentrera` in particolare sugli aspetti del sistema legati alla visualizzazione. Il prodotto della seconda fase sara` un rapporto tecnico prodotto in collaborazione con le unita` di Bologna e della Calabria (D3.R1) sull'architettura del sistema integrato di data mining e visualizzazione (D3.R2).
La terza fase e quarta fase saranno incentrate sullo sviluppo (D3.P4) e sul test del sistema, seguendo il modello iterativo di progetto tipico delle metodologie user-centered.
Parallelamente alla verifica tecnica del corretto funzionamento dei moduli software sviluppati verra' attivata, la produzione e la esecuzione di un ben definito insieme di test di usabilita', che si concentreranno soprattutto sui meccanismi di interazione offerti all'utente finale e sulle modalita' di visualizzazione disponibili per il modulo di data mining. Si prevede, pertanto, di procedere nella implementazione della interfaccia utente utilizzando un modello del ciclo di vita a spirale in cui siano prodotte almeno due versioni dell'interfaccia, la prima da utilizzarsi per i test di usabilita', la seconda da ottenersi come raffinamento della prima tramite le indicazioni emerse dai test stessi. Infatti, mentre nelle fasi alte del ciclo di sviluppo il confronto tra progettista ed utente deve cercare di produrre feedback utili al disegno della soluzione migliore, più avanti, quando è disponibile un prototipo sufficientemente realistico del risultato finale, è possibile valutare in che misura sono raggiunti gli obiettivi dell'utente e della organizzazione. Le tecniche di valutazione sono moltissime: la loro scelta dipende dai vincoli di tempo ed economici del progetto. Relativamente a questo aspetto, appare evidente che i tempi e le risorse del progetto non permettono di procedere in questa fase usando un approccio completo, che comprenda valutazioni empiriche e valutazioni analitiche. Il prodotto di questa quarta fase sara` un rapporto tecnico sulla validazione e lo studio di usabilita` dei prototipi di clustering, metaquerying, ricerche approssimate e visualizzazione, prodotto in collaborazione con le unita` di Bologna e della Calabria (D3.R4).

Prodotti dell'Unità di Ricerca
La cifra dopo la D indica il tema di ricerca di riferimento per il prodotto (se è 0 il risultato è comune a tutti i temi). La lettera successiva indica il tipo del documento (sigla R: rapporto tecnico, sigla P: prototipo software). La lista tra parentesi indica le unità coinvolte nella produzione del risultato (BO-Bologna, CS-Cosenza, MI-Milano, MO-Modena, RM-Roma). In grassetto è evidenziata l'unità responsabile per ciascun prodotto.

Al termine della Fase 1 (scadenza il 31 marzo 2001)
D0.R1: Specifiche per il meta-data repository (RM,BO,CS,MI,MO).
D1.R1: Metodi e tecniche di estrazione, rappresentazione ed integrazione di sorgenti strutturate e semistrutturate (CS,BO,MI,MO,RM).
D1.R5: Rassegna su metodi per query rewriting e il query answering using views (RM).
D3.R1: Analisi e confronto di metodi e algoritmi di data mining, con particolare riferimento a clustering, metaquerying, tecniche di visualizzazione, ricerche approssimate e di similarità (BO,CS,RM).

Al termine della Fase 2 (scadenza il 30 novembre 2001)
D0.R2: Specifica della architettura funzionale del repository di meta-dati (RM,BO,CS,MI,MO).
D1.R11: Descrizione della metodologia e degli strumenti per la riconciliazione dei dati (RM).
D3.R2: Architettura del sistema integrato di data mining e visualizzazione (RM,BO,CS).

Al termine della Fase 3 (scadenza il 31 luglio 2002)
D0.P1: Repository di Meta-dati (BO,CS,MI,MO,RM)
D1.P3: Prototipo per query rewriting e query answering using views e per la riconciliazione dei dati (RM).
D3.P4: Sistema integrato di data mining e visualizzazione (RM).

Al termine della Fase 4 (scadenza il 30 dicembre 2002)
D1.R12: Risultati della sperimentazione delle metodologie e dei prototipi per l'integrazione (BO,CS,MI,MO,RM)
D3.R4: Validazione e studio di usabilita' dei prototipi di clustering, metaquerying, ricerche approssimate e visualizzazione (BO,CS,RM)

 
 
 
Sito a cura di Domenico Lembo
lembo@dis.uniroma1.it