D2I
Integrazione, Warehousing e Mining di sorgenti eterogenee

Temi
Unità
Unità di ricerca: Università della Calabria
Dipartimento di Elettronica, Informatica e Sistemistica

Programma di Ricerca dell'unità (modello B)


Responsabile Scientifico dell' unità di Ricerca 
Prof. Greco Sergio Dipartimento di Elettronica, Informatica e Sistemistica dell'Universita' degli Studi della Calabria
Tel: +39 - 0984 - 494751
Fax: +39 - 0984 - 494713
E-mail: greco@si.deis.unical.it
Home page: http://wwwinfo.deis.unical.it/info/personale/greco/greco.html


Partecipanti al programma dell' unità di Ricerca

Partecipante Dipartimento/Istituto Qualifica
BUCCAFURRI FRANCESCO INFORMATICA, MATEMATICA, ELETTRONICA E TRASPORTI DELL'UNIV. DI REGGIO CALABRIA Ricercatore
FURFARO FILIPPO ELETTRONICA, INFORMATICA E SISTEMISTICA Dottorando
GRECO GIANLUIGI ELETTRONICA, INFORMATICA E SISTEMISTICA Dottorando
GRECO SERGIO ELETTRONICA, INFORMATICA E SISTEMISTICA Prof. ordinario
IANNI GIOVAMBATTISTA ELETTRONICA, INFORMATICA E SISTEMISTICA Dottorando
LEONE NICOLA MATEMATICA DELL'UNIV. DELLA CALABRIA prof. ordinario
PALOPOLI LUIGI INFORMATICA, MATEMATICA, ELETTRONICA E TRASPORTI DELL'UNIV. DI REGGIO CALABRIA Prof. ordinario
ROSACI DOMENICO INFORMATICA, MATEMATICA, ELETTRONICA E TRASPORTI DELL'UNIV. DI REGGIO CALABRIA Titolare di assegno di ricerca
RULLO PASQUALE MATEMATICA DELL'UNIV. DELLA CALABRIA Prof. ordinario
SACCA' DOMENICO ELETTRONICA, INFORMATICA E SISTEMISTICA Prof. ordinario
SCARCELLO FRANCESCO ELETTRONICA, INFORMATICA E SISTEMISTICA Prof. associato
TERRACINA GIORGIO INFORMATICA, MATEMATICA, ELETTRONICA E TRASPORTI DELL'UNIV. DI REGGIO CALABRIA Dottorando
URSINO DOMENICO INFORMATICA, MATEMATICA, ELETTRONICA E TRASPORTI DELL'UNIV. DI REGGIO CALABRIA Ricercatore


Titolo specifico del programma svolto dall'unitą di ricerca

Modelli e tecniche per l'integrazione, l'interrogazione ed il metaquerying in ambiente data warehouse.



Descrizione del programma e dei compiti dell'Unitą di Ricerca
Le attivitą di ricerca si articolano, all'interno di tutti e tre i temi di ricerca, in quattro fasi, come di seguito specificato.

Fase 1 (durata 4 mesi - dal 1/12/2000 al 31/3/2001)
Analisi dell’esistente/specifiche requisiti
Questa fase sarà dedicata alla definizione dettagliata dei requisiti che il contesto generale del progetto pone sui vari temi di ricerca. In questa fase, in collaborazione con le altre unità, verrà anche specificato il ruolo del repository di meta-dati che fornirà la base comune per le metodologie e gli strumenti che verranno sviluppati nelle fasi successive.
Nel seguito descriviamo il programma di ricerca specifico per i singoli temi.
TEMA 1: INTEGRAZIONE DI DATI PROVENIENTI DA SORGENTI ETEROGENEE.
Nel quadro delle tematiche del Tema 1, l'unita' dell'Universita' della Calabria si propone di generalizzare le tecniche gia' sviluppate all'estrazione di altre tipologie di proprieta' interschema, quali ad esempio le iponimie; si propone inoltre di generalizzare lo studio dell'estrazione di proprietà interschema a sorgenti informative semi-strutturate (dati OEM, documenti XML) che, grazie allo sviluppo del WEB, stanno affermandosi sempre più come le nuove forme di memorizzazione e di scambio delle informazioni. Infine, si propone di affrontare lo studio della traduzione dei dati da un modello di rappresentazione sorgente ad un modello di rappresentazione target. Si propone infine di collaborare alla definizione di un repository di meta-dati che descrive le diverse tipologie di sorgenti e di relazioni intra e interschema. Dopo aver svolto un'analisi approfondita dello stato dell'arte le attivita' della nostra unita' si focalizzeranno sulla generalizzazione delle tecniche da noi sviluppate a nuove tipologie di proprietà interschema; inoltre si studierà la possibilità di individuare delle tecniche per l'estrazione di proprietà interschema da sorgenti informative semi-strutturate. Si darà una definizione preliminare della struttura del meta-data repository per descrivere le diverse tipologie di sorgenti e di relazioni intra ed inter-schema.
TEMA 2: PROGETTAZIONE ED INTERROGAZIONE DI DATA WAREHOUSE.
Nell'ambito di questo tema, la nostra unità di ricerca affronterà il tema dell'interrogazione efficiente in ambiente data warehouse.
Dopo uno studio preliminare dello stato dell'arte sui data warehouse e sulle tecniche di interrogazione efficienti di basi di dati (query containment, query rewriting, ecc.), il primo obiettivo consisterà nella individuazione delle specificità del contesto data warehouse in cui dovranno essere risolti i problemi di efficienza delle interrogazioni. Si tratterà essenzialmente di individuare i metodi di ottimizzazione esistenti più adatti ad essere estesi nel nuovo contesto applicativo.
TEMA 3: DATA MINING.
All'interno delle problematiche di interesse del Tema 3, l'unita' dell'Universita' della Calabria si propone di svolgere uno studio
approfondito sulle sorgenti di intrattabilita' computazionale di alcune varianti del problema del metaquerying al fine di identificare ulteriori casi trattabili che evidenzino un buon interesse applicativo e di progettare, implementare e sperimentare algoritmi per il riconoscimento e la risoluzione di tali casi.
Dopo portato a termine l'analisi approfondita dello stato dell'arte l'unita' dell'Universita' della Calabria si concentrera' sull'individuazione di un insieme di varianti del metaquerying che rivelino un buon interesse applicativo e sullo studio delle sorgenti di intrattabilita' computazionale che caratterizzano tali varianti. Verrà inoltre compiuto uno studio preliminare sulle proprietà computazionali di altri problemi di data mining. La fase si concluderà con l'individuazione delle caratteristiche di un meta-data repository per la descrizione delle attività e dei risultati del data mining.

Fase 2 (durata 8 mesi - dal 1/4/2001 al 30/11/2001)
Produzione dei risultati scientifici: metodi e tecniche.
Questa fase è dedicata alla produzione dei dati scientifici. In questa fase verrà anche definita precisamente la struttura del repository di meta-dati e verrà specificato l'insieme dei servizi che il repository stesso dovrà offrire.
TEMA 1: INTEGRAZIONE DI DATI PROVENIENTI DA SORGENTI ETEROGENEE.
Nella seconda fase, verranno considerati problemi di integrazione che coinvolgono anche sorgenti di dati semi-strutturati e, in questo ambito, verranno progettate delle tecniche opportune per l'estrazione di proprieta' interschema. Si considereranno degli algoritmi per la traduzione dei dati da un modello di rappresentazione sorgente ad un modello di rappresentazione target; infine verranno inserite nel meta-data repository nuove tipologie di meta-relazione e verrà definita la sua architettura funzionale. Infine collaborerà alla definizione di algoritmi per la riscrittura di interrogazioni.
TEMA 2: PROGETTAZIONE E INTERROGAZIONE DI DATA WAREHOUSE.
In questa fase, sulla base dei risultati dell'analisi condotta nella fase precedente, l'Unità UNICAL si propone di sviluppare tecniche innovative di interrogazione in ambiente data warehouse attraverso l'estensione di tecniche preesistenti concepite per basi di dati relazionali. L'idea di base è quella di sfruttare le proprietà strutturali delle interrogazioni e delle viste materializzate per ottenere un'esecuzione ottimizzata. A tal fine si potrebbe sfruttare la proprietà di aciclicità strutturale della query riscritta per guidare il "query rewriting", rendendo in tal modo efficiente la successiva verifica di "query containment". In altri termini, in presenza di più riscritture possibili, vengono preferite quelle che generano interrogazioni con limitata ciclicità. Le informazioni necessarie per l'ottimizzazione (in particolare quelle relative alla descrizione delle viste) saranno estratte dal Meta-Data Repository. Inoltre, le scelte effettuate saranno memorizzate nel Meta-Data Repository per successivi eventuali riutilizzi.
TEMA 3: DATA MINING.
Verranno individuati dei sottocasi trattabili delle varianti di metaquerying individuate durante la prima fase e verranno progettati degli algoritmi efficienti per la loro implementazione. In questa fase si definirà anche la modalità di utilizzazione del meta-data repository al fine di guidare il processo di data-mining.

Fase 3 (durata 8 mesi - dal 1/12/2001 al 31/7/2002)
Produzione di prototipi.
Questa fase è dedicata allo sviluppo di prototipi di strumenti che affianchino e realizzino i metodi e le tecniche definiti nella fase precedente.
All'inizio della fase si prevede un incontro di coordinamento per lo sviluppo del repository di meta-dati, la cui specifica e la cui architettura sono state decise nella fase precedente, e per stabilire il modo in cui i vari prototipi si interfacciano con il repository di meta-dati.
TEMA 1: INTEGRAZIONE DI DATI PROVENIENTI DA SORGENTI ETEROGENEE.
L'unita' dell'Universita' della Calabria si concentrera' sulla progettazione ed
iniziale implementazione di un prototipo, che implementi gli algoritmi per l'estrazione di proprietà interschema, di un prototipo per la traduzione di dati e di un prototipo per gli algoritmi di query rewriting e query answering using views sviluppati nella fase 2.
TEMA 2: PROGETTAZIONE E INTERROGAZIONE DI DATA WAREHOUSE.
Le tecniche prodotte nella seconda fase saranno implementate a livello prototipale. Il prototipo riceverà in input una interrogazione e, sulla base delle informazioni presenti nel Meta-data repository, produrrà un piano di esecuzione che tende a massimizzare l'utilizzo di predicati (viste) materializzati.
TEMA 3: DATA MINING.
L'unita' dell'Universita' della Calabria si focalizzera' sulla progettazione e realizzazione di un prototipo che realizzi l'insieme degli algoritmi per il metaquerying ottenuti nella fase precedente.

Fase 4 (durata 4 mesi - dal 1/8/2002 al 30/11/2002)
Validazione e sperimentazione.
Questa fase è dedicata al completamento della realizzazione dei prototipi, e alla sperimentazione e alla validazione delle metodologie e degli strumenti sviluppati nelle fasi precedenti.
TEMA 1: INTEGRAZIONE DI DATI PROVENIENTI DA SORGENTI ETEROGENEE
In quest'ultima fase la nostra unita' concludera' la realizzazione dei vari prototipi e avviera' una serie di sperimentazioni per verificarne l'efficacia in problemi reali di integrazione.
TEMA 2: PROGETTAZIONE E INTERROGAZIONE DI DATA WAREHOUSE.
Il prototipo sarà validato utilizzando dati significativi dal punto di vista quantitativo in maniera tale da poter verificare l'effettiva bontà degli algoritmi implementati.
TEMA 3: DATA MINING.
In quest'ultima fase la nostra unita' portera' avanti una sperimentazione sul campo con l'obiettivo di verificare l'effettiva applicabilita' delle tecniche realizzate nel prototipo a problemi applicativi reali. A tale scopo il prototipo verra' interfacciato a basi di dati reali pre-esistenti ed i pattern di dati da esso estratti verranno valutati qualitativamente con l'aiuto di uno o piu' esperti dello specifico dominio applicativo analizzato.


Prodotti dell'Unitą di Ricerca
La cifra dopo la D indica il tema di ricerca di riferimento per il prodotto (se è 0 il risultato è comune a tutti i temi). La lettera successiva indica il tipo del documento (sigla R: rapporto tecnico, sigla P: prototipo software). La lista tra parentesi indica le unità coinvolte nella produzione del risultato (BO-Bologna, CS-Cosenza, MI-Milano, MO-Modena, RM-Roma). In grassetto è evidenziata l'unità responsabile per ciascun prodotto.

Al termine della Fase 1 (scadenza il 31 marzo 2001)
I risultati attesi in questa prima fase del progetto sono di tipo rapporto tecnico (sigla R).

D0.R1: Specifiche per il meta-data repository (BO,CS,MI,MO,RM).
D1.R1: Metodi e tecniche di estrazione, rappresentazione ed integrazione di sorgenti strutturate e semistrutturate (BO,CS,MI,MO,RM).
D1.R3: Metodi e tecniche per la traduzione di informazioni da modelli di dati sorgente a modelli di dati target (CS).
D2.R1: Documento sui risultati dell'analisi dello stato dell'arte sulle architetture di data warehouse (BO,CS).
D2.R3: Documento sull'analisi dello stato dell'arte sulle tematiche di interrogazione di sistemi di grandi dimensioni (CS).
D3.R1: Analisi e confronto di metodi ed algoritmi di data mining, con particolare riferimento a clustering, metaquerying, tecniche di visualizzazione, ricerche approssimate e di similarità (BO,CS,RM).

Al termine della Fase 2 (scadenza il 30 novembre 2001)
I risultati attesi in questa fase del progetto sono di tipo rapporto tecnico e sintetizzano i risultati scientifici.

D0.R2: Specifica dell'architettura funzionale del repository di meta-dati (RM,BO,CS,MI,MO).
D1.R7: Architettura funzionale di un ambiente di ausilio al progettista per la costruzione di viste riconciliate di sorgenti fortemente eterogenee basato sulle tecniche sviluppate (CS,MI,MO).
D1.R9: Algoritmi per la traduzione di informazioni da modelli di dati sorgente a modelli di dati target (CS).
D2.R4: Tecniche di progettazione logica e di interrogazione efficiente di data warehouse (BO,CS).
D3.R2: Architettura del sistema integrato di data mining e visualizzazione (RM,BO,CS).
D3.R3: Studio di metodi di mining per clustering, ricerche approssimate e metaquerying (BO,CS).

Al termine della Fase 3 (scadenza il 31 luglio 2002)
I risultati attesi in questa fase sono di tipo prototipo software (sigla P).

D0.P1: Repository di meta-dati (BO,CS,MI,MO,RM).
D1.P2: Prototipo per l'estrazione di proprietà inter-schema (CS).
D1.P6: Prototipo per la traduzione di informazioni da modelli di dati sorgente a modelli di dati target (CS).
D2.P2: Prototipo che implementa le tecniche di ottimizzazione di interrogazioni di data warehouse (CS).
D3.P3: Prototipo per il meta-querying (CS).

Al termine della Fase 4 (scadenza il 30 dicembre 2002)
Il risultato atteso in questa fase è quella della sperimentazione e valutazione dei metodi messi a punto nel progetto. A tale scopo, verrà prodotto, per ogni tema, un rappporto tecnico che sintetizza i risultati ottenuti.

D1.R12: Risultati della sperimentazione delle metodologie e dei prototipi per l'integrazione (BO,CS,MI,MO,RM).
D2.R6: Risultati della sperimentazione condotta con i prototipi sviluppati nella fase 3 per il data warehouse (BO,CS).
D3.R4: Validazione e studio di usabilità dei prototipi di clustering, metaquerying, ricerche approssimate e visualizzazione (BO,CS,RM).

 
 
 
Sito a cura di Domenico Lembo
lembo@dis.uniroma1.it