D2I
Integrazione, Warehousing e Mining di sorgenti eterogenee

Temi
Unità
Unità di ricerca: Università di Modena e Reggio Emilia
Dipartimento di Scienze dell'Ingegneria

Programma di Ricerca dell'unità (modello B)


Responsabile Scientifico dell' unità di Ricerca 
Prof. Sonia Bergamaschi Dipartimento di Scienze dell'Ingegneria Universita' degli Studi di Modena e Reggio Emilia
via Vignolese, 905 - 41100 Modena Italy
Tel: +39 - 059 - 2056132
Fax: +39 - 059 - 2056126
E-mail: sonia.bergamaschi@unimo.it
Home page: http://www.dbgroup.unimo.it/Bergamaschi.html


Partecipanti al programma dell' unità di Ricerca 

Partecipante Dipartimento/Istituto Qualifica
BENETTI ILARIO SCIENZE DELL'INGEGNERIA Dottorando
BENEVENTANO DOMENICO SCIENZE DELL'INGEGNERIA Prof. associato
BERGAMASCHI SONIA SCIENZE DELL'INGEGNERIA Prof. ordinario
CORNI ALBERTO ELETTRONICA, INFORMATICA E SISTEMISTICA DELL'UNIV. DI BOLOGNA Dottore di Ricerca
GUERRA FRANCESCO SCIENZE DELL'INGEGNERIA Dottorando
MANDREOLI FEDERICA SCIENZE DELL'INGEGNERIA Titolare di assegno di ricerca
PAZZI LUCA SCIENZE DELL'INGEGNERIA Ricercatore
TIBERIO PAOLO SCIENZE DELL'INGEGNERIA Prof. ordinario
VINCINI MAURIZIO SCIENZE DELL'INGEGNERIA Ricercatore


Titolo specifico del programma svolto dall'unità di ricerca

Integrazione ed Interrogazione di Sorgenti Eterogenee Strutturate e Semistrutturate



Descrizione del programma e dei compiti dell'unità di ricerca
L'attività di ricerca avrà come obiettivo la continuazione ed evoluzione del progetto MOMIS e verrà svolta in stretta collaborazione con tutte le altre unità. La ricerca si articolerà in 4 fasi.

Fase 1 (durata 4 mesi - dal 1/12/2000 al 31/3/2001)
- Definizione dei requisiti di integrazione per dati provenienti da sorgenti semistrutturate (quali sorgenti contenenti documenti HTML, XML, file testuali).
- Definizione delle possibili estensioni al modello di integrazione per sorgenti strutturate, sviluppato nel sistema MOMIS nell'ambito del progetto MURST INTERDATA, per:
1. Integrare dati provenienti anche da sorgenti semistrutturate
2. Utilizzare ontologie di dominio e top-level
3. Utilizzare conoscenza estensionale inter-schema
(1. Integrare dati provenienti anche da sorgenti semistrutturate)
In letteratura sono stati proposti diversi modelli per "dare struttura" ai dati semistrutturati. La nostra scelta relativamente ai dati semistrutturati sarà quella di utilizzare per la loro rappresentazione "object patterns" (che hanno caratteristiche simili alla modellazione di oggetti Object Oriented). Per rappresentare le informazioni estratte dalle sorgenti da integrare verrà utilizzato ed esteso un linguaggio object-oriented, denominato ODLI3, derivato dallo standard ODMG ed introdotto nel sistema MOMIS.
(2. Utilizzare ontologie di dominio e top-level)
L'approccio che si intende adottare è quello di utilizzare sistemi lessicali che prevedono l'esistenza di relazioni terminologiche tra termini definite a priori. Tra questi, il pricipale sistema è sicuramente Wordnet, un database lessicale elettronico considerato la più importante risorsa disponibile nei campi della linguistica computazionale, dell'analisi testuale, e nelle altre aree associate. WORDNET è stato sviluppato dal Cognitive science Laboratory alla Princeton University, sotto la direzione del Professor George A. Miller (http://www.cogsci.princeton.edu/~wn/).
WordNet è un sistema di riferimento, disponibile on-line, la cui architettura è ispirata alle attuali teorie psicolinguistiche legate alla memoria lessicale umana. Sostantivi, verbi, aggettivi e avverbi della lingua inglese vengono organizzati in insiemi di sinonimi (synset), ognuno dei quali rappresenta un determinato concetto lessicale. Vari tipi di relazioni collegano fra loro i synset. Il punto di partenza della semantica lessicale è il riconoscimento che esiste una associazione convenzionale fra la forma delle parole (il modo in cui, cioè, vengono pronunciate e scritte) e i concetti che esse esprimono; tale associazione è di tipo molti-a-molti, dando luogo alle proprietà di "Polisemia" (proprietà di una stessa parola di avere due o più significati) e "Sinonimia" (proprietà di un significato di avere due o più parole in grado di esprimerlo). Da WordNet si possono ricavare le seguenti relazioni tra synset:
- Sinonimia;
- Iponimia: un concetto è iponimo di un altro quando lo specializza, cioè esiste un rapporto di tipo ISA. (La relazione duale è l'ipernimia);
- Meronimia: relazione semantica che si esprime fra due concetti x e y quando x "is a part of" y. (la relazione duale è l'olonomia);
- Correlazione: è la relazione che lega 2 synset che condividono uno stesso ipernimo.
Inoltre, grazie ad una collaborazione con l'IRST (Istituto per la Ricerca Scientifica e Tecnologica) di Trento, verrà utilizzato anche il sistema multilingua chiamato EuroWordNet.
L'idea e` di presentare ogni relazione individuata da WordNet al progettista dell'integrazione che la può confermare come relazione "intensionale" da aggiungere al "Common Thesaurus".
3. Utilizzare conoscenza estensionale inter-schema.
L'approccio che si intende adottare, nell'ambito del sistema MOMIS si basa sulla teoria della "formal context analisys" che, come descritto in [Carpineto 93], è volta alla generazione di una gerarchia di ereditarietà in cui viene rappresentata la conoscenza fattuale disponibile, nell'insieme di schemi locali, su di un determinato aspetto della realtà.
Gli elementi che caratterizzano questo approccio teorico riguardano la definizione di assiomi estensionali.
Tali assiomi descrivono le relazioni insiemistiche esistenti tra le estensioni delle classi di oggetti presenti nelle sorgenti, in particolare, date due classi A e B sono individuabili quattro tipi di situazioni:
1) disgiunzione, 2) equivalenza, 3) inclusione e 4) sovrapposizione.
La presenza di un insieme consistente e corretto di assiomi costituisce un notevole elemento di conoscenza per l'attività di integrazione di dati di diverse sorgenti. D'altro canto, la loro definizione è a carico del progettista dell'integrazione e solo in parte può essere automatizzata, pertanto, diviene fondamentale disporre di strumenti che aiutino il designer nella fase di specifica di tali assiomi e che derivino automaticamente le conseguenze logiche indotte da tale assiomi.
Il metodo che si intende seguire per sfruttare la conoscenza estensionale ha come premessa l'individuazione delle "base extension", proposte recentemente in letteratura in [Schmitt 98a, Schmitt 98b]. L'uso delle base extension, assieme alle tecniche di logica descrittiva, permetterà di ottenere risultati notevoli nell'ottimizzazione di interrogazioni multi-sorgente.
Inoltre, si contribuirà ad una definizione preliminare della struttura del meta-data repository per descrivere le diverse tipologie di sorgenti e di relazioni intra ed inter-schema.

Fase 2 (durata 8 mesi - dal 1/4/2001 al 30/11/2001)
L'obiettivo della fase è la produzione di risultati scientifici che definiscano nel loro complesso un quadro metodologico per l'integrazione di dati provenienti da sorgenti fortemente eterogenee. La metodologia sarà basata su tecniche intelligenti di tipo semi-automatico per l'identificazione e riconciliazione di eterogeneità basate sulle proprietà dei dati, sulla estrazione semi-automatica di proprietà interschema, e su conoscenza di ontologie di dominio. I risultati forniti includeranno la specifica funzionale/architetturale di un prototipo che implementa tale metodologia. In particolare verranno definite le specifiche funzionali di un ambiente di integrazione degli schemi locali, che, partendo dalle descrizioni delle sorgenti espresse in ODLI3, generi un unico schema globale ("Vista Virtuale Globale" delle sorgenti integrate).
Le principali funzionalità che dovranno essere fornite da tale ambiente sono le seguenti:
- possibilità di attivare "wrappers" per interagire con le sorgenti da integrare (in collaborazione con l'unità della Calabria);
- un'interfaccia grafica che guidi il progettista durante tutti i passi di integrazione degli schemi: acquisizione delle sorgenti, dichiarazione di relazioni intensionali (permettendo anche la integrazione con il sistema WordNet) dichiarazione di relazioni estensionali, clustering (in collaborazione con l'unità di Milano).
L'ambiente dovrà interagire con gli altri componenti del sistema MOMIS, quali ODB-Tools (per la validazione dello schema e l'inferenza di nuove relazioni), ARTEMIS (per il calcolo delle affinità tra classi utile nella fase di clustering) e WordNet.
Inoltre verranno definite le specifiche funzionali di un "Query Manager" (QM) che supporti query (globali) rispetto ad una "Vista Virtuale Globale" delle sorgenti integrate.
QM dovrà decomporre una query globale in sub-query relative alle sorgenti, estendendo tecniche sviluppate nell'ambito di sistemi distribuiti di Basi di Dati, ed ottimizzarne l'esecuzione utilizzando tecniche di logica descrittiva per l'ottimizzazione semantica di query.
Come già descritto nella base di partenza scientifica, MOMIS gestisce una pluralità di sorgenti distribuite ed eterogenee adottando un approccio "virtuale", che quindi non prevede la replicazione dei dati nel Mediatore.
Ciò significa che sarà il QM a gestire, per ogni interrogazione, la rappresentazione globale ottenuta mediante le fasi di integrazione intensionale ed estensionale al fine di materializzare presso l'utente le entità che popolano questa vista virtuale e che costituiscono la risposta cercata. Tale risposta prodotta dovrà rispondere ad esigenze di correttezza e completezza, in modo da recuperare tutti e soli gli oggetti del dominio applicativo che godono delle proprietà richieste soddisfando le condizioni imposte, e dovrà anche garantire la minimalità.
Uno degli aspetti più innovativi del QM consisterà nell'impiego di componenti intelligenti che realizzino, sia sulla query globale sia su quelle locali, passi di ottimizzazione semantica capaci di ridurre il numero di sorgenti a cui è necessario accedere ed il volume di dati ritornati.
Le fasi che caratterizzeranno il processo di gestione delle interrogazioni di QM saranno pertanto:
- ottimizzazione semantica globale: sfruttando le informazioni semantiche presenti a livello di schema globale, ed eventuali regole di integrità intensionali ed assiomi estensionali definiti dal progettista, verrà realizzata un'ottimizzazione semantica delle interrogazioni poste dall'utente;
- decomposizione della query globale in query locali. Questa fase verrà svolta analizzando la query ed utilizzando il lattice di concetti prodotto dalla conoscenza estensionale;
- individuazione delle sorgenti coinvolte: analizzando la query verranno individuate le classi globali coinvolte e per ognuna di esse si determinerà a quali classi sorgenti si deve accedere;
- generazione delle query locali: sfruttando le regole di mapping tra rappresentazione globale e schemi locali verrà prodotto un insieme di sottoquery direttamente eseguibili sulle sorgenti;
- ottimizzazione semantica locale: una volta generate le subquery per ogni sorgente, si può pensare di sfruttare la presenza di vincoli di integrità sugli schemi delle sorgenti, unitamente alle capacità di ODB-Tools, per ridurre ulteriormente il costo di accesso ai dati. Questa opportunità potrà essere sfruttata purchè siano rappresentate a livello di Mediatore le conoscenze semantiche relative agli schemi locali;
- composizione della risposta: i dati reperiti dalle sottoquery dovranno essere combinati per generare la risposta all'interrogazione posta sullo schema globale.

Fase 3 (durata 8 mesi - dal 1/12/2001 al 31/7/2002)
L'obiettivo di questa fase è la realizzazione di un insieme di prototipi che realizzino le funzioni enucleate dai risultati scientifici prodotti nella fase precedente. Il contributo di questa Unità di Ricerca sarà:
a) lo sviluppo di un prototipo di ambiente di ausilio al progettista per la costruzione di una vista globale basato su ontologie e assiomi inter-schema ;
b) lo sviluppo di un prototipo di query manager per la gestione di query globali .
Particolare cura verrà dedicata alla realizzazione modulare dei prototipi, al fine di preservare la loro coerenza e integrabilità complessiva. A questo proposito, verrà realizzato l'interfacciamento tra il sistema di ausilio alla integrazione, il query manager ed il prototipo per query rewriting e query answering tramite viste (sviluppato dall'Unità di Ricerca di Roma).

Fase 4 (durata 4 mesi - dal 1/8/2002 al 30/11/2002)
L'obiettivo di questa fase è quello di completare la realizzazione e l'integrazione dei prototipi sviluppati nelle fasi precedenti e di condurre opportuni esperimenti per verificarne l'efficacia in problemi reali d'integrazione. In particolare, la sperimentazione verrà condotta facendo riferimento alle sorgenti informative messe a disposizione da TELECOM Italia - Divisione di Data Administration, Data Warehouse, Data Mining. In collaborazione con l'Unità di Ricerca di Roma, verrà completato l'interfacciamento tra il sistema di ausilio alla integrazione, il query manager ed il prototipo per query rewriting e query answering tramite viste.


Prodotti dell'Unità di Ricerca
La cifra dopo la D indica il tema di ricerca di riferimento per il prodotto (se è 0 il risultato è comune a tutti i temi). La lettera successiva indica il tipo del documento (sigla R: rapporto tecnico, sigla P: prototipo software). La lista tra parentesi indica le unità coinvolte nella produzione del risultato (BO-Bologna, CS-Cosenza, MI-Milano, MO-Modena, RM-Roma). In grassetto è evidenziata l'unità responsabile per ciascun prodotto.

Al termine della Fase 1 (scadenza il 31 marzo 2001)
I prodotti attesi in questa fase del progetto sono di tipo rapporto tecnico (sigla R).

D0.R1: Specifiche per il meta-data repository (RM,BO,CS,MI,MO).
D1.R1: Metodi e tecniche di estrazione, rappresentazione ed integrazione di sorgenti strutturate e semi-strutturate. (CS,RM,BO,MI,MO)
D1.R2: Utilizzo di ontologie e proprietà inter-schema di tipo estensionale (MO,MI)

Al termine della Fase 2 (scadenza il 30 novembre 2001)
I prodotti attesi in questa fase del progetto sono di tipo rapporto tecnico e sintetizzano i risultati scientifici.

D0.R2: Specifica della architettura funzionale del repository di meta-dati (RM,BO,CS,MI,MO).
D1.R6: Descrizione della metodologia di integrazione di sorgenti fortemente eterogenee (MI,BO,MO).
D1.R7: Architettura funzionale di un ambiente di ausilio al progettista per la costruzione di viste riconciliate di sorgenti fortemente eterogenee basato sulle tecniche sviluppate (CS,MI,MO).
D1.R8: Specifiche funzionali del Query Manager (MO).

Al termine della Fase 3 (scadenza il 31 luglio 2002)
I prodotti di questa fase del progetto sono di tipo prototipo sofware (sigla P).

D0.P1: Repository di Meta-dati (BO,CS,MI,MO,RM).
D1.P1: Prototipo di ambiente di ausilio al progettista per la costruzione di una vista globale basato su ontologie e assiomi inter-schema (MO).
D1.P5: Prototipo di un query manager per la gestione di query globali (MO).

Al termine della Fase 4 (scadenza il 30 dicembre 2002)
Il risultato atteso in questa fase è quello della sperimentazione e valutazione dei metodi messi a punto nel progetto; a tale scopo verrà prodotto un rapporto tecnico che sintetizza tale risultato.

D1.R12: Risultati della sperimentazione delle metodologie e dei prototipi per l'integrazione (BO,CS,MI,MO,RM)

 
 
 
Sito a cura di Domenico Lembo
lembo@dis.uniroma1.it