MINISTERO DELL'UNIVERSITÀ E DELLA RICERCA SCIENTIFICA E TE CNOLOGICA
DIPARTIMENTO AFFARI ECONOMICI
PROGRAMMI DI RICERCA SCIENTIFICA DI RILEVANTE INTERESSE NAZIO NALE
RICHIESTA DI COFINANZIAMENTO

(DM n. 10 del 13 gennaio 2000)
PROGETTO DI UNA UNITÀ DI RICERCA - MODELLO B
Anno 2000 - prot. MM09268483_003


Parte: I
1.1 Programma di Ricerca di tipo: interuniversitario

Area Scientifico Disciplinare: Ingegneria Industriale e dell'informazione (80%)
Area Scientifico Disciplinare: Scienze Matematiche (20%)

1.2 Durata del Programma di Ricerca: 24 mesi

1.3 Titolo del Programma di Ricerca

Testo italiano

D2I: Integrazione, warehousing e mining di sorgenti eterogenee di dati

Testo inglese

D2I: Integration, Warehousing, and Mining of Heterogeneous Data Sources

1.4 Coordinatore Scientifico del Programma di Ricerca

LENZERINI MAURIZIO  
(cognome) (nome)  
Università degli Studi di ROMA "La Sapienza" Facoltà di INGEGNERIA
(università) (facoltà)
K05A Dipartimento di INFORMATICA E SISTEMISTICA
(settore scient.discipl.) (Dipartimento/Istituto)


lenzerini@dis.uniroma1.it
(E-mail)


1.5 Responsabile Scientifico dell'Unità di Ricerca

BERGAMASCHI SONIA  
(cognome) (nome)  


Professore ordinario 01/07/1953 BRGSNO53L41F257K
(qualifica) (data di nascita) (codice di identificazione personale)

Università degli Studi di MODENA e REGGIO EMILIA Facoltà di INGEGNERIA
(università) (facoltà)
K05A Dipartimento di SCIENZE DELL'INGEGNERIA
(settore scient.discipl.) (Dipartimento/Istituto)


059 376733 059 376799 sonia.bergamaschi@unimo.it
(prefisso e telefono) (numero fax) (E-mail)


1.6 Settori scientifico-disciplinari interessati dal Programma di Ricerca

K05A K05B


1.7 Parole chiave

Testo italiano
BASI DI DATI ; SISTEMI INFORMATIVI ; INTEGRAZIONE ; DATI SEMI-STRUTTURATI ; VISTA GLOBALE VIRTUALE ; QUERY SU VISTA GLOBALE VIRTUALE

Testo inglese
DATA BASES ; INFORMATION SYSTEMS ; INTEGRATION ; SEMI-STRUCTURED DATA ; GLOBAL VIRTUAL VIEW ; QUERY ON GLOBAL VIRTUAL VIEW


1.8 Curriculum scientifico del Responsabile Scientifico dell'Unità di Ricerca

Testo italiano

Sonia Bergamaschi è nata a Modena ed ha ricevuto la Laurea in Matematica presso la Facoltà di Scienze dell’Università degli Studi di Modena nell'anno 1977. È professore straordinario presso il Dipartimento di Scienze dell'Ingegneria dell'Università di Modena e Reggio Emilia. La sua attività di ricerca è stata principalmente rivolta alla rappresentazione ed alla gestione della conoscenza nelle Basi di Dati di elevate dimensioni, con particolare attenzione sia agli aspetti teorici e formali sia a quelli implementativi. Dal 1985 è stata molto attiva nell'area dell'accoppiamento di tecniche di Intelligenza Artificiale , Logiche Descrittive (DL) e Basi di Dati al fine di sviluppare Sistemi di Basi di Dati Intelligenti, collaborando con gruppi di ricerca internazionali (DFKI) e nazionali (Università di Roma "La Sapienza"). Su tali argomenti sono stati ottenuti rilevanti risultati teorici [1,2,3] ed è stato sviluppato il sistema ODB-Tools per il controllo di consistenza di schemi e l'ottimizzazione semantica delle query disponibile in Internet all'indirizzo: http://sparc20.dsi.unimo.it.
Recentemente si è occupata di Integrazione Intelligente di Informazioni, proponendo un sistema I3, chiamato MOMIS [4,5] per fornire un accesso integrato a sorgenti di informazioni strutturate e semistrutturate che consenta all'utente di formulare una singola query e di ricevere una risposta unificata. Le tecniche di DL e di clustering costituiscono la base teorica e sono sfruttate sia per costruire una vista integrata dell'informazione delle sorgenti sia per l'elaborazione e l'ottimizzazione delle interrogazioni.Sonia Bergamaschi ha pubblicato circa cinquanta articoli su riviste e conferenze internazionali e le sue ricerche sono state finanziate da MURST, CNR, ASI e da progetti della Comunità Europea. È stata membro nel comitato di programma di numerose conferenze nazionali ed internazionali di Basi di Dati e Intelligenza Artificiale.

Testo inglese

Sonia Bergamaschi was born in Modena (Italy) and received her Laurea degree in Mathematics from Università di Modena on 1977. She is currently full professor in the Dipartimento di Scienze dell'Ingegneria at the Università di Modena e Reggio Emilia (associate professor from 1992 to 1999).
Her research activity has been mainly devoted to knowledge representation and management in the context of very large databases facing both theorical and implementation aspects.
Since 1985 she was very active in the area of coupling artificial intelligence (Description Logics) and database techniques to develop Intelligent Database Systems, collaborating with international (DFKI) and Italian (University of Rome “La Sapienza”) research groups. On this topic very relevant theoretical results have been obtained [1,2,3] and a system ODBTools performing consistency check and semantic query optimization In Object Oriented Databases, based on this theoretical results, is available on Internet at: http://sparc20.dsi.unimo.it.
More recently, her research efforts have been devoted to the Intelligent Information Integration topic. An I3 system, called MOMIS [4,5], to provide an integrated access to structured and semistructured data sources and to allow a user to pose a single query and to receive a single unified answer has been proposed. Description Logics plus clustering techniques constitute the theoretical framework and are exploited for constructing a common ontology, i.e. an integrated view of the information in the separate sources, and for query processing and optimization.
Sonia Bergamaschi has published about fifty international journal and conference papers and her researches have been founded by the Italian MURST, CNR, ASI institutions and by European Community projects. She was on international and national database and AI conference program committees.
She is a member of the IEEE Computer Society and of the ACM.

1.9 Pubblicazioni scientifiche più significative del Responsabile Scientifico dell'Unità di Ricerca
  1. BERGAMASCHI S., SARTORI C., "On taxonomic reasoning in conceptual design" , Rivista: ACM Transaction on Database Systems , Volume: 17 (3) , pp.: 385-422 , (1992) .
  2. BERGAMASCHI S., NEBEL B., "Acquisition and Validation of Complex Object Database Schemata Supporting Multiple Inheritance" , Rivista: Applied Intelligence , Volume: 4 , pp.: 185-204 , (1994) .
  3. BENEVENTANO D, BERGAMASCHI S., LODI S., SARTORI C., "Consistency Checking in Complex Object Database Schemata with Integrity Constraints" , Rivista: IEEE Transactions on Knowledge and Data Engineering , Volume: 10 (4) , pp.: 576-598 , (1998) .
  4. BERGAMASCHI S., BENEVENTANO D., "Integration of information from multiple sources of textual data" , Rivista: Intelligent Information Agents , pp.: 53-77 , ISBN/ISSN: 3-540-65112-8 , (1999) Libro - Matthias Klusch (editore) .
  5. BERGAMASCHI S., CASTANO S., VINCINI M., "Semantic Integration of Semistructured and Structured Data Sources" , Rivista: ACM SIGMOD Record , Volume: 28 (1) , pp.: 54-59 , (1999) .

1.10 Risorse umane impegnabili nel Programma dell'Unità di Ricerca

1.10.1 Personale universitario dell'Università sede dell'Unità di Ricerca

Cognome Nome Dipart./Istituto Qualifica Settore
scient.
Mesi
uomo
2000 2001
 
1  BERGAMASCHI  SONIA  SCIENZE DELL'INGEGNERIA  Prof. ordinario  K05A  4  4
2  BENEVENTANO  DOMENICO  SCIENZE DELL'INGEGNERIA  Ricercatore  K05A  4  4
3  PAZZI  LUCA  SCIENZE DELL'INGEGNERIA  Ricercatore  K05A  2  2
4  TIBERIO  PAOLO  SCIENZE DELL'INGEGNERIA  Prof. ordinario  K05A  4  4
 

1.10.2 Personale universitario di altre Università

Cognome Nome Università Dipart./Istituto Qualifica Settore
scient.
Mesi
uomo
2000 2001
 
 
1  CORNI  ALBERTO  BOLOGNA  ELETTRONICA, INFORMATICA E SISTEMISTICA  DOTTORANDO    4  4

1.10.3 Titolari di assegni di ricerca

Cognome Nome Dipart./Istituto Anno del titolo Mesi
uomo
2000 2001
 
 

1.10.4 Titolari di borse per Dottorati di Ricerca e ex L. 398/89 art.4 (post-dottorato e specializzazione)

Cognome Nome Dipart./Istituto Anno del titolo Mesi uomo
1. BENETTI  ILARIO  SCIENZE DELL'INGEGNERIA  2002 

1.10.5 Personale a contratto da destinare a questo specifico programma

Qualifica Costo previsto Mesi uomo
1. ANALISTA/PROGRAMMATORE  12 
2. ANALISTA/PROGRAMMATORE  12 
3. ANALISTA/PROGRAMMATORE  12 

1.10.6 Personale extrauniversitario dipendente da altri Enti

Cognome Nome Dipart./Istituto Qualifica Mesi uomo
1. VINCINI  MAURIZIO  Regione Emilia-Romagna  DOTTORE DI RICERCA 


Parte: II
2.1 Titolo specifico del programma svolto dall'Unità di Ricerca

Testo italiano

Integrazione ed Interrogazione di Sorgenti Eterogenee Strutturate e Semistrutturate

Testo inglese

Integration and Querying of Structured and Semistructured Sources

2.2 Base di partenza scientifica nazionale o internazionale

Testo italiano

La presenza di un numero sempre maggiore di fonti di informazione, all'interno di un azienda come sulla rete Internet, ha oggigiorno reso possibile l'accesso ad un vastissimo insieme di dati, sparsi su macchine diverse come pure in luoghi diversi. Parallelamente quindi all'aumento delle probabilità di trovare un dato sulla rete informatica, in qualsivoglia fonte e formato, va costantemente aumentando la difficoltà di recuperare questo dato in tempi e modi accettabili, essendo le fonti di informazione fortemente eterogenee tra di loro, sia per quanto riguarda i tipi di dati (testuali, suoni, immagini ...), sia per quanto riguarda il modo di descriverli, e quindi di "indicarli" ai potenziali utenti.
Contestualmente alla difficoltà di reperire un dato, pur nella certezza di ritrovarlo, si va delineando un altro tipo di problema, che paradossalmente nasce dall'abbondanza di informazioni, e che viene percepito dall'utente come "information overload": il numero crescente di informazioni (e magari la loro replicazione) genera confusione, rendendo pressochè impossibile isolare efficientemente i dati necessari a prendere "le business-decision".
Fornire una "Visione Virtuale Integrata" (IVV) [Hull97] di tali dati provenienti da sorgenti eterogenee e che possa essere interrogata in modo trasparente rispetto alle sorgenti utilizzate diventa quindi un argomento di ricerca preminente nell'area delle Basi di Dati.
I principali contributi su tale tema riguardano sia sorgenti di dati di tipo strutturato che di tipo semistrutturato [Chawathe94, Garcia-Molina95, Arens93, Arens96, Kirk95, Levy96, Roth97, Carey94, Genesereth97, Duschka97, Bergamaschi 98, Bergamaschi 99, Bergamaschi 99a, Subrahmanian 98, Abiteboul 96, Buneman 96, Buneman 97, Papakonstantinou 95].
Nella maggior parte dei casi, infatti, sebbene si possa riconoscere nei dati una sorta di struttura, questa è talmente irregolare da non poter essere facilmente riconducibile nè ai consolidati modelli relazionali e neppure a quelli più ricchi quali quelli ad oggetti. In genere si parla di questi dati in termini di dati semistrutturati (semistructured data), come confermato da diversi interventi presenti in letteratura [Abiteboul 97, Buneman 97].
A causa della natura frammentata dei dati, l'enfasi degli interventi viene posta sull'importanza di derivare una rappresentazione coincisa (indicata brevemente come ``summary'') della struttura in modo tale da fornire all'utente che si trova ad interagire con le informazioni un'idea della struttura e del contesto riguardante la sorgente dei dati [Abiteboul 96, Buneman96, Buneman97, Papakonstantinou95]. Questa possibilità di giungere alla definizione di una struttura per dati semistrutturati facilita la formulazione di query e potrebbe essere usata per la fase di ottimizzazione delle query stesse.
Alcuni progetti proposti in letteratura nel contesto dell'integrazione propongono l'uso della Logica Descrittiva (DL) [Borgida89, Woods90,Calvanese95] quale formalismo interno comune di rappresentazione della conoscenza intensionale delle sorgenti e delle interrogazioni.
L'utilizzo della DL permette di utilizzare le tecniche di inferenza tipiche del settore (funzione di sussunzione, tassonomia dei concetti nello schema) sia per costruire la visione integrata che per ottimizzare l'interrogazione dei dati. Sistemi in corso di sviluppo in questo ambito sono SIMS [Arens93, Arens96], Information Maninfold [Kirk95, Levy96], GARLIC [Roth97, Carey94], Infomaster [Geneseret97, Duschka97] e MOMIS [Bergamaschi98, Bergamaschi99].
Il progetto SIMS propone di creare la definizione di uno schema globale (IVV) utilizzando la description logic LOOM per descrivere le sorgenti informative. L'uso dello schema globale permette di supportare query di qualsivolgia natura basate sullo schema invece di quelle predefinite dal sistema. Information Manifold Systems, fornisce un mediatore e un query manager independente dalla sorgente. Lo schema di input di Information Manifold System è definito da un'insieme di descrizione delle sorgenti; così, data una query, il sistema è in grado di creare un query plan in grado di rispondere alla query utilizzando le sorgenti locali. Gli algoritmi che descrivono le tecniche di decisione per la scelta delle informazioni utili e per generare il query plan sono forniti in [Levy96]. Il progetto GARLIC fornisce un'architettura con wrapper complessi che forniscono la descrizione delle sorgenti in linguaggio OO (chiamato GDL) e poi viene definito manualmente uno schema globale che unifica la visione delle sorgenti locali tramite gli oggetti Garlic Complex Objects. Infomaster System fornisce l'accesso integrato a sorgenti informative eterogenee e distribuite, mostrando all'utente il sistema come fosse centralizzato ed omogeneo. Il sistema è basato su di uno schema globale, modellato completamente dall'utente e dal modulo di query processing che determina dinamicamente ed efficientemente il piano di accesso utilizzando regole di traduzione che armonizzano le
sorgenti eterogenee.
MOMIS (Mediator envirOnment for Multiple Information Sources), il cui sviluppo è iniziato nell'ambito del progetto cofinanziato MURST INTERDATA 97/98, permette di ottenere una "Vista Virtuale Integrata" di sorgenti informative eterogenee.
L'obiettivo finale di MOMIS, proposto come attività di ricerca nel presente progetto, è quello di porre l'utente generico in condizione di fare una singola interrogazione rispetto alla vista globale ed ottenere un'unica risposta che unifichi e sintetizzi in informazione i dati provenienti dalle singole sorgenti. In altre parole, con l'ambiente MOMIS si realizzerà un sistema di mediazione che contribuisca a fornire un'integrazione delle sorgenti che faciliti l'interrogazione per gli utenti, senza comprometterne la libertà od inficiare la completezza e la sinteticità della risposta.
L'architettura iniziale di MOMIS prevede l'interazione con due sistemi: ODB-TOOLs [Beneventano97], sistema che utilizza la Logica Descrittiva OLCD [Beneventano 98, Bergamaschi 92, Bergamaschi 94, Bergamaschi 93] sviluppato presso il DSI dell'Universita' di Modena e Reggio Emilia; ARTEMIS [Castano 97a], sistema che calcola affinità strutturali tra concetti di diverse sorgenti, sviluppato presso le Università di Brescia e di Milano. L'accoppiamento con questi componenti ha lo scopo di ridurre l'apporto manuale del progettista del sistema integrato.
L'approccio "semantico" proposto in MOMIS si articola nei seguenti punti:
- Estrazione di relazioni terminologiche e Generazione del Common Thesaurus : attraverso l'interazione col progettista, che introduce relazioni terminologiche e l'utilizzo di WordNet e ODB-TOOLs, si derivano in maniera semi-automatica nuove relazioni di sinonimia, iponimia, meronimia e corrispondenza tra termini (nomi di classi e di attributi) delle sorgenti.
- Analisi delle affinità intensionali fra le classi: questa fase è realizzata considerando le relazioni terminologiche memorizzate nel Common Thesaurus e definendo coefficienti di affinità tra le classi, attraverso ARTEMIS.
- Creazione dei Cluster, cioè di raggruppamenti di classi affini: classi intensionalmente affini per le quali si presume esista anche una qualche sovrapposizione fra le estensioni vengono raggruppate in uno stesso cluster usando tecniche di clustering gerarchico.
- Generazione dello Schema Virtuale Globale del Mediatore: da ogni Cluster si definisce una Classe Globale la cui estensione è costituita dall'unione delle estensioni delle classi sorgenti nel cluster, mentre l'intensione è ricavata dall'unione "ragionata" degli attributi delle stesse. Questa fase porta alla definizione delle Classi Globali con le regole di mapping fra gli attributi dalla Classe Globale e quelli delle classi locali alle sorgenti attraverso l'uso di ODB-Tools.

Testo inglese

The presence of a large number of information sources, both within an enterprise and on the Internet, is making available nowaday a lot of data, spread over different computers in different locations. As the probability of finding the right data on the net is growing, there is also an outgrowing difficulty in finding such data in the right time and modality, since both the information sources and the data types (text, sound, images) are described and presented to the final users in a way that is highly heterogeneous. At the same time, the user is presented excessive (often duplicated) information, which may generate confusion and prevent the user from taking the right "business" decision (this is known as the "information overload problem"). Providing an integrated virtual view of the data, as in [Hull 97], in such a way that could be transparently queried with respect to the different sources is becoming a prominent research issue in the data base field. The main contributions within such issue are concerned both with structured as well as non-structured data sources [Chawathe 94, Garcia-Molina 95, Arens 93, Kirk 95, Levy 96, Roth 97, Carey 94, Geneseret 97, Duschka 97, Bergamaschi98, Bergamaschi 99, Bergamaschi 99a, Subrahmanian 98, Abiteboul 96, Buneman 96, Buneman 97, Papakonstantinou 95]. In most cases, although it is possible to give "some sort of structure" to data which present irregularities, these data cannot be framed neither within existing traditional data models - like the Relational Model of Data - nor within more recent and expressive ones - like the object oriented data model. Such data is referred usually to as semi-structured data [Abiteboul 97, Buneman 97]. Due to the highly fragmented nature of the semistructured data, the emphasis is on giving a concise representation -- referred to as "summary" -- of its structure, thus giving the user interacting with the data a "feeling" of both the structure and the context of the source of the data [Abiteboul 96, Buneman 96, Buneman 97, Papakostantinou 95].
Giving structure to semi-structured data is a relevant activity in order to improve both query formulation and their subsequent optimization. Some projects propose Description Logic (DL) [Bergamaschi 92, Bergamaschi 94, Beneventano 98, Borgida 89, Calvanese 95, Woods 90] as the internal common formalism for representing intensional knowledge of both data sources and queries. Using DL allows to employ inference techniques typical of the field (such as subsumption function and schema concepts taxonomy), both for building the integrated view and querying data. In this field there some systems like SIMS [Arens 93, Arens 96], Information Manyfold [Kirk 95, Levy 96], GARLIC [Roth 97, Carey 94], Infomaster [Geneseret 97, Duschka 97] and MOMIS [Bergamaschi 98, Bergamaschi 99] have been developed. The SIMS project proposes the creation of a global schema using LOOM description logic for representing information sources. Using the global schema allows to support schema-based queries of any nature instead of system predefined ones.
Information Manyfold System is a mediator based system providing a query manager independent from the source of data. The input schema of Information Manyfold System is given by the set of description of the data sources: in this way, given a query, the system is able to create a query plan to answer the query by local sources. The algorithm for the decision techniques are described in [Levy96].
The GARLIC project provides an architecture based on complex wrappers, which describe data sources by the OO language (named GDL). Subsequently a global schema, which unifies the different data sources, is manually provided by the designer by the Garlic Complex Objects language.
Infomaster System gives direct access to heterogeneous and distributed data sources, giving at the same time the user a view of the whole system as if it was a centralized and homogeneous one. Such system is based on a global schema, which is modeled entirely by both the user and a query processing module. Such a module establishes, in a dynamic and effective way, the optimal access plan by exploiting mapping rules which harmonize heterogeneous sources.
MOMIS (Mediating system Environment for Multiple Information Sources), whose development has begun in the context of the MURST INTERDATA 97/98 project, permits to build the Global Virtual View of heterogeneous structured information sources.
The goal, which will be faced in this research proposal, is to allow a user to formulate a single query and to receive a single unified answer from the (transparent to him) different and distributed sources of data.
In other words, the MOMIS project aims to realize a mediator based system which may contribute in giving an effective integration of the different information sources which, in turn, may help users in formulating queries, without neither restricting their freedom nor compromising the completeness and correctness of the system answer. The MOMIS system architecture supports the interaction with ODB-TOOLS [Beneventano 97], a system based upon the OLCD description logic [Beneventano 97, Bergamaschi 94] developed by the DSI of the University of Modena and Reggio Emilia and with ARTEMIS [Castano 97a], a system for calculating structural affinities among concepts taken from different sources, developed by the University of Brescia and Milano. The coupling of the two techniques will reduce the manual effort of the designer of the integrated system.
The semantic approach proposed in MOMIS is based on the following points.
- Extraction of terminological relationships and Common Thesaurus generation: by exploiting the WordNet and ODB-Tools functionalities, a Common Thesaurus of terminological relationships is constructed. Terminological relationships express inter-schema knowledge among different sources. Terminological relationships are derived in a semi-automatic way from schema descriptions, by analyzing structure and context of classes, by using ODB-Tools and the Description Logics techniques.
- Affinity-based clustering among classes, with the support of the ARTEMIS-Tool environment. Terminological relationships in the Thesaurus are used to evaluate the level of affinity among classes in order to identify the information to be integrated at the global level. To this end, ARTEMIS computes proper coefficients that measure the level of affinity of classes based on their names and attributes.
- Cluster Generation: Classes with affinity are grouped together using hierarchical clustering techniques.
- Construction of the mediator Virtual Global Schema, with the support of ODB-Tools. Affinity clusters of classes are analyzed to construct the global schema of the Mediator. An integrated global class is defined for each cluster, which is representative of all classes belonging to the cluster, and is characterized by the union of their attributes. The set of global classes defined constitutes the Virtual Global Schema of the Mediator to be used for posing queries against the sources. In this phase, OLCD and ODB-Tools are exploited for a semi-automatic generation of the global classes.

2.2.a Riferimenti bibliografici

[Abiteboul 97] S. Abiteboul, "Querying semi-structured data", in Proceedings of the International Conference on Database Theory (ICDT97), Athens, Greece, 1-18, 1997.
[Abiteboul 96] S. Abiteboul, D. Quass, J. McHugh, J. Widom, and J. Wiener, "The Lorel Query Language for Semistructured Data", Journal of Digital Libraries, (1), November 1996.
[Arens 93] Y. Arens and C.Y. Chee and C. Hsu and C. A. Knoblock, "Retrieving and Integrating Data from Multiple Information Sources", International Journal of Intelligent and Cooperative Information Systems, vol. 2, n. 2, pp 127-158, 1993.
[Arens 96] Y. Arens, C. A. Knoblock and C. Hsu, "Query Processing in the SIMS Information Mediator", in Advanced Planning Technology, editor, Austin Tate, AAAI Press, Menlo Park, CA, 1996.
[Beneventano 97] D.Beneventano, S. Bergamaschi, C. Sartori e M. Vincini, "ODB-QOptimizer: a tool for semantic query optimization in OODB." Int. Conference on Data Engineering ICDE97, Birmingham, UK, April 1997.
[Beneventano 97] D. Beneventano e S. Bergamaschi, "Incoherence and Subsumption for recursive views and queries in Object-Oriented Data Models", Data & Knowledge Engineering, 21 (1997) pag 217-252, Elsevier Science B.V. (North- Holland).
[Beneventano 93] D. Beneventano, S. Bergamaschi, C. Sartori, "Taxonomic Reasoning with cycles in complex object data models", in P. Atzeni editor, LOGIDATA+: Deductive Databases with complex objects, Springer Verlag.,1993.
[Bergamaschi 93] S. Bergamaschi, C. Sartori, J.P. Ballerini: "The ODL-Designer Prototype", in Chapter:"LOGIDATA+ Project Prototypes", in P. Atzeni editor, LOGIDATA+: Deductive Databases with complex objects, Springer Verlag., 1993.
[Beneventano 98] D. Beneventano, S. Bergamaschi, S. Lodi, C. Sartori: "Consistency checking in Complex Objects Database schemata with integrity constraints", IEEE Transactions on Data and Knowledge Engineering, vol.10, n.4, 1998.
[Bergamaschi 99a] S. Bergamaschi e D. Beneventano: "Integration of information from multiple sources of textual data", Intelligent Information Agents (editor M. Klusch) - Springer Verlag, March 1999.
[Bergamaschi 99] S. Bergamaschi, S. Castano, M. Vincini, "Semantic Integration of Semistructured and Structured Data Sources", SIGMOD Record -Special Section on Semantic Interoperability in Global Information Systems, Vol.28, N.1, March 1999 (http://www.acm.org/sigmod/record/).
[Bergamaschi 98] S. Bergamaschi, S. Castano, S. De Capitani di Vimercati, S. Montanari, M. Vincini, "An Intelligent Approach to Information Integration", in International Conference on Formal Ontology in Information Systems (FOIS'98), Trento, Italy, June 1998.
[Bergamaschi 94] S. Bergamaschi and B. Nebel, "Acquisition and Validation of Complex Object Database Schemata Supporting Multiple Inheritance", Applied Intelligence: The International Journal of Artificial Intelligence, Neural Networks and Complex Problem Solving Technologies, 4:185--203, 1994.
[Bergamaschi 92] S. Bergamaschi and C. Sartori, "On Taxonomic Reasoning in Conceptual Design", in ACM Transactions on Database Systems, 17(3),385-422, September 1992.
[Borgida 89] A. Borgida, R.J. Brachman, D.L. McGuinness and L.A. Resnik, "CLASSIC: A Structural Data Model for Objects", in SIGMOD, pp. 58-67, Portland, Oregon, 1989.
[Buneman 97] P. Buneman, "Semistructured Data", in Proc. of 1997 Symposium on Principles of Database Systems (PODS97), Tucson, Arizona, 117-121, 1997.
[Buneman 96] P. Buneman, S. Davidson, G. Hillebrand, and D. Suciu "A Query Language and Optimization Techniques for Unstructured Data", in Proc. of the ACM SIGMOD International Conference, Montreal, Canada, June 1996, pp. 505-516.
[Calvanese 95] D. Calvanese, G. De Giacomo and M. Lenzerini, "Structured Objects: Modeling and Reasoning", in Proc. of Int. Conference on Deductive and Object-Oriented Databases, 1995.
[Carey 94] M. J. Carey, L.M. Haas, P.M. Schwarz, M. Arya, W.F. Cody, R. Fagin, M. Flickner, A.W. Luniewski, W. Niblack, D. Petkovic, J. Thomas, J.H. Williams and E.L. Wimmers, "Towards Multimedia Information System: The Garlic Approach", IBM Almaden Research Center, San Jose, 1994.
[Carpineto 93] C. Carpineto and G. Romano, "GALOIS: An order-theoretic approach to conceptual clustering", in proceedings of Machine Learning Conference, pg. 33-40, 1993.
[Castano 97a] S. Castano, V. De Antonellis, "Deriving Global Conceptual Views from Multiple Information Sources," invited paper, in preProc. of ER'97 Preconference Symposium on Conceptual Modeling, Historical Perspectives and Future Directions, Los Angeles, November 1997.
[Castano 97b] S. Castano and V. De Antonellis, "Semantic Dictionary Design for Database Interoperability", in proceedings of Int. Conf. on Data Engineering, ICDE'97, Birmingham, UK, April, 1997.
[Chawathe 94] S. Chawathe, H. Garcia Molina, J. Hammer, K. Ireland, Y. Papakostantinou, J.Ullman, and J.Widom, "The TSIMMIS project: Integration of Heterogeneous Information Sources", in proceedings of IPSJ Conference, Tokyo, Japan,1994. ftp://db.stanford.edu/pub/chawathe/1994/tsimmis- overview.ps.
[Duschka 97] O. M. Duschka and M. R. Genesereth, "Infomaster - An Information Integration Tool", in Proceedings of the International Workshop "Intelligent Information Integration" during the 21st German Annual Conference on Artificial Intelligence, KI-97. Freiburg, Germany, September 1997.
[Genesereth 97] M. R. Genesereth and A. M. Keller and O. Duschka, "Infomaster: An Information Integration System", in Proceedings of 1997 ACM SIGMOD Conference, 1997.
[Hull 97] R. Hull, "Managing Semantic Heterogeneity in Databases: A Theoretical Perspective", ACM Symp. on Principles of Database Systems, pp. 51-61, 1997.
[Kirk 95] T. Kirk and A. Y. Levy and Y. Sagiv and D. Srivastava, "The Information Manifold", In Working Notes of the AAAI Spring Symposium on Information Gathering from Heterogeneous, 1995.
[Levy 96] A. Y. Levy and A. Rajaraman and J. J. Ordille, "Querying Heterogeneous Information Sources Using Source Descriptions", in Proc. of the 22nd Int. Conf. on Very Large Databases (VLDB96), 1996, pp. 251-262, 1996.
[Garcia-Molina 95] H. Garcia-Molina et al., "The TSIMMIS Approach to Mediation: Data Models and Languages", in proceedings of NGITS workshop, 1995. ftp://db.stanford.edu/pub/garcia/1995/tsimmis-models-languages.ps.
[Papakonstantinou 95] Y. Papakonstantinou, H. Garcia-Molina and J. Widom, "Object Exchange Across Heterogeneous Information Sources", in Proc. of ICDE, Taipei, Taiwan, March 1995, pp. 251-260.
[Roth 97] M.T. Roth and P. Scharz, "Don't Scrap It, Wrap it! A Wrapper Architecture for Legacy Data Sources", in Proc. of the 23rd Int. Conf. on Very Large Databases (VLDB96), 1997.
[Schmitt 98a] I. Schmitt and C. Turker, "An Incremental Approach to Schema Integration by Refining Extensional Relationships", in Proc. of the 7th ACM CIKM Int. Conf. on Information and Knowledge Management, November 3-7, 1998, Bethesda, Maryland, USA, ACM Press, pp. 322-330, 1998.
[Schmitt 98b] I. Schmitt and G. Saake, "Merging Inheritance Hierarchies for Database Integration", in Proceedings of the 3rd IFCIS International Conference on Cooperative Information Systems, New York, pg. 322-331, 1998.
[Subrahmanian 98] V.S. Subrahmanian, S. Adali, A. Brink, J. Lu, A. Rajput, T. J. Rogers, R. Ross, C. Ward", "HERMES: A Heterogeneous Reasoning and Mediator System ", University of Maryland, http://www.cs.umd.edu/projects/hermes/overview/paper/index.html", 1998.
[Woods 90] W.A. Woods, J.G. Schmolze, "The kl-one family", in F.W. Lehman, editor, published as Special Issue of Computer & Mathematics with Applications, Volume 23, Number 2-9.

2.3 Descrizione del programma e dei compiti dell'Unità di Ricerca

Testo italiano

L'attività di ricerca avrà come obiettivo la continuazione ed evoluzione del progetto MOMIS [Bergamaschi 99] e verrà svolta in stretta collaborazione con tutte le altre unità.
La ricerca si articolerà in 4 fasi.
FASE 1 (durata 4 mesi)
- Definizione dei requisiti di integrazione per dati provenienti da sorgenti semistrutturate (quali sorgenti contenenti documenti HTML, XML, file testuali).
- Definizione delle possibili estensioni al modello di integrazione per sorgenti strutturate, sviluppato nel sistema MOMIS nell'ambito del progetto MURST INTERDATA, per:
1. Integrare dati provenienti anche da sorgenti semistrutturate
2. Utilizzare ontologie di dominio e top-level
3. Utilizzare conoscenza estensionale inter-schema
(1. Integrare dati provenienti anche da sorgenti semistrutturate)
In letteratura sono stati proposti diversi modelli per "dare struttura" ai dati semistrutturati. La nostra scelta relativamente ai dati semistrutturati sarà quella di utilizzare per la loro rappresentazione "object patterns" (che hanno caratteristiche simili alla modellazione di oggetti Object Oriented). Per rappresentare le informazioni estratte dalle sorgenti da integrare verrà utilizzato ed esteso un linguaggio object-oriented, denominato ODLI3, derivato dallo standard ODMG ed introdotto nel sistema MOMIS.
(2. Utilizzare ontologie di dominio e top-level)
L'approccio che si intende adottare è quello di utilizzare sistemi lessicali che prevedono l'esistenza di relazioni terminologiche tra termini definite a priori. Tra questi, il pricipale sistema è sicuramente Wordnet, un database lessicale elettronico considerato la più importante risorsa disponibile nei campi della linguistica computazionale, dell'analisi testuale, e nelle altre aree associate. WORDNET è stato sviluppato dal Cognitive science Laboratory alla Princeton University, sotto la direzione del Professor George A. Miller (http://www.cogsci.princeton.edu/~wn/).
WordNet è un sistema di riferimento, disponibile on-line, la cui architettura è ispirata alle attuali teorie psicolinguistiche legate alla memoria lessicale umana. Sostantivi, verbi, aggettivi e avverbi della lingua inglese vengono organizzati in insiemi di sinonimi (synset), ognuno dei quali rappresenta un determinato concetto lessicale. Vari tipi di relazioni collegano fra loro i synset. Il punto di partenza della semantica lessicale è il riconoscimento che esiste una associazione convenzionale fra la forma delle parole (il modo in cui, cioè, vengono pronunciate e scritte) e i concetti che esse esprimono; tale associazione è di tipo molti-a-molti, dando luogo alle proprietà di "Polisemia" (proprietà di una stessa parola di avere due o più significati) e "Sinonimia" (proprietà di un significato di avere due o più parole in grado di esprimerlo). Da WordNet si possono ricavare le seguenti relazioni tra synset:
- Sinonimia;
- Iponimia: un concetto è iponimo di un altro quando lo specializza, cioè esiste un rapporto di tipo ISA. (La relazione duale è l'ipernimia);
- Meronimia: relazione semantica che si esprime fra due concetti x e y quando x "is a part of" y. (la relazione duale è l'olonomia);
- Correlazione: è la relazione che lega 2 synset che condividono uno stesso ipernimo.
Inoltre, grazie ad una collaborazione con l'IRST (Istituto per la Ricerca Scientifica e Tecnologica) di Trento, verrà utilizzato anche il sistema multilingua chiamato EuroWordNet.
L'idea e` di presentare ogni relazione individuata da WordNet al progettista dell'integrazione che la può confermare come relazione "intensionale" da aggiungere al "Common Thesaurus".
3. Utilizzare conoscenza estensionale inter-schema.
L'approccio che si intende adottare, nell'ambito del sistema MOMIS si basa sulla teoria della "formal context analisys" che, come descritto in [Carpineto 93], è volta alla generazione di una gerarchia di ereditarietà in cui viene rappresentata la conoscenza fattuale disponibile, nell'insieme di schemi locali, su di un determinato aspetto della realtà.
Gli elementi che caratterizzano questo approccio teorico riguardano la definizione di assiomi estensionali.
Tali assiomi descrivono le relazioni insiemistiche esistenti tra le estensioni delle classi di oggetti presenti nelle sorgenti, in particolare, date due classi A e B sono individuabili quattro tipi di situazioni:
1) disgiunzione, 2) equivalenza, 3) inclusione e 4) sovrapposizione.
La presenza di un insieme consistente e corretto di assiomi costituisce un notevole elemento di conoscenza per l'attività di integrazione di dati di diverse sorgenti. D'altro canto, la loro definizione è a carico del progettista dell'integrazione e solo in parte può essere automatizzata, pertanto, diviene fondamentale disporre di strumenti che aiutino il designer nella fase di specifica di tali assiomi e che derivino automaticamente le conseguenze logiche indotte da tale assiomi.
Il metodo che si intende seguire per sfruttare la conoscenza estensionale ha come premessa l'individuazione delle "base extension", proposte recentemente in letteratura in [Schmitt 98a, Schmitt 98b]. L'uso delle base extension, assieme alle tecniche di logica descrittiva, permetterà di ottenere risultati notevoli nell'ottimizzazione di interrogazioni multi-sorgente.
Inoltre, si contribuirà ad una definizione preliminare della struttura del meta-data repository per descrivere le diverse tipologie di sorgenti e di relazioni intra ed inter-schema.
PRODOTTI DELLA FASE 1:
I prodotti attesi in questa fase del progetto sono di tipo rapporto tecnico (sigla R).La cifra dopo la D indica il tema (se e` 0 il risultato e` comune a tutti i temi). La lista tra parentesi indica le unita` coinvolte nella produzione del risultato; la mancanza della lista indica che il risultato viene prodotto dall'unita` di Modena.
D0.R1: Specifiche per il meta-data repository (in collaborazione con tutte le altre unità)
D1.R1: Metodi e tecniche di estrazione, rappresentazione ed integrazione di sorgenti strutturate e semi-strutturate. (in collaborazione con tutte le altre unità)
D1.R2: Utilizzo di ontologie e proprietà inter-schema di tipo estensionale.
---------------------------------------------------------------------------
FASE 2 (durata 8 mesi)
L'obiettivo della fase è la produzione di risultati scientifici che definiscano nel loro complesso un quadro metodologico per l'integrazione di dati provenienti da sorgenti fortemente eterogenee. La metodologia sarà basata su tecniche intelligenti di tipo semi-automatico per l'identificazione e riconciliazione di eterogeneità basate sulle proprietà dei dati, sulla estrazione semi-automatica di proprietà interschema, e su conoscenza di ontologie di dominio. I risultati forniti includeranno la specifica funzionale/architetturale di un prototipo che implementa tale metodologia. In particolare verranno definite le specifiche funzionali di un ambiente di integrazione degli schemi locali, che, partendo dalle descrizioni delle sorgenti espresse in ODLI3, generi un unico schema globale ("Vista Virtuale Globale" delle sorgenti integrate).
Le principali funzionalità che dovranno essere fornite da tale ambiente sono le seguenti:
- possibilità di attivare "wrappers" per interagire con le sorgenti da integrare (in collaborazione con l'unità della Calabria);
- un'interfaccia grafica che guidi il progettista durante tutti i passi di integrazione degli schemi: acquisizione delle sorgenti, dichiarazione di relazioni intensionali (permettendo anche la integrazione con il sistema WordNet) dichiarazione di relazioni estensionali, clustering (in collaborazione con l'unità di Milano).
L'ambiente dovrà interagire con gli altri componenti del sistema MOMIS, quali ODB-Tools (per la validazione dello schema e l'inferenza di nuove relazioni), ARTEMIS (per il calcolo delle affinità tra classi utile nella fase di clustering) e WordNet.
Inoltre verranno definite le specifiche funzionali di un "Query Manager" (QM) che supporti query (globali) rispetto ad una "Vista Virtuale Globale" delle sorgenti integrate.
QM dovrà decomporre una query globale in sub-query relative alle sorgenti, estendendo tecniche sviluppate nell'ambito di sistemi distribuiti di Basi di Dati, ed ottimizzarne l'esecuzione utilizzando tecniche di logica descrittiva per l'ottimizzazione semantica di query.
Come già descritto nella base di partenza scientifica, MOMIS gestisce una pluralità di sorgenti distribuite ed eterogenee adottando un approccio "virtuale", che quindi non prevede la replicazione dei dati nel Mediatore.
Ciò significa che sarà il QM a gestire, per ogni interrogazione, la rappresentazione globale ottenuta mediante le fasi di integrazione intensionale ed estensionale al fine di materializzare presso l'utente le entità che popolano questa vista virtuale e che costituiscono la risposta cercata. Tale risposta prodotta dovrà rispondere ad esigenze di correttezza e completezza, in modo da recuperare tutti e soli gli oggetti del dominio applicativo che godono delle proprietà richieste soddisfando le condizioni imposte, e dovrà anche garantire la minimalità.
Uno degli aspetti più innovativi del QM consisterà nell'impiego di componenti intelligenti che realizzino, sia sulla query globale sia su quelle locali, passi di ottimizzazione semantica capaci di ridurre il numero di sorgenti a cui è necessario accedere ed il volume di dati ritornati.
Le fasi che caratterizzeranno il processo di gestione delle interrogazioni di QM saranno pertanto:
- ottimizzazione semantica globale: sfruttando le informazioni semantiche presenti a livello di schema globale, ed eventuali regole di integrità intensionali ed assiomi estensionali definiti dal progettista, verrà realizzata un'ottimizzazione semantica delle interrogazioni poste dall'utente;
- decomposizione della query globale in query locali. Questa fase verrà svolta analizzando la query ed utilizzando il lattice di concetti prodotto dalla conoscenza estensionale;
- individuazione delle sorgenti coinvolte: analizzando la query verranno individuate le classi globali coinvolte e per ognuna di esse si determinerà a quali classi sorgenti si deve accedere;
- generazione delle query locali: sfruttando le regole di mapping tra rappresentazione globale e schemi locali verrà prodotto un insieme di sottoquery direttamente eseguibili sulle sorgenti;
- ottimizzazione semantica locale: una volta generate le subquery per ogni sorgente, si può pensare di sfruttare la presenza di vincoli di integrità sugli schemi delle sorgenti, unitamente alle capacità di ODB-Tools, per ridurre ulteriormente il costo di accesso ai dati. Questa opportunità potrà essere sfruttata purchè siano rappresentate a livello di Mediatore le conoscenze semantiche relative agli schemi locali;
- composizione della risposta: i dati reperiti dalle sottoquery dovranno essere combinati per generare la risposta all'interrogazione posta sullo schema globale.
PRODOTTI DELLA FASE 2:
I prodotti attesi in questa fase del progetto sono di tipo rapporto tecnico e sintetizzano i risultati scientifici.
D0.R2: Specifica della architettura funzionale del repository di meta-dati (in collaborazione con tutte le altre unità)
D1.R6: Descrizione della metodologia di integrazione di sorgenti fortemente eterogenee. (in collaborazione con le unità di Bologna e Milano)
D1.R7: Architettura funzionale di un ambiente di ausilio al progettista per la costruzione di viste riconciliate di sorgenti fortemente eterogenee basato sulle tecniche sviluppate. (in collaborazione con le unità di Milano e della Calabria)
D1.R8 : Specifiche funzionali del Query Manager.
--------------------------------------------------------------------------------
FASE 3 (durata 8 mesi)
L'obiettivo di questa fase è la realizzazione di un insieme di prototipi che realizzino le funzioni enucleate dai risultati scientifici prodotti nella fase precedente. Il contributo di questa Unità di Ricerca sarà:
a) lo sviluppo di un prototipo di ambiente di ausilio al progettista per la costruzione di una vista globale basato su ontologie e assiomi inter-schema ;
b) lo sviluppo di un prototipo di query manager per la gestione di query globali .
Particolare cura verrà dedicata alla realizzazione modulare dei prototipi, al fine di preservare la loro coerenza e integrabilità complessiva. A questo proposito, verrà realizzato l'interfacciamento tra il sistema di ausilio alla integrazione, il query manager ed il prototipo per query rewriting e query answering tramite viste (sviluppato dall'Unità di Ricerca di Roma).
PRODOTTI DELLA FASE 3:
I prodotti di questa fase del progetto sono di tipo prototipo sofware (sigla P).
D0.P1: Repository di Meta-dati (in collaborazione con tutte le altre unità)
D1.P1: Prototipo di ambiente di ausilio al progettista per la costruzione di una vista globale basato su ontologie e assiomi inter-schema.
D1.P5: Prototipo di un query manager per la gestione di query globali.
-----------------------------------------------------------------------
FASE 4 (durata 4 mesi)
L'obiettivo di questa fase è quello di completare la realizzazione e l'integrazione dei prototipi sviluppati nelle fasi precedenti e di condurre opportuni esperimenti per verificarne l'efficacia in problemi reali d'integrazione. In particolare, la sperimentazione verrà condotta facendo riferimento alle sorgenti informative messe a disposizione da TELECOM Italia - Divisione di Data Administration, Data Warehouse, Data Mining. In collaborazione con l'Unità di Ricerca di Roma, verrà completato l'interfacciamento tra il sistema di ausilio alla integrazione, il query manager ed il prototipo per query rewriting e query answering tramite viste.
PRODOTTI DELLA FASE 4:
Il risultato atteso in questa fase è quello della sperimentazione e valutazione dei metodi messi a punto nel progetto; a tale scopo verrà prodotto un rapporto tecnico che sintetizza tale risultato.
D1.R12: Risultati della sperimentazione delle metodologie e dei prototipi per l'integrazione (in collaborazione con tutte le altre unità)

Testo inglese

The research activity will be devoted to extend the functionalities of the MOMIS project. The MOMIS project will be carried out by this research unit and by the others research units, with a joint effort, within the project. The research will be carried out in 4 phases.
PHASE 1 (duration 4 months)
- Definition of the integration requirements for the data coming from semistructured data (e.g., HTML, XML and text sources).
- Definition of the possible extensions to the integration model, developed in the context of the MURST INTERDATA project for structured sources, in order to:
1. Integrate data coming from semistructured sources
2. Use top-level and domain ontologies
3. Use inter-schema extensional knowledge
(1. Integrate data coming from semistructured sources)
The literature proposes different models to represent semistructured data: our choice is to adopt "object patterns" (which are similar to the object oriented proposal). In order to describe source schemas for integration purposes we will use and extend the object-oriented language ODLI3, derived from the ODMG standard and introduced in the MOMIS system.
(2. Use top-level and domain ontologies)
The approach that will be adopted is to employ lexical systems which state the existence of a priori terminological relationships. The most widely used system, in this sense, is Wordnet, a lexical database that represents the most important resource available in both the computational linguistic and the textual analysis fields. Wordnet was developed by the Cognitive Science Laboratory of Princeton University, by Professor George A. Miller. Wordnet constitutes a reference system, available on-line (http://www.cogsci.princeton.edu/~wn/), whose architecture is inspired by current human lexical psycholinguistic theories.
Nouns, verbs, adjectives and adverbs of the English language are organized into synonyms sets (synset), each representing a specific lexical concept. Different kinds of relationships connect synsets with each others. The starting point of lexical semantics is the acknowledgement that a a conventional matching exists between the word form (that is the way in which words are pronounced and written) and the concepts they express; such an association is many-to-many, giving rise to to the property of polysemy (that is the property of a word to have two or more meanings) and Synonymy (that is the property of a meaning to be expressed by two or more words). From Wordnet, the following relationships between sysnsets can be taken:
Synonymy.
Hyponymy: a concept is the hyponym of another when the latter is specialized by the former, that is an ISA relationship exists among them. (the dual relationships is hypernymy).
Meronimy: semantic relationship that holds between two concepts when the former is part of the latter (the dual relationships is olonymy).
Correlation: it is the relation that binds two synsets which share the same hypernym.
Moreover, by a collaboration with l'IRST (Istituto per la Ricerca Scientifica e Tecnologica) in Trento, the multilingual system EuroWordNet will be employed.
The idea is to propose a relationship identified by WordNet to the integration designer who can confirm it as an "intensional" relationship to be added to the Common Thesaurus.
(3. Use inter-schema extensional knowledge)
Our approach will be based on the formal context analysis theory [Carpineto 93], which is aimed at producing an inheritance hierarchy representing the available knowledge of a set of local schemas. Such a theoretical approach is based upon the "Definition of extensional axioms": such axioms define set relationships among the source extensions; in particular, given two classes C1 and C2, we consider four relationships: 1) Disjointness, 2) Equivalence, 3) Inclusion and 4) Overlap.
The presence of a set of axioms which is both complete and correct is a precondition for achieving an effective integration. On the other hand, the generation of the axioms is on the designer's shoulders and consequently, it can be only partly carried out mechanically. It will be necessary, henceforth, to design and develop instruments which help the designer in the specification phase.
The methodology that is meant to be used in order to exploit extensional knowledge consists in the individuation of the "base extensions", as recently proposed by [Schmitt 98a][Schmitt 98b]. The use of base extension, together with Description Logics techniques, will allow to obtain significant results in multiple-sources query optimization.
PRODUCTS OF PHASE 1:
The expected products of this Phase are technical reports (R). They are denoted as follows: Di.Rj where i is the task number (0, for the deliverables common to the tasks)
D0.R1: Specification for the Meta-data repository. (by a collaboration with all the others Research units)
D1.R1: Methods and Techniques for the automatic extraction, representation and integration of structured and semi-structured data sources. (by a collaboration with all the others Research units)
D1.R2: Use of ontologies and extensional inter-schema properties for integration.
PHASE 2 (duration 8 months)
The objective of this phase is the production of scientific results that provide a methodological framework for the integration of data coming from strongly heterogeneous sources. The methodology will be based on intelligent semi-automatic techniques for identifying and reconciling the heterogeneity due to properties of semi-structured data, on the automatic extraction of interschema properties, and on the knowledge of domain specific ontologies. The obtained results will include the functional/architectural description of a prototype which implements such methodology .
In particular, the specific functionalities of a local schema integration environment, which, starting from the ODLI3 descriptions of the sources, generates a single global schema (Virtual Global View of Integrated Sources).
The main functionalities which the environment should provide are:
- The possibility to activate wrappers to interact with the sources to be integrated (by a collaborations with the Calabria Research unit).
- A graphical interface to guide the designer during the schema integration steps: source acquisition, declaration of intensional relationships (thus allowing their integration with the WordNet system), declaration of extensional relationships, clustering (by a collaboration with the Milan Research unit).
The environment should interact with the other MOMIS components, such as ODB-Tools (for schema validation as well as for inferring new relationships), ARTEMIS (for computing class affinity in the clustering phase) and WordNet.
Moreover we will define the functional specification of a "Query Manager" (QM), which supports global queries with respect to a "Global Virtual View" of the integrated sources in a way transparent to the user.
QM should be able to decompose a global query in terms of source related sub-queries, by extending techniques developed in the context of distributed data bases. As already described, MOMIS adopts a "virtual approach", that is manages a plurality of heterogeneous and distributed data coming and stored at the sources; no replication of data is assumed at the Mediator level.
That means that the QM will manage, for each query, the global representation obtained through both the phases of intensional and extensional integration, and its translation/decomposition w.r.t. the local sources with the aim of making the different entities within a global view available for the answer. Such entities correspond to the desired answer and must respond to requirements of both correctness and completeness, in such a way to grasp all and only the domain entities which respond to the requirements. Minimality should also be guaranteed.
One of the most innovative aspects of the QM will consist in employing description logic based components (i.e. ODBTOOLS) which can perform, both on the global and local queries, semantic optimization steps which minimize both the number of accessed sources and the volume of data to be integrated.
The different phases in the query management process will be henceforth:
- global semantic optimization: by exploiting the semantic information within the global schema and the knowledge defined by the integrity constraint, semantic query optimization can be achieved;
- query decomposition: the global query is decomposed in a set of sub-queries for all involved sources. This phase will be performed by exploiting a concept lattice derived from the extensional knowledge;
- determination of local source involved: by analyzing the query, the global classes and the sources to be accessed will be determined;
- local query generation: by exploiting the mapping rules between the global representation and the local schemata, a set of sub-queries executable on the local source can be defined;
- local semantic optimization: when the local sub-queries are available, the semantic query optimization can be applied again, by using ODB-Tools and the integrity constraint, in order to reduce the query access plan cost;
- answer composition: the data provided by the sub-queries execution at the sources have to be reconciled giving rise the answer for the global query.
PRODUCTS OF PHASE 2:
The expected products of this Phase are technical reports.
D0.R2: Functional architecture of the meta-data repository (by a collaboration with all the others Research units)
D1.R6: Description of the methodology for integration of strongly heterogeneous sources (by a collaboration with the Bologna and Milano Research units)
D1.R7: Functional architecture of a design tool to build a reconciled view of heterogeneous sources (by a collaboration with the Calabria and Milano Research units)
D1.R8: Functional specification of the Query Manager
PHASE 3 (duration 8 months)
The goal of this phase is the design, the related architectural/functional specification and implementation of a set of prototypes that realize the functionalities pointed out by the scientific results produced by in the previous phase. In particular, this research unit will develop:
a) a prototype of the design tool for the construction of the virtual global view, focussing on the ontological aspects and inter-schema intensional and extensional knowledge.
b) a prototype of the Query Manager.
A particular emphasis will be put on the modular realization of the prototypes, so as to preserve their coherence and integrability. To this end, the interface between the integration system, the query manager and the prototype for query rewriting and query answering using views (developed by the research unit of Roma) it will come realized.
PRODUCTS OF PHASE 3:
The expected products of this Phase are software prototypes (P).
D0.P1: Meta-data repository . (by a collaboration with the Bologna and Milano Research units)
D1.P1: Prototype of the design tool for the construction of a global view based on ontologies and on inter-schema axioms .
D1.P5: Prototype of the query manager.
PHASE 4 (duration 4 months)
The goal of this phase is to complete the development and integration of the prototypes realized in the previous phases and to conduct suitable experiment for verifying the effectiveness in actual integration problems. In particular, the experimentation will be conducted with information sources place at disposal by TELECOM Italia -Department of Data Administration, Data Warehousing and Data Mining. In collaboration with the research unit of Roma, the interface between the integration system, the query manager and the prototype for query rewriting and query answering using views will be done.
PRODUCTS OF PHASE 4:
The expected results of this Phase are the experimentation and evaluation of the methods developed within the project; to this purpose a technical report syntetizing such a result will be delivered.
D1.R12: Experimentation and evaluation of the prototypes. (by a collaborations with all the others Research units)

2.4 Descrizione delle attrezzature già disponibili ed utilizzabili per la ricerca proposta

Anno di acquisizione Descrizione
Testo italiano Testo inglese
1.  1999Workstation SUN Ultra 10, CPU 400 MHz, 256 MB, 9 GB HDD, Monitor 19", SO Solaris 2.6.  Workstation SUN Ultra 10, CPU 400 MHz, 256 MB, 9 GB HDD, Monitor 19", SO Solaris 2.6. 
2.  19972 Workstation SUN UltraSparc 5, 4 GB HDD, 320 MB RAM  2 Workstation SUN UltraSparc 5, 4 GB HDD, 320 MB RAM. 
3.  19991 PC PentiumIII 600, 128 MB, 20 GB HDD  1 PC PentiumIII 600, 128 MB, 20 GB HDD 
4.  19991 PowerMacintosh G4, 400Mhz, 128 MB RAM, 20 GB HDD  1 PowerMacintosh G4, 400Mhz, 128 MB RAM, 20 GB HDD 
5.  19981 PowerMacintosh G3, 333Mz, 128 MB RAM, 9 GB HDD  1 PowerMacintosh G3, 333Mz, 128 MB RAM, 9 GB HDD 


2.5 Descrizione della richiesta di Grandi attrezzature (GA)

Attrezzatura I
Descrizione

valore presunto (milioni)   percentuale di utilizzo per il programma

Attrezzatura II
Descrizione

valore presunto (milioni)   percentuale di utilizzo per il programma


Parte: III
3.1 Costo complessivo del Programma dell'Unità di Ricerca

Voce di spesa Spesa Descrizione
Euro Testo italiano   Testo inglese  
Materiale inventariabile 25  12.911  1 Workstation PC SCSI, Pentium III 600MHz, 256 MB RAM, 3 HDD SCSI U2W 10000 rpm da 9GB, RAID 5, Monitor 17". Stampante Laser a Colori. Libri, riviste e reprint di articoli.  1 Workstation PC SCSI, Pentium III 600MHz, 256 MB RAM, 3 HDD SCSI U2W 10000 rpm of 9GB, RAID 5, Monitor 17". Color Laser Print. Books, journals and reprints. 
Grandi Attrezzature        
Materiale di consumo e funzionamento 2.582  Spese postali, CD-ROM, Floppy Disk, Toner stampante, ...  Mail expense, CD-ROM, Floppy Disk, printer Toner, etc... 
Spese per calcolo ed elaborazione dati 2.582  utilizzo di computer ad alte prestazioni  Usage of high performance computers. 
Personale a contratto 36  18.592  Programmatori coinvolti nello sviluppo dei prototipi del progetto  Programmers involved the developmnent of the software prototypes. 
Servizi esterni 4.132  Spese per traduzioni, spese di tipografia ed altri servizi di supporto  Translation, printery and other support services expenses 
Missioni 45  23.241  Missioni nazionali ed internazionali collegate alle attivita' di ricerca  National and International meeting expenses related to the research activity. 
Altro 4.132  Spese di coordinamento progetto. Seminari colleghi nazionali ed internazionali.  Project management expenses, lectures of national and international researchers. 


  Euro
Costo complessivo del Programma dell'Unità di Ricerca 132  68.172 
 
Costo minimo per garantire la possibilità di verifica dei risultati 106  54.744 
 
Fondi disponibili (RD) 40  20.658 
 
Fondi acquisibili (RA) 0   
 
Cofinanziamento richiesto al MURST 92  47.514 
 


Parte: IV
4.1 Risorse finanziarie già disponibili all'atto della domanda e utilizzabili a sostegno del Programma

QUADRO RD

Provenienza Anno Importo disponibile nome Resp. Naz. Note
Euro
Università 1998   20  10.329    Fondi MURST ex. 60% Ricerca Avanzata - fondi SCARA6098OR a disp. di Tiberio (quota Tiberio:16ML,... 
Dipartimento 1999   1.549    Fondi Murst ex.60% 1999 - fondi TIBE6099, a disposizione di Tiberio (Quota di Colajanni: 3ML) 
MURST (ex 40%)          
CNR          
Unione Europea          
Altro 1998   17  8.780    ASI - fondi BERGASI98, a disposizione di Bergamaschi 
TOTAL   40  20.658     

4.1.1 Altro

Il Responsabile Nazionale del Progetto ASI"integrazione ed accesso a basi di dati eterogenee" e` il Prof. Lenzerini dell'Universita` di Roma "La Sapienza"

4.2 Risorse finanziarie acquisibili in data successiva a quella della domanda e utilizzabili a sostegno del programma nell'ambito della durata prevista

QUADRO RA

Provenienza Anno della domanda o stipula del contratto Stato di approvazione Quota disponibile per il programma Note
Euro
Università          
Dipartimento          
CNR          
Unione Europea          
Altro          
TOTAL        

4.2.1 Altro


4.3 Certifico la dichiarata disponibilità e l'utilizzabilità dei fondi di cui ai punti 4.1 e 4.2:      SI     

Firma ____________________________________________




(per la copia da depositare presso l'Ateneo e per l'assenso alla diffusione via Internet delle informazioni riguardanti i programmi finanziati; legge del 31.12.96 n° 675 sulla "Tutela dei dati personali")




Firma ____________________________________________ 31/03/2000 12:17:59