MINISTERO DELL'UNIVERSITÀ E DELLA RICERCA SCIENTIFICA E TE CNOLOGICA
DIPARTIMENTO AFFARI ECONOMICI
PROGRAMMI DI RICERCA SCIENTIFICA DI RILEVANTE INTERESSE NAZIO NALE
RICHIESTA DI COFINANZIAMENTO

(DM n. 10 del 13 gennaio 2000)
PROGETTO DI UNA UNITÀ DI RICERCA - MODELLO B
Anno 2000 - prot. MM09268483_004


Parte: I
1.1 Programma di Ricerca di tipo: interuniversitario

Area Scientifico Disciplinare: Ingegneria Industriale e dell'informazione (80%)
Area Scientifico Disciplinare: Scienze Matematiche (20%)

1.2 Durata del Programma di Ricerca: 24 mesi

1.3 Titolo del Programma di Ricerca

Testo italiano

D2I: Integrazione, warehousing e mining di sorgenti eterogenee di dati

Testo inglese

D2I: Integration, Warehousing, and Mining of Heterogeneous Data Sources

1.4 Coordinatore Scientifico del Programma di Ricerca

LENZERINI MAURIZIO  
(cognome) (nome)  
Università degli Studi di ROMA "La Sapienza" Facoltà di INGEGNERIA
(università) (facoltà)
K05A Dipartimento di INFORMATICA E SISTEMISTICA
(settore scient.discipl.) (Dipartimento/Istituto)


lenzerini@dis.uniroma1.it
(E-mail)


1.5 Responsabile Scientifico dell'Unità di Ricerca

CASTANO SILVANA  
(cognome) (nome)  


Professore associato 25/10/1965 CSTSVN65R65D872D
(qualifica) (data di nascita) (codice di identificazione personale)

Università degli Studi di MILANO Facoltà di SCIENZE MATEMATICHE FISICHE e NATURALI
(università) (facoltà)
K05B Dipartimento di SCIENZE DELL'INFORMAZIONE
(settore scient.discipl.) (Dipartimento/Istituto)


02/55006319 02/55006246 castano@dsi.unimi.it
(prefisso e telefono) (numero fax) (E-mail)


1.6 Settori scientifico-disciplinari interessati dal Programma di Ricerca

K05A K05B


1.7 Parole chiave

Testo italiano
BASI DI DATI ; SISTEMI INFORMATIVI ; INTEGRAZIONE ; DATI SEMISTRUTTURATI ; TECNICHE DI AFFINITA' E CLUSTERING ; VISTE RICONCILIATE

Testo inglese
DATABASE ; INFORMATION SYSTEMS ; INTEGRATION ; SEMISTRUCTURED DATA ; AFFINITY AND CLUSTERING TECHNIQUES ; RECONCILIED VIEWS


1.8 Curriculum scientifico del Responsabile Scientifico dell'Unità di Ricerca

Testo italiano

Silvana Castano e' professore associato di Basi di dati e Sistemi Informativi presso il Dipartimento di Scienze dell'Informazione dell'Universita' di Milano. Dal 1993 al 1998 e' stata ricercatore presso la stessa Universita'. Nel 1993 ha conseguito il titolo di dottore di ricerca in Ingegneria Informatica e Automatica presso il Politecnico di Milano. I suoi interessi di ricerca sono nell'area delle basi di dati e sistemi informativi, con particolare riguardo a integrazione di sorgenti eterogenee di informazioni, dati semistrutturati e XML, reingegnerizzazione e riuso di dati e processi, applicazioni workflow, sicurezza di basi di dati. Su questi argomenti ha pubblicato numerosi articoli a riviste e conferenze internazionali e nazionali e ha partecipato a numerosi progetti di ricerca sia nazionali che internazionali. Fra questi i progetti Esprit ITHACA (Integrated Toolkit for Highly Advanced Computer Applications), F3 (From Fuzzy to Formal), WIDE (Workflow on Intelligent Distributed database Environment), RENOIR (Requirements Engineering Network Of International cooperating Research groups). E' co-autore del libro Database Security (Addison Wesley, 1995). Dal giugno 1997, e' Coordinatore del Gruppo di lavoro AICA "Basi di dati". E' membro dell'ACM, IEEE Computer Society e dell'AICA.

Testo inglese

Silvana Castano is associate professor of Computer Science at University of Milano.Previously, she has been assistant professor at the same University (1993-1998). She received the Ph.D. degree in Computer Science from Politecnico di Milano, in 1993. Her main research interests are in the area of databases and information systems and include integration of heterogeneous information sources, semistructured data and XML, data and process re-engineering and reuse, workflow design, database security. On these topics, she has published several papers and has been working within several national and international research projects, including ITHACA (Integrated Toolkit for Highly Advanced Computer Applications), F3 (From Fuzzy to Formal), WIDE (Workflow on Intelligent Distributed database Environment), and RENOIR (Requirements Engineering Network Of International cooperating Research groups) ESPRIT Projects. She is a co-author of the book Database Security (Addison Wesley, 1995). Since June 1997, she is chair of the AICA Working Group on Databases. She is a member of the ACM, IEEE Computer Society and AICA.

1.9 Pubblicazioni scientifiche più significative del Responsabile Scientifico dell'Unità di Ricerca
  1. CASTANO S., DE ANTONELLIS V., "A Discovery-Based Approach to Database Ontology Design" , Rivista: Distributed and Parallel Databases , Volume: 7(1) , (1999) .
  2. BERGAMASCHI S., CASTANO S., VINCINI M., "Semantic Integration of Semistructured and Structured Data Sources" , Rivista: SIGMOD Record , Volume: 28(1) , (1999) .
  3. CASTANO S., DE ANTONELLIS V., FUGINI M.G., PERNICI B., "Conceptual Schema Analysis: Techniques and Applications" , Rivista: ACM Trans. on Database Systems , Volume: 23(3) , (1998) .
  4. CASTANO S., DE ANTONELLIS V., "A Schema Analysis and Reconciliation Tool Environment for Heterogeneous Databases" , Rivista: IEEE Proc. of Int. Database Engineering and Applications Symposium (IDEAS'99) , (1999) .
  5. CASATI F., CASTANO S., FUGINI M.G., MIRBEL-SANCHEZ I., PERNICI B., "Using Patterns to Design Rules in Workflows" , Rivista: IEEE Trans. on Software Engineering , (2000) accepted for publication .

1.10 Risorse umane impegnabili nel Programma dell'Unità di Ricerca

1.10.1 Personale universitario dell'Università sede dell'Unità di Ricerca

Cognome Nome Dipart./Istituto Qualifica Settore
scient.
Mesi
uomo
2000 2001
 
1  CASTANO  SILVANA  SCIENZE DELL'INFORMAZIONE  Prof. associato  K05B  4  4
2  MARTELLA  GIANCARLO  SCIENZE DELL'INFORMAZIONE  Prof. ordinario  K05A  4  4
3  MONTESI  DANILO  SCIENZE DELL'INFORMAZIONE  Ricercatore  K05B  4  4
 

1.10.2 Personale universitario di altre Università

Cognome Nome Università Dipart./Istituto Qualifica Settore
scient.
Mesi
uomo
2000 2001
 
1  DE ANTONELLIS  VALERIA  BRESCIA  ELETTRONICA PER L'AUTOMAZIONE  Prof. ordinario  K05A  1  2
2  DE CAPITANI DI VIMERCATI  SABRINA  BRESCIA  ELETTRONICA PER L'AUTOMAZIONE  Ricercatore  K05A  2  3
 

1.10.3 Titolari di assegni di ricerca

Cognome Nome Dipart./Istituto Anno del titolo Mesi
uomo
2000 2001
 
 

1.10.4 Titolari di borse per Dottorati di Ricerca e ex L. 398/89 art.4 (post-dottorato e specializzazione)

Cognome Nome Dipart./Istituto Anno del titolo Mesi uomo

1.10.5 Personale a contratto da destinare a questo specifico programma

Qualifica Costo previsto Mesi uomo
1. LAUREATO  14 
2. LAUREATO  16 

1.10.6 Personale extrauniversitario dipendente da altri Enti

Cognome Nome Dipart./Istituto Qualifica Mesi uomo
1. MELCHIORI  MICHELE  UNIVERSITA' DI BRESCIA  DOTTORANDO 


Parte: II
2.1 Titolo specifico del programma svolto dall'Unità di Ricerca

Testo italiano

METODI E STRUMENTI PER LA RICONCILIAZIONE DI SORGENTI ETEROGENEE E
SEMISTRUTTURATE

Testo inglese

METHODS AND TOOLS FOR THE RECONCILIATION OF HETEROGENEOUS AND SEMISTRUCTURED SOURCES

2.2 Base di partenza scientifica nazionale o internazionale

Testo italiano

L'integrazione e riconciliazione di dati provenienti da sorgenti eterogenee per scopi di
interrogazione e warehousing e' un argomento di ricerca rilevante nell'area basi di dati.
Numerosi contributi sono stati prodotti relativamente a sistemi per l'interrogazione a livello globale di basi di dati eterogenee. I principali sistemi sviluppati in tale ambito, SIMS [Arens 93], Information Maninfold [Kirk 95], GARLIC [Roth 97], Infomaster [Geneseret 95], si concentrano sulla decomposizione dinamica di query globali in sotto-query per le singole sorgenti, utilizzando regole di trasformazione per la riconciliazione delle diverse risposte, sulla base di uno schema integrato delle sorgenti che si suppone definito, generalmente manualmente, a partire dagli schemi delle sorgenti di interesse e dalle interrogazioni che si intendono supportare.
Altri contributi della letteratura riguardano piu' specificamente il problema della riconciliazione di schemi in ambienti multidatabase con trattamento di eterogeneita' semantica. Una classificazione delle forme di eterogeneita' e dei possibili approcci alla riconciliazione e' presentato in [Hull 97], mentre problematiche generali relative a integrazione di schemi sono trattate in [Ram 98]. Strumenti specifici per integrazione e traduzione di dati eterogenei sono presentati in [Bright94, Reddy 94]. Regole e linguaggi per una rappresentazione integrata di informazioni eterogenee sono definiti in sistemi basati su mediatori [Chawathe 94]. Conoscenza di ontologie e' utilizzata per mediare tra terminologie di sorgenti eterogenee nella gestione di interrogazioni [Mena 96].
La presenza di sorgenti di dati semistrutturati nei moderni sistemi informativi basati su Web pone nuove problematiche da investigare rispetto al caso in cui si considerino solo tradizionali sorgenti di tipo strutturato, anche per scopi di integrazione. La recente letteratura relativa a dati semistrutturati si e' focalizzata sullo studio di problematiche di modellizzazione e interrogazione. Una rassegna di tali problematiche e' presentata in [Buneman 97a]. Fra i modelli per dati semistrutturati proposti in letteratura, si ricordano il modello OEM (Object Exchange Model) presentato in [Papakonstantinou 92] e il modello presentato in [Buneman 96]. Il problema di estrarre la struttura da una sorgente semistrutturata e' stato studiato nella recente letteratura per scopi di interrogazione, ma e' rilevante anche per scopi di integrazione. In [Buneman 97b,Widom 96] sono descritti algoritmi per l'estrazione di schemi a grafo per la rappresentazioni concisa e sintetica del contenuto di una sorgente semistrutturata utili per ottimizzazione di interrogazioni. Una proposta per l'inferenza della struttura da dati semistrutturati sottoforma di gerarchia di tipi e' presentata in [Nestorov 97]. Altri contributi rilevanti riguardano il linguaggio XML proposto dalla W3C per la definizione di documenti sulla rete Web [Bos 97]. Tale linguaggio infatti risulta adatto a descrivere dati semistrutturati in generale e consente di definire esplicitamente la struttura dei dati (Document Type Definition - DTD). Per tali ragioni, le problematiche di integrazione devono tenere conto considerando anche di sorgenti XML.
Gli aspetti di integrazione di dati semistrutturati sono stati affrontati preliminarmente dal punto di vista dei linguaggi di interrogazione per il Web e per sorgenti semistrutturate [Levy 96, Mendelzon 96]. In particolare, sono state proposte estensioni al liguaggio SQL per la definizione viste ottenute estraendo e ristrutturando dati di sorgenti diverse, risolvendo ''ad hoc'' nella definizione della vista le eventuali eterogeneita' dei dati di sorgenti semistrutturate diverse [Deutsch 98]. Alcuni contributi relativi a tecniche di schema-matching e sistemi middleware sono stati proposti per attivita' di trasformazione e integrazione di dati su Web [Haas 99, Milo 98].
L'unita' operativa di Milano (che include ricercatori dell'Universita' di Milano e dell'Universita' di Brescia) ha prodotto contributi per lo sviluppo di tecniche di analisi e classificazione di schemi concettuali in generale [Castano 98], e piu' specificamente contributi per la definizione di modelli per la rappresentazione di concetti e di relazioni semantiche fra concetti e per metodi di classificazione di schemi concettuali di basi di dati mediante costruzione di ontologie e dizionari semantici organizzati per domini applicativi [Castano 99a, Castano 97a]. Ha, inoltre, sviluppato nell'ambito del progetto MURST INTERDATA l'ambiente di supporto ARTEMIS per integrazione di sorgenti strutturate, descritto in [Castano99b]. Altri contributi dell'unita' operativa riguardano linguaggi per l'estrazione di dati da Web [Montesi 98, Montesi 99], ottimizzazione semantica di interrogazioni in basi di dati [Montesi 96], e integrazione di dati in presenza di vincoli di autorizzazione in sistemi di basi di dati eterogenee distribuite [Castano 97c,Castano95].
Tali metodi e strumenti concepiti essenzialmente per dati strutturati verranno opportunamente estesi in questo progetto per il trattamento di dati semistrutturati e sorgenti XML durante il processo di integrazione per la costruzione di viste riconciliate di sorgenti eterogenee e per la definizione di linguaggi di interrogazione di tipo fuzzy per la loro interrogazione. L'ambiente di partenza sara' il sistema MOMIS [Bergamaschi 98], la cui architettura iniziale e' stata definita nel progetto MURST INTERDATA, sulla base degli strumenti ARTEMIS e ODB-Tools per sorgenti di dati strutturati.

Testo inglese

The integration and reconciliation of heterogeneous data sources for querying and warehousing purposes is a relevant research topic in the database area.
Several works have been published related to systems for querying heterogeneous databases. Some projects developed in this context, such as SIMS [Arens 93], Information Maninfold [Kirk 95], GARLIC [Roth 97], and Infomaster [Geneseret 95], focus on dynamic decomposition of global queries into sub-queries to determine an efficient plan to answer the user's queries by using translation rules to harmonize sub-query results from heterogeneous sources, on the basis of an integrated schema properly defined (generally manually) starting from the sources of interest and from the expected queries.
Other contributions regard more specifically schema integration in multidatabase environments, by addressing semantic heterogeneity problems. A classification of semantic heterogeneity and of possibile approaches to reconciliation is presented in [Hull 97], while general problems related to schema integration are discussed [Ram 98]. Specific tools for integration and translation of heterogeneous data are presented in [Bright94, Reddy 94]. Rules and languages for an integrated representation of heterogeneous information are defined in mediator-based systems [Chawathe 94]. Ontology knowledge is exploited to mediate between heterogeneous source terminologies in query processing [Mena 96].
The presence of semistructured data sources in modern Web-based information systems poses new problems to be investigated with respect to conventional structured databases, also for integration purposes. The recent literature on semistructured data has concentrated on problems related to modeling and querying. A survey of these problems is presented in [Buneman 97a]. Main models proposed for semistructured data are the "Object Exchange Model'' (OEM) described in [Papakonstantinou 92] and the one presented in [Buneman 96]. The issue of adding structure to semistructured data is studied for query purposes, and is also of interest for integration purposes. In particular, in [Buneman97b,Widom 96], algorithms are described for the extraction of graph-based structures from a semistructured source to be used for query optimization. A proposal to infer a type hierarchy for semistructured data has been presented in [Nestorov 97]. Other relevant contributions regard the XML language proposed by the W3C for defining documents over the Web [Bos 97]. In fact, XML is apt to represent semistructured data in general and has the possibility of explicitly representing the structure of XML data (DTD - Document Type Definition). For these reasons, integration problems for semistructured data should take into account also XML data sources.
Integration aspects for semistructured data have been only preliminarly investigated mainly from the point of view of query languages for the Web and semistructured data in general [Levy 96, Mendelzon 96]. In particular, some extensions to SQL have been proposed to define views by composing data extracted from different sources, by resolving ''ad hoc'' in the view definition possible terminology and/or structure heterogeneities among data of different sources [Deutsch 98]. Other contributions related to schema-matching techniques and middleware systems have been recently proposed for data transformation and integration over the Web [Haas 99, Milo 98].
The research team at University of Milano (which includes researchers of the University of Milano and of the University of Brescia) has produced contributions to the development of schema analysis techniques, in general terms [Castano 98], and more specifically, contributions to the definition of models for representing concepts and semantic relationships between concepts and of schema classification methods by constructing ontologies and semantic dictionaries organized by application domains [Castano 99a, Castano 97a]. Furthermore, in the framework of MURST INTERDATA research project, the ARTEMIS tool environment has been developed for the integration of heterogeneous databases [Castano 99b]. Other contributions of the research team regard languages for the extraction of data from the Web [Montesi 98, Montesi 99], semantic query optimization in databases [Montesi 96], and data integration with authorization constraints in heterogeneous database systems [Castano97b,Castano 95].
These methods and tools, mainly conceived for structured data, will be extended in this project to consider semistructured data and XML sources in the integration process to construct reconciled views, and to define a fuzzy language for their querying. The starting environment will be the MOMIS system [Bergamaschi 98], whose initial architecture has been set in the framework of the MURST INTERDATA project, on the basis of the ARTEMIS tool environment and ODB-Tools for structured data sources.

2.2.a Riferimenti bibliografici

[Arens 96] Y. Arens, C. A. Knoblock and C. Hsu, "Query Processing in the SIMS Information Mediator'', in Advanced Planning Technology, AAAI Press, Menlo Park, CA, 1996.
[Bergamaschi 98] S. Bergamaschi, S. Castano, S. De Capitani di Vimercati, S. Montanari, M.Vincini, "An Intelligent Approach to Information Integration,'' in Proc. of Int. Conference on Formal Ontology in Information Systems (FOIS'98)}, Trento, Italy, June 1998.
[Bos 97] B. Bos, The XML Data Model, 1997,(http://www.w3.org/XML/Datamodel.html)
[Buneman 96] P. Buneman, S. Davidson, G. Hillebrand, D. Suciu, "A Query Language and Optimization Techniques for Unstructured Data'', in Proc. of the ACM SIGMOD International Conference, Montreal, Canada, June 1996.
[Buneman 97a] P. Buneman, "Semistructured Data'', in Proc. of 1997 Symposium on Principles of Database Systems (PODS97), Tucson, Arizona, May 1997.
[Buneman 97b] P. Buneman, S. Davidson, M. Fernandez, and D. Suciu, "Adding Structure to Unstructured Data'', in Proc. of ICDT Conference, Delphi, Greece, January 1997.
[Castano 99a] S. Castano, V. De Antonellis, "A Discovery-Based Approach to Database Ontology Design'', Distributed and Parallel Databases - Special Issue on Ontologies and Databases, Vol.7, N.1, 1999.
[Castano 99b] S. Castano, V. De Antonellis, "A Schema Analysis and Reconciliation Tool Environment for Heterogeneous Databases", in IEEE Proc. of IDEAS'99 International Database Engineering and Applications Symposium, Montreal, August 1999.
[Castano 98] S. Castano, V. De Antonellis, M.G. Fugini, B. Pernici, "Conceptual Schema Analysis: Techniques and Applications'', ACM Transactions on Database Systems, vol.23, n.3, September 1998.
[Castano 97a] S. Castano, V. De Antonellis, "Semantic Dictionary Design for Database Interoperability", in Proc. IEEE Int. Conf. on Data Engineering, ICDE'97, Birmingham, 1997.
[Castano 97b] S. Castano, M.G. Fugini, S. De Capitani Di Vimercati, "Automated Derivation of Global Authorizations in Federated Systems", Journal of Computer Security, Vol.5 N.4, December 1997.
[Castano 95] S. Castano, M.G. Fugini, G. Martella, P. Samarati, Database Security, Addison-Wesley, 1995.
[Chawathe 94] S. Chawathe, H. Garcia Molina, J. Hammer, K. Ireland, Y. Papakostantinou, J.Ullman, and J.Widom, ''The TSIMMIS project: Integration of Heterogeneous Information Sources'', in Proc. of 100th Anniversary Meeting of the Information Processing Society of Japan, Tokyo, Japan, October 1994 (ftp://db.stanford.edu/pub/chawathe/1994/tsimmis-overview.ps).
[Deutsch 98] A. Deutsch, M. Fernandez, D. Florescu, A. Levy, D. Suciu, "XML-QL: A Query Language for XML'', World Wide Web Consortium, Working paper, August 1998, (http://www.w3.org/TR/NOTE-xml-ql).
[Genesereth 97] M. R. Genesereth, A. M. Keller and O. Duschka, "Infomaster: An Information Integration System'', in Proc. of the ACM SIGMOD Int. Conference, May 1997.
[Goldman 96] R. Goldman and J. Widom, "DataGuides: Enabling Query Formulation and Optimization in Semistructured Data'', in Proc. of the 23rd Int. Conference on Very Large Data Bases, VLDB'97, Athens, Greece, 1997.
[Haas 99] L.M. Haas, R.J. Miller, B. Niswonger, M. Tork Roth, P.M. Schwarz, E.L. Wimmers, ''Transforming Heterogeneous Data with Database Middleware: Beyond Integration'', IEEE Data Engineering Bulletin, Vol.22, No.1, March 1999 (http://www.research.microsoft.com/research/db/debull/99mar/issue.htm).
[Hull 97] R. Hull, "Managing Semantic Heterigeneity in Databases: A Theoretical Perspective", Tutorial presented to ACM Symp. on Principles of Database Systems - PODS'97, 1997.
[Kirk 95] T. Kirk, A. Y. Levy, Y. Sagiv and D. Srivastava, "The Information Manifold'', in Working Notes of the AAAI Spring Symposium on Information Gathering from Heterogeneous, Distributed Environments, 1995.
[Levy 96] A.Y. Levy, A. Rajaraman, J.J. Ordille, "Querying Heterogeneous Information Sources Using Source Descriptions", in Proc. of 22th Int. Conference on Very Large Data Bases, VLDB'96, Mumbai(Bomaby), 1996.
[Mena 96] E. Mena, V. Kashyap, A. Sheth, A. Illarramendi, ''OBSERVER: An Approach for Query Processing in Global Information Systems based on Interoperation across Pre-existing Ontologies'', in Proc. of First IFCIS International Conference on Cooperative Information Systems (CoopIS'96), Brussels (Belgium), June 1996.
[Mendelzon 1996] A. Mendelzon, G. Mihaila, T. Milo, "Querying the World Wide Web", in Proc. of First Int. Conf. on Parallel and Distributed Information Systems (PDIS'96), 1996.
[Milo 98] T. Milo, S. Zohar, "Using Schema Matching to Simplify Heterogeneous Data Translation'', in Proc. of the 24th Int. Conference on Very Large Data Bases, VLDB'98, New York, USA, 1998.
[Montesi 96] Danilo Montesi, C. Renso, Franco Turini, "Using Temporary Integrity Constraints to Optimize Databases", Int. Conference on Formal and Applied Practical Reasoning (FAPR), 1996.
[Montesi 98] D. Montesi, A.Trombetta, "An Extraction language for the Web", in Proc. of Workshop on Web Information and Data Management, 1998.
[Montesi 99] D. Montesi, A.Trombetta, ''Similarity Search through Fuzzy Relational Algebra'', in Proc. of the DEXA'99 Int. Workshop on Similarity Search (IWOSS'99), Florence, Italy, September 1999.
[Nestorov 97] S. Nestorov, S. Abiteboul and R. Motwani, "Inferring Structure in Semistructured Data'', SIGMOD Record, Vol.26, No.4, 1997.
[Ram 98] S. Ram, V. Ramesh, "Schema integration: past, present and future", in A. Elmagarmid et al. (Eds.), Management of Heterogeneous and Autonomous Database Systems, Morgan-Kaufmann, 1998.
[Reddy 94] M.P. Reddy, B.E. Prasad, P.G. Reddy, A. Gupta, ``A Methodology for Integration of Heterogeneous Databases'', IEEE Trans. on Knowledge and Data Engineering, Vol.6, No.6, December 1994.
[Roth 97] M.T. Roth, P. Scharz, "Don't Scrap It, Wrap it! A Wrapper Architecture for Legacy Data Sources'', in Proc. of the 23rd Int. Conf. on Very Large Databases, VLDB'97 Athens, Greece, 1997.

2.3 Descrizione del programma e dei compiti dell'Unità di Ricerca

Testo italiano

Obiettivo della ricerca dell'unita' operativa di Milano e' lo sviluppo di un ambiente per la creazione di viste riconciliate di dati eterogenei e semistrutturati, mediante utilizzo di tecniche di affinita' e clustering specializzate per tali dati, e per l'interrogazione di viste riconciliate mediante un linguaggio di tipo fuzzy opportunamente definito.
Nell'integrazione di sorgenti di dati semistrutturati, problematiche fondamentali da risolvere riguardano l'identificazione di dati semanticamente simili in sorgenti diverse e il trattamento delle diverse tipologie di eterogeneita' peculiari di tali dati al fine di derivare rappresentazioni riconciliate e rendere possibili interrogazioni in modo uniforme a livello globale. Nei moderni sistemi informativi basati su Web il numero di sorgenti eterogenee e semistrutturate da integrare puo' diventare molto elevato ed e' pertanto importante sviluppare un ambiente intelligente che consenta di operare il possibile in maniera semi-automatica. A tale scopo, si studieranno tecniche per l'identificazione di dati simili in sorgenti semistrutturate diverse, basate su definizione e valutazione di proprieta' di affinita' e corrispondenze semantiche specificamente concepite per tenere conto di eterogenita' e proprieta' dei dati semistrutturati. Si svilupperanno inoltre algoritmi di clustering basato su affinita' per la selezione interattiva di candidati all'integrazione e regole con cui derivare rappresentazioni riconciliate di dati semistrutturati in forma di viste globali. Al fine di rendere il processo di integrazione semi-automatico, le tecniche sfrutteranno il piu' possibile metadati e contenuto semantico di sorgenti semistrutturate con l'ausilio di conoscenza di dominio (ad esempio, thesaurus, ontologie). Si studiera' inoltre un linguaggio di interrogazione fuzzy per interrogare viste riconciliate di dati semistrutturati in cui l'utente puo' pesare i termini nell'interrogazione e filtrare le risposte in base alla rilevanza.
Il programma di ricerca dell'unita' operativa di Milano e' biennale e si articola nelle seguenti fasi.
Fase 1) (durata 4 mesi)
Definizione di requisiti di integrazione per sorgenti di dati eterogenei e semistrutturati per la valutazione di proprieta' di affinita' e corrispondenze semantiche, tenendo conto di proprieta' e caratteristiche delle loro descrizioni a livello intensionale (metadati), contenuto semantico (con l'ausilio di thesaurus/ontologie), tipologie di eterogeneita' e proprieta' intra e inter-schema. Definizione preliminare della struttura del meta-data repository sulla base dei requisiti di integrazione identificati.
Prodotti della Fase 1:
D0.R1: Specifiche per il meta-data repository (in collaborazione con BO,CS,RM,MO)
D1.R1: Metodi e tecniche di estrazione, rappresentazione ed integrazione di sorgenti strutturate e semi-strutturate eterogenee (in collaborazione con BO,CS,RM,MO)
D1.R2: Utilizzo di ontologie e proprieta' inter-schema di tipo estensionale (in collaborazione con MO)
Fase 2) (durata 8 mesi)
Definizione di tecniche di clustering basate su affinita' e corrispondenze semantiche per sorgenti di dati semistrutturati e selezione interattiva di cluster di candidati all'integrazione da cui derivare viste riconciliate mediante opportune regole definite. Definizione del linguaggio fuzzy per l'interrogazione di viste riconciliate. Definizione di una metodologia per la costruzione semi-automatica di viste riconciliate basata su affinita' e clustering e definizione delle specifiche funzionali del prototipo dell'ambiente di supporto relativo: tali attivita' saranno svolte anche in stretta collaborazione le altre unita' coinvolte. Definizione di uno specifico livello del meta-data repository dedicato a contenere regole di integrazione/unificazione in un verso e mapping/trasformazione nel verso opposto per la derivazione, rispettivamente, del processo di integrazione e delle corrispondenze tra viste riconciliate e candidati nei cluster delle sorgenti di partenza.
Prodotti della Fase2:
D0.R2: Specifica della architettura funzionale del repository di meta-dati (in collaborazione con BO,CS,RM,MO)
D1.R6: Descrizione della metodologia di integrazione di sorgenti fortemente eterogenee ( in collaborazione con MO,BO)
D1.R7: Architettura funzionale di un ambiente di ausilio al progettista per la costruzione di viste riconciliate di sorgenti fortemente eterogenee basato sulle tecniche sviluppate (in collaborazione con CS,MO).
D1.R10: Descrizione del linguaggio fuzzy per l' interrogazione di viste riconciliate
Fa se 3) (durata 8 mesi)
Realizzazione di un prototipo di strumento di ausilio al progettista per la costruzione di viste riconciliate di sorgenti eterogenee e semistrutturate basato sulle tecniche di affinita' e clustering e sull'architettura funzionale definite nella fase 2. Collaborazione alla realizzazione del meta-data repository per gli aspetti relativi alla costruzione di viste riconciliate con affinita' e clustering.
Prodotti della Fase3:
D0.P1: Repository di meta-dati (in collaborazione con BO,CS,RM,MO)
D1.P7: Prototipo di ambiente di ausilio al progettista per la costruzione di viste globali riconciliate basato su valutazione di affinita' e clustering interattivo
Fase 4) (durata 4 mesi)
Completamento dell'implementazione del prototipo sviluppato nella fase 3 e effettuazione di sperimentazione e validazione della metodologia e dello strumento su casi applicativi individuati nell'ambito del progetto anche in collaborazione con Telecom Italia.
D1.R12: Risultati della sperimentazione delle metodologie e dei prototipi per l'integrazione (in collaborazione con BO,CS,MO,RM)

Testo inglese

Objectives of the research of the University of Milano unit will be the development of an environment for the construction of reconciled views of heterogeneous and semistructured data by using affinity and clustering techniques specialized for this kind of data, and for querying reconciled views by means of a fuzzy query language specifically defined.
In the integration of semistructured data sources, relevant problems to be addressed are related to the identification of semantically similar data in different semistructured sources by taking into account different typologies of heterogeneity that characterize this kind of data, in order to derive global reconciled representations to support uniform queries at the global level. In moder Web-based information systems, the number of heterogeneous and semistructured data sources to be integrated can be very high, and for this reason it is essential to develop an environment semi-automated as much as possible. To this end, techniques will be developed to identify semantically similar data in different semistructured sources based on the definition and evaluation of affinity properties and semantic correspondences specifically conceived to take into account heterogeneities and properties of this kind of data. Furthermore, clustering algorithms will be studied for the interactive selection of candidates to integration and rules to derive a corresponding reconciled representation in form of global view. To make the environment semi-automatic, techniques will be conceived to exploit as much as possible metadata descriptions and semantic contents of semistructured sources with domain knowledge (e.g., thesaurus, ontologies). A fuzzy language will be specifically defined for querying reconciled views of semistructured data, allowing the user to weight terms in the queries and to filter the results on the basis of their relevance.
The research program of the University of Milano unit is over two-years, and is articulated in the following phases.
Phase 1) (4 months)
Definition of requirements for the integration of heterogeneous and semistructured data sources, to the evaluation of affinity properties and semantic correspondences, by taking into account properties and characteristics of intensional descriptions (metadata), semantic content (with the help of thesaurus/ontologies), typologies of semantic heterogeneity and inter-schema properties. Preliminary definition of the structure of the meta-data repository based on identified integration requirements.
Products of Phase 1:
D0.R1: Specification for the meta-data repository (in collaboration with BO,CS,RM,MO)
D1.R1: Methods and techniques for the extraction, representation, and integration of structured and semi-structured data sources (in collaboration with BO,CS,RM,MO)
D1.R2: Use of ontologies and extensional inter-schema properties for integration (in collaboration with MO)
Phase 2) (8 months)
Definition of clustering techniques based on affinity properties and semantic correspondences for the identification of semistructured data candidate to integration from which to derive the reconciled view by means of defined rules. Definition of a fuzzy language for querying reconclied views. Definition of a methodology for the construction of global reconciled views out of candidate clusters and definition of the functional architecture of the corresponding prototype tool environment for the construction of reconciled views: these two latest activities will be conducted also in strict collaboration with the other units involved. Definition of a specific level of the meta-data repository, devoted to storing integration/unification rules on one direction and mapping/transformation rules in the opposite direction, to derive the integration process and the correspondences between reconciled views and candidates in the original sources, respectively.
Products of Phase 2:
D0.R2: Functional architecture of meta-data repository (in collaboration with BO,CS,RM,MO)
D1.R6: Description of the methodology for the integration of strongly heterogeneous sources (in collaboration with MO,BO)
D1.R7: Functional architecture of a design tool to build a reconciled view of heterogeneous sources (in collaboration with CS,MO).
D1.R10: Description of the fuzzy language for querying reconciled views
Phase 3) (8 months)
Implementation of a prototype of tool environment for the construction of reconciled views for based on affinity and clustering techniques developed in phase 2. Collaboration to the development of the meta-data repository for the aspects related to reconciled view construction based on affinity and clustering techniques.
Products of Phase 3:
D0.P1: Meta-data-repository (in collaboration with BO,CS,RM,MO)
D1.P7: Prototype of the design tool for the construction of a global view based on affinity evaluation and interactive clustering
Phase 4) (4 months)
The implementation of the prototype of phase 3 will be completed. Experimentation and validation of the methodology and of the prototype tool will be performed on application cases that will be identified in the project also in collaboration with Telecom Italia.
D1.R12: Experimentation and evaluation of the prototypes (in collaboration with BO,CS,MO,RM)

2.4 Descrizione delle attrezzature già disponibili ed utilizzabili per la ricerca proposta

Anno di acquisizione Descrizione
Testo italiano Testo inglese
1.  19981 NT server presso il Laboratorio di sistemi informativi e sicurezza.  1 PC NT server in the Information system and security laboratory. 
2.     
3.     
4.     
5.     


2.5 Descrizione della richiesta di Grandi attrezzature (GA)

Attrezzatura I
Descrizione

valore presunto (milioni)   percentuale di utilizzo per il programma

Attrezzatura II
Descrizione

valore presunto (milioni)   percentuale di utilizzo per il programma


Parte: III
3.1 Costo complessivo del Programma dell'Unità di Ricerca

Voce di spesa Spesa Descrizione
Euro Testo italiano   Testo inglese  
Materiale inventariabile 35  18.076  Acquisizione di stazioni di lavoro (PC - workstation) e periferiche. Acquisto di libri.  PC - Workstations and peripherals. Books 
Grandi Attrezzature        
Materiale di consumo e funzionamento 2.582  Materiale accessorio vario per laboratorio e ufficio.  Consumables (e.g., paper, toners, diskettes, CDs ) 
Spese per calcolo ed elaborazione dati        
Personale a contratto 30  15.494  Personale da coinvolgere nella progettazione dei prototipi  People to be involved in the design activity 
Servizi esterni 15  7.747  Sviluppo di software  Software development 
Missioni 50  25.823  Missioni per riunioni del progetto, seminari, convegni nazionali e internazionali inerenti il progetto  Participation to project meetings, seminars, and national and international conferences. 
Altro        


  Euro
Costo complessivo del Programma dell'Unità di Ricerca 135  69.722 
 
Costo minimo per garantire la possibilità di verifica dei risultati 108  55.777 
 
Fondi disponibili (RD) 11  5.681 
 
Fondi acquisibili (RA) 30  15.494 
 
Cofinanziamento richiesto al MURST 94  48.547 
 


Parte: IV
4.1 Risorse finanziarie già disponibili all'atto della domanda e utilizzabili a sostegno del Programma

QUADRO RD

Provenienza Anno Importo disponibile nome Resp. Naz. Note
Euro
Università          
Dipartimento 1998   11  5.681    60%-97+60%-98 
MURST (ex 40%)          
CNR          
Unione Europea          
Altro          
TOTAL   11  5.681     

4.1.1 Altro


4.2 Risorse finanziarie acquisibili in data successiva a quella della domanda e utilizzabili a sostegno del programma nell'ambito della durata prevista

QUADRO RA

Provenienza Anno della domanda o stipula del contratto Stato di approvazione Quota disponibile per il programma Note
Euro
Università 2000   disponibile in caso di accettazione della domanda  21  10.846   
Dipartimento          
CNR 1999   accettato  1.033  contributo nr. 99.01963.CT07(*) (resp. prof. Fugini) 
Unione Europea          
Altro 2000   in fase di negoziazione  3.615   
TOTAL     30  15.494   

4.2.1 Altro

Contratto con AIPA (Autorita' per l'Informatica nella Pubblica Amministrazione) in fase di negoziazione

4.3 Certifico la dichiarata disponibilità e l'utilizzabilità dei fondi di cui ai punti 4.1 e 4.2:      SI     

Firma ____________________________________________




(per la copia da depositare presso l'Ateneo e per l'assenso alla diffusione via Internet delle informazioni riguardanti i programmi finanziati; legge del 31.12.96 n° 675 sulla "Tutela dei dati personali")




Firma ____________________________________________ 31/03/2000 15:47:20