MINISTERO DELL'ISTRUZIONE DELL'UNIVERSITÀ E DELLA RICERCA

RELAZIONE ANNUALE

COORDINATORE

Anno 2000 - prot. MM09268483



 

Coordinatore LENZERINI Maurizio 
Università Universita' degli Studi di ROMA "La Sapienza" 
Titolo del Programma D2I: Integrazione, warehousing e mining di sorgenti eterogenee di dati 
Costo originale del Progetto 881.000.000 
Quota Cofinanziamento MURST 564.000.000 
Quota Cofinanziamento ATENEO 254.000.000 
Totale finanziamento 818.000.000 
Fondi complessivi utilizzati nel primo anno 380.255.684 



1. Obiettivo della Ricerca

 

L'obiettivo generale del progetto e' la definizione di un quadro metodologico generale per l'integrazione, il warehousing e il mining di sorgenti eterogenee (D2I: From Data to Information), e lo sviluppo di metodi e strumenti specifici per i tre temi.

Nel primo anno, il progetto era caratterizzato dai seguenti obiettivi.

Oltre alla definizione dettagliata dei requisiti che il contesto generale del progetto pone sui vari temi di ricerca, un obiettivo generale era di specificare il ruolo del repository di meta-dati che fornisce la base comune per le metodologie e gli strumenti che verranno sviluppati nelle fasi successive. Gli obiettivi di ricerca specifici sui singoli temi viene descritto qui di seguito.

TEMA 1: INTEGRAZIONE DI DATI PROVENIENTI DA SORGENTI ETEROGENEE.

L'obiettivo generale nell'ambito di questo tema e' lo studio e analisi dei nuovi requisiti che emergono sulla integrazione di dati quando si considerano sorgenti fortemente eterogenee, cioè strutturate e semi-strutturate.

Questo studio include l'analisi dei requisiti per la scoperta e la rappresentazione di proprietà intra e inter-schema delle sorgenti, sia intensionali che estensionali. L'indagine sui metodi per definire e specificare parametri di qualità delle sorgenti e i metodi per la riconciliazione di dati provenienti da sorgenti eterogenee.

Lo studio dell'impatto che la presenza di diverse versioni dello schema di una sorgente, con particolare riferimento a sorgenti object-oriented, può avere sul processo di integrazione. L'analisi del ruolo dei meta-dati e delle ontologie in un contesto in cui si integrano sorgenti strutturate e semi-strutturate. L'analisi dei metodi esistenti per il problema del query rewriting e del query answering using views. La definizione della struttura del meta-data repository per descrivere le diverse tipologie di sorgenti e di relazioni intra ed inter-schema. Un obiettivo primario in questo tema e' la definizione di una metodologia per la costruzione di viste riconciliate di dati semi-strutturati provenienti da sorgenti eterogenee, basata su tecniche intelligenti di tipo semi-automatico per l'identificazione e riconciliazione di eterogeneità basate su affinita' e clustering, sulla estrazione semi-automatica di proprietà interschema, e su conoscenza di ontologie di dominio. La metodologia prevede esplicitamente tecniche e passi specifici per la rappresentazione ed il trattamento di sorgenti semistrutturate. La metodologia prevede anche metodi e tecniche per il trattamento di interrogazioni formulate sulla vista integrata. Un importante sotto-obiettivo e' la definizione degli algoritmi per la riscrittura di interrogazioni rispetto ad un insieme di viste (query rewriting e query answering using views).

Globalmente, si tende alla specifica funzionale di un "Query Manager" che supporti interrogazioni globali rispetto ad una vista virtuale integrata delle sorgenti. Compito primario del query manager è la decomposizione di una query globale in sub-query relative alle sorgenti e l'ottimizzazione della esecuzione delle sub-query.


TEMA 2: PROGETTAZIONE E INTERROGAZIONE DI DATA WAREHOUSE

Il primo obiettivo comprendeva l'esigenza di una sistematizzazione della vasta letteratura sulla progettazione logica e fisica di data warehouse, con lo scopo di identificare le principali limitazioni degli approcci esistenti alla materializzazione di viste, focalizzando l'attenzione sulla determinazione di una classe generale di interrogazioni da usare come punto di partenza per mettere a punto tecniche di materializzazione più efficaci.

Aspetti importanti di questa indagine riguardano la stima della cardinalità delle viste, e l'analisi dei tipi di indici più diffusi sugli strumenti per il data warehousing: accanto ai B-tree, join index, star index, bitmap index e projection index. Per ciascun tipo di indice lo scopo era di elaborare un modello di costo da utilizzare durante la fase di progettazione fisica. Per quanto riguarda l'interrogazione di data warehouse, dopo uno studio preliminare dello stato dell'arte sulle tecniche di interrogazione efficienti di basi di dati (query containment, query rewriting, ecc.), l'obiettivo era l'individuazione delle specificità del contesto data warehouse in cui dovranno essere risolti i problemi di efficienza delle interrogazioni. Si tratterà essenzialmente di individuare i metodi di ottimizzazione esistenti più adatti ad essere estesi nel nuovo contesto applicativo. Dopo la fase di studio gli obiettivi prefissi riguardavano lo studio del problema della materializzazione di viste sulla base di un carico di lavoro complesso che contempli la presenza contemporanea di più operatori di aggregazione all'interno delle interrogazioni, tenendo conto dell'utilizzo di misure derivate e di eventuali misure di supporto per realizzare la distributività degli operatori. Un ulteriore obiettivo riguardava il problema della progettazione fisica utilizzando opportuni modelli di costo. Per quanto riguarda l'interrogazione di data warehouse, l'obiettivo era lo sviluppo di tecniche innovative di interrogazione in ambiente data warehouse attraverso l'estensione di tecniche preesistenti concepite per basi di dati relazionali. L'idea di base è quella di sfruttare le proprietà strutturali delle interrogazioni e delle viste materializzate per ottenere un'esecuzione ottimizzata. A tal fine viene sfruttata la proprietà di aciclicità strutturale della query riscritta per guidare il "query rewriting", rendendo in tal modo efficiente la successiva verifica di "query containment".

TEMA 3: DATA MINING

Il primo obiettivo comprendeva lo studio dello stato dell'arte nei vari sottoargomenti, inclusi metodi e algoritmi di clustering, con particolare attenzione alla capacita` di trattare dati categorici e spazi metrici, studi comparativi sulle prestazioni dei vari algoritmi, sia dal punto di vista dell'efficienza che da quello della qualita` dei cluster prodotti, valutazione della possibilita` di modifica dei vari algoritmi per trattare il caso di elaborazione incrementale, analisi dei paradigmi per query di similarita`, inclusi quelli con approssimazione, formalizzazione degli indicatori in grado di quantificare il compromesso "qualita` vs costo".

Riguardo al meta-querying, gli scopi del progetto comprendenvano l'individuazione di un insieme di varianti che rivelassero un buon interesse applicativo, e lo studio delle sorgenti di intrattabilita` computazionale che caratterizzano tali varianti. Lo stesso tipo di analisi si prevedeva di condurlo per altre tecniche di data mining, quali le association rules. Inoltre, l'obiettivo riguardante la visualizzazione era lo studio teorico sul rapporto tra le varie modalita` di visualizzazione dei dati e le varie attivita` di scoperta di informazioni. Per quanto riguarda la produzione di risultati piu' tecnici, l'obiettivo erano cosi' sintetizzabili: sviluppo di metodi di clustering per problemi derivanti dall'aggiornamento incrementale dei dati del warehouse, definizione di un paradigma di ricerca approssimata in grado di permettere all'utente di controllare la qualita` del risultato, anche in presenza di ricerche complesse, individuazione di sottocasi trattabili delle varianti di metaquerying individuate precedentemente, progettazione degli algoritmi efficenti per la loro implementazione. In linea generale, l'obiettivo del progetto comprendeva la definziione di un'architettura di un sistema di data mining "user-centered", con la possibilita` di offrire sistemi diversi in un ambiente integrato ed orientato all'utente. In questo contesto, un ulteriore obiettivo riguardava lo studio teorico di alcuni dei problemi centrali legati alla visualizzazione nel data mining.



2.1 Risultati (i risultati di maggior rilievo conseguiti nel corso dell'attività di ricerca)

 

Attivita` comuni ai tre temi

Nella prima fase, sono stati definiti i metodi di rappresentazione e di gestione dei meta-dati necessari per produrre le specifiche per il repository, che fornisce la base comune per le metodologie e gli strumenti sviluppati nell'ambito del progetto. La specifica del repository per i meta-dati e` stata ottenuta tramite la fusione e l'integrazione delle specifiche prodotte singolarmente dalle diverse unita` coinvolte nei tre temi del progetto. Tale specifica e` riportata nel rapporto D0.R1.

Nella seconda fase e` stata definita la struttura del repository di meta-dati, ed e` stato specificato l'insieme dei servizi che il repository stesso deve offrire. La specifica dell'architettura funzionale del repository di meta-dati e` riportata nel rapporto D0.R2.


Tema 1 - Integrazione di dati provenienti da sorgenti eterogenee

Durante la prima fase del progetto le unita` coinvolte nel tema 1 hanno inizialmente svolto un'analisi approfondita dello stato dell'arte relativo all'integrazione di sorgenti eterogenee di dati. Particolare attenzione e` stata posta al confronto dei modelli per dati semistrutturati proposti in letteratura, allo scopo di caratterizzarne il diverso potere espressivo, ed allo studio dei metodi esistenti per il problema del query rewriting e del query answering using views. Questa attivita` di studio ed analisi e` documentata principalmente nei rapporti D1.R1 e D1.R5. Successivamente le attivita` si sono concentrate nella formulazione dei requisiti di integrazione in presenza di sorgenti di dati fortemente eterogenee (strutturate e semistrutturate): sono stati studiati i requisiti per nuovi metodi di rappresentazione dei dati, con particolare riguardo a sorgenti di dati semistrutturati (dati OEM, documenti XML), e sono state definite nuove tecniche per l'identificazione e la riconciliazione di eterogeneita` basate sulle proprieta` dei dati e per l'estrazione semiautomatica di proprieta` interschema. Diversamente da molti altri approcci all'integrazione proposti in letteratura, le tecniche introdotte identificano ed estraggono proprieta` inter- ed intra-schema, intensionali ed estensionali, che riguardano sia aspetti linguistici (ad es. sinonimie, omonimie, etc.) che aspetti strutturali (similarita` fra schemi o porzioni di schemi). Inoltre, l'estrazione di relazioni interschema viene effettuata attraverso meccanismi semiautomatici, sfruttando le capacita` di ragionamento offerte dalle logiche descrittive utilizzate per la rappresentazione del dominio di integrazione. Questi meccanismi hanno lo scopo di automatizzare quegli aspetti del processo di integrazione che in genere risultano realizzati manualmente nei sistemi tradizionali. I risultati ottenuti sono descritti nei rapporti tecnici D1.R1 e D1.R2, in cui vengono estese tecniche precedentemente sviluppate dalle unita` partecipanti al progetto per sorgenti di dati strutturati al caso di sorgenti di dati semistrutturati, e sono opportunamente generalizzate tecniche per l'estrazione di alcune tipologie di proprieta` interschema anch'esse realizzate in precedenti studi sull'argomento. Nel corso della prima fase del progetto, e` stato inoltre sviluppato un modello generalizzato, denominato CVM (Conceptual Versioning Model), per la gestione di versioni di schema in ambiente eterogeneo, nel caso in cui sia necessario interoperare dati di tipo strutturato (orientati agli oggetti) e semistrutturato. La descrizione completa del modello, insieme ad uno studio approfondito di alcune logiche descrittive che sono alla base del modello stesso, e` presentata nel rapporto D1.R4. Infine, e` stato affrontato il problema della traduzione dei dati da un modello di rappresentazione ad un altro, oggetto del rapporto D1.R3 e del rapporto D1.R9 prodotto nella seconda fase.

Nella seconda fase sono state sviluppate tecniche di clustering basate su affinita` e corrispondenze semantiche per l'identificazione di cluster di candidati all'integrazione, tenendo conto non solo di proprieta` inter-schema di tipo intensionale ma anche di proprieta` di tipo estensionale. Sono state studiate le modifiche da apportare alla metodologia generale di integrazione per gestire anche sorgenti internamente dotate di meccanismi di gestione di versioni di schema. In particolare, sono state individuate tecniche di estrazione automatica di proprieta` interschema, indotte dai cambiamenti di schema, che consentono di incapsulare le sorgenti versionate rendendo del tutto trasparente l'aspetto di schema versioning. Tali risultati sono descritti nel rapporto D1.R6. E` stata definita una metodologia per la costruzione semi-automatica di viste riconciliate di sorgenti eterogenee e semistrutturate basata su affinita` e clustering e sull'uso di ontologie. L'architettura sviluppata consente una rappresentazione integrata ed uniforme delle informazioni memorizzate nelle sorgenti informative coinvolte, dopo la rimozione di eventuali conflitti ed inconsistenze. La capacita` di gestire una grande varieta` di tipologie di sorgenti informative e` stata ottenuta attraverso la definizione di modelli concettuali e logici capaci di rappresentare e gestire sorgenti di dati di diverso formato ed attraverso una attivita` di integrazione intensionale ed estensionale sulle sorgenti informative, tesa alla creazione di un unico schema globale virtuale. La decrizione dell'architettura funzionale di ausilio alla costruzione di viste e` oggetto del rapporto D1.R7.
Nei rapporti D1.R8, D1.R10 e D1.R11 sono stati affrontati gli aspetti piu` propriamente legati alla integrazione dei dati ed al problema di rispondere ad interrogazioni poste sullo schema globale virtuale del sistema di integrazione utilizzando esclusivamente i dati memorizzati alle sorgenti. Nel primo rapporto sono state definite le specifiche funzionali di un "Query Manager" (QM) che gestisce, per ogni interrogazione posta da utente, la rappresentazione globale ottenuta mediante le fasi di integrazione al fine di materializzare presso l'utente le entita` che popolano la vista virtuale e che costituiscono la risposta cercata. In particolare il QM gestisce aspetti relativi alla individuazione delle sorgenti locali ritenute necessarie per rispondere alla query, alla riformulazione della query nei termini delle sorgenti individuate, ed alla ricomposizione delle risposte ottenute da ogni singola sorgente al fine di produrre la risposta globale. Tale ricomposizione e` realizzata tramite l'utilizzo di tecniche di "Object Fusion", basate in particolare sulla "omogeneita` semantica" di attributi di differenti sorgenti. Inoltre il QM gestisce meccanismi di ottimizzazione del processo di risposta basati sull'utilizzo di relazioni estensionali. Nel rapporto D1.R10 e` stato definito un linguaggio fuzzy per l'interrogazione di viste riconciliate per la generazione semi-automatica di query sulle sorgenti con cui popolare lo schema globale. Infine nel rapporto D1.R11 sono stati definiti metodologia e strumenti per la risposta ad interrogazioni rispetto ad un insieme di viste, estendendo, gli approcci attuali per tener conto della necessita` di riconciliare sorgenti di dati eterogenee. In particolare e` stato affrontato il problema nei due approcci comunemente adottati nei sistemi di integrazione dei dati: local-as-view (LAV), in cui le sorgenti di dati sono descritte nei termini di viste espresse sullo schema globale, e global-as-view (GAV), in cui, al contrario, ad ogni elemento dello schema globale e` associata una vista sulle sorgenti. Nel rapporto e` descritta una metodologia di riconciliazione in LAV, approccio in cui il problema di rispondere alle interrogazioni e` comunemente considerato di difficile soluzione ed e` risolto mediante l'utilizzo di opportune tecniche di ragionamento. Inoltre e` mostrato come il problema sia di fatto un problema di risposta ad interrogazioni in presenza di informazione incompleta anche nell'approccio GAV, e che i metodi usati comunemente in GAV per rispondere alle interrogazioni risultano in generale inadeguati. Anche per questo caso sono state sviluppate tecniche per rispondere alle interrogazioni, sotto opportune assunzioni, tenendo in considerazione l'incompletezza dei dati memorizzati alle sorgenti e la inconsistenza dei dati stessi rispetto a vincoli di integrita` espressi sullo schema globale.

Tema 2 - Progettazione e interrogazione di Data Warehouse

Nella prima fase del progetto le unita` coinvolte nel tema 2 hanno portato avanti uno studio approfondito dello stato dell'arte sulle architetture dei data warehouse proposte in letteratura (rapporto D2.R1), sulle tematiche relative alla progettazione logico-fisica dei dati derivati (rapporto D2.R2) e sulle tematiche di interrogazione di sistemi di grandi dimensioni (rapporto D2.R3). Relativamente agli aspetti di progettazione logico-fisica descritti nel rapporto D2.R2, e` stata presentata, per il livello logico, un'analisi critica delle principali limitazioni degli approcci esistenti alla materializzazione di viste. L'attenzione e` stata focalizzata su due fattori: l'insufficiente generalita` della categoria di interrogazioni su cui e` basata la materializzazione, e la scarsa precisione delle funzioni adottate per la stima della cardinalita` delle viste. Per il livello fisico, sono stati analizzati i tipi di indici piu` diffusi sugli strumenti per il data warehousing: accanto ai B-tree, sono stati considerati join index, star index, bitmap index e projection index. Per ciascun tipo di indice e` stato elaborato un modello di costo da utilizzare durante la fase di progettazione fisica. Sono poi stati studiati i piu` diffusi algoritmi per la scelta degli indici in basi di dati di tipo operazionale. Nel rapporto D2.R3 e` stato condotto uno studio preliminare delle tecniche di interrogazione efficienti di basi di dati (query containment, query rewriting, ecc.) e sono state individuate le specificita` del contesto data warehouse in cui studiare l'efficienza delle interrogazioni. Si e` trattato essenzialmente di individuare i metodi di ottimizzazione esistenti piu` adatti ad essere estesi nel nuovo contesto applicativo. In particolare sono stati presi in considerazione sia metodi quantitativi che metodi strutturali per l'ottimizzazione delle interrogazioni e sono state identificate classi di interrogazioni trattabili. Sono state prese in considerazione le interrogazioni necessarie per realizzare le operazioni di popolamento e aggiornamento di "data cube". E` bene notare che tali interrogazioni assumono un carattere estremamente differente dalle interrogazioni di tipo OLAP in quanto non sono eseguite su uno "star schema", ma prevedono l'utilizzo di join fra molte tabelle dello schema globale prodotto dalle attivita` di integrazione e talvolta l'utilizzo di operatori aggregati.

Nella seconda fase e` stata sviluppata una nuova tecnica per l'esecuzione efficiente di interrogazioni volte a popolare i "data cube", basata sull'approccio strutturale. Tale tecnica utilizza la nozione di decomposizione di "HyperTree". Essa consente di risolvere efficientemente la classe di interrogazioni aventi "HyperTree width" limitata e permette anche di utilizzare le informazioni quantitative relative alle relazioni, alla selettivita` degli attributi, etc.. Per quanto riguarda gli altri aspetti di progettazione logica, e` stato proposto un approccio originale alla frammentazione in cui il carico di lavoro e` caratterizzato dalla presenza di query complesse che non possono essere efficacemente descritte solo dal loro pattern di aggregazione. In particolare, sono state considerate interrogazioni espresse da espressioni Nested Generalized Projection/Selection/Join (NGPSJ), in cui e` possibile applicare sequenze di operatori di aggregazione alle misure e definire predicati di selezione, a diverse granularita`, su attributi e misure. Inoltre e` stata prevista la possibilita` di includere nelle viste misure derivate nonche` eventuali misure di supporto per calcolare correttamente gli aggregati in presenza di operatori non distributivi. Sotto queste ipotesi, e` stato proposto un algoritmo efficiente che determina un ristretto insieme di viste candidate alla materializzazione. L'algoritmo costruisce un query view graph i cui vertici rappresentano viste candidate e i cui archi denotano la possibilita` di calcolare una vista a partire da un'altra. Il query view graph puo` poi essere l'input di un algoritmo di ottimizzazione che selezioni, dall'insieme di viste candidate, il sottoinsieme che massimizza le prestazioni con riferimento al carico di lavoro e nel rispetto di un vincolo di spazio assegnato. Per aumentare l'efficacia degli algoritmi proposti, e` stato messo a punto un metodo per la stima delle dimensioni delle viste candidate alla materializzazione tenendo conto degli specifici vincoli di cardinalita` suggeriti dal dominio applicativo. Il problema e` stato affrontato calcolando dapprima bound soddisfacenti per le cardinalita`, poi utilizzandoli per determinare una buona stima probabilistica. In particolare, e` stata proposta una strategia di bounding che raggiunge un compromesso efficace tra bonta` dei bound calcolati e complessita` computazionale, ed e` stato delineato un approccio branch-and-bound per la sua implementazione. I risultati ottenuti nell'ambito della progettazione logico-fisica e del popolamento e dell'interrogazione di data warehouse sono riportati nel rapporto D2.R4.

Infine e` stato affrontato il problema della progettazione fisica utilizzando i modelli di costo messi a punto durante la prima fase. E` stato proposto un algoritmo euristico per la selezione di un insieme ottimale di indici da costruire nell'ambito di data warehouse con viste materializzate. Per raggiungere tale obiettivo e` stato messo a punto un algoritmo di scelta dei piani di esecuzione di un'interrogazione e un modello di costi per la valutazione delle diverse alternative. Gli indici suggeriti dall'algoritmo appartengono a due categorie: i tid-list index e i bitmap index. La progettazione fisica e` descritta nel rapporto D2.R5



Tema 3 - Data Mining

Nella prima fase, sono stati studiati sistemi ed approcci esistenti per il data mining, concentrandosi su tecniche di clustering, metaquerying, visualizzazione, e ricerche approssimate e di similarita`. Per il clustering sono stati effettuati accurati studi comparativi sulle prestazioni dei vari algoritmi, sia dal punto di vista dell'efficienza che da quello della qualita` dei cluster prodotti, anche in presenza di dati affetti da rumore. Per il metaquerying e` stato svolto uno studio approfondito sulle sorgenti di intrattabilita` computazionale di alcune varianti del problema. Sono stati identificati ulteriori casi trattabili che evidenziano un buon interesse applicativo e sono stati progettati alcuni algoritmi per il riconoscimento e la risoluzione di tali casi. Successivamente ci si e` concentrati sull'individuazione di un insieme di varianti del metaquerying che rivelano un buon interesse applicativo e sullo studio delle sorgenti di intrattabilita` computazionale che caratterizzano tali varianti. Lo stesso tipo di analisi e` stata condotta per altre tecniche di data mining, quali le association rules. E` stato effettuato uno studio teorico finalizzato a sistematizzare e formalizzare il rapporto esistente tra le varie modalita` di visualizzazione dei dati e le varie attivita` di scoperta di informazioni. I sistemi e gli approcci esistenti per la visualizzazione di informazioni sono stati confrontati sulla base di un insieme di casi reali di applicazione, allo scopo di scoprirne da una parte le mancanze da superare, e, dall'altra, le caratteristiche positive da mantenere. Tali attivita` di ricerca sono descritte nel rapporto tecnico D3.R1. Sono poi state individuate le caratteristiche di un meta-repository per la descrizione delle attivita` e dei risultati del data mining, in modo da favorire la fruizione di servizi di data mining da parte delle unita` partecipanti al progetto(rapporto D0.R1).

Nella seconda fase e` iniziata la trattazione teorica dei problemi evidenziati nella prima fase, con sviluppo di algoritmi, e individuazione di architetture di sistema. Sono stati studiati metodi di clustering per la soluzione dei problemi derivanti dall'aggiornamento incrementale dei dati del warehouse. In particolare, e` stato presentato un modello generale per la conversione di algoritmi di clustering alla versione dinamica e in grado di operare in memoria esterna. Infine, sono anche state individuate alcune modalita` di visualizzazione dei risultati del clustering e sono state definite le modalita` di comunicazione tra il sottosistema di calcolo, che esegue il data mining, e quello di visualizzazione. L'architettura del sistema integrato di data mining e visualizzazione cosi` ottenuto e` descritta nel rapporto tecnico D3.R2.
Per quanto riguarda le interrogazioni di similarita`, si sono analizzati i paradigmi esistenti per la risoluzione di query approssimate. In particolare, e` stato proposto uno schema di classificazione dei diversi metodi presenti in letteratura, in grado di caratterizzare ogni tecnica sulla base di quattro diverse coordinate: il tipo di dati a cui e` applicabile, il tipo di misure sugli errori prodotti, le garanzie offerte in termini di qualita` dei risultati, il grado di interazione con l'utente. Tale schema risulta estremamente utile nell'analisi delle tecniche approssimate per la risoluzione di query di similarita`, poiche` permette di individuare relazioni e similarita` esistenti tra le diverse tecniche che potrebbero non risultare evidenti ad una prima analisi. Inoltre, tale schema consente di rivelare i limiti intrinseci di ciascuna tecnica, ad esempio per quanto riguarda il campo di applicabilita`. Si e` quindi passati a studiare tecniche di ricerca approssimate in grado di permettere all'utente di controllare la qualita` del risultato. Tra queste si e` identificato l'approccio PAC (Probabilisticamente Approssimativamente Corretto) come il piu` promettente. A partire dalla definizione piu` generale, che permette di ottenere un risultato con un errore inferiore ad un parametro di accuratezza (espresso dall'utente) con probabilita` superiore ad un certo valore di confidenza (anch'esso espresso dall'utente), si sono definiti alcuni tipi generali applicabili alle interrogazioni di similarita`. L'approccio PAC, inizialmente introdotto per la risoluzione di query 1-nearest neighbor, e` stato esteso per la risoluzione di query di range e k-nearest neighbor. Sono quindi stati proposti algoritmi sequenziali per la risoluzione di tali interrogazioni ed un modello in grado di predire il costo necessario per effettuare la ricerca sequenziale. Infine, sono stati proposti degli algoritmi per la risoluzione di interrogazioni di range e k-nearest neighbor approssimate tramite indice. La correttezza di tali algoritmi e` stata dimostrata formalmente ed e` stata anche provata l'ottimalita` della politica di scelta del nodo cui accedere negli algoritmi per la risoluzione di query k-nearest neighbor. Infine relativamente la metaquerying sono stati progettati degli algoritmi efficienti per la risoluzione dei sottocasi trattabili delle varianti di metaquerying individuati nel corso della prima fase. Tali risultati sono riportati nel rapporto tecnico D3.R3.



Per quanto riguarda la disseminazione di risultati, il sito del progetto, all'indirizzo http://www.dis.uniroma1.it/~lembo/D2I/, e' costantemente aggiornato, ed offre accesso a tutti i deliverables prodotti. Si segnala che, tramite questo sito, sono stati presi contatti con alcune aziende del settore interessate ai temi del progetto, e con le quali si stanno intessendo rapporti di collaborazione. Inoltre, in relazione alle attivita` condotte all'interno del tema 1, segnaliamo che le tecniche proposte per l'individuazione e l'estrazione automatica di proprieta` interschema e la generazione automatica di viste riconciliate di dati, sono state oggetto di un'analisi comparativa, che ha coinvolto sia aspetti metodologici che aspetti legati alle prestazioni, da parte di Jayant Madhavan (Universita` di Washington), Philip A. Bernstein (Microsoft Research), and Erhard Rahm (Universita` di Leipzig). Tale analisi e` riportata in

Generic schema matching with Cupid - J. Madhavan, P. A. Bernstein, and Erhard Rahm In Proc. of the 27th International Conference on Very Large Databases (VLDB 2001), Roma, Italia, Settembre 2001.

Segnaliamo ancora che nel corso del primo anno di attivita` del progetto il coordinatore del programma di ricerca Maurizio Lenzerini ha presentato le seguenti relazioni invitate:

- "Data Integration Needs Reasoning" alla 6th International Conference on Logic Programming and Nonmonotonic Reasoning, LPNMR 2001, Vienna, Austria, Settembre 2001;

- "Data Integration Is Harder Than You Thought" alla 6th International Conference on Cooperative Information Systems CoopIS 2001, Trento, Italia, Settembre 2001.

Maurizio Lenzerini e` stato anche organizzatore del 8th International Workshop on Knowledge Representation meets Databases (KRDB-2001, Roma, Italia, 15 Settembre 2001), in cui sono state presentati i primi risultati del progetto, e Guest Editor per una speciale edizione della rivista internazionale "Information Systems" su Data extraction, cleaning and reconciliation (Vol. 26, N.8, Dec. 2001).

Diego Calvanese e` stato co-organizzatore dell'International Workshop on Foundations of Models for Information Integration (FMII-2001), Viterbo, Italia, 16-18 Settembre 2001.

In relazione alle attivita` condotte nel tema 2 durante il primo anno di attivita`, segnaliamo i seguenti eventi di rilievo nazionale ed internazionale che hanno coinvolto alcuni partecipanti al progetto:

- Stefano Rizzi e Matteo Golfarelli hanno tenuto un tutorial dal titolo "Data warehouse design" alla 17th International Conference on Database Engineering (ICDE'01), Heidelberg, nell'Aprile 2001.

- Nell'Ottobre 2001 Stefano Rizzi ha presentato una relazione invitata dal titolo "Applying the Lattice Theory to Estimation Problems in Multidimensional Databases" alla Joint session of the 47th Séminaire Lotharingien de Combinatore and 8th Incontro Italiano di Combinatoria Algebrica (Bertinoro, Forli`).

Relativamente alle attivita` condotte nell'ambito del data mining durante il primo anno di vita del progetto, Tiziana Catarci ha tenuto diverse relazioni invitate in cui ha esposto i risultati del progetto per quanto riguarda visualizzazione e data mining. Inoltre e` stata uno degli organizzatori della 27th International Conference on Very Large Databases (VLDB-2001), Roma, Italia, 11-14 Settembre, 2001.

Infine, segnaliamo che nel 2002 Maurizio Lenzerini presentera` i risultati del progetto nell'ambito di relazioni invitate presso:

- 9th International Workshop on Knowledge Representation meets Databases, KRDB-2002, Tolosa, Francia, 21 Aprile 2002;

- 2002 International Workshop on Description Logics, DL-2002, Tolosa, Francia, 19-21 Aprile 2002;

- 17th Annual IEEE Symposium on Logic in Computer Science LICS 2002, Copenhagen, Danimarca, 22-25 Luglio 2002.

- 19th ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems PODS 2002, Madison, Wisconsin, USA, 3-6 Luglio 2002.



2.2 Problemi

 

Nell'ambito degli obiettivi generali del progetto, era prevista una sperimentazione condotta in collaborazione con la Telecom Italia. L'accordo con tale azienda prevedeva che i metodi e gli strumenti proposti sarebbero stati sperimentati e validati attraverso una collaborazione con la Divisione di Data Administration, Data Warehouse, Data Mining (Direttore: Ing. Stefano Trisolini) della Telecom Italia. La sperimentazione dovevea riguardare in particolare la raccolta e l'analisi dei dati relativi al traffico telefonico e al customer care. Nel corso dell'ultimo anno, a fronte di una riorganizzazione della Telecom Italia, la Divisione di Data Administration, Data Warehouse, Data Mining e' stata sciolta, ed il Direttore, Ing. Stefano Trisolini ha lasciato l'azienda. Sono in corso tentativi per individuare un Dipartimento con cui riprendere i contatti, ma attualmente la riorganizzazione non e' ancora terminata.

Per fronteggiare questa situazione, sono stati anche presi contatti con altre aziende potenzialmente interessate alla sperimentazione. Tra queste, la CM Sistemi, Roma, ha gia' offerto forme di collaborazione concrete sul tema 1, e sono allo studio altre collaborazioni per condurre sperimentazioni mirate sugli altri temi. Inolte, tramite il sito del progetto all'indirizzo http://www.dis.uniroma1.it/~lembo/D2I/, sono stati presi contatti con altre aziende del settore. In particolare, si stanno attualmente intessendo rapporti di collaborazione con una azienda di Milano.

Tra i problemi incontrati nel primo anno, si segnala la difficoltà oggettiva da parte dell'unità di Bologna coinvolta nel Tema 1 a portare a compimento gli obiettivi stabiliti per le fasi 3 e 4 (secondo anno) del progetto, in particolare relativamente alla realizzazione di prototipi. Il responsabile dell'unita' di Bologna sottolinea che tali difficoltà discendono dall'importante defezione della Dott.ssa Mandreoli, inizialmente prevista nel gruppo di ricerca, ma poi passata in forze all'unità di Modena in virtù di un assegno di ricerca che le è stato conferito in quella sede. Un'ulteriore difficoltà consiste nella pressoché impossibilità pratica di trovare personale già sufficientemente "formato", da aggregare a contratto all'unità, che sia dotato delle conoscenze e delle capacità necessarie al compimento degli obiettivi nei tempi previsti. Per fronteggiare le situazione e' allo studio da parte del coordinatore la possibilita' di intervenire con personale di altre unita'. Nel caso di insuccesso, il coordinatore ritiene che il danno complessivo al progetto sia comunque molto limitato, vista la ricchezza di risultati gia' raggiunti complessivamente nell'ambito del tema 1, e vista l'indipendenza dell'argomento trattato dall'unita' di Bologna rispetto agli altri argomenti del tema 1.


3. Rendiconto scientifico delle attività presso le sedi partecipanti

Responsabile Università Materiale inventariabile Grandi Attrezzature Materiale di consumo Spese per calcolo ed elaborazione dati personale a contratto Servizi esterni Missioni Altro TOTALE
1. BERGAMASCHI Sonia   Universita' degli Studi di MODENA e REGGIO EMILIA   28.984.498   0   1.768.499   0   24.340.000   1.620.000   19.879.786   5.350.000   81.942.783
2. CASTANO Silvana   Universita' degli Studi di MILANO   22.115.988   0   288.000   0   0   0   19.357.382   0   41.761.370
3. GRECO Sergio   Universita' degli Studi della CALABRIA   17.377.200   0   512.730   0   13.020.000   954.000   55.626.837   6.978.111   94.468.878
4. LENZERINI Maurizio   Universita' degli Studi di ROMA "La Sapienza"   13.577.000   0   5.000.000   0   24.000.000   0   25.789.000   5.238.000   73.604.000
5. RIZZI Stefano   Universita' degli Studi di BOLOGNA   22.770.610   0   2.112.800   0   15.190.002   1.145.921   47.259.320   0   88.478.653
        104.825.296  9.682.029  76.550.002  3.719.921  167.912.325  17.566.111  380.255.684



4.Obiettivi per il secondo anno del programma

 

L'obiettivo del secondo anno del progetto e` lo sviluppo di metodi e strumenti specifici per i tre temi, e la sperimentazione e validazione degli stessi.

Dettagliamo ora tali obiettivo per i tre temi.

TEMA 1: Integrazione di dati provenienti da sorgenti eterogenee

L'obiettivo della fase 3 è la realizzazione di un insieme di prototipi che realizzino le funzioni enucleate dai risultati scientifici prodotti nel primo anno. Si realizzerà un prototipo che implementa un ambiente di ausilio al progettista per la costruzione di viste riconciliate di sorgenti fortemente eterogenee. Il prototipo ingloberà anche un ambiente di ausilio alla costruzione della vista virtuale globale. Si realizzerà un prototipo che implementi gli algoritmi per l'estrazione di proprietà inter-schema da sorgenti di dati strutturati e semi-strutturati. Si realizzerà un prototipo per gli algoritmi di query rewriting e query answering using views e per la riconciliazione dei dati. Si realizzera` il prototipo di un query manager per la gestione di query globali. Particolare cura verrà dedicata alla realizzazione modulare dei prototipi, al fine di preservare la loro coerenza e integrabilità complessiva.

L'obiettivo della fase 4 è quello di completare la realizzazione e l'integrazione dei prototipi sviluppati e di condurre opportuni esperimenti per verificarne l'efficacia in problemi reali d'integrazione. Sono stati avviati contatti con aziende del settore per portare avanti la sperimentazione, inizialmente prevista in collaborazione con TELECOM Italia.


TEMA 2: Progettazione e interrogazione di Data Warehouse

L'obiettivo della fase 3 e` quello di implementare le tecniche di progettazione definite durante la fase 2 in un prototipo. Il prototipo effettuerà il progetto logico e fisico di un data mart dato in input, tenendo conto di vincoli aggiuntivi, utilizzando gli algoritmi di materializzazione e frammentazione e scelta degli indici proposti nella fase 2. Inoltre, le tecniche di ottimizzazione delle interrogazioni di data warehouse, prodotte nella fase 2, saranno implementate a livello prototipale.

L'obiettivo della fase 4 e` quello di sperimentare le tecniche di progettazione logica e fisica utilizzando i più diffusi strumenti di data warehousing, sulla base di benchmark di varia natura. Verranno validati sperimentalmente i modelli di costo degli indici elaborati durante la prima fase. Infine, verrà effettuata una valutazione comparativa dei benefici della materializzazione, della frammentazione e dell'indicizzazione. Il prototipo per l'interrogazione di data warehouse sarà validato utilizzando dati significativi dal punto di vista quantitativo in maniera tale da poter verificare l'effettiva bontà degli algoritmi implementati.


TEMA 3: Data Mining

L'obiettivo della fase 3 e` quello di produrre i primi prototipi per i vari componenti di data mining studiati nelle fasi precedenti. Verranno implementati e sperimentati i metodi di clustering e di ricerca approssimata. Si progetteranno e realizzeranno gli algoritmi per il meta-querying definiti nella fase precedente. Verra` sviluppato un sistema integrato di data mining e di visualizzazione delle informazioni.

Nell'ultima fase verranno effettuate principalmente validazioni di prototipi, anche in interazione con gruppi di potenziali utenti. I vari metodi di clustering e di ricerca approssimata verranno valutati congiuntamente. Si portera` avanti una sperimentazione sul campo del meta-querying, con l'obiettivo di verificare l'effettiva applicabilita` delle tecniche realizzate nel prototipo a problemi applicativi reali. Il sistema integrato di data mining e visualizzazione sara` validato in ambienti reali. Verra` inoltre attivata la produzione e l'esecuzione di un insieme di test di usabilita`, che si concentreranno soprattutto sui meccanismi di interazione offerti all'utente finale e sulle modalita' di visualizzazione disponibili per il modulo di data mining.



 

Data 08/02/2002 13:17