Ricerca Scientifica 2000

MINISTERO DELL'UNIVERSITÀ E DELLA RICERCA SCIENTIFICA E TECNOLOGICA
PROGRAMMI DI RICERCA ANNO 2000
COMPITI E SUDDIVISIONE DELLE UNITÀ DI RICERCA

Il Form risulta regolarmente chiuso in data:		24-11-2000
Coordinatore		MAURIZIO LENZERINI

Titolo della Ricerca		D2I: INTEGRAZIONE, WAREHOUSING E MINING DI SORGENTI ETEROGENEE DI DATI

Finanziamento assegnato in milioni		MŁ 564 , Euro 291281

Rd+Ra		MŁ 267 , Euro 137893 (dichiarata)

Durata		24 mesi

Obiettivo della Ricerca

L'obiettivo del progetto è la definizione di un quadro metodologico generale per l'integrazione, il warehousing e il mining di sorgenti eterogenee (D2I: From Data to Information), e lo sviluppo di metodi e strumenti specifici per i tre temi. Riguardo al tema 1, l'obiettivo è lo sviluppo di metodi e strumenti per l'integrazione di dati provenienti da sorgenti fortemente e strutturalmente eterogenee, ossia da sorgenti di tipo strutturato o semistrutturato. I principali risultati che si intendono perseguire riguardano la definizione di una metodologia di integrazione di sorgenti fortemente eterogenee, la definizione di tecniche semiautomatiche di clustering di sorgenti basate su proprietà di affinità e corrispondenze semantiche, la progettazione di algoritmi per la riscrittura di interrogazioni su viste globali in termini di interrogazioni sulle sorgenti, la definizione di metodi per la gestione di versioni diverse delle sorgenti e per la riconciliazione di dati provienti da sorgenti diverse, la progettazione e la realizzazione di un ambiente che supporti l'attività d'integrazione, basato sulla gestione di meta-dati. Riguardo al tema 2, l'obiettivo è lo sviluppo di tecniche per la progettazione e l'interrogazione efficiente di data warehouse. Ci si propone di definire tecniche efficaci per la materializzazione di viste in presenza di un carico di lavoro complesso, e per l'individuazione di un insieme ottimale di indici per l'accesso veloce ai dati. Il problema della interrogazione efficiente di data warehouse sarà affrontato principalmente come problema di riscrittura di interrogazioni su viste materializzate. I risultati che si intendono perseguire in questo contesto riguardano la definizione di tecniche di ottimizzazione, basate sulla struttura delle interrogazioni, che estendono metodi già esistenti in maniera da tenere conto delle specificità dell'ambiente data warehouse. Riguardo al tema 3, la ricerca opererà in numerose direzioni con lo scopo di trattare gli aspetti più rilevanti e a tutt'oggi meno esplorati. Verranno trattati vari tipi di dati, da quelli strutturati, tipici dei sistemi di basi di dati, a quelli multimediali, quali DB di immagini. La conoscenza estratta sarà di diversi tipi, dall'informazione sui raggruppamenti di oggetti (clustering), al meta-querying, che cerca pattern complessi all'interno dei dati con tecniche di tipo logico. Particolare cura sarà dedicata agli aspetti di visualizzazione dell'informazione estratta e di adattabilità a vari tipi di utenti, nella convinzione che la forma di presentazione e l'interazione con l'utente siano esse stesse fattori critici per l'efficacia del processo di estrazione e la fruibilità dell'informazione. Per quanto riguarda i metodi di estrazione, verranno considerate le problematiche che sorgono quando la sorgente di dati è un data warehouse. In questo caso, sorge spesso la necessità di effettuare elaborazioni incrementali, poiché i dati vengono consolidati periodicamente, ed è importante evitare la ripetizione di attività molto onerose dal punto di vista computazionale, come ad esempio il clustering. I principali risultati che si intende produrre riguardano: algoritmi di clustering incrementale, paradigmi per query di similarità, inclusi quelli con approssimazione, formalizzazione degli indicatori in grado di quantificare il compromesso qualità/costo, strategie di ausilio per permettere all'utente di formulare facilmente un piano per la scoperta di informazioni nascoste, primitive per la creazione semiautomatica di visualizzazioni, caratterizzazione computazionale di varianti di meta-querying di interesse applicativo, algoritmi efficienti per il meta-querying.

Innovazione rispetto allo stato dell'arte nel campo

L'integrazione di sorgenti di dati semi-strutturati, oggetto della presente ricerca pone nuove problematiche rispetto al caso di dati strutturati, che non sono ancora state risolte. L'innovatività riguarda tecniche e strumenti per la costruzione di viste riconciliate di dati semi-strutturati. Un aspetto nuovo che emerge nella integrazione di dati eterogenei è la necessità di considerare la coesistenza di versioni diverse, anche strutturali, di una stessa sorgente. Il problema dello schema versioning è affrontato da diversi anni nelle basi di dati relazionali. In questo ambito sono ancora numerosi i problemi da affrontare connessi all'esecuzione di query e cambiamenti di schema che coinvolgono contemporaneamente più versioni di schema e più sorgenti dati. L'estrazione, l'analisi e la specifica di proprietà inter-schema, quali sinonimie, omonimie, inclusioni, conflitti di tipo ecc., è un ulteriore aspetto critico della integrazione. Anche in questo campo l'innovazione del presente progetto è connessa alla esigenza di considerare sorgenti semi-strutturate. Solo recentemente il problema di porre interrogazioni in modo trasparente rispetto alle sorgenti utilizzate viene studiato nell'ambito in cui sono presenti sorgenti semi-strutturate, ambito di interesse nel presente progetto. Infine, l'integrazione di sorgenti eterogenee richiede anche tecniche per la riconciliazione dei dati. Questo problema necessita ancora di metodi formali e scientifici, che sono un obiettivo di questo progetto. I temi di ricerca legati al data warehouse sono oggetto di forte interesse da parte della comunità scientifica. Sebbene molti aspetti specifici legati alla modellazione concettuale, alla modellazione logica, alla ottimizzazione e alla selezione degli indici siano stati trattati, a tutt'oggi l'area è ben lungi dal poter essere considerata matura. L'innovazione del progetto consiste nella definizione di una metodologia che copra i vari aspetti e sia anche coerente con i risultati con il tema dell'integrazione. Nonostante l'interesse crescente verso il data mining, esistono numerosi problemi aperti, su cui questo progetto indagherà. Negli ultimi anni si è manifestato un notevole interesse per lo sviluppo di metodi di data clustering di complessità subquadratica. Tuttavia l'applicazione di tali metodi ha ricevuto attenzione limitata nel caso di dati derivanti da data warehouse. In questo caso la innovazione del progetto si baserà sul considerare l'aggiornamento dei risultati in modo incrementale a partire dalle classi ricavate nella precedente elaborazione e dalle transazioni di modifica del warehouse. Sempre nell'ambito del clustering, recenti lavori hanno messo in evidenza l'importanza di strutture per risolvere query di similarità al fine di pervenire ad una corretta classificazione di oggetti. Poiché tali query possono arrivare ad avere un costo proibitivo, è emersa l'importanza di query approssimate, oggetto del presente progetto. La tecnica del meta querying ha di recente ricevuto attenzione nella comunità scientifica adattandosi bene alla descrizione di classi di pattern complessi di dati che possono essere estratti dalle basi di dati. Il presente progetto si propone di condurre uno studio innovativo su frammenti interessanti di meta-querying e sulle loro proprietà computazionali. Per quanto riguarda l'utilizzo delle tecniche di data mining, l'importanza e l'efficacia delle rappresentazioni visuali dei dati sono ben note. Un ulteriore elemento di innovazione del progetto è la definizione di nuove tecniche di visualizzazione basate su ambienti integrati in cui l'interazione dell'utente, tramite opportune rappresentazioni visuali e primitive grafiche di manipolazione, guidi lo strumento nel processo di scoperta e sia anche un valido ausilio per l'analisi dei dati prodotti utilizzando le diverse tecniche.

Criteri di verificabilità

1) Verifica del rilascio dei prodotti.

2) Verifica della qualita' dei prodotti, e delle relative pubblicazioni.

3) Sito web con i risultati del progetto ed il programma delle ricerche.

4) Sperimentazione dei risultati in applicazioni reali.

Unità di Ricerca

1]  Unità di       Universita' degli Studi di ROMA "La Sapienza"

     Responsabile MAURIZIO LENZERINI

     Rd+Ra       MŁ 58 , Euro 29954,000 (dichiarata)

     Finanziamento    MŁ 125 , Euro 64557,000

     Compito

TEMA 1: Relativamente al tema dell'integrazione, si prevede nella prima fase di studiare e analizzare i nuovi requisiti che emergono sulla integrazione di dati quando si considerano sorgenti fortemente eterogenee e semistrutturate. Verranno studiati i requisiti per nuovi metodi di rappresentazione dei dati. Verranno confrontati i modelli per dati semistrutturati proposti in letteratura, allo scopo di caratterizzarne il potere espressivo. Verranno indagati metodi per specificare parametri di qualità delle sorgenti e i metodi per la riconciliazione di dati provenienti da sorgenti eterogenee. Si analizzeranno i metodi esistenti per il problema del query rewriting e del query answering using views. Nella seconda fase si svilupperanno le tecniche e algoritmi per la riscrittura di interrogazioni rispetto ad un insieme di viste, estendendo, modificando e adattando gli approcci attuali tenendo conto della esistenza di sorgenti semistrutturate. Nella terza fase, che prevede la realizzazione di prototipi che implementino le funzioni enucleate dai risultati scientifici prodotti nella fase precedente, si realizzerà un prototipo per gli algoritmi di query rewriting e query answering using views sviluppati nella fase 2 e per la riconciliazione dei dati. Nella quarta fase verrà completata la realizzazione del prototipo per gli algoritmi di query rewriting e query answering using views e per la riconciliazione dei dati, e la sua integrazione con gli altri strumenti. Verranno sperimentate e validate le metodologie e gli strumenti per la riconciliazione dei dati sviluppati nelle fasi precedenti.

TEMA 3: Relativamente al tema del data mining, l'obiettivo consiste nella realizzazione di un prototipo di sistema di data mining di nuova generazione, che sia user-centered ed in cui tecniche e strumenti di data mining esistenti siano integrati con nuove componenti che mirano a fornire un supporto sostanziale all'utente in tutte le fasi della scoperta di informazioni. Caratteristiche distintive del sistema saranno non soltanto la possibilità di integrare sistemi diversi in un ambiente integrato ed orientato all'utente, ma anche la capacità di fornire nuove soluzioni sia ad alcuni dei problemi aperti esistenti sia nelle singole tecniche di data mining, sia a quelli derivanti dalla integrazione di tecniche diverse in un unico ambiente. Preliminare alla definizione del sistema sarà condotto uno studio teorico che sistematizzi e formalizzi il rapporto esistente tra le varie modalità di visualizzazione dei dati e le varie attività di scoperta di informazioni. Il sistema dovrà avere le seguenti caratteristiche fondamentali: 1. fornire varie modalità di visualizzazione atte a trasmettere efficacemente proprietà rilevanti dei dati; 2. fornire varie strategie di ausilio per permettere all'utente di formulare facilmente un piano per la scoperta di informazioni nascoste; 3. fornire primitive per la creazione semi-automatica di nuove visualizzazioni ad-hoc, a seconda del tipo dei dati e degli obiettivi dell'utente; 4. essere adattabile ai vari tipi di utenti, offrendo automaticamente le modalità di visualizzazione e strategie di ricerca piu' appropriate; 5. essere flessibile e capace di integrare sistemi e tecniche esistenti in un ambiente omogeneo. Specifici risultati del progetto riguarderanno: a) un modello di formalizzazione delle rappresentazioni visuali; b) tecniche di proiezione di spazi multidimensioni su spazi due-tre dimensionali allo scopo di evidenziare caratteristiche di ripetitività nei dati; c) nuove strutture di dati che possano velocizzare i cambiamenti nella visualizzazione derivanti da azioni dell'utente; d) nuove visualizzazioni atte a rappresentare grandi insiemi di dati.

2]  Unità di       Universita' degli Studi di BOLOGNA

     Responsabile STEFANO RIZZI

     Rd+Ra       MŁ 65 , Euro 33569,000 (dichiarata)

     Finanziamento    MŁ 137 , Euro 70754,000

     Compito

TEMA 1: La ricerca studierà l'impatto della presenza di diverse versioni di schema sul processo di integrazione; verranno prese in considerazione sorgenti in cui i medesimi dati sono rappresentati mediante versioni di schema diverse, create da successive modifiche apportate allo schema stesso. Le sorgenti da integrare verranno descritte mediante un modello generalizzato per il supporto di versioni di schema. Il tipo di eterogeneità sarà invece modellato tramite le relazioni inter-versione indotte dalle modifiche di schema applicate. Verrà sviluppato un approccio per la gestione di sorgenti dotate di versioni di schema con lo scopo di definire una metodologia di integrazione sulla base della quale saranno introdotte le specifiche funzionali di un Query Manager. Si definiranno quindi algoritmi per la riscrittura di interrogazioni multiversione basate su tecniche di query rewriting e query answering using views. Verrà sviluppato un prototipo che si occuperà della riscrittura di interrogazioni multiversione, e che verrà integrato in un framework comune per la descrizione delle singole sorgenti e del livello integrato/riconciliato. Seguirà una fase di validazione e sperimentazione del framework così ottenuto con applicazione ad un caso reale.

TEMA 2: Verranno affrontate le principali problematiche legate alla progettazione logica e fisica di data warehouse, assumendo come modello logico target il modello relazionale. Per quanto riguarda la progettazione logica, verrà studiato il problema della materializzazione di viste sulla base di un carico di lavoro complesso che contempli la presenza contemporanea di più operatori di aggregazione all'interno delle interrogazioni. Verrà analizzata l'utilità della frammentazione delle viste materializzate, effettuata sulla base del carico di lavoro e tenendo conto di vincoli di spazio. Per entrambi i problemi saranno definite funzioni di costo ad hoc, che ne permettano una formulazione come problemi di ottimizzazione. Per il livello fisico, l'unità analizzerà i tipi di indici più diffusi ed elaborerà i relativi modelli di costo. Verrà poi affrontato il problema della scelta ottimale degli indici tramite algoritmi euristici. Le tecniche prodotte verranno implementate in un prototipo che accetterà in ingresso uno schema concettuale di data mart, un carico di lavoro, nonché eventuali vincoli aggiuntivi ed effettuerà la progettazione logica e fisica del data mart. La sperimentazione utilizzerà i più diffusi strumenti di data warehousing, e sarà basata su benchmark di varia natura.

TEMA 3: Verranno affrontati argomenti legati al trattamento di interrogazioni di similarità, nonché metodi incrementali di data clustering per il data warehousing su dati metrici e categorici. Si analizzeranno i paradigmi esistenti per query di similarità, inclusi quelli di tipo approssimato, e verranno definiti indicatori adeguati a caratterizzare la qualità del risultato, che saranno utilizzati per definire nuovi algoritmi in grado di mediare tra costo e qualità del risultato. Sarà sviluppato un prototipo in grado di supportare e risolvere efficientemente query complesse. Verrà studiata l'applicabilità dei metodi di clustering basati sui primi vicini all'analisi incrementale e si lavorerà alla definizione dell'architettura del sistema integrato di data mining e visualizzazione. Verrà prodotto un prototipo che comprenda un motore di data clustering, un generatore di dati sintetici per la sperimentazione e uno strumento di valutazione delle prestazioni. Entrambi i prototipi saranno sperimentati in modo estensivo, considerando dati reali e sintetici.

3]  Unità di       Universita' degli Studi di MODENA e REGGIO EMILIA

     Responsabile SONIA BERGAMASCHI

     Rd+Ra       MŁ 40 , Euro 20658,000 (dichiarata)

     Finanziamento    MŁ 85 , Euro 43898,000

     Compito

L'attività di ricerca avrà come obiettivo la continuazione ed evoluzione del progetto MOMIS che permette di ottenere una "Vista Virtuale Globale" di sorgenti informative eterogenee. L'obiettivo finale di MOMIS, proposto come attività di ricerca nel presente progetto, è quello di porre l'utente generico in condizione di fare una singola interrogazione rispetto alla Vista Virtuale Globale ed ottenere un'unica risposta che unifichi e sintetizzi in informazione i dati provenienti dalle singole sorgenti. In altre parole, con l'ambiente MOMIS si realizzerà un sistema di mediazione che contribuisca a fornire un'integrazione delle sorgenti che faciliti l'interrogazione per gli utenti, senza comprometterne la libertà od inficiare la completezza e la sinteticità della risposta.

FASE 1: - Definizione dei requisiti di integrazione per dati provenienti da sorgenti semistrutturate. - Definizione delle possibili estensioni al modello di integrazione per sorgenti strutturate di MOMIS per: 1) Integrare dati provenienti anche da sorgenti semistrutturate , proponendo modelli di rappresentazione per "dare struttura" ai dati semistrutturati. 2) Utilizzare ontologie di dominio e top-level basati su sistemi lessicali che prevedono l'esistenza di relazioni terminologiche tra termini definite a priori. 3) Utilizzare conoscenza estensionale inter-schema, tramite la definizione di assiomi estensionali che descrivono le relazioni insiemistiche esistenti tra le estensioni delle classi di oggetti presenti nelle sorgenti.

FASE 2: L'obiettivo della fase è la produzione di risultati scientifici che definiscano nel loro complesso un quadro metodologico per l'integrazione di dati provenienti da sorgenti fortemente eterogenee. La metodologia sarà basata su tecniche intelligenti di tipo semi-automatico per l'identificazione e riconciliazione di eterogeneità basate sulle proprietà dei dati, sulla estrazione semi-automatica di proprietà interschema, e su conoscenza di ontologie di dominio. I risultati forniti includeranno la specifica funzionale/architetturale di un prototipo che implementa tale metodologia. Inoltre verranno definite le specifiche funzionali di un "Query Manager" che supporti query (globali) rispetto ad una "Vista Virtuale Globale" delle sorgenti integrate. Il Query Manager dovrà decomporre una query globale in sub-query relative alle sorgenti, estendendo tecniche sviluppate nell'ambito di sistemi distribuiti di Basi di Dati, ed ottimizzarne l'esecuzione utilizzando tecniche di logica descrittiva per l'ottimizzazione semantica di query. Il Query Manager dovrà inoltre gestire la composizione della risposta: i dati reperiti dalle sottoquery dovranno essere combinati per generare la risposta all'interrogazione posta sullo schema globale.

FASE 3: L'obiettivo di questa fase è lo sviluppo dei prototipi che realizzino le funzioni enucleate dai risultati scientifici prodotti nella fase precedente. Il contributo di questa Unità di Ricerca sarà: 1) lo sviluppo di un prototipo di ambiente di ausilio al progettista per la costruzione di una vista globale basato su ontologie e assiomi inter-schema ; 2) lo sviluppo di un prototipo di Query Manager per la gestione di query globali.

FASE 4: L'obiettivo di questa fase è quello di completare la realizzazione e l'integrazione dei prototipi sviluppati nelle fasi precedenti e di condurre opportuni esperimenti per verificarne l'efficacia in problemi reali d'integrazione. In particolare, la sperimentazione verrà condotta facendo riferimento alle sorgenti informative messe a disposizione da TELECOM Italia. Inoltre, in collaborazione con l'Unità di Ricerca di Roma, verrà completato l'interfacciamento tra il sistema di ausilio alla integrazione, il Query Manager ed il prototipo per query rewriting e query answering tramite viste.

4]  Unità di       Universita' degli Studi di MILANO

     Responsabile SILVANA CASTANO

     Rd+Ra       MŁ 41 , Euro 21174,000 (dichiarata)

     Finanziamento    MŁ 86 , Euro 44415,000

     Compito

L'unità di Milano è coinvolta nel solo Tema 1. Obiettivo della ricerca è lo sviluppo di un ambiente per la creazione di viste riconciliate di dati eterogenei e semistrutturati, mediante utilizzo di tecniche di affinità e clustering specializzate per tali dati, e per l'interrogazione di viste riconciliate mediante un linguaggio di tipo fuzzy opportunamente definito. Il programma si articola nelle seguenti fasi.

FASE 1. Definizione di requisiti di integrazione per sorgenti di dati eterogenei e semistrutturati per la valutazione di proprietà di affinità e corrispondenze semantiche, tenendo conto di proprietà e caratteristiche delle loro descrizioni a livello intensionale (metadati), contenuto semantico (con l'ausilio di thesaurus/ontologie), tipologie di eterogeneità e proprietà intra e inter-schema. Definizione preliminare della struttura del meta-data repository sulla base dei requisiti di integrazione identificati. Prodotti della Fase 1: D0.R1: Specifiche per il meta-data repository (in collaborazione con BO,CS,RM,MO) D1.R1: Metodi e tecniche di estrazione, rappresentazione ed integrazione di sorgenti strutturate e semi-strutturate eterogenee (in collaborazione con BO,CS,RM,MO) D1.R2: Utilizzo di ontologie e proprietà inter-schema di tipo estensionale (in collaborazione con MO).

FASE 2. Definizione di tecniche di clustering basate su affinità e corrispondenze semantiche per sorgenti di dati semistrutturati e selezione interattiva di cluster di candidati all'integrazione da cui derivare viste riconciliate mediante opportune regole definite. Definizione del linguaggio fuzzy per l'interrogazione di viste riconciliate. Definizione di una metodologia per la costruzione semi-automatica di viste riconciliate basata su affinità e clustering e definizione delle specifiche funzionali del prototipo dell'ambiente di supporto relativo: tali attività saranno svolte anche in stretta collaborazione le altre unità coinvolte. Definizione di uno specifico livello del meta-data repository dedicato a contenere regole di integrazione/unificazione in un verso e mapping/trasformazione nel verso opposto per la derivazione, rispettivamente, del processo di integrazione e delle corrispondenze tra viste riconciliate e candidati nei cluster delle sorgenti di partenza. Prodotti della Fase 2: D0.R2: Specifica della architettura funzionale del repository di meta-dati (in collaborazione con BO,CS,RM,MO) D1.R6: Descrizione della metodologia di integrazione di sorgenti fortemente eterogenee ( in collaborazione con MO,BO) D1.R7: Architettura funzionale di un ambiente di ausilio al progettista per la costruzione di viste riconciliate di sorgenti fortemente eterogenee basato sulle tecniche sviluppate (in collaborazione con CS,MO). D1.R10: Descrizione del linguaggio fuzzy per l'interrogazione di viste riconciliate.

FASE 3. Realizzazione di un prototipo di strumento di ausilio al progettista per la costruzione di viste riconciliate di sorgenti eterogenee e semistrutturate basato sulle tecniche di affinità e clustering e sull'architettura funzionale definite nella fase 2. Collaborazione alla realizzazione del meta-data repository per gli aspetti relativi alla costruzione di viste riconciliate con affinità e clustering. Prodotti della Fase 3: D0.P1: Repository di meta-dati (in collaborazione con BO,CS,RM,MO) D1.P7: Prototipo di ambiente di ausilio al progettista per la costruzione di viste globali riconciliate basato su valutazione di affinità e clustering interattivo.

FASE 4. Completamento dell'implementazione del prototipo sviluppato nella fase 3 e effettuazione di sperimentazione e validazione della metodologia e dello strumento su casi applicativi individuati nell'ambito del progetto anche in collaborazione con Telecom Italia. D1.R12: Risultati della sperimentazione delle metodologie e dei prototipi per l'integrazione (in collaborazione con BO,CS,MO,RM).

5]  Unità di       Universita' degli Studi della CALABRIA

     Responsabile SERGIO GRECO (Luigi PALOPOLI )

     Rd+Ra       MŁ 63 , Euro 32536,000 (dichiarata)

     Finanziamento    MŁ 131 , Euro 67655,000

     Compito

TEMA 1. La nostra unità studierà opportune generalizzazioni di alcune tecniche già sviluppate per l'estrazione di varie tipologie di proprietà interschema, quali ad esempio le iponimie. Verranno considerati problemi di integrazione che coinvolgono anche sorgenti di dati semi-strutturati che, grazie allo sviluppo del WEB, stanno affermandosi sempre più come le nuove forme di memorizzazione e di scambio delle informazioni. In questo ambito, verranno progettate delle tecniche opportune per l'estrazione di proprietà interschema. Si considereranno degli algoritmi per la traduzione dei dati da un modello dirappresentazione sorgente ad un modello di rappresentazione target. Collaborerà alla definizione di un meta-repository che descrive le diverse tipologie di sorgenti e di relazioni intra e interschema. In particolare, verranno inserite nel meta-data repository nuove tipologie di meta-relazione e verrà definita la sua architettura funzionale. Collaborerà inoltre alla definizione di algoritmi per la riscrittura di interrogazioni. Sarà progettato ed implementato un prototipo che implementi gli algoritmi per l'estrazione di proprietà interschema, di un prototipo per la traduzione di dati e di un prototipo per gli algoritmi di query rewriting e query answering using views.

TEMA 2. La nostra unità di ricerca affronterà il tema dell'interrogazione efficiente in ambiente data warehouse. Dopo uno studio preliminare dello stato dell'arte sui data warehouse e sulle tecniche di interrogazione efficienti di basi di dati (query containment, query rewriting, ecc.), il primo obiettivo consisterà nella individuazione delle specificità del contesto data warehouse in cui dovranno essere risolti i problemi di efficienza delle interrogazioni. Si svilupperanno poi tecniche innovative di interrogazione in ambiente data warehouse attraverso l'estensione di tecniche preesistenti concepite per basi di dati relazionali. L'idea di base è quella di sfruttare le proprietà strutturali delle interrogazioni e delle viste materializzate per ottenere un'esecuzione ottimizzata. A tal fine si potrebbe sfruttare la proprietà di aciclicità strutturale della query riscritta per guidare il query rewriting, rendendo in tal modo efficiente la successiva verifica di query containment. In altri termini, in presenza di più riscritture possibili, vengono preferite quelle che generano interrogazioni con limitata ciclicità. Le informazioni necessarie per l'ottimizzazione (in particolare quelle relative alla descrizione delle viste) saranno estratte dal Meta-Data Repository. Inoltre, le scelte effettuate saranno memorizzate nel Meta-Data Repository per successivi eventuali riutilizzi. Le tecniche prodotte nella seconda fase saranno implementate a livello prototipale. Il prototipo riceverà in input una interrogazione e, sulla base delle informazioni presenti nel Meta-data repository, produrrà un piano di esecuzione che tende a massimizzare l'utilizzo di predicati (viste) materializzati.

TEMA 3. La nostra unità si propone di svolgere uno studio approfondito sulle sorgenti di intrattabilità computazionale di alcune varianti del problema del metaquerying al fine di identificare ulteriori casi trattabili che evidenzino un buon interesse applicativo e di progettare, implementare e sperimentare algoritmi per il riconoscimento e la risoluzione di tali casi. Verrà poi progettato e realizzato un prototipo basato sugli algoritmi per il metaquerying ottenuti nella fase precedente. Tale prototipo sarà infine interfacciato a basi di dati reali pre-esistenti ed i pattern di dati da esso estratti verranno valutati qualitativamente con l'aiuto di uno o più esperti dello specifico dominio applicativo analizzato.