MINISTERO
DELL'ISTRUZIONE
DELL'UNIVERSITÀ
E DELLA RICERCA |
|
Programmi di ricerca cofinanziati - Modello D
Rendiconto del programma di ricerca - ANNO 2000
prot. MM09268483
1. Area
Scientifico Disciplinare principale |
09:
Ingegneria industriale e dell'informazione |
2.
Coordinatore Scientifico del programma di ricerca |
LENZERINI
Maurizio |
-
Università |
Universita'
degli Studi di ROMA "La Sapienza" |
- Facoltà |
Facolta'
di INGEGNERIA |
-
Dipartimento/Istituto |
Dip.
INFORMATICA E SISTEMISTICA |
3. Titolo
del programma di ricerca |
D2I:
Integrazione, warehousing e mining di sorgenti eterogenee di dati |
4.
Settore principale del Programma di Ricerca: |
K05A |
5. Costo
originale del Programma: |
881.000.000
Lire
(454.999 Euro) |
6. Quota
Cofinanziamento MIUR: |
564.000.000
Lire
(291.282 Euro) |
7. Quota
Cofinanziamento Ateneo: |
254.000.000
Lire
(131.180 Euro) |
8.
Finanziamento totale: |
818.000.000
Lire
(422.462 Euro) |
9.
Durata: |
24
mesi |
10. Obiettivo della ricerca eseguita
Gli sviluppi dell'informatica e
delle telecomunicazioni hanno reso disponibile l'accesso ad un numero sempre
piu' vasto di banche dati strutturate e semistrutturate, create in tempi
diversi, su sistemi diversi e con criteri organizzativi diversi. Senza
l'applicazione di opportuni metodi, gli utenti hanno a disposizione grandi
quantita' di dati, ma trovano inevitabili difficolta' nel sintetizzare
l'informazione utile ai propri scopi. Risulta quindi importante ricercare
nuove metodologie per l'integrazione di sorgenti eterogenee di dati, per il
progetto di basi di dati destinate all'analisi in linea di dati di sintesi
(data warehouse), e per la scoperta di nuovi collegamenti e proprieta' non
facilmente intuibili all'interno di una sorgente o di sorgenti diversi (data
mining). L'obiettivo del progetto e' la definizione di un quadro metodologico
generale per l'integrazione, il warehousing e il mining di sorgenti eterogenee
(D2I: From Data to Information), e lo sviluppo di metodi e strumenti specifici
per i tre temi:
Tema 1: integrazione di dati provenienti da sorgenti eterogenee,
Tema 2: progettazione e interrogazione di data warehouse,
Tema 3: data mining.
La problematica trattata riveste grande importanza applicativa e industriale,
specialmente in relazione alla opportunita' di estrarre informazione di
rilevanza direzionale e strategica dai dati del livello operativo delle
imprese. I temi del progetto sono infatti centrali per la componente di data
management nei sistemi di Enterprise Knowledge Management e di Enterprise
Resource Planning. Le unita' partecipanti sono 5, e le idee alla base della
proposta sono state maturate in occasione della partecipazione a progetti
europei ed italiani, in particolare Esprit DWQ e INTERDATA, finanziati
rispettivamente dall'UE e dal MURST nel 1997. Il coordinamento e' centrato
sulla collaborazione di un coordinatore per ciascuno dei temi, assicurando
cosi' un monitoraggio ed una interazione continua tra le unita'. L'obiettivo
e' sperimentare e valutare i metodi e gli strumenti proposti attraverso
collaborazioni con partner industriali.
Oltre all'obiettivo generale di un quadro metodologico complessivo, che
produrra' anche la definizione e la realizzazione di uno strumento per la
gestione dei meta-dati rilevanti rispetto alle attivita' di integrazione,
warehousing e mining, gli obiettivi specifici dei tre temi vengono illustrati
di seguito.
TEMA 1: L'obiettivo è lo sviluppo di metodi e strumenti per l'integrazione di
dati provenienti da sorgenti fortemente e strutturalmente eterogenee, ossia da
sorgenti di tipo strutturato (ad es., basi di dati), o semistrutturato (ad
es., documenti HTML e XML). I metodi di rappresentazione dei dati presenti
nelle sorgenti devono tenere conto di sorgenti semistrutturate, e di possibile
coesistenza di versioni diverse dei dati. Si deve poi tenere conto che la
scoperta di proprietà inter-schema è cruciale per caratterizzare le
relazioni semantiche tra dati in diverse sorgenti, ed è complicata dal fatto
che le informazioni semantiche sulle sorgenti stesse sono spesso implicite.
Infine, il processo che conduce alla risposta ad interrogazioni poste in
termini di viste globali pone problemi sia per la suddivisione della query in
sottoquery, sia per la ricostruzione della risposta. I principali risultati
che si intendono perseguire riguardano la definizione di una metodologia di
integrazione di sorgenti fortemente eterogenee, la definizione di tecniche
semiautomatiche di clustering di sorgenti basate su proprieta' di affinita' e
corrispondenze semantiche, la progettazione di algoritmi per la riscrittura di
interrogazioni su viste globali in termini di interrogazioni sulle sorgenti,
la definizione di metodi per la gestione di versioni diverse delle sorgenti,
la caratterizzazione di opportuni parametri per descrivere la qualità dei
dati, e di tecniche per la riconciliazione di dati provienti da sorgenti
diverse, la progettazione e la realizzazione di un ambiente che supporti
l'attivita' d'integrazione, basato sulla gestione di meta-dati.
TEMA 2: Nella letteratura sono state proposte diverse architetture per data
warehouse e varie metodologie di progettazione a queste associate. Le
architetture possono essere classificate in architetture ad uno, due o tre
livelli. In un'architettura dell'ultimo tipo, i tre livelli memorizzano i dati
operazionali, riconciliati e derivati. Il livello dei dati riconciliati viene
gestito tramite tecniche di integrazione, oggetto del tema 1. Nel contesto
data warehouse, si pongono nuove e complesse problematiche relative sia alla
progettazione che all'interrogazione dei dati. Obiettivo del tema è lo
sviluppo di tecniche per la progettazione e l'interrogazione efficiente di
data warehouse, con particolare riferimento al livello dei dati derivati, sia
dal punto di vista logico che fisico. Ci si propone di definire tecniche
efficaci per la materializzazione di viste in presenza di un carico di lavoro
complesso, e per l'individuazione di un insieme ottimale di indici per
l'accesso veloce ai dati. Il problema della interrogazione efficiente di data
warehouse sarà affrontato principalmente come problema di riscrittura di
interrogazioni su viste materializzate. I risultati che si intendono
perseguire in questo contesto riguardano la definizione di tecniche di
ottimizzazione, basate sulla struttura delle interrogazioni, che estendono
metodi già esistenti in maniera da tenere conto delle specificità
dell'ambiente data warehouse.
TEMA 3: L'obiettivo e` l'estrazione di informazioni da grandi quantita` di
dati, nota con il termine "data mining". La ricerca operera` in
numerose direzioni con lo scopo di trattare gli aspetti piu` rilevanti e a
tutt'oggi meno esplorati. Verranno trattati vari tipi di dati, da quelli
strutturati, tipici dei sistemi di basi di dati, a quelli multimediali (quali
DB di immagini). La conoscenza estratta sara` di diversi tipi,
dall'informazione sui raggruppamenti di oggetti (clustering), al
meta-querying, che cerca pattern complessi all'interno dei dati con tecniche
di tipo logico. Particolare cura sara` dedicata agli aspetti di
visualizzazione dell'informazione estratta e di adattabilita` a vari tipi di
utenti, nella convinzione che la forma di presentazione e l'interazione con
l'utente siano esse stesse fattori critici per l'efficacia del processo di
estrazione e la fruibilita` dell'informazione. Per quanto riguarda i metodi di
estrazione, verranno considerate le problematiche che sorgono quando la
sorgente di dati e` un data warehouse. In questo caso, sorge spesso la
necessita` di effettuare elaborazioni incrementali, poiche' i dati vengono
consolidati periodicamente, ed e' importante evitare la ripetizione di
attivita` molto onerose dal punto di vista computazionale, come ad esempio il
clustering. I principali risultati che si intende produrre riguardano:
algoritmi di clustering incrementale, paradigmi per query di similarita`,
inclusi quelli con approssimazione, formalizzazione degli indicatori in grado
di quantificare il compromesso "qualita` vs costo", strategie di
ausilio per permettere all'utente di formulare facilmente un piano per la
scoperta di informazioni nascoste, primitive per la creazione semiautomatica
di visualizzazioni, caratterizzazione computazionale di varianti di
meta-querying di interesse applicativo, algoritmi efficienti per il
meta-querying. Il livello dei meta-dati, cui fanno riferimento i temi 1 e 2,
costituira' il punto di riferimento sia per i dati di input alle attivita' di
mining, sia per la rappresentazione delle proprieta' estratte dal mining.
11. Descrizione della Ricerca eseguita e dei
risultati ottenuti
La ricerca eseguita, insieme ai
risultati conseguiti, verra' descritta facendo riferimenti alle tre fasi
previste per il progetto, ed iniziando con le attivita` comuni ai tre temi.
Riguardo a tali attivita', nella prima fase sono stati definiti i metodi di
rappresentazione e di gestione dei meta-dati necessari per produrre le
specifiche per il repository, che fornisce la base comune per le metodologie e
gli strumenti sviluppati nell'ambito del progetto. Nella seconda fase e` stata
definita la struttura del repository di meta-dati, ed e` stato specificato
l'insieme dei servizi che il repository stesso deve offrire. La specifica
dell'architettura funzionale del repository di meta-dati e` riportata nel
rapporto D0.R2. Nella terza fase si e' proceduto alla specifica dettagliata
delle varie funzionalita'. Questa attivita', sotto la guida dell'unita' del
responsabile del progetto, e' stata condotta congiuntamente da tutte le
unita'.
Tema 1 - Integrazione di dati provenienti da sorgenti eterogenee
Durante la prima fase del progetto le unita` coinvolte nel tema 1 hanno
inizialmente svolto un'analisi approfondita dello stato dell'arte relativo
all'integrazione di sorgenti eterogenee di dati. Particolare attenzione e`
stata posta al confronto dei modelli per dati semistrutturati proposti in
letteratura, allo scopo di caratterizzarne il diverso potere espressivo, ed
allo studio dei metodi esistenti per il problema del query rewriting e del
query answering using views. Questa attivita` di studio ed analisi e`
documentata principalmente nei rapporti D1.R1 e D1.R5. Successivamente le
attivita` si sono concentrate nella formulazione dei requisiti di integrazione
in presenza di sorgenti di dati fortemente eterogenee (strutturate e
semistrutturate): sono stati studiati i requisiti per nuovi metodi di
rappresentazione dei dati, con particolare riguardo a sorgenti di dati
semistrutturati (dati OEM, documenti XML), e sono state definite nuove
tecniche per l'identificazione e la riconciliazione di eterogeneita` basate
sulle proprieta` dei dati e per l'estrazione semiautomatica di proprieta`
interschema. Diversamente da molti altri approcci all'integrazione proposti in
letteratura, le tecniche introdotte identificano ed estraggono proprieta`
inter- ed intra-schema, intensionali ed estensionali, che riguardano sia
aspetti linguistici (ad es. sinonimie, omonimie, etc.) che aspetti strutturali
(similarita` fra schemi o porzioni di schemi). Inoltre, l'estrazione di
relazioni interschema viene effettuata attraverso meccanismi semiautomatici,
sfruttando le capacita` di ragionamento offerte dalle logiche descrittive
utilizzate per la rappresentazione del dominio di integrazione. Questi
meccanismi hanno lo scopo di automatizzare quegli aspetti del processo di
integrazione che in genere risultano realizzati manualmente nei sistemi
tradizionali. I risultati ottenuti sono descritti nei rapporti tecnici D1.R1 e
D1.R2, in cui vengono estese tecniche precedentemente sviluppate dalle unita`
partecipanti al progetto per sorgenti di dati strutturati al caso di sorgenti
di dati semistrutturati, e sono opportunamente generalizzate tecniche per
l'estrazione di alcune tipologie di proprieta` interschema anch'esse
realizzate in precedenti studi sull'argomento. Nel corso della prima fase del
progetto, e` stato inoltre sviluppato un modello generalizzato, denominato CVM
(Conceptual Versioning Model), per la gestione di versioni di schema in
ambiente eterogeneo, nel caso in cui sia necessario interoperare dati di tipo
strutturato (orientati agli oggetti) e semistrutturato. La descrizione
completa del modello, insieme ad uno studio approfondito di alcune logiche
descrittive che sono alla base del modello stesso, e` presentata nel rapporto
D1.R4. Infine, e` stato affrontato il problema della traduzione dei dati da un
modello di rappresentazione ad un altro, oggetto del rapporto D1.R3 e del
rapporto D1.R9 prodotto nella seconda fase. Nella seconda fase sono state
sviluppate tecniche di clustering basate su affinita` e corrispondenze
semantiche per l'identificazione di cluster di candidati all'integrazione,
tenendo conto non solo di proprieta` inter-schema di tipo intensionale ma
anche di proprieta` di tipo estensionale. Sono state studiate le modifiche da
apportare alla metodologia generale di integrazione per gestire anche sorgenti
internamente dotate di meccanismi di gestione di versioni di schema. In
particolare, sono state individuate tecniche di estrazione automatica di
proprieta` interschema, indotte dai cambiamenti di schema, che consentono di
incapsulare le sorgenti versionate rendendo del tutto trasparente l'aspetto di
schema versioning. Tali risultati sono descritti nel rapporto D1.R6. E` stata
definita una metodologia per la costruzione semi-automatica di viste
riconciliate di sorgenti eterogenee e semistrutturate basata su affinita` e
clustering e sull'uso di ontologie. L'architettura sviluppata consente una
rappresentazione integrata ed uniforme delle informazioni memorizzate nelle
sorgenti informative coinvolte, dopo la rimozione di eventuali conflitti ed
inconsistenze. La decrizione dell'architettura funzionale di ausilio alla
costruzione di viste e` oggetto del rapporto D1.R7. Nei rapporti D1.R8, D1.R10
e D1.R11 sono stati affrontati gli aspetti piu` propriamente legati alla
integrazione dei dati ed al problema di rispondere ad interrogazioni poste
sullo schema globale virtuale del sistema di integrazione utilizzando
esclusivamente i dati memorizzati alle sorgenti. Nel primo rapporto sono state
definite le specifiche funzionali di un "Query Manager" (QM) che
gestisce, per ogni interrogazione posta da utente, la rappresentazione globale
ottenuta mediante le fasi di integrazione al fine di materializzare presso
l'utente le entita` che popolano la vista virtuale e che costituiscono la
risposta cercata. In particolare il QM gestisce aspetti relativi alla
individuazione delle sorgenti locali ritenute necessarie per rispondere alla
query, alla riformulazione della query nei termini delle sorgenti individuate,
ed alla ricomposizione delle risposte ottenute da ogni singola sorgente al
fine di produrre la risposta globale. Tale ricomposizione e` realizzata
tramite l'utilizzo di tecniche di "Object Fusion", basate in
particolare sulla "omogeneita` semantica" di attributi di differenti
sorgenti. Inoltre il QM gestisce meccanismi di ottimizzazione del processo di
risposta basati sull'utilizzo di relazioni estensionali. Nel rapporto D1.R10
e` stato definito un linguaggio fuzzy per l'interrogazione di viste e nel
rapporto D1.R11 sono stati definiti metodologia e strumenti per la risposta ad
interrogazioni rispetto ad un insieme di viste, estendendo, gli approcci
attuali per tener conto della necessita` di riconciliare sorgenti di dati
eterogenee. In particolare e` stato affrontato il problema nei due approcci
comunemente adottati nei sistemi di integrazione dei dati: local-as-view
(LAV), in cui le sorgenti di dati sono descritte nei termini di viste espresse
sullo schema globale, e global-as-view (GAV), in cui, al contrario, ad ogni
elemento dello schema globale e` associata una vista sulle sorgenti. Nel
rapporto e` descritta una metodologia di riconciliazione in LAV, approccio in
cui il problema di rispondere alle interrogazioni e` comunemente considerato
di difficile soluzione ed e` risolto mediante l'utilizzo di opportune tecniche
di ragionamento. Inoltre e` mostrato come il problema sia di fatto un problema
di risposta ad interrogazioni in presenza di informazione incompleta anche
nell'approccio GAV, e che i metodi usati comunemente in GAV per rispondere
alle interrogazioni risultano in generale inadeguati. Anche per questo caso
sono state sviluppate tecniche per rispondere alle interrogazioni, sotto
opportune assunzioni, tenendo in considerazione l'incompletezza dei dati
memorizzati alle sorgenti e la inconsistenza dei dati stessi rispetto a
vincoli di integrita` espressi sullo schema globale. Nella terza fase e' stato
realizzato un insieme di prototipi che realizzano le funzioni enucleate dai
risultati scientifici prodotti nella fase precedente. Le metodologie, le
tecniche ed i prototipi sviluppati sono stati poi sperimentati secondo quanto
stabilito dagli obiettivi iniziali.
Tema 2 - Progettazione e interrogazione di Data Warehouse
Nella prima fase del progetto le unita` coinvolte nel tema 2 hanno portato
avanti uno studio approfondito dello stato dell'arte sulle architetture dei
data warehouse proposte in letteratura (rapporto D2.R1), sulle tematiche
relative alla progettazione logico-fisica dei dati derivati (rapporto D2.R2) e
sulle tematiche di interrogazione di sistemi di grandi dimensioni (rapporto
D2.R3). Relativamente agli aspetti di progettazione logico-fisica descritti
nel rapporto D2.R2, e` stata presentata, per il livello logico, un'analisi
critica delle principali limitazioni degli approcci esistenti alla
materializzazione di viste. L'attenzione e` stata focalizzata su due fattori:
l'insufficiente generalita` della categoria di interrogazioni su cui e` basata
la materializzazione, e la scarsa precisione delle funzioni adottate per la
stima della cardinalita` delle viste. Per il livello fisico, sono stati
analizzati i tipi di indici piu` diffusi sugli strumenti per il data
warehousing: accanto ai B-tree, sono stati considerati join index, star index,
bitmap index e projection index. Per ciascun tipo di indice e` stato elaborato
un modello di costo da utilizzare durante la fase di progettazione fisica.
Sono poi stati studiati i piu` diffusi algoritmi per la scelta degli indici in
basi di dati di tipo operazionale. Nel rapporto D2.R3 e` stato condotto uno
studio preliminare delle tecniche di interrogazione efficienti di basi di dati
(query containment, query rewriting, ecc.) e sono state individuate le
specificita` del contesto data warehouse in cui studiare l'efficienza delle
interrogazioni. Si e` trattato essenzialmente di individuare i metodi di
ottimizzazione esistenti piu` adatti ad essere estesi nel nuovo contesto
applicativo. In particolare sono stati presi in considerazione sia metodi
quantitativi che metodi strutturali per l'ottimizzazione delle interrogazioni
e sono state identificate classi di interrogazioni trattabili. Sono state
prese in considerazione le interrogazioni necessarie per realizzare le
operazioni di popolamento e aggiornamento di "data cube". E` bene
notare che tali interrogazioni assumono un carattere estremamente differente
dalle interrogazioni di tipo OLAP in quanto non sono eseguite su uno
"star schema", ma prevedono l'utilizzo di join fra molte tabelle
dello schema globale prodotto dalle attivita` di integrazione e talvolta
l'utilizzo di operatori aggregati. Nella seconda fase e` stata sviluppata una
nuova tecnica per l'esecuzione efficiente di interrogazioni volte a popolare i
"data cube", basata sull'approccio strutturale. Tale tecnica
utilizza la nozione di decomposizione di "HyperTree". Essa consente
di risolvere efficientemente la classe di interrogazioni aventi
"HyperTree width" limitata e permette anche di utilizzare le
informazioni quantitative relative alle relazioni, alla selettivita` degli
attributi, etc.. Per quanto riguarda gli altri aspetti di progettazione
logica, e` stato proposto un approccio originale alla frammentazione in cui il
carico di lavoro e` caratterizzato dalla presenza di query complesse che non
possono essere efficacemente descritte solo dal loro pattern di aggregazione.
In particolare, sono state considerate interrogazioni espresse da espressioni
Nested Generalized Projection/Selection/Join (NGPSJ), in cui e` possibile
applicare sequenze di operatori di aggregazione alle misure e definire
predicati di selezione, a diverse granularita`, su attributi e misure. Inoltre
e` stata prevista la possibilita` di includere nelle viste misure derivate
nonche` eventuali misure di supporto per calcolare correttamente gli aggregati
in presenza di operatori non distributivi. Sotto queste ipotesi, e` stato
proposto un algoritmo efficiente che determina un ristretto insieme di viste
candidate alla materializzazione. L'algoritmo costruisce un query view graph i
cui vertici rappresentano viste candidate e i cui archi denotano la
possibilita` di calcolare una vista a partire da un'altra. Il query view graph
puo` poi essere l'input di un algoritmo di ottimizzazione che selezioni,
dall'insieme di viste candidate, il sottoinsieme che massimizza le prestazioni
con riferimento al carico di lavoro e nel rispetto di un vincolo di spazio
assegnato. Per aumentare l'efficacia degli algoritmi proposti, e` stato messo
a punto un metodo per la stima delle dimensioni delle viste candidate alla
materializzazione tenendo conto degli specifici vincoli di cardinalita`
suggeriti dal dominio applicativo. Il problema e` stato affrontato calcolando
dapprima bound soddisfacenti per le cardinalita`, poi utilizzandoli per
determinare una buona stima probabilistica. In particolare, e` stata proposta
una strategia di bounding che raggiunge un compromesso efficace tra bonta` dei
bound calcolati e complessita` computazionale, ed e` stato delineato un
approccio branch-and-bound per la sua implementazione. I risultati ottenuti
nell'ambito della progettazione logico-fisica e del popolamento e
dell'interrogazione di data warehouse sono riportati nel rapporto D2.R4.
Infine e` stato affrontato il problema della progettazione fisica utilizzando
i modelli di costo messi a punto durante la prima fase. E` stato proposto un
algoritmo euristico per la selezione di un insieme ottimale di indici da
costruire nell'ambito di data warehouse con viste materializzate. Per
raggiungere tale obiettivo e` stato messo a punto un algoritmo di scelta dei
piani di esecuzione di un'interrogazione e un modello di costi per la
valutazione delle diverse alternative. Gli indici suggeriti dall'algoritmo
appartengono a due categorie: i tid-list index e i bitmap index. La
progettazione fisica e` descritta nel rapporto D2.R5. Nella terza fase e'
stato realizzato un insieme di prototipi che realizzano le funzioni enucleate
dai risultati scientifici prodotti nella fase precedente. Le metodologie, le
tecniche ed i prototipi sviluppati sono stati poi sperimentati secondo quanto
stabilito dagli obiettivi iniziali.
Tema 3 - Data Mining
Nella prima fase, sono stati studiati sistemi ed approcci esistenti per il
data mining, concentrandosi su tecniche di clustering, metaquerying,
visualizzazione, e ricerche approssimate e di similarita`. Per il clustering
sono stati effettuati accurati studi comparativi sulle prestazioni dei vari
algoritmi, sia dal punto di vista dell'efficienza che da quello della qualita`
dei cluster prodotti, anche in presenza di dati affetti da rumore. Per il
metaquerying e` stato svolto uno studio approfondito sulle sorgenti di
intrattabilita` computazionale di alcune varianti del problema. Sono stati
identificati ulteriori casi trattabili che evidenziano un buon interesse
applicativo e sono stati progettati alcuni algoritmi per il riconoscimento e
la risoluzione di tali casi. Successivamente ci si e` concentrati
sull'individuazione di un insieme di varianti del metaquerying che rivelano un
buon interesse applicativo e sullo studio delle sorgenti di intrattabilita`
computazionale che caratterizzano tali varianti. E` stato effettuato uno
studio teorico finalizzato a sistematizzare e formalizzare il rapporto
esistente tra le varie modalita` di visualizzazione dei dati e le varie
attivita` di scoperta di informazioni. I sistemi e gli approcci esistenti per
la visualizzazione di informazioni sono stati confrontati sulla base di un
insieme di casi reali di applicazione, allo scopo di scoprirne da una parte le
mancanze da superare, e, dall'altra, le caratteristiche positive da mantenere.
Tali attivita` di ricerca sono descritte nel rapporto tecnico D3.R1. Nella
seconda fase e` iniziata la trattazione teorica dei problemi evidenziati nella
prima fase, con sviluppo di algoritmi, e individuazione di architetture di
sistema. Sono stati studiati metodi di clustering per la soluzione dei
problemi derivanti dall'aggiornamento incrementale dei dati del warehouse. In
particolare, e` stato presentato un modello generale per la conversione di
algoritmi di clustering alla versione dinamica e in grado di operare in
memoria esterna. Infine, sono anche state individuate alcune modalita` di
visualizzazione dei risultati del clustering e sono state definite le
modalita` di comunicazione tra il sottosistema di calcolo, che esegue il data
mining, e quello di isualizzazione. L'architettura del sistema integrato di
data mining e visualizzazione cosi` ottenuto e` descritta nel rapporto tecnico
D3.R2. Per quanto riguarda le interrogazioni di similarita`, si sono
analizzati i paradigmi esistenti per la risoluzione di query approssimate. In
particolare, e` stato proposto uno schema di classificazione dei diversi
metodi presenti in letteratura, in grado di caratterizzare ogni tecnica sulla
base di quattro diverse coordinate: il tipo di dati a cui e` applicabile, il
tipo di misure sugli errori prodotti, le garanzie offerte in termini di
qualita` dei risultati, il grado di interazione con l'utente. Tale schema
risulta estremamente utile nell'analisi delle tecniche approssimate per la
risoluzione di query di similarita`, poiche` permette di individuare relazioni
e similarita` esistenti tra le diverse tecniche che potrebbero non risultare
evidenti ad una prima analisi. Inoltre, tale schema consente di rivelare i
limiti intrinseci di ciascuna tecnica, ad esempio per quanto riguarda il campo
di applicabilita`. Si e` quindi passati a studiare tecniche di ricerca
approssimate in grado di permettere all'utente di controllare la qualita` del
risultato. Tra queste si e` identificato l'approccio PAC (Probabilisticamente
Approssimativamente Corretto) come il piu` promettente. A partire dalla
definizione piu` generale, che permette di ottenere un risultato con un errore
inferiore ad un parametro di accuratezza (espresso dall'utente) con
probabilita` superiore ad un certo valore di confidenza (anch'esso espresso
dall'utente), si sono definiti alcuni tipi generali applicabili alle
interrogazioni di similarita`. L'approccio PAC, inizialmente introdotto per la
risoluzione di query 1-nearest neighbor, e` stato esteso per la risoluzione di
query di range e k-nearest neighbor. Sono quindi stati proposti algoritmi
equenziali per la risoluzione di tali interrogazioni ed un modello in grado di
predire il costo necessario per effettuare la ricerca sequenziale. Infine,
sono stati proposti degli algoritmi per la risoluzione di interrogazioni di
range e k-nearest neighbor approssimate tramite indice. La correttezza di tali
algoritmi e` stata dimostrata formalmente ed e` stata anche provata
l'ottimalita` della politica di scelta del nodo cui accedere negli algoritmi
per la risoluzione di query k-nearest neighbor. Infine relativamente la
metaquerying sono stati progettati degli algoritmi efficienti per la
risoluzione dei sottocasi trattabili delle varianti di metaquerying
individuati nel corso della prima fase. Tali risultati sono riportati nel
rapporto tecnico D3.R3. Nella terza fase e' stato realizzato un insieme di
prototipi che realizzano le funzioni enucleate dai risultati scientifici
prodotti nella fase precedente. Le metodologie, le tecniche ed i prototipi
sviluppati sono stati poi sperimentati secondo quanto stabilito dagli
obiettivi iniziali.
Per quanto riguarda la disseminazione di risultati, il sito del progetto,
all'indirizzo http://www.dis.uniroma1.it/~lembo/D2I/, e' costantemente
aggiornato, ed offre accesso a tutti i deliverables e prodotti. Le tecniche
proposte per l'individuazione e l'estrazione automatica di proprieta`
interschema e la generazione automatica di viste riconciliate di dati, sono
state oggetto di un'analisi comparativa, che ha coinvolto sia aspetti
metodologici che aspetti legati alle prestazioni, da parte di Jayant Madhavan
(Universita` di Washington), Philip A. Bernstein (Microsoft Research), and
Erhard Rahm (Universita` di Leipzig). Tale analisi e` riportata in
"Generic schema matching with Cupid" - J. Madhavan, P. A. Bernstein,
and Erhard Rahm In Proc. of the 27th International Conference on Very Large
Databases (VLDB 2001). Segnaliamo ancora che nel corso del primo anno di
attivita` del progetto il coordinatore del programma di ricerca Maurizio
Lenzerini ha presentato le seguenti relazioni invitate: - "Data
Integration Needs Reasoning" alla 6th International Conference on Logic
Programming and Nonmonotonic Reasoning, LPNMR 2001, Vienna, Austria, Settembre
2001; - "Data Integration Is Harder Than You Thought" alla 6th
International Conference on Cooperative Information Systems CoopIS 2001,
Trento, Italia, Settembre 2001. Maurizio Lenzerini e` stato anche
organizzatore del 8th International Workshop on Knowledge Representation meets
Databases (KRDB-2001, Roma, Italia, 15 Settembre 2001), in cui sono state
presentati i primi risultati del progetto, e Guest Editor per una speciale
edizione della rivista internazionale "Information Systems" su Data
extraction, cleaning and reconciliation (Vol. 26, N.8, Dec. 2001). Stefano
Rizzi e Matteo Golfarelli hanno tenuto un tutorial dal titolo "Data
warehouse design" alla 17th International Conference on Database
Engineering (ICDE'01), Heidelberg, nell'Aprile 2001. Tiziana Catarci ha tenuto
diverse relazioni invitate in cui ha esposto i risultati del progetto per
quanto riguarda visualizzazione e data mining. Maurizio Lenzerini ha
presentato i risultati del progetto presso: 9th International Workshop on
Knowledge Representation meets Databases, KRDB-2002, Tolosa, Francia, 2002 -
Relazione Invitata; 2002 International Workshop on Description Logics,
DL-2002, Tolosa,Relazione Invitata; 19th ACM SIGMOD-SIGACT-SIGART Symposium on
Principles of Database Systems, PODS 2002, Madison, - Tutorial Invitato. Sonia
Bergamaschi ha tenuto un intervento al Knowledge Technologies Workshop
organizzato da INFSO/D5 nella giornata dedicata ai progetti su Semantic Web,
Lussemburgo, 16 Maggio 2002. Ha inoltre tenuto le seguenti relazioni invitate:
Peer to Peer Paradigm for a Semantic Search Engine, AICA 2002 XL Congresso
Annuale, Conversano (Bari), 2002; "SEWASIE: a Semantic
SearchEngine", Workshop on Ontologies for Multi-Agent Systems, EKAW 2002,
Siguenza, Spagna, 2002. Nel novembre 2002 Stefano Rizzi è stato invitato
presso il FER dell'Università di Zagabria a tenere una lecture dal titolo
Main issues in data warehouse design. Silvana Castano è stata invitata in
qualità di relatore su tematiche di integrazione semantica di dati al panel
su Scientific Data Integration presso la VIII Conference on Extending Database
Technology (EDBT 2002). Tiziana Catarci è Conference Chair della Fourth
International Conference on Web Information Systems Engineering (WISE 2003).
Stefano Rizzi è Program chair del Sixth ACM International Workshop on Data
Warehousing and OLAP (DOLAP'03). Tiziana Catarci ha ricevuto nel 2003 un
Eclipse IBM Award per le sue attivita' di ricerca legate a visualizzazioni
avanzate di grandi quantita' di dati. Maurizio Lenzerini nel corso del 2003
terrà interventi invitati su: Logic-based Information Integration (Fourth
Panellenic Logic Symposium), Data Integration (Eleventh Italian Symposium on
Advanced Database Systems, SEDB 2003), Intelligent Information Integration
(IJCAI 2003).
I risultati complessivi del progetto saranno presentati in occasione di un
workshop organizzato a Milano nel marzo 2003 come giornata del GdL su Basi di
Dati dell'AICA. Infine, e' in corso di preparazione un volume della Springer
Verlag dedicato alla illustrazione dei risultati del progetto.
12. Problemi riscontrati nel corso della ricerca
Nella relazione prodotta alla
fine del primo anno si segnalava la difficoltà da parte dell'unità di
Bologna a portare a compimento gli obiettivi stabiliti per le fasi 3 e 4 del
progetto, in particolare relativamente alla realizzazione di prototipi. Il
responsabile dell'unita' di Bologna sottolineava le difficoltà dovute alla
defezione di alcuni membri del gruppo di ricerca. Per fronteggiare le
situazione, l'unita' di Bologna ha messo in campo un rilevante sforzo
aggiuntivo, ed ha prodotto, senza oneri ulteriori per il consorzio, il
prototipo previsto, "D1-P4: Prototipo di strumento per la manipolazione
di versioni di schema in ambito eterogeneo".
Negli obiettivi generali del progetto, era prevista una sperimentazione
condotta in collaborazione con la Telecom Italia. L'accordo con tale azienda
prevedeva che i metodi e gli strumenti proposti fossero sperimentati e
validati attraverso una collaborazione con la Divisione di Data
Administration, Data Warehouse, Data Mining (Direttore: Ing. Stefano
Trisolini) della Telecom Italia. La sperimentazione doveva riguardare in
particolare la raccolta e l'analisi dei dati relativi al traffico telefonico e
al customer care. Nel corso del secondo anno del progetto, a fronte di una
riorganizzazione della Telecom Italia, la Divisione di Data Administration,
Data Warehouse, Data Mining e' stata sciolta, ed il Direttore, Ing. Stefano
Trisolini ha lasciato l'azienda. I successivi tentativi per individuare un
Dipartimento Telecom con cui riprendere i contatti non hanno avuto successo.
Per fronteggiare questa situazione, sono stati presi contatti, all'inizio del
secondo anno, con altre aziende potenzialmente interessate alla
sperimentazione. Tra queste, la CM Sistemi, Roma, ha offerto forme di
collaborazione concreta, che sono sfociate in due accordi scientifici,
rispettivamente con l'Universita' di Roma "La Sapienza", e con
l'Universita' della Calabria, con l'obiettivo di realizzare un sistema di
integrazione ed un sistema di progettazione di data warehouse in linea con le
tecniche sviluppate nell'ambito del progetto. Le collaborazioni, che sono
attualmente in corso, hanno quindi per oggetto il tema 1 ed il tema 2, e
prevedono anche la sperimentazione, in parte gia' condotta, delle metodologie
proposte nel progetto in ambiti applicativi di interesse per l'azienda.
Nell'ambito del Tema 3 del progetto, sono stati presi contatti ed effettuati
riunioni con la società Inspiring Software s.r.l. di Milano, che opera nel
settore dell'Information Technology per le aziende manufatturiere. La
collaborazione con tale societa' e' scaturita in contratto di ricerca con
l'Unità di Roma, avente per oggetto l'applicazione di tecniche di data mining
visuale sviluppate nell'ambito del progetto. Tali tecniche sono di interesse
per la Inspiring Software s.r.l. allo scopo di dotare i sistemi di controllo
di processi manufatturieri di capacita' di data warehousing e data mining. Le
tecniche e le metodologie oggetto della collaborazione sono state
successivamente sperimentate dalla Inspiring Software s.r.l. in una
applicazione relativa a processi manufatturieri nell'industria alimentare.
Un ultimo problema riscontrato ha riguardato la realizzazione del prototipo
del repository di meta-dati. Poiche' nella definizione di tale repository ci
si e' basati sul linguaggio XML, che sta diventando uno standard nello scambio
dati, al momento della realizzazione e' stata condotta un'analisi degli
strumenti disponibili per la gestione di dati XML. Tale analisi ha rilevato
carenze sostanziali di questi strumenti (ad esempio nella espressione e nella
esecuzione di query), che avrebbero pregiudicato la significativita' della
realizzazione. Si e' quindi deciso di non procedere alla realizzazione stessa,
e di affidare il coordinamento degli altri prototipi alle specifiche del
repository stesso, che di fatto stabiliscono il formato dei meta-dati oggetto
di scambio tra i vari prototipi, e che sono state concordate da tutte le
unita'.
13. Elenco unità di ricerca che hanno
partecipato al programma di ricerca
nº |
Università |
Facoltà |
Responsabile |
Quota Ateneo |
Cofinanziamento
assegnato |
Finanziamento totale |
Pagato |
Residuo da saldare
(già fatturato) |
Impegnato |
Spese globali
sostenute |
Nota |
1. |
Universita'
degli Studi di MODENA e REGGIO EMILIA |
Facolta'
di INGEGNERIA |
BERGAMASCHI
Sonia |
19.108,9
(36.999.768 Lire) |
43.898,83
(84.999.477 Lire) |
63.007,73
(121.999.245 Lire) |
63.005
(121.993.959 Lire) |
0
(0 Lire) |
0
(0 Lire) |
63.007,73
(121.999.245 Lire) |
|
2. |
Universita'
degli Studi di MILANO |
Facolta'
di SCIENZE MATEMATICHE FISICHE e NATURALI |
CASTANO
Silvana |
21.174,72
(40.999.729 Lire) |
44.415,29
(85.999.477 Lire) |
65.590,01
(126.999.206 Lire) |
57.856
(112.024.165 Lire) |
0
(0 Lire) |
7.740
(14.986.640 Lire) |
65.590,01
(126.999.206 Lire) |
|
3. |
Universita'
degli Studi della CALABRIA |
Facolta'
di INGEGNERIA |
GRECO
Sergio |
32.536,77
(62.999.593 Lire) |
67.655,85
(130.999.206 Lire) |
100.192,62
(193.998.800 Lire) |
84.427
(163.472.486 Lire) |
15.780
(30.554.157 Lire) |
0
(0 Lire) |
100.192,62
(193.998.800 Lire) |
|
4. |
Universita'
degli Studi di ROMA "La Sapienza" |
Facolta'
di INGEGNERIA |
LENZERINI
Maurizio |
27.888,67
(53.999.671 Lire) |
64.557,11
(124.999.245 Lire) |
92.445,78
(178.998.916 Lire) |
92.453
(179.012.895 Lire) |
0
(0 Lire) |
0
(0 Lire) |
92.445,78
(178.998.916 Lire) |
|
5. |
Universita'
degli Studi di BOLOGNA |
Facolta'
di SCIENZE MATEMATICHE FISICHE e NATURALI |
RIZZI
Stefano |
30.470,95
(58.999.632 Lire) |
70.754,59
(136.999.167 Lire) |
101.225,54
(195.998.800 Lire) |
101.233
(196.013.244 Lire) |
0
(0 Lire) |
0
(0 Lire) |
101.225,54
(195.998.800 Lire) |
|
|
|
|
|
131.176
(253.990.629 Lire) |
291.279
(563.991.403 Lire) |
422.459
(817.989.777 Lire) |
398.974
(772.516.749 Lire) |
15.780
(30.554.157 Lire) |
7.740
(14.986.640 Lire) |
422.459
(817.989.777 Lire) |
|
14. Risorse umane complessivamente ed
effettivamente impegnate
|
(mesi uomo) |
I anno |
II anno |
TOTALE |
da personale universitario |
92 |
95 |
187 |
altro personale |
84 |
83 |
167 |
personale a contratto |
26 |
42 |
68 |
15. Modalità di svolgimento (dati complessivi)
|
(numero) |
partecipazioni a convegni: |
|
in Italia |
39 |
all'estero |
60 |
articoli pertinenti pubblicati: |
|
su riviste italiane con referee |
1 |
su riviste straniere con referee |
40 |
su altre riviste italiane |
1 |
su altre riviste straniere |
0 |
comunicazioni a convegni/congressi
internazionali |
111 |
comunicazioni a convegni/congressi
nazionali |
20 |
rapporti interni |
29 |
brevetti depositati |
0 |
16. Tabella delle spese sostenute
nº |
Responsabile
(Cognome e nome) |
Università |
Materiale
inventariabile |
Grandi Attrezzature |
Materiale di consumo |
Spese per calcolo ed
elaborazione dati |
personale a
contratto |
Servizi esterni |
Missioni |
Altro |
TOTALE |
1. |
BERGAMASCHI
Sonia |
Universita'
degli Studi di MODENA e REGGIO EMILIA |
14.934
(28.916.083 Lire) |
0
(0 Lire) |
1.968
(3.810.556 Lire) |
1.910
(3.698.253 Lire) |
17.440
(33.768.346 Lire) |
3.152
(6.103.086 Lire) |
20.565
(39.819.153 Lire) |
3.036
(5.878.480 Lire) |
63.005
(121.993.959 Lire) |
2. |
CASTANO
Silvana |
Universita'
degli Studi di MILANO |
19.410
(37.582.775 Lire) |
0
(0 Lire) |
943
(1.825.892 Lire) |
0
(0 Lire) |
14.068
(27.239.283 Lire) |
0
(0 Lire) |
23.435
(45.376.215 Lire) |
0
(0 Lire) |
57.856
(112.024.165 Lire) |
3. |
GRECO
Sergio |
Universita'
degli Studi della CALABRIA |
23.381
(45.271.657 Lire) |
0
(0 Lire) |
3.877
(7.506.874 Lire) |
3.840
(7.435.232 Lire) |
15.510
(30.031.367 Lire) |
9.732
(18.843.666 Lire) |
39.264
(76.025.249 Lire) |
4.603
(8.912.597 Lire) |
100.207
(194.026.643 Lire) |
4. |
LENZERINI
Maurizio |
Universita'
degli Studi di ROMA "La Sapienza" |
21.227
(41.100.957 Lire) |
0
(0 Lire) |
7.480
(14.483.213 Lire) |
2.612
(5.057.507 Lire) |
14.460
(27.998.296 Lire) |
10.100
(19.556.210 Lire) |
30.811
(59.658.057 Lire) |
5.763
(11.158.657 Lire) |
92.453
(179.012.895 Lire) |
5. |
RIZZI
Stefano |
Universita'
degli Studi di BOLOGNA |
29.648
(57.406.188 Lire) |
0
(0 Lire) |
2.060
(3.988.692 Lire) |
0
(0 Lire) |
29.331
(56.792.394 Lire) |
1.547
(2.995.392 Lire) |
38.647
(74.830.577 Lire) |
0
(0 Lire) |
101.233
(196.013.244 Lire) |
|
|
|
108.600
(210.277.659 Lire) |
0
(0 Lire) |
16.328
(31.615.227 Lire) |
8.362
(16.190.993 Lire) |
90.809
(175.829.687 Lire) |
24.531
(47.498.354 Lire) |
152.722
(295.709.251 Lire) |
13.402
(25.949.735 Lire) |
414.754
(803.070.906 Lire) |
(per la copia da depositare presso l’Ateneo e
per l’assenso alla diffusione via Internet delle informazioni riguardanti i
programmi finanziati legge del 31.12.96 n° 675 sulla "Tutela dei dati
personali")
Data
30/01/2003 10:40 |
|
Firma
....................................................... |