Gestione Avanzata Dell'Informazione


NOTA: A partire dall'anno accademico 2015/2016, il sito del corso è trasferito su server Dolly.

Obiettivi formativi specifici

Il corso introduce lo studente alle principali tecniche di gestione dell’informazione nei domini applicativi più avanzati quali il WWW, il data Exchange e il Semantic Web. La tipologia di informazione considerata spazia dal dato testuale agli standard del W3C XML e RDF, dalle pagine web agli stream di dati e il focus è sulle modalità di manipolazione dell’informazione, sulla memorizzazione di grandi quantità di informazione e sulla ricerca efficace ed efficiente attraverso metodologie e strutture dati per la realizzazione di applicazioni che accedono a tali informazioni.

Oltre alle lezioni in aula, il corso prevede una serie di attività di laboratorio e progettuali per “toccare con mano” le principali soluzioni tecnologiche viste a lezione. Al termine del corso, lo studente avrà così una visione completa su come progettare, strutturare ed implementare al meglio applicazioni data-centric nei domini applicativi considerati.

Prerequisiti

Nessuno

Orario delle lezioni

– Lun 14.00 – 16.00 (Lab. XI, Matematica)
– Mer 14.00 – 16.00 (Lab. XI, Matematica)

Contenuti

Introduzione:

Panoramica sui tipi di informazione che vanno oltre i dati relazionali e sui relativi recenti sviluppi nell’impiego di tali informazioni negli ambiti applicativi avanzati quali data exchange, semantic web, search engine, sistemi pervasivi e mobili.

Gestione di informazioni full-text:

– Tecniche per la manipolazione del dato testuale contenuto in pagine web, e-mail, documenti elettronici, ecc.,ecc..
– Definizione, creazione e aggiornamento di strutture dati in memoria principale e secondaria (inverted index, suffix tree, PAT trees, ecc.) per la ricerca efficiente nel testo e in sequenze di caratteri (ad es. sequenze biologiche).
– Algoritmi di ricerca e interrogazioni frasali.
– Modelli per ricerche approssimate.

Gestione di informazioni semi-strutturate e lo standard XML:

– Introduzione ai dati strutturati ad albero.
– Standard XML e XMLSchema.
– Interrogazioni strutturali e relativi standard (XPath, XQuery), anche in ambito DBMS (SQL/XML).
– Tree pattern matching: definizione e algoritmi.
– Programmazione data-centric su dati XML (parsing DOM/SAX).
– Ricerca di Least Common Ancestor e líuso nella ricerca di keyword su documenti XML.

Gestione di informazioni a grafo e lo standard RDF:

– Il WWW come grafo di pagine Web, Web crawling e visite di grafi.
– Ranking di pagine Web nei motori di ricerca: algoritmi Page e HITS.
– Un tipo di dato a grafo: RDF. Interrogazione di dati RDF (SPARQL).
– Ricerca del Minimum Spanning Tree e uso nella ricerca di keyword su dati strutturati a grafo.

Il corso potrà includere seminari introduttivi ad altri argomenti di attualità quali dati multimediali, spaziali, gestione di informazioni su dispositivi mobili e sensori.

Testi di riferimento

Dispense a cura dei docenti disponibili sul sito del corso.
Il materiale del corso includerà anche una lista dei migliori libri disponibili per ciascuno degli argomenti trattati, consigliati per eventuali approfondimenti individuali. Tra questi si segnala:

– Crescenzi, Gambosi, Grossi “Strutture di dati e algoritmi”. Pearson – Addison Wesley
– Baeza-Yates, Ribeiro-Neto, “Modern Information Retrieval”. Addison Wesley