Studiare

In questa sezione è possibile reperire le informazioni riguardanti l'organizzazione pratica del corso, lo svolgimento delle attività didattiche, le opportunità formative e i contatti utili durante tutto il percorso di studi, fino al conseguimento del titolo finale.

Piano Didattico

Il piano didattico è l'elenco degli insegnamenti e delle altre attività formative che devono essere sostenute nel corso della propria carriera universitaria.
Selezionare il piano didattico in base all'anno accademico di iscrizione.

CURRICULUM TIPO:

1° Anno 

2° Anno   Attivato nell'A.A. 2022/2023

InsegnamentiCreditiTAFSSD
Prova finale
24
E
-
Attivato nell'A.A. 2022/2023
InsegnamentiCreditiTAFSSD
Prova finale
24
E
-
Insegnamenti Crediti TAF SSD
Tra gli anni: 1°- 2°
Tra gli anni: 1°- 2°
Altre attività
3
F
-
Tra gli anni: 1°- 2°

Legenda | Tipo Attività Formativa (TAF)

TAF (Tipologia Attività Formativa) Tutti gli insegnamenti e le attività sono classificate in diversi tipi di attività formativa, indicati da una lettera.




S Stage e tirocini presso imprese, enti pubblici o privati, ordini professionali

Codice insegnamento

4S008911

Crediti

6

Coordinatore

Pietro Sala

Lingua di erogazione

Italiano

Settore Scientifico Disciplinare (SSD)

INF/01 - INFORMATICA

L'insegnamento è organizzato come segue:

Teoria

Crediti

5

Periodo

Primo semestre

Docenti

Pietro Sala

Laboratorio

Crediti

1

Periodo

Primo semestre

Docenti

Pietro Sala

Obiettivi formativi

Il corso si propone di fornire le basi teoriche e pratiche riguardanti l’integrazione di dati da sorgenti eterogenee e la conseguente fase di estrazione di informazioni di sintesi e/o conoscenza. Al termine del corso gli studenti saranno in grado, dato un problema di data mining, di sviluppare un'intera pipeline per l'integrazione delle sorgenti di dati necessarie, scegliere e applicare tecniche di data mining più adeguate, e, infine, valutare l'efficacia delle tecniche utilizzate. Con le capacità acquisite lo studente sarà in grado di elaborare soluzioni originali o adattare soluzioni esistenti a problemi di data mining provenienti da svariati ambiti (industriale, aziendale, sanitario, etc.) e valutarne l'applicabilità nel mondo reale.

Programma

Richiami sulle Dipendenze Funzionali (FD):
Richiami sulle FD, verifica e vincoli in presenza di FD in PostgreSQL.

Dipendenze Funzionali Approssimate (AFD):
Introduzione dell’approssimazione nelle FD come misura di confidenza. Estrazione di conoscenza tramite AFD: esempi. Analisi di AFD estratte.

Algoritmi per l’estrazione di AFD:
AFD minimali: definizione, significato e interpretazione. Lower Bound Teorici al numero di AFD minimali: la maledizione della cardinalità. Algoritmo base per l’estrazione di AFD minimali. Rappresentazioni compatte dell’insieme delle AFD estratte. Algoritmi randomizzati per l’estrazione di AFD Minimali: teoria ed implementazione.

Approssimazione in presenza di misure:
Delta Dipendenze Funzionali (DFD): definizione, applicazione, e verifica. Interpretazione di DFD estratte. DFD approssimate (ADFD):
definizione, applicazione ed interpretazione su dati clinici (esempi).
Algoritmo per la verifica di singole ADFD ristrette al caso di due misure (2ADFD):
studio di complessità, implementazione. Estrazione di 2ADFD minimali.

Regole di Associazione (AR):
definizione, esempi in ambito clinico. Estrazione di AR: supporto e confidenza. Analisi teorica delle regole di associazione: la maledizione della cardinalità. Insieme di oggetti frequenti (FI) :
definizione, ruolo nell’estrazione di AR, e algoritmi per la generazione di candidati. Estrazione di AR da insiemi di FI. Insiemi di FI: insiemi minimali, insiemi chiusi. Strategie per l’esplorazione del reticolo degli FI. Strutture alternative per la estrazione di insiemi frequenti (hash trees, FP-trees). Valutazione dei pattern di associazione: problematiche del sistema supporto/confidenza. Esempi di paradossi. Misure alternative per l’analisi dei pattern di associazione: definizione ed esempi.

Estrazione Trasformazione e Caricamento (ETL):
definizione, funzioni, ruolo all’interno di un data warehouse, flussi di dati.
Componenti base delle procedure ETL e loro funzionamento:
Job, Trasformazioni, Job Step, Transformation Step.
Modellazione concettuale di procedure ETL in Business Process Model and Notation (BPMN). Esempi di modellazione: casi studio. Utilizzo di procedure esterne all’interno di procedure ETL: comunicazione, staging e gestione delle terminazioni anomale. Utilizzo di API (Application Programming Interface)
all’interno di procedure ETL. Breve descrizione dell’utilizzo di XPATH. Screen scraping di siti web in procedure ETL attraverso l’utilizzo di XPATH. Utilizzo della strumentazione presente all’interno delle suite di Business Intelligence per implementare procedure ETL.

Classificatori basati su Entropia:
il concetto di entropia. Alberi di decisione in ambito biomedico. Il classificatore Iterative Dichotomiser 3 (ID3): algoritmo, esempi e implementazione.
Discretizzazione delle misure. Utilizzo di ID3 come discretizzatore per misure: problematiche, modifiche e implementazione. Applicazione all’analisi temporale.

Reportistica e OLAP (Online Analytical Processing):
Reportistica interattiva: interrogazione delle basi di dati cliniche, parametrizzazione della reportistica. Recupero dinamico dei dati per la reportistica tramite trasformazioni ETL. Modellazioni di analisi con cubi OLAP e loro implementazione: casi di studio.
Utilizzo della strumentazione presente all’interno delle suite di Business Intelligence per implementare reportistica interattiva e dinamica e cubi OLAP.

Data Mining Distribuito:
cenni di calcolo distribuito, suddivisione di un problema di data mining per il calcolo distribuito,
modellazione e implementazione di un sistema distribuito per il data mining, utilizzo di database NoSQL
per il calcolo distribuito.

Analisi Probabilistica dei Processi:
Analisi qualitativa di un processo tramite tecniche di process mining e process discovery,
estrazione e trasformazione di processi in modelli probabilistici (Markov Chains, Markov Decision Processes),
strumenti per l'analisi probabilistica dei sistemi (PRISM model checker).

TESTI CONSIGLIATI:

DJ Hand, H Mannila, P Smyth
Principles of data mining
MIT Press Cambridge, MA, USA ©2001
ISBN:0-262-08290-X 9780262082907

Roland Bouman, Jos van Dongen
Pentaho Solutions: Business Intelligence and Data Warehousing with Pentaho and MySQL
Wiley Publishing, Inc.
ISBN: 978-0-470-48432-6
648 pages
September 2009

The elements of statistical learning. Data mining, inference, and prediction.
T. Hastie, R. Tibshirani, J. Friedman.
2009 Springer

MATERIALI FORNITI ALLO STUDENTE:

lucidi del corso;
dati di esempio (in formato .csv) per eseguire gli esercizi proposti a lezione;
codice delle procedure esposte a lezione;
Jupyter notebooks e Docker container per eseguire gli algoritmi spiegati durante le lezioni.

Bibliografia

Visualizza la bibliografia con Leganto, strumento che il Sistema Bibliotecario mette a disposizione per recuperare i testi in programma d'esame in modo semplice e innovativo.

Modalità d'esame

La modalità di esame è orientata alla verifica dell’autonomia e delle capacità da parte dello studente nell’applicare i concetti appresti al lezione per sviluppare sistemi una end-to-end pipeline per un dato problema di Data Mining. L'esame prevede un colloquio orale sulla realizzazione due progetti assegnati durante le lezioni,
uno per ognuno dei due macro-argomenti trattati nel corso:
1) ETL e Analisi OLAP.
2) Data Mining;
I progetti sono da svolgere in modalità individuale o in gruppo il colloquio, l'orale verte esclusivamente
sulla realizzazione dei due progetti. Una condizione necessaria ma non sufficiente al superamento
dell'esame consiste nelle realizzazione dei due progetti nella loro interezza.
In particolare i progetti verranno valutati fino a un massimo di 15 punti ognuno e il voto finale sarà rappresentato
dalla somma delle due valutazioni.

L'esame non cambia da studenti frequentanti a non frequentanti.

Le/gli studentesse/studenti con disabilità o disturbi specifici di apprendimento (DSA), che intendano richiedere l'adattamento della prova d'esame, devono seguire le indicazioni riportate QUI