Studiare

In questa sezione è possibile reperire le informazioni riguardanti l'organizzazione pratica del corso, lo svolgimento delle attività didattiche, le opportunità formative e i contatti utili durante tutto il percorso di studi, fino al conseguimento del titolo finale.

Piano Didattico

Queste informazioni sono destinate esclusivamente agli studenti e alle studentesse già iscritti a questo corso.
Se sei un nuovo studente interessato all'immatricolazione, trovi le informazioni sul percorso di studi alla pagina del corso:

Laurea magistrale in Medical bioinformatics - Immatricolazione dal 2025/2026

Il piano didattico è l'elenco degli insegnamenti e delle altre attività formative che devono essere sostenute nel corso della propria carriera universitaria.
Selezionare il piano didattico in base all'anno accademico di iscrizione.

1° Anno

InsegnamentiCreditiTAFSSD
One course to be chosen between the following
Two courses to be chosen among the following
6
C
BIO/18
6
C
BIO/13 ,MED/03

2° Anno  Attivato nell'A.A. 2021/2022

InsegnamentiCreditiTAFSSD
Final exam
24
E
-
Attivato nell'A.A. 2021/2022
InsegnamentiCreditiTAFSSD
Final exam
24
E
-
Insegnamenti Crediti TAF SSD
Tra gli anni: 1°- 2°
English b2 level
4
F
-
Tra gli anni: 1°- 2°
Other activities
2
F
-
Tra gli anni: 1°- 2°

Legenda | Tipo Attività Formativa (TAF)

TAF (Tipologia Attività Formativa) Tutti gli insegnamenti e le attività sono classificate in diversi tipi di attività formativa, indicati da una lettera.




S Stage e tirocini presso imprese, enti pubblici o privati, ordini professionali

Codice insegnamento

4S004553

Docente

Pietro Sala

Coordinatore

Pietro Sala

Crediti

6

Lingua di erogazione

Inglese en

Settore Scientifico Disciplinare (SSD)

INF/01 - INFORMATICA

Periodo

Secondo semestre dal 7 mar 2022 al 10 giu 2022.

Obiettivi formativi

Il corso si propone di fornire conoscenze avanzate per la gestione e l’analisi di grosse quantità di dati (in particolare dati provenienti dall’ambito biomedico). Fornire le basi teoriche e pratiche delle principali tecniche di data mining applicate sia in generale che in domini clinici. Conoscenza e capacità di comprensione A completamento del corso, gli studenti saranno in grado di: - orientarsi nell’utilizzo delle principali componenti comuni alle suite di Business Intelligence presenti sul mercato. In particolare gli studenti saranno in grado di scegliere e configurare la/le opportuna/e componente/i per fornire soluzioni al supporto delle decisioni destinate al personale medico sanitario; - realizzare complesse operazioni di Estrazione, Trasformazione & Caricamento (ETL) di dati clinici da differenti sorgenti (Database Relazionali, API, siti web) sia di tipo strutturato (e.g., tabelle relazionali) che di tipo semistrutturato (e.g., XML); - modellare ed implementare soluzioni OLAP (On-Line Analytical Processing) per il supporto alle decisioni in ambito clinico; - utilizzare/adattare sofisticate tecniche di data mining (Dipendenze Funzionali Approssimate, Regole di Associazione, Classificatori basati su Entropia) per estrarre conoscenza da grosse quantità di dati clinici. Conoscenze applicate e capacità di comprensione Allo studente verranno fornite le conoscenze necessarie per gestire in modo autonomo: - la scelta e applicazione delle tecniche di data mining per l'estrazione di sapere medico da grosse quantità di dati; - la scelta delle rappresentazioni grafiche e interattive più appropriate per la visualizzazione di determinate informazioni in ambito clinico. Autonomia di giudizio Capacità di assegnare priorità corrette informazioni da visualizzare a seconda delle necessità dell’utente finale e comunicarle tramite sofisticate tecniche di visualizzazione dei dati. Abilità comunicative Capacità di comprendere il linguaggio proprio del dominio dell’utente e trasmettere la conoscenza estratta dai dati forniti utilizzando tale linguaggio. Capacità di apprendere Capacità di comprendere le tecniche e gli algoritmi alla base del data mining generale, comprensive dei fattori che ne determinano l'efficenza e l'efficacia. Capacità di riconoscere le variabili in gioco e l’output desiderato dall’utente in problemi di data mining clinico e di operare scelte autonome per la risoluzione di tali problemi.

Programma

Richiami sulle Dipendenze Funzionali (FD):
Richiami sulle FD, verifica e vincoli in presenza di FD in PostgreSQL.

Dipendenze Funzionali Approssimate (AFD):
Introduzione dell’approssimazione nelle FD come misura di confidenza. Estrazione di conoscenza clinica tramite AFD: esempi. Analisi di AFD estratte in ambito clinico.

Algoritmi per l’estrazione di AFD:
AFD minimali: definizione, significato e interpretazione. Lower Bound Teorici al numero di AFD minimali: la maledizione della cardinalità. Algoritmo base per l’estrazione di AFD minimali. Rappresentazioni compatte dell’insieme delle AFD estratte. Algoritmi randomizzati per l’estrazione di AFD Minimali: teoria ed implementazione.

Approssimazione in presenza di misure:
Delta Dipendenze Funzionali (DFD): definizione, applicazione, e verifica. Interpretazione di DFD estratte da dati clinici. DFD approssimate (ADFD):
definizione, applicazione ed interpretazione su dati clinici (esempi).
Algoritmo per la verifica di singole ADFD ristrette al caso di due misure (2ADFD):
studio di complessità, implementazione. Estrazione di 2ADFD minimali da dati clinici.

Regole di Associazione (AR):
definizione, esempi in ambito clinico. Estrazione di AR: supporto e confidenza. Analisi teorica delle regole di associazione: la maledizione della cardinalità. Insieme di oggetti frequenti (FI) :
definizione, ruolo nell’estrazione di AR, e algoritmi per la generazione di candidati. Estrazione di AR da insiemi di FI. Insiemi di FI: insiemi minimali, insiemi chiusi. Strategie per l’esporazione del reticolo degli FI. Strutture alternative per la estrazione di insiemi frequenti (hash trees, FP-trees). Valutazione dei pattern di associazione: problematiche del sistema supporto/confidenza. Esempi di paradossi. Misure alternative per l’analisi dei pattern di associazione: definizione ed esempi.

Estrazione Trasformazione e Caricamento (ETL):
definizione, funzioni, ruolo all’interno di un data warehouse, flussi di dati.
Componenti base delle procedure ETL e loro funzionamento:
Job, Trasformazioni, Job Step, Transformation Step.
Modellazione concettuale di procedure ETL in Business Process Model and Notation (BPMN). Esempi di modellazione: casi studio. Utilizzo di procedure esterne all’interno di procedure ETL: comunicazione, staging e gestione delle terminazioni anomale. Utilizzo di API (Application Programming Interface)
all’interno di procedure ETL. Breve descrizione dell’utilizzo di XPATH. Screen scraping di siti web in procedure ETL attraverso l’utilizzo di XPATH. Utilizzo della strumentazione presente all’interno delle suite di Business Intelligence per implementare procedure ETL.

Classificatori basati su Entropia:
il concetto di entropia. Alberi di decisione in ambito biomedico. Il classificatore Iterative Dichotomiser 3 (ID3): algoritmo, esempi e implementazione.
Discretizzazione delle misure. Utilizzo di ID3 come discretizzatore per misure: problematiche, modifiche e implementazione. Applicazione all’analisi temporale delle reazioni avverse da farmaco.

Reportistica e OLAP (Online Analytical Processing):
Reportistica interattiva: interrogazione delle basi di dati cliniche, parametrizzazione della reportistica. Recupero dinamico dei dati per la reportistica tramite trasformazioni ETL. Modellazioni di analisi con cubi OLAP e loro implementazione: casi di studio.
Utilizzo della strumentazione presente all’interno delle suite di Business Intelligence per implementare reportistica interattiva e dinamica e cubi OLAP.

TESTI CONSIGLIATI:

DJ Hand, H Mannila, P Smyth
Principles of data mining
MIT Press Cambridge, MA, USA ©2001
ISBN:0-262-08290-X 9780262082907

Roland Bouman, Jos van Dongen
Pentaho Solutions: Business Intelligence and Data Warehousing with Pentaho and MySQL
Wiley Publishing, Inc.
ISBN: 978-0-470-48432-6
648 pages
September 2009

Fulton, Hal and Olsen, Russ
The ruby way: solutions and techniques in ruby programming, third edition
Addison-Wesley Professional ©2014
ISBN:0-321-71463-6

MATERIALI FORNITI ALLO STUDENTE:

lucidi del corso;
dati di esempio (in formato .csv) per eseguire gli esercizi proposti a lezione;
codice delle procedure esposte a lezione.

Bibliografia

Visualizza la bibliografia con Leganto, strumento che il Sistema Bibliotecario mette a disposizione per recuperare i testi in programma d'esame in modo semplice e innovativo.

Modalità d'esame

La modalità di esame è orientata alla verifica dell’autonomia e delle capacità da parte dello studente nell’applicare
i concetti appresti alle lezione per sviluppare sistemi di supporto alle decisioni nelle loro principali declinazioni.
L'esame prevede un colloquio orale sulla realizzazione due progetti assegnati durante le lezioni,
uno per ognuno dei due macro-argomenti trattati nel corso:
1) Data Mining;
2) Analisi OLAP.
I progetti sono da svolgere in modalità individuale o in gruppo il colloquio, l'orale verte esclusivamente
sulla realizzazione dei due progetti. Una condizione necessaria ma non sufficiente al superamento
dell'esame consiste nelle realizzazione dei due progetti nella loro interezza.
In particolare i progetti verranno valutati fino a un massimo di 15 punti ognuno e il voto finale sarà rappresentato
dalla somma delle due valutazioni.

L'esame non cambia da studenti frequentanti a non frequentanti.

Le/gli studentesse/studenti con disabilità o disturbi specifici di apprendimento (DSA), che intendano richiedere l'adattamento della prova d'esame, devono seguire le indicazioni riportate QUI