Studiare
In questa sezione è possibile reperire le informazioni riguardanti l'organizzazione pratica del corso, lo svolgimento delle attività didattiche, le opportunità formative e i contatti utili durante tutto il percorso di studi, fino al conseguimento del titolo finale.
Piano Didattico
Il piano didattico è l'elenco degli insegnamenti e delle altre attività formative che devono essere sostenute nel corso della propria carriera universitaria.
Selezionare il piano didattico in base all'anno accademico di iscrizione.
1° Anno
Insegnamenti | Crediti | TAF | SSD |
---|
2° Anno Attivato nell'A.A. 2024/2025
Insegnamenti | Crediti | TAF | SSD |
---|
Insegnamenti | Crediti | TAF | SSD |
---|
Insegnamenti | Crediti | TAF | SSD |
---|
Insegnamenti | Crediti | TAF | SSD |
---|
1 module among the following
2 courses among the following
2 courses among the following (a.a. 2023/24: Statistical methods for business intelligence not activated)
2 courses among the following
Legenda | Tipo Attività Formativa (TAF)
TAF (Tipologia Attività Formativa) Tutti gli insegnamenti e le attività sono classificate in diversi tipi di attività formativa, indicati da una lettera.
Statistical models for data science (2023/2024)
Codice insegnamento
4S009079
Docenti
Coordinatore
Crediti
6
Offerto anche nei corsi:
- Statistical Models del corso Laurea magistrale in Artificial Intelligence [LM-18]
Lingua di erogazione
Inglese
Settore Scientifico Disciplinare (SSD)
MAT/06 - PROBABILITÀ E STATISTICA MATEMATICA
Periodo
I semestre dal 2 ott 2023 al 26 gen 2024.
Corsi Singoli
Autorizzato
Obiettivi di apprendimento
Il corso sarà dedicato all'apprendimento del background matematico necessario per descrivere, analizzare e trarre valore da insiemi di dati, eventualmente Big Data e non strutturati, e padroneggiare i principali modelli probabilistici utilizzati in ambito data science. Partendo da modelli di base, ad esempio regressioni, predittori basati su PCA, statistiche Bayesiane, filtri, ecc., verrà posta enfasi particolare agli approcci quantitativi matematicamente rigorosi volti all'ottimizzazione delle fasi di raccolta, pulizia ed organizzazione di dati (e.g.: serie storiche, dati non strutturati generati in ambito social media, elementi semantici, etc.). Verranno inoltre introdotti gli strumenti matematici necessari a trattare la descrizione delle serie temporali, le loro analisi e previsioni. Al fine di favorire la fusione degli aspetti teorici con la loro concreta applicazione per mezzo dello sviluppo di codice appropriato, i contenuti dell’intero corso verranno ulteriormente approfonditi attraverso lo studio di problemi reali riguardanti, e.g., i settori industriali, economici, sociali e biomedicali In particolare, l'implementazione dei metodi e modelli summenzionati, avverrà prevalentemente utilizzando il linguaggio Python, così come software orientati alla modellazione probabilistica, e.g., Knime, ElasticSearch, Kibana, R AnalyticFlow, Orange, etc. Al termine del corso lo studente dovrà dimostrare di: · conoscere e saper utilizzare gli strumenti basilari per il trattamento delle serie storiche e loro indicatori; · conoscere e saper sviluppare soluzioni previsionali a valere su modelli statistico inferenziali, e.g., AR, MA, ARMA, ARIMA, ARIMAX: Box-Jenkins, autocovarianza e autocorrelazione parziale, stagionalità (SARIMA), analisi in varianza (ANOVA, MANOVA), etc. · saper identificare i parametri caratterizzanti una certa popolazione via metodi, e.c., di minimizzazione dell’errore, massima verosimiglianza, etc. · saper stimare/identificare/ricostruire caratteristiche relative ad analisi al primo ordine, tecniche di smoothing, decomposizione spettrale, fitting polinomiale, etc.
Prerequisiti e nozioni di base
Relativamente ad entrambi i moduli componenti dell'intero corso: nozioni di base della teoria della Probabilità, conoscenza dei principali modelli di variabili casuali notevoli tanto discrete che continue (e.g.: binomiale, Poisson, Gaussiana) e loro principali proprietà statistiche; teoremi di convergenza (e.g.: legge dei grandi numeri, teorema limite centrale), nozioni di base di processi stocastici a tempo discreto e continuo (e.g.:catene di Markov, processi di nascita e morte), rudimenti di analisi statistica e dei dati (e.g.: frequenza, media, moda, scarto quadratico).
Nozioni di base della programmazione in Python, relative in particolare alla sintassi generale, strutture dei dati, import/export, principali grafici per la visualizzazione dei dati. Rudimenti delle principali librerie come Numpy, Pandas e Matplotlib.
Programma
Il programma del corso è articolato nei seguenti macro-argomenti.
Parte 1 [ modulo 1 ]
1. Time domain analysis
2. Frequency domain analysis
3. Strumenti per l'analisi e la pulizia dei dati (e.g. identificazione di outliers)
4. Metodi di massima verosimiglianza, metriche di verosimiglianza, fitting densità di probabilità
5. Analisi in Componenti Principali (PCA) [regressori/predittori PCA-based]
5. Modelli AR, MA, ARMA, ARIMA, Box-Jenkins, ARCH, GARCH e generalizzazioni
6. TIme series decomposition ACF/PACF e "visualizzazioni" connesse
7. Test di ipotesi
8. Processi Gaussiani / di salto / composti
9. Decomposizione processi di tipo "white noise"
10. Statistica Bayesiana ed applicazioni
11. Valutazioni previsionali via considerazione di modelli statistico inferenziali, basati, e.g., su autocovarianza e autocorrelazione parziale, stagionalità (SARIMA), analisi in varianza (ANOVA, MANOVA), etc.
12. Tecniche di smoothing, decomposizione spettrale, fitting polinomiale, etc.
Parte 2 [ modulo 2 ]
1. Richiami alla programmazione in Python
2. Gestire e visualizzare le serie storiche
3. Statistiche descrittive
4. Analisi nel dominio della frequenza
5. Regressione lineare per serie storiche
6. Analizzare e decomporre le componenti principali delle serie storiche (trend, ciclo, stagionalità)
7. Metodi di forecasting: Exponential Smoothing (semplice, doppio, triplo)
8. Metodi di forecasting: AR, MA, ARMA, ARIMA, SARIMA
9. Metodi di forecasting: ARCH, GARCH e generalizzazioni
10. Come valutare i diversi modelli di forecasting
Tutti i punti sopracitati verranno approfonditi attraverso esercitazioni pratiche che richiedono l’implementazione di opportuni codici Python. Inoltre, i principali metodi di forecasting verranno ulteriormente approfonditi grazie anche alla trattazione e risoluzione di casi di studio reali di vario tipo.
Bibliografia
Modalità didattiche
il corso si articolerà in lezioni frontali, con condivisione di slide e note, e simulazioni/esercitazioni al computer.
Modalità di verifica dell'apprendimento
L'esame finale consta di due parti: una teorica, la successiva pratico/implementativa. Conseguentemente, la prima parte dell'esame è funzionale alla verifica dell'apprendimento dei concetti teorici caratterizzanti i metodi statistici ed i collegati modelli ed algoritmi, alla base delle implementazioni informatico-computazionali utilizzate nella risoluzione di un progetto che lo studente concorderà con i docenti del corso. Tale "caso di studio", unitamente alla discussione delle parti di codifica realizzate per portarlo a termine, sarà l'oggetto della seconda e conclusiva parte dell'esame.
Criteri di valutazione
La valutazione della prova d'esame verrà effettuata combinando i risultati ottenuti a valere sui due moduli del corso, quindi dando pari importanza alla correttezza ed efficacia delle soluzioni adottate in fase di risoluzione di problemi concreti per via di implementazioni al calcolatore, così come alla comprensione dei modelli probabilistico/statistici ad esse soggiacenti.
Criteri di composizione del voto finale
Il voto finale sarà il risultato della valutazione paritetica delle due prove teoriche e di risoluzione di un "caso di studio" concordato dallo studente con gli insegnanti del corso, in accordo con quanto espresso nelle sezioni "Modalità d'esame" e "Criteri di valutazione".
Lingua dell'esame
Inglese / English
Sustainable Development Goals - SDGs
Questa iniziativa contribuisce al perseguimento degli Obiettivi di Sviluppo Sostenibile dell'Agenda 2030 dell'ONU.Maggiori informazioni su www.univr.it/sostenibilita