Studiare
In questa sezione è possibile reperire le informazioni riguardanti l'organizzazione pratica del corso, lo svolgimento delle attività didattiche, le opportunità formative e i contatti utili durante tutto il percorso di studi, fino al conseguimento del titolo finale.
Piano Didattico
Il piano didattico è l'elenco degli insegnamenti e delle altre attività formative che devono essere sostenute nel corso della propria carriera universitaria.
Selezionare il piano didattico in base all'anno accademico di iscrizione.
1° Anno
Insegnamenti | Crediti | TAF | SSD |
---|
2° Anno Attivato nell'A.A. 2021/2022
Insegnamenti | Crediti | TAF | SSD |
---|
Insegnamenti | Crediti | TAF | SSD |
---|
Insegnamenti | Crediti | TAF | SSD |
---|
Insegnamenti | Crediti | TAF | SSD |
---|
1 module among the following (1st year: Big Data epistemology and Social research; 2nd year: Cybercrime, Data protection in business organizations, Comparative and Transnational Law & Technology)
2 courses among the following (1st year: Business analytics, Digital Marketing and market research; 2nd year: Logistics, Operations & Supply Chain, Digital transformation and IT change, Statistical methods for Business intelligence)
2 courses among the following (1st year: Complex systems and social physics, Discrete Optimization and Decision Making, 2nd year: Statistical models for Data Science, Continuous Optimization for Data Science, Network science and econophysics, Marketing research for agrifood and natural resources)
2 courses among the following (1st year: Data Visualisation, Data Security & Privacy, Statistical learning, Mining Massive Dataset, 2nd year: Machine Learning for Data Science)
Legenda | Tipo Attività Formativa (TAF)
TAF (Tipologia Attività Formativa) Tutti gli insegnamenti e le attività sono classificate in diversi tipi di attività formativa, indicati da una lettera.
Statistical models for data science (2021/2022)
Codice insegnamento
4S009079
Docenti
Coordinatore
Crediti
6
Lingua di erogazione
Inglese
Settore Scientifico Disciplinare (SSD)
MAT/06 - PROBABILITÀ E STATISTICA MATEMATICA
Periodo
Primo semestre dal 4 ott 2021 al 28 gen 2022.
Obiettivi formativi
Il corso sarà dedicato all'apprendimento del background matematico necessario per descrivere, analizzare e trarre valore da insiemi di dati, eventualmente Big Data e non strutturati, e padroneggiare i principali modelli probabilistici utilizzati in ambito data science. Partendo da modelli di base, ad esempio regressioni, predittori basati su PCA, statistiche Bayesiane, filtri, ecc., verrà posta enfasi particolare agli approcci quantitativi matematicamente rigorosi volti all'ottimizzazione delle fasi di raccolta, pulizia ed organizzazione di dati (e.g.: serie storiche, dati non strutturati generati in ambito social media, elementi semantici, etc.). Verranno inoltre introdotti gli strumenti matematici necessari a trattare la descrizione delle serie temporali, le loro analisi e previsioni. I contenuti dell'intero corso verranno somministrati in interazione con lo studio di problemi reali afferenti a settori industriali, economici, sociali, etc., eterogenei, utilizzando software orientati alla modellazione probabilistica, ad esempio, Knime, ElasticSearch, Kibana, R AnalyticFlow, Orange, ecc.
Al termine del corso lo studente dovrà dimostrare di:
● conoscere e saper utilizzare gli strumenti basilari per il trattamento delle serie storiche e loro indicatori, e.g.,
● conoscere e saper sviluppare soluzioni previsionali a valere su modelli statistico inferenziali, e.g., AR, MA, ARMA, ARIMA, ARIMAX: Box-Jenkins, autocovarianza e autocorrelazione parziale, stagionalità (SARIMA), analisi in varianza (ANOVA, MANOVA), etc.
● saper identificare i parametri caratterizzanti una certa popolazione via metodi, e.c., di minimizzazione dell’errore, massima verosimiglianza, etc.
● saper stimare/identificare/ricostruire caratteristiche relative ad analisi al primo ordine, tecniche di smoothing, decomposizione spettrale, fitting polinomiale, etc.
Programma
Il programma del corso è articolato nei seguenti macro-argomenti
Time domain analysis
Frequency domain analysis
Strumenti per l'analisi e la pulizia dei dati (e.g. identificazione di outliers)
Metodi di massima versoimiglianza, metriche di verosimiglianza, fitting densità di probabilità
Analisi in Componenti Principali (PCA) [regressori/predittori PCA-based]
Modelli AR, MA, ARMA, ARIMA, Box-Jenkins, ARCH, GARCH e generalizzazioni
TIme series decomposition
ACF/PACF e "visualizzazioni" connesse
Test di ipotesi
Processi Gaussiani / di salto / composti
Decomposizione processi di tipo "white noise"
Statistica Bayesiana ed applicazioni
Valutazioni previsionali via considerazione di modelli statistico inferenziali, basati, e.g.,
su autocovarianza e autocorrelazione parziale, stagionalità (SARIMA), analisi in varianza (ANOVA, MANOVA), etc.
Tecniche di smoothing, decomposizione spettrale, fitting polinomiale, etc.
Realizzazione dei modelli di cui ai punti precedenti per la risoluzione di concreti casi di studio.
Quest'ultimo aspetto riguarderà principalmente, ma non esclusivamente, la codifica in Python e/o l'utilizzo di librerie/software statistico/probabilistiche quali, e.g., Knime, ElasticSearch, Kibana, R, TensorFlow, Prophet, AnalyticFlow, Orange, ecc.
Bibliografia
Modalità d'esame
L'esame finale consta di due parti: una teorica, la successiva pratico/implementativa. Conseguentemente, la prima parte dell'esame è funzionale alla verifica dell'apprendimento dei concetti teorici caratterizzanti i metodi statisitici ed i collegati modelli ed algoritmi, alla base delle implementazioni informatico-computazionali utilizzate nella risoluzione di un progetto che lo studente concorderà con i docenti del corso.
Tale "caso di studio", unitamente alla discussione delle parti di codifica realizzate per portarli a termine,
sarà l'oggetto della seconda e conclusiva parte dell'esame.