Modelli lineari generalizzati - corso 3600 rub. da Open education, formazione 3 settimane, circa 6 ore settimanali, data 29 novembre 2023.
Miscellanea / / December 01, 2023
Una delle condizioni per l'applicabilità dei modelli lineari convenzionali è l'indipendenza delle osservazioni l'una dall'altra, sulla base della quale viene selezionato il modello. Tuttavia, in pratica, ci sono spesso situazioni in cui la progettazione della raccolta dei materiali è tale che la violazione di questa condizione è inevitabile. Immagina di aver deciso di costruire un modello che descriva la relazione tra le prestazioni di educazione fisica e i punteggi dei test del QI tra gli studenti. Per risolvere questo problema avete realizzato numerosi campioni presso diverse istituzioni. È possibile combinare tali dati in un'unica analisi, costruita secondo lo schema tradizionale? Ovviamente no. Gli studenti di ciascuna università possono essere simili tra loro in qualche modo. Anche la natura della relazione tra le quantità studiate può essere leggermente diversa. Questo tipo di dati, in cui sono presenti correlazioni intragruppo, dovrebbero essere analizzati utilizzando modelli misti lineari. Mostreremo che alcuni predittori dovrebbero essere inclusi nel modello come i cosiddetti “fattori casuali”. Imparerai che i fattori casuali possono essere gerarchicamente subordinati. Discuteremo come tali modelli misti possano essere costruiti per variabili dipendenti che seguono diversi tipi di distribuzioni. Inoltre, mostreremo che la parte casuale del modello può essere ancora più complessa: può avere una componente che modella il comportamento della varianza in risposta all'influenza di una covariata. Alla fine del corso troverai un progetto in cui potrai esercitarti a costruire modelli misti scegliendo uno dei diversi set di dati. Sulla base dell'analisi di questi dati, è possibile creare un report nella tradizione della ricerca riproducibile.
Professore associato, Dipartimento di Zoologia degli invertebrati, Facoltà di Biologia, Università statale di San Pietroburgo, Ph.D.
Interessi scientifici: struttura e dinamica delle comunità bentoniche marine, scale spaziali, successione, interspecifiche e intraspecifiche interazioni biotiche, crescita e riproduzione degli invertebrati marini, struttura demografica delle popolazioni, microevoluzione, biostatistica.
Il corso è composto da 4 moduli:
1) Introduzione ai modelli lineari generalizzati
I modelli lineari generalizzati (GLM) consentono di modellare il comportamento di quantità che non seguono una distribuzione normale. Per facilitare i tuoi primi passi nel mondo del GLM, analizzeremo la loro struttura utilizzando l'esempio del GLM per quantità distribuite normalmente: in questo modo potrai tracciare paralleli con semplici modelli lineari. Imparerai cos'è una funzione di collegamento, come funziona la massima verosimiglianza e come testare le ipotesi GLM utilizzando i test di Wald e i test del rapporto di verosimiglianza.
2) Problema di selezione del modello
In questo modulo parleremo di questioni metodologiche legate ai modelli di costruzione. Un modello è una rappresentazione semplificata della realtà e la scelta tra diversi metodi concorrenti di tale semplificazione è un compito frequente per l'analista. In questo modulo imparerai a confrontare i modelli utilizzando criteri di informazione. Discuteremo le principali opzioni per l'analisi nella scelta dei modelli e parleremo delle difficoltà che sorgono in relazione alla molteplicità nascosta dei modelli. Infine, ti insegneremo a riconoscere le principali tipologie di abusi nella selezione dei modelli (data-fishing, p-hacking).
3) Modelli lineari generalizzati per il conteggio dei dati
In questo modulo discuteremo i metodi di base per modellare le quantità numerabili. Innanzitutto, discuteremo perché i modelli lineari convenzionali non sono adatti per il conteggio dei dati. Le proprietà delle distribuzioni numerabili ti aiuteranno a comprendere le differenze tra i tipi di GLM per i dati numerabili e le caratteristiche della loro diagnostica. Vedrai la funzione di collegamento all'opera quando visualizzi le previsioni GLM sulla scala della funzione di collegamento e sulla scala della variabile di risposta.
4) Modelli lineari generalizzati con risposta binaria
A volte è necessario simulare se un evento si è verificato o meno, se il squadra di calcio o persa, se il paziente si è ripreso o meno dopo il trattamento, se il cliente si è impegnato acquistare o meno. I modelli lineari convenzionali non sono adatti per modellare tali dati binari (eventi con due risultati), ma ciò può essere fatto facilmente utilizzando modelli lineari generalizzati. In questo modulo imparerai a modellare le probabilità che si verifichino eventi rappresentandoli come probabilità. Vedremo come funziona la funzione di collegamento logit e come vengono interpretati i coefficienti GLM quando viene utilizzata. Infine, potrai esercitarti ad analizzare modelli lineari generalizzati con diverse distribuzioni completando un progetto di analisi dei dati. I risultati di questa analisi dovranno essere presentati come un report in formato html, scritto utilizzando rmarkdown/knitr.
• Scopri quali competenze sono necessarie per iniziare nel campo dell'analisi e della scienza dei dati • Impara a utilizzare Excel, SQL, Power BI e Google Data Studio con cui lavorare dati e scrivi il tuo primo codice in Python• Ottieni una guida passo passo e scopri come entrare nel campo della scienza dei dati e scegliere un ruolo in Data Science
4,4
1 490 ₽