Apprendimento automatico in pratica - corso 41.500 rubli. da IBS Training Center, formazione 24 ore, Data 26 novembre 2023.
Miscellanea / / December 02, 2023
Il corso è costruito attorno ad alcuni casi pratici contenenti tabelle con dati iniziali.
Per ciascun caso, analizziamo l'intero ciclo di vita di un progetto di machine learning:
ricerca, pulizia e preparazione dei dati,
scelta di un metodo di addestramento adeguato al compito (regressione lineare per la regressione, foresta casuale per la classificazione, medie K e DBSCAN per il clustering),
formazione utilizzando il metodo scelto,
valutazione dei risultati,
ottimizzazione del modello,
presentazione del risultato al cliente.
Durante la parte di discussione del corso, discutiamo problemi pratici che gli studenti devono affrontare e che possono essere risolti utilizzando i metodi discussi.
Argomenti trattati:
1. Revisione del compito (teoria – 1 ora)
Quali problemi vengono risolti bene dall'apprendimento automatico e quali problemi stanno cercando di risolvere?
Cosa succede se, invece di un Data Scientist, assumi un non specialista nel settore (solo uno sviluppatore/analista/manager) con l'aspettativa che imparerà nel processo.
2. Preparazione, pulizia, ricerca dati (teoria – 1 ora, pratica – 1 ora)
Come comprendere i dati aziendali di origine (e in generale rilevare eventuali ordini in essi contenuti).
Sequenza di elaborazione.
Cosa può e deve essere delegato agli analisti di dominio e cosa è meglio fare dallo stesso Data Scientist.
Priorità per risolvere un problema specifico.
3. Classificatori e regressori (teoria – 2 ore, pratica – 2 ore)
Sezione pratica: compiti ben formalizzati con dati preparati.
Differenza tra compiti (classificazione binaria/non binaria/probabilistica, regressione), ridistribuzione dei compiti tra classi.
Esempi di classificazione di problemi pratici.
4. Clustering (teoria – 1 ora, pratica – 2 ore)
Dove e come effettuare il clustering: ricerca dei dati, verifica dell'enunciato del problema, verifica dei risultati.
Quali casi possono essere ridotti al clustering.
5. Valutazione del modello (teoria – 1 ora, pratica – 1 ora)
Metriche aziendali e metriche tecniche.
Metriche per problemi di classificazione e regressione, matrice degli errori.
Metriche interne ed esterne della qualità del clustering.
Convalida incrociata.
Valutare la riqualificazione.
6. Ottimizzazione (teoria – 5 ore, pratica – 3 ore)
Cosa rende un modello migliore di un altro: parametri, caratteristiche, insiemi.
Gestione delle impostazioni.
Pratica di selezione delle caratteristiche.
Revisione degli strumenti per trovare i migliori parametri, caratteristiche e metodi.
7. Grafici, report, lavoro con attività dal vivo (teoria – 2 ore, pratica – 2 ore)
Come spiegare chiaramente cosa sta succedendo: a te stesso, al team, al cliente.
Risposte più belle a domande senza senso.
Come presentare tre terabyte di risultati su una diapositiva.
Test semiautomatici, quali punti di controllo del processo sono realmente necessari.
Dalle attività dal vivo a un processo completo di ricerca e sviluppo ("R&S in pratica"): analisi e analisi dei compiti del pubblico.