Corso "Data Analyst" - corso 96.000 rubli. da Yandex Workshop, formazione 7 mesi, data 7 dicembre 2023.
Miscellanea / / December 02, 2023
Un analista di dati estrae significato da numeri e valori: vede tendenze, prevede eventi e aiuta un'azienda a comprendere i clienti, ottimizzare i processi e crescere.
Il mercato ha bisogno di specialisti in grado di utilizzare i dati in modo utile. Uno studio condotto dalla società di personale Ancor per settembre 2022 ha mostrato che il 45% delle aziende russe è alla ricerca di analisti da inserire nel proprio team.
Competenze che apprenderai durante il corso
Titolo di lavoro
Analista, Analista di dati, Analista di dati
Opportunità di sviluppo: Analista di prodotto, Analista di marketing, Analista di BI, Specialista di data science
Ecco le tecnologie e gli strumenti che utilizzerai:
Pitone
Taccuino di Giove
SQL
PostgreSQL
Quadro
Test A/B
Inizia a guadagnare analizzando
Inizierai da una posizione junior e poi andrai avanti. Salirai la scala della carriera e aumenterai di valore. E un giorno non ci sarà prezzo per te.
Programma completo del corso sull'analisi dei dati
Lo aggiorniamo regolarmente per garantire che soddisfi le esigenze del settore e dei datori di lavoro.
In altre parole, impari solo ciò che ti sarà sicuramente utile nel tuo lavoro.
Parte gratuita - 1 settimana
Introduzione gratuita: nozioni di base su Python e analisi dei dati
Impara i concetti di base dell'analisi dei dati e comprendi cosa fanno gli analisti e i data scientist.
• Catnamycs di Mosca. Visualizzazione dei dati sullo schermo. File CSV. Lavorare con le tabelle. Mappe di calore. Moltiplicare una colonna per un numero intero.
• Errori nel codice. Errori di sintassi. Errori di denominazione. Errori nella divisione per zero. Errori durante l'importazione di un modulo.
• Variabili e tipi di dati. Variabili. Tipi di dati. Operazioni aritmetiche con numeri e stringhe.
• Come formulare ipotesi. Ipotesi. Cicli HADI. Pensiero analitico. Lettura dei grafici.
• Cosa fanno i data scientist. Compiti dell'analista. Chiarimento dei compiti. Decomposizione. Fasi del progetto.
• Controllo delle conversioni. Conversione. Esplorazione dei dati. Formazione di conclusioni.
• Payback delle campagne pubblicitarie. Grafico a colonne. Differenza di elementi. Indicizzazione in colonne.
• Apprendimento automatico e scienza dei dati. Formazione sull'apprendimento automatico. Trovare valori univoci nelle colonne. Indicizzazione logica. Raggruppamento di valori in una tabella. Errori di previsione.
• Progetto finale. Segmentazione degli utenti.
PythonPandaErroriSeabornIpotesiConversioneVariabiliTipi di datiMappe termiche
1 sprint 3 settimane
Pitone di base
Approfondisci il linguaggio di programmazione Python e la libreria Pandas.
• Variabili e tipi di dati. Linguaggio Python. Variabili. Visualizzazione dei dati sullo schermo. Visualizzazione di oggetti sullo schermo. Gestione degli errori, prova...tranne l'operatore. Tipi di dati. Conversioni del tipo di dati.
• Linee. Indici in righe. Tagli di linea. Operazioni sulle stringhe. Metodi di stringa. Stringhe di formattazione, metodo format(), f-strings.
• Elenchi. Indici negli elenchi. Elenca le sezioni. Aggiunta di elementi a un elenco. Rimozione di elementi dell'elenco. Addizione e moltiplicazione di elenchi. • Ordinamento degli elenchi. Cerca elementi in un elenco. Suddivisione di una stringa in un elenco di stringhe, concatenazione di un elenco di stringhe in una stringa.
• Per ciclo. Cicli. Enumerazione degli elementi. Iterazione sugli indici degli elementi. Elaborazione degli elementi dell'elenco utilizzando i cicli: trovare la somma e il prodotto degli elementi.
• Elenchi nidificati. Ciclo attraverso elenchi nidificati con valori di conteggio. Aggiunta di elementi a elenchi nidificati. Ordinamento di elenchi nidificati.
• Operatore condizionale. Mentre il ciclo. Tipo di dati booleano. Valori booleani. Espressioni logiche. Espressioni logiche composte. Dichiarazione condizionale if...elif...else. Ramificazione. Filtrare gli elenchi utilizzando un operatore condizionale. Mentre il ciclo.
• Funzioni. Assegnazione di funzioni. Parametri e argomenti. Parametri con valori predefiniti. Argomenti posizionali e con nome. Restituzione di un risultato da una funzione.
• Dizionari. Chiavi e valori. Ricerca di un valore per chiave. Aggiunta di elementi al dizionario. Elenco dei dizionari. Bella produzione di dizionari.
• Biblioteca dei panda. Lettura di file CSV. Dataframe. Costruttore di frame di dati. Stampa della prima e dell'ultima riga di un dataframe. Indicizzazione nei dataframe. Indicizzazione su colonne di serie.
• Preelaborazione dei dati. Il principio GIGO. Rinominare le colonne del dataframe. Gestione dei valori mancanti. Gestione dei duplicati espliciti e impliciti.
• Analisi dei dati e presentazione dei risultati. Raggruppamento dei dati. Ordinamento dei dati. Nozioni di base di statistica descrittiva.
• Jupyter Notebook: un taccuino in una cella. Interfaccia del taccuino Jupyter. Scorciatoie del notebook Jupyter.
LoopPythonPandaStringheElenchiFunzioniDizionariDatiFrameVariabiliTipi di datiDichiarazione condizionale
Progetto
Confronta i dati utente di Yandex Music per città e giorno della settimana.
2 sprint 2 settimane
Preelaborazione dei dati
Impara a pulire i dati da valori anomali, omissioni e duplicati, nonché a convertire diversi formati di dati.
• Lavorare con i passaggi. Conversione. Biscotti. Variabili categoriali e quantitative. Gestire le lacune nelle variabili categoriali. Gestire le lacune nelle variabili quantitative. Gestire le lacune nelle variabili quantitative per categoria.
• Modifica dei tipi di dati. Lettura di file Excel. Converti serie in tipo numerico. Modulo numerico, metodo abs(). Lavorare con data e ora. Gestione degli errori, prova...tranne l'operatore. Unione di dataframe, metodo merge(). Tabelle pivot.
• Cerca duplicati. Cerca duplicati, distinguendo tra maiuscole e minuscole.
• Categorizzazione dei dati. Scomposizione delle tabelle. Categorizzazione per intervalli numerici. Classificare in base a più valori per riga.
• Pensiero sistematico e critico nel lavoro di un analista. Pensiero sistemico. Cause degli errori nei dati. Pensiero critico.
PythonPandaGestione degli gapElaborazione dei datiElaborazione dei duplicatiCategorizzazione dei dati
Progetto
Analizzare i dati sui clienti bancari e determinare la quota di quelli solvibili.
3 sprint 2 settimane
Analisi esplorativa dei dati
Imparare le basi della probabilità e della statistica. Usali per esplorare le proprietà di base dei dati, cercando modelli, distribuzioni e anomalie. Conosci la libreria Matplotlib. Disegna diagrammi ed esercitati ad analizzare i grafici.
• Primi grafici e conclusioni. Utilizzo delle tabelle pivot. Grafico a barre. Distribuzioni. Diagramma della portata.
• Studio delle porzioni di dati. Il metodo query(). Lavorare con data e ora. Tracciare grafici utilizzando il metodo plot(). Rasoio di Occam.
• Lavorare con più origini dati. Sezione di dati basata su oggetti esterni. Aggiunta di nuove colonne a un dataframe. Aggiunta di dati da altri dataframe. Rinominare le colonne. Combinazione di tabelle utilizzando i metodi merge() e join().
• Relazioni tra dati. Grafico a dispersione. Correlazione delle variabili. Matrice del grafico a dispersione.
• Validazione dei risultati. Consolidamento di gruppi. Divisione dei dati in gruppi.
PythonPandaMatplotlibIstogrammiSezioni di datiAnalisi dei datiGrafico a dispersioneGrafico a dispersioneVisualizzazione dei datiStatistica descrittiva
Progetto
Esplora l'archivio degli annunci per la vendita di immobili a San Pietroburgo e nella regione di Leningrado.
4 sprint 3 settimane
Analisi dei dati statistici
Impara ad analizzare le relazioni tra i dati utilizzando metodi statistici. Scopri cosa sono la significatività statistica e le ipotesi.
• Combinatoria. Combinazioni. Regola di moltiplicazione. Riarrangiamenti. Numero di permutazioni. Posizionamenti. Numero di posizionamenti. Combinazioni. Numero di combinazioni.
• Teoria della probabilità. Sperimentare. Spazio di probabilità. Eventi. Probabilità. Eventi che si intersecano e si escludono a vicenda. Diagramma di Eulero-Venn. Legge dei grandi numeri.
• Statistiche descrittive. Variabili categoriali e quantitative. Moda e mediana. Valore medio. Dispersione. Deviazione standard. Quartili e percentili. Diagramma della portata. Grafico a colonne. Densità di frequenza. Grafico a barre.
• Variabili casuali. Variabile casuale discreta. Distribuzione di probabilità per una variabile casuale discreta. Funzione cumulativa (funzione di distribuzione) di una variabile casuale discreta. Aspettativa matematica di una variabile casuale discreta. Dispersione di una variabile casuale discreta.
• Distribuzioni. L'esperimento di Bernoulli. Esperimento binomiale. Distribuzione binomiale. Distribuzione uniforme continua. Distribuzione normale. Distribuzione normale standardizzata. CDF e PPF per la distribuzione normale. Distribuzione di Poisson. Approssimazione di una distribuzione mediante un'altra.
• Verifica delle ipotesi. Popolazione generale. Campione. Distribuzione campionaria. Teorema del limite centrale. Ipotesi unilaterali e bilaterali. Valore P. Testare ipotesi unilaterali e bilaterali per un campione. Testare l'ipotesi sull'uguaglianza dei mezzi di due popolazioni generali. Verifica dell'ipotesi di uguaglianza delle medie per campioni dipendenti.
ScipyNumpyPythonPandaMatplotlibCombinatoriDistribuzioniTest di ipotesiTeoria della probabilità
Progetto
Testa ipotesi di servizi di noleggio scooter per far crescere il tuo business.
Sprint extra
Teoria della probabilità
Ricordare o riconoscere i termini base della teoria della probabilità: eventi indipendenti, opposti, incompatibili, ecc. Usando semplici esempi e problemi divertenti, ti eserciterai a lavorare con i numeri e a costruire la logica delle soluzioni.
Questo è uno sprint facoltativo. Ciò significa che ogni studente sceglie personalmente una delle opzioni:
• Padroneggia uno sprint aggiuntivo di 10 brevi lezioni, rispolvera la teoria e risolvi i problemi.
• Aprire solo il blocco con compiti di colloquio, richiamare la pratica senza teoria.
• Saltare completamente il corso o riprenderlo quando c'è tempo e necessità.
PythonEventiProbabilitàTeorema di BayesVariabili casualiTeoria delle probabilitàAnalisi dei dati statistici
5 sprint 1 settimana
Progetto finale del primo modulo
Impara come condurre ricerche preliminari sui dati e formulare e testare ipotesi.
ScipyNumpyPythonPandasMatplotlibAnalisi dei datiVerifica delle ipotesiElaborazione dei dati
Progetto
Trova modelli nei dati di vendita dei giochi.
6 sprint 2 settimane
SQL di base
Apprendi le basi del linguaggio di query strutturato SQL e dell'algebra relazionale per lavorare con i database. Acquisisci familiarità con le funzionalità di lavoro in PostgreSQL, un popolare sistema di gestione di database (DBMS). Impara a scrivere query di vari livelli di complessità e a tradurre i problemi aziendali in SQL. Lavorerai con un database di un negozio online specializzato in film e musica.
• Introduzione ai database. Sistemi di gestione di database (DBMS). linguaggio SQL. query SQL. Formattazione delle query SQL.
• Sezioni di dati in SQL. Tipi di dati in PostgreSQL. Conversione del tipo di dati. Dove la clausola. Operatori logici. Sezioni di dati. Operatori IN, COME, TRA. Lavorare con data e ora. Gestione dei valori mancanti. Costrutto CASE condizionale.
• Funzioni di aggregazione. Raggruppamento e ordinamento dei dati. Operazioni matematiche. Funzioni di aggregazione. Raggruppamento dei dati. Ordinamento dei dati. Filtraggio per dati aggregati, operatore HAVING.
• Relazioni tra tabelle. Tipi di join di tabella. Diagrammi ER. Rinominare campi e tabelle. Alias. Unione di tabelle. Tipi di join: INNER JOIN, LEFT JOIN, RIGHT JOIN, FULL OUTER JOIN. Tipi alternativi di unioni UNION e UNION ALL.
• Sottoquery ed espressioni di tabella comuni. Sottoquery. Sottoquery in FROM. Sottoquery in WHERE. Una combinazione di join e sottoquery. Espressioni di tabella comuni (CTE). Variabilità delle richieste.
SQLDBMSPostgreSQLSubqueriesDatabaseQuery SQLFiltro dei datiOrdinamento dei datiRaggruppamento dei datiUnione di tabelleEspressioni di tabella comuni
Progetto
Scriverai una serie di query di varia complessità in un database che memorizza i dati su investitori di venture capital, startup e investimenti in essi.
7 sprint 3 settimane
Analisi degli indicatori aziendali
Scopri quali sono i parametri nel mondo degli affari. Impara a utilizzare gli strumenti per l'analisi dei dati nel mondo degli affari: analisi di coorte, funnel di vendita ed economia unitaria.
• Metriche e canalizzazioni. Conversione. Imbuti. Imbuto di marketing. Impressioni. Clic. CTR. Imbuto del prodotto.
• Analisi di coorte. Profilo utente. tasso di ritenzione. Tasso di abbandono. Orizzonte di analisi. Visualizzazione dell'analisi di coorte. Analisi di ritenzione di coorti casuali. Conversione nell'analisi di coorte. Calcolo delle metriche in Python.
• Economia unitaria. Metriche LTV, CAC, ROI. ARPU, ARPU. Calcolo delle metriche in Python. Visualizzazione avanzata delle metriche. Parametro condiviso. Media mobile.
• Metriche personalizzate. Valutazione dell'attività dell'utente. Sessione utente. Indagine sulle anomalie.
MetricheImbutiConversioneEconomia unitariaAnalisi di coorteMetriche di prodottoMetriche di marketing
Progetto
Sulla base dei dati, comprendere il comportamento degli utenti, nonché analizzare la redditività dei clienti e il ROI pubblicitario per fornire consigli al reparto marketing.
8 sprint 2 settimane
SQL avanzato
Seguirai un corso aggiuntivo sull'utilizzo dei database e ti avvicinerai ancora di più al business. Utilizzando il linguaggio SQL, analizzerai il calcolo delle principali metriche aziendali che hai conosciuto nello sprint “Analisi degli indicatori di business”. Considera l'idea di lavorare con uno strumento complesso come le funzioni delle finestre. Impara a modificare il contenuto dei database localmente, senza simulatore, utilizzando programmi client e librerie speciali per Python.
• Calcolo degli indicatori aziendali. Schema dei dati. Conversione. LTV. ARPU. ARPPU. ROI. Calcolo utilizzando SQL.
• Aggregazione delle funzioni delle finestre. Sovraespressione. Parametro della finestra PARTIZIONE PER.
• Funzioni di classificazione delle finestre. Funzioni di classificazione. Operatore della finestra ORDER BY. NUMERO_RIGA(). RANGO(). DENSO_RANGO(). NTILE(). Operatori di finestre insieme a funzioni di classificazione.
• Funzioni di spostamento della finestra. Valori cumulativi. Funzioni di compensazione. GUIDA(). RITARDO(). Funzioni finestra e alias.
• Analisi di coorte. Tasso di fidelizzazione, tasso di abbandono. LTV.
• Installazione e configurazione del database e del client database. Cliente della banca dati. Installazione di PostgreSQL. Installazione di DBeaver. Interfaccia DBeaver. Creazione della banca dati. Distribuzione di un dump del database. Caricamento dei risultati della query. Presentazione dei risultati della query.
SQLDBMSMetrichePostgreSQLDatabaseQuery SQLFunzioni finestraAnalisi di coorte
Progetto
Utilizzando Python e SQL, connettiti a un database, calcola e visualizza le metriche chiave in un sistema di servizi di domande e risposte di programmazione.
9 sprint 2 settimane
Il processo decisionale nel mondo degli affari
Imparerai cos'è il test A/B e capirai in quali casi viene utilizzato. Impara a progettare test A/B e valutarne i risultati.
• Fondamenti di verifica delle ipotesi nel mondo degli affari. Metriche principali. Basi degli esperimenti. Generazione di ipotesi. Priorità delle metriche. Scegliere un metodo per condurre un esperimento. Metodi qualitativi per verificare le ipotesi. Metodi quantitativi per verificare le ipotesi. Vantaggi e svantaggi dei test A/B.
• Prioritizzazione delle ipotesi. Quadro RISO. Raggiungere il parametro. Parametro di impatto. Parametro di fiducia. Parametro degli sforzi.
• Prepararsi a condurre un test A/B. Prova A/A. Errori di tipo I e II. Potenza del test statistico. Significato del test statistico. Confronti multipli, metodi per ridurre la probabilità di errore. Calcolo della dimensione del campione e della durata di un test A/B. Analisi grafica delle metriche.
• Analisi dei risultati dei test A/B. Verifica dell’ipotesi di parità delle azioni. Test di Shapiro-Wilk per testare la normalità dei dati. Test statistici non parametrici. Test di Mann-Whitney. Stabilità delle metriche cumulative. Analisi degli outlier e dei burst.
• Algoritmi comportamentali. Fatti, emozioni, valutazioni. Spiega il tuo punto di vista.
A/B testingPriorità delle ipotesiPreparazione per l'A/B testingAnalisi dei risultati dell'A/B testingAnalisi dei risultati dell'A/B testing
Progetto
Analizza i risultati dei test A/B in un grande negozio online.
10 sprint 1 settimana
Progetto finale del secondo modulo
Impara a testare ipotesi statistiche utilizzando test A/B e prepara conclusioni e raccomandazioni in formato report analitico.
Imbuto di venditaTest A/BElaborazione dei datiAnalisi dei dati di ricerca
Progetto
Esplora il funnel di vendita e analizza i risultati dei test A/B nell'applicazione mobile.
11 sprint 2 settimane
Come raccontare una storia con i dati
Imparerai a presentare correttamente i risultati della tua ricerca utilizzando i grafici, le cifre più importanti e la loro corretta interpretazione. Conosci le librerie Seaborn e Plotly.
• A chi, come, cosa e perché raccontare. Presentazione del risultato della ricerca. Il pubblico a cui si rivolge il narratore. Cosa e perché dire a un analista di dati.
• Biblioteca Seaborn. La libreria Seaborn come estensione della libreria Matplotlib. metodo jointplot(). Gamme di colori. Stili del grafico. Visualizzazione delle distribuzioni.
• Libreria grafica. Grafici interattivi. Grafico a linee. Grafico a colonne. Grafico a torta. Grafico a imbuto.
• Visualizzazione dei dati in geoanalitica. Geoanalitica. Foglio della Biblioteca. Visualizzazione della mappa. Impostazione dei marcatori con le coordinate specificate. Creazione di cluster di punti. Icone personalizzate per i marcatori. Horoplet.
• Preparare una presentazione. Conclusioni basate sullo studio. Stagionalità e fattori esterni. Valori assoluti e relativi. Il paradosso di Simpson. Principi di costruzione delle presentazioni. Rapporti in Jupyter Notebook.
PlotlyFoliumSeabornMatplotlibPresentazioneGeoanaliticaVisualizzazione dei dati
Progetto
Preparare uno studio di mercato basato su dati aperti sugli esercizi di ristorazione pubblica a Mosca, visualizzare i dati ottenuti.
12 sprint 2 settimane
Creazione di dashboard in Tableau
In questo sprint lavorerai con il sistema Tableau BI. Impara a connetterti ai dati e a modificarli, costruisci diversi tipi di grafici, assembla dashboard e presentazioni.
• Nozioni di base per lavorare con Tableau. Sistemi di BI. Quadro. Creazione di un documento. Salvataggio del documento. Pubblicazione del documento.
• Lavorare con origini dati. Origine dei dati. Unione dei dati. Metodo di relazione. Metodo di adesione. Metodo di fusione. Metodo dell'unione. Modifica del formato della tabella.
• Tipi di dati. Tipi di dati di base. Misure. Le misure. Lavorare con data e ora. Imposta. Gruppi. Opzioni. Modifica del formato delle variabili. Variabili Nomi misure, Valori misure, Conteggio.
• Tabelle e calcoli. Interfaccia di modifica del foglio. Tabelle pivot. Campi calcolati. Espressioni LOD.
• Filtri e ordinamento. Ordinamento delle misure. Ordinamento delle dimensioni. Ordinamenti nidificati. Ordinamento utilizzando un parametro. Filtri.
• Visualizzazioni. Controlli di visualizzazione. Mappe di calore. Grafici a torta. Grafici a colonne. Istogrammi. Diagrammi di portata. Diagramma di dispersione. Grafici lineari. Grafici combinati. Grafici ad area.
• Visualizzazioni speciali e tooltip. Carte. Mappa dei caratteri. Grafico a bolle. Mappa dell'albero. Diagrammi delle viste circolari. Diagrammi di proiettili. Diagrammi di Gantt. Misura i nomi e misura i valori nelle visualizzazioni. Ingegneria inversa. Suggerimenti. Descrizione comando con visualizzazioni. Valori soglia sui grafici. Strumenti analitici in Custom.
• Presentazioni. Opzioni aggiuntive. Studio dei parametri tipici. Creazione di una presentazione.
• Cruscotti. Caricamento e preparazione dei dati. Preparazione delle visualizzazioni. Assemblaggio del cruscotto. Azioni. Dimostrazione del cruscotto. Pubblicazione di una dashboard.
TableauDashboardsBI-toolsBI-toolsVisualizzazione dei dati
Progetto
Ricerca la storia delle conferenze TED e crea una dashboard in Tableau basata sui dati ottenuti.
Sprint extra
Nozioni di base sull'apprendimento automatico
Acquisisci familiarità con le basi dell'apprendimento automatico e scopri i compiti principali dell'apprendimento automatico negli affari.
PythonPandaSklearnApprendimento automaticoAttività di apprendimento automaticoAlgoritmi di apprendimento automatico
Sprint extra
Esercitati con Python
Seguirai diverse lezioni di laboratorio con compiti aggiuntivi nel linguaggio di programmazione Python. Imparerai anche come estrarre dati dalle risorse web.
Desideri:
• nella struttura delle pagine HTML e nel funzionamento delle richieste GET,
• imparare a scrivere semplici espressioni regolari,
• conoscere l'API e JSON,
• effettuare numerose richieste ai siti e raccogliere dati.
JSONPythonREST APIWeb scraping
13 sprint 3 settimane
Progetto di diploma
Nell'ultimo progetto, conferma di aver padroneggiato una nuova professione. Chiarire il compito del cliente e passare attraverso tutte le fasi dell’analisi dei dati. Ora non ci sono lezioni né compiti a casa: tutto è come in un vero lavoro.
Lo sprint finale include il lavoro di progetto, test A/B, attività SQL e un'attività aggiuntiva. Il progetto contiene l'enunciazione del problema, il risultato atteso, un insieme di dati e la loro descrizione.
L'incarico riguarda una delle cinque aree aziendali:
• banche,
• vedere al dettaglio,
• Giochi,
• applicazioni mobili,
• commercio elettronico.
Non ci sarà la consueta descrizione delle fasi del progetto. Li risolverai tu stesso.
SQ LPython PandasTableau Dashboards Postgre SQL Decomposition Test A/B