Approcci moderni alla gestione dei dati - corso RUB 27.900. da IBS Training Center, formazione 16 ore, Data 26 novembre 2023.
Miscellanea / / December 02, 2023
Quando si progettano le applicazioni, una delle decisioni importanti riguarda la modalità di archiviazione dei dati. Per diversi decenni, i DBMS relazionali sono stati la prima e unica opzione; i progetti differivano solo per il grado di normalizzazione, l’ubicazione della logica aziendale, ecc. Gli ultimi dieci-quindici anni, sistemi alternativi sono fioriti rapidamente: dai DBMS orientati agli oggetti e ai documenti ai file system distribuiti e ai sistemi di elaborazione dei flussi dati. Il corso esamina una gamma di soluzioni moderne che consentono l'archiviazione sicura a lungo termine dei dati, ragioni per l'emergere di soluzioni di diverse classi, i loro vantaggi, svantaggi e metodi preferiti utilizzo.
Argomenti trattati:
1. Evoluzione degli approcci all'archiviazione dei dati (teoria – 2 ore).
Database, data warehouse, motori di database, architetture massivamente parallele, iperconvergenza.
2. Modello relazionale (teoria – 2 ore).
Quali problemi risolve e a quale costo?
Replica, sharding, transazioni distribuite.
3. Modello di valore-chiave minimo (teoria – 1 ora, pratica – 1 ora).
Opzioni della struttura chiave, opzioni della struttura del valore, interfacce software.
Efficienza nell'uso di database non relazionali: condizioni necessarie e sufficienti [Cassandra, HBase].
4. Modello orientato ai documenti [MongoDB] (teoria – 0,5 ore, pratica – 0,5 ore).
5. File system distribuiti invece di modelli di dati: architettura cluster [HDFS] (teoria - 1 ora, pratica - 1 ora).
6. SQL su file system distribuiti (teoria – 1 ora, pratica – 2 ore).
Opzioni di architettura, formati di file, restrizioni, transazioni [Hive, Spark, Spark SQL, Parquet, ORC].
7. Sistemi di archiviazione dati distribuiti in RAM [Hazelcast, Ignite, Tarantool] (teoria – 1 ora).
8. Sistemi OLAP distribuiti [Clickhouse, Druid] (teoria – 1 ora).
9. Elaborazione dei flussi di dati [Spark Streaming] (teoria – 1 ora).
10. Database autoconfiguranti e autonomi (teoria – 1 ora).