Robot Dreams

Data Engineering

18 занять
Для початківців
Data Engineer / Big Data
Цей курс про роботу з Big Data та інструменти для обробки даних. Ви навчитеся працювати з Hadoop, Apache Spark, Airflow та SQL, проектувати сховища даних і організовувати ETL-процеси. Курс дає практичні навички для роботи з розподіленими системами та хмарними рішеннями.

Про курс

Програма курсу

Вступ до Data Engineering та основи Python

На цьому курсі починають з основ професії Data Engineer. Розбирають цілі, завдання та обов'язки фахівця. Дізнаються про історію інженерії даних та відмінності між Data Engineer та Big Data Engineer. Отримують огляд інструментів для роботи з Big Data. Паралельно вивчають Python для обробки даних - вчать будувати сервіси, працювати з API джерел даних, використовувати Jupyter Notebook та бібліотеку Pandas.

Робота з базами даних та SQL

Далі курс охоплює SQL для роботи з Big Data. Учасники вчаться об'єднувати набори даних за допомогою JOIN, UNION, EXCEPT. Освоюють аналітичні запити з віконними функціями та групуванням. Розуміють, як писати оптимальні SQL-запити. Також розглядають відмінності між OLTP та OLAP системами на прикладах PostgreSQL та Google BigQuery.

Проєктування сховищ даних та ETL-процеси

Цей блок присвячений сховищам даних. Дізнаються про Data Warehouse, Data Lake та Data Swamp. Вчать проєктувати аналітичний шар DWH за підходами Кімбала та Інмана. Опанують створення вітрин даних. Потім переходять до ETL- та ELT-процесів - вчать отримувати дані з зовнішніх джерел, трансформувати та очищати їх. Розбирають формати файлів CSV, JSON, Avro, Parquet, ORC.

Оркестрація та розподілені системи

Тут вивчають Apache Airflow для керування ETL-процесами. Опанують Directed Acyclic Graph для опису пайплайнів, популярні оператори, хуки та провайдери. Потім переходять до розподілених систем - розбирають їх принципи роботи, переваги та недоліки. Вивчають САР-теорему та особливості побудови розподілених систем.

Екосистема Hadoop та розподілені файлові системи

Цей модуль охоплює екосистему Hadoop та її альтернативи. Вчать користуватися Hadoop Distributed File System. Детально розглядають внутрішню архітектуру HDFS, вчать керувати файлами та даними. Також опанують роботу з Amazon S3 та Google Cloud Storage.

Архітектури Big Data та Apache Spark

На цьому етапі ознайомлюються з трьома поколіннями архітектур Big Data. Потім переходять до Apache Spark - вивчають її відмінності від MapReduce, способи організації даних RDD, Data Frame та Dataset. Вчать використовувати Spark для роботи з великими даними.

Поглиблена робота з SparkSQL

Два модулі присвячені SparkSQL. Спочатку вчать завантажувати дані в Spark, працювати з зовнішніми джерелами та виконувати базові операції з DataFrame. Потім переходять до аналітики на структурованих даних та вивантаження результатів. Окремо розглядають оптимізацію завдань в Apache Spark для прискорення обробки даних.

Потокова обробка даних та Google Cloud

Завершальні модулі охоплюють потокову обробку даних за допомогою Spark Streaming та інструменти Google Cloud. Вивчають BigQuery, Data Studio, Looker, Google Storage, GKE, Cloud Functions та Cloud Run. Також ознайомлюються з Google Composer, PubSub, Dataflow та хмарними рішеннями Hadoop від Google.

Особливості курсу

Курс поєднує теоретичну базу з практичними навичками. Учасники працюють з сучасними інструментами інженерії даних. В процесі навчання створюють проєкт для власного портфоліо. Отримують знання, необхідні для розвитку кар'єри в галузі Data Engineering.

Що включено

Видається диплом/сертифікат
Гнучкий графік
Реальний проект у портфоліо
Супровід ментора