На цьому курсі починають з основ професії Data Engineer. Розбирають цілі, завдання та обов'язки фахівця. Дізнаються про історію інженерії даних та відмінності між Data Engineer та Big Data Engineer. Отримують огляд інструментів для роботи з Big Data. Паралельно вивчають Python для обробки даних - вчать будувати сервіси, працювати з API джерел даних, використовувати Jupyter Notebook та бібліотеку Pandas.
Далі курс охоплює SQL для роботи з Big Data. Учасники вчаться об'єднувати набори даних за допомогою JOIN, UNION, EXCEPT. Освоюють аналітичні запити з віконними функціями та групуванням. Розуміють, як писати оптимальні SQL-запити. Також розглядають відмінності між OLTP та OLAP системами на прикладах PostgreSQL та Google BigQuery.
Цей блок присвячений сховищам даних. Дізнаються про Data Warehouse, Data Lake та Data Swamp. Вчать проєктувати аналітичний шар DWH за підходами Кімбала та Інмана. Опанують створення вітрин даних. Потім переходять до ETL- та ELT-процесів - вчать отримувати дані з зовнішніх джерел, трансформувати та очищати їх. Розбирають формати файлів CSV, JSON, Avro, Parquet, ORC.
Тут вивчають Apache Airflow для керування ETL-процесами. Опанують Directed Acyclic Graph для опису пайплайнів, популярні оператори, хуки та провайдери. Потім переходять до розподілених систем - розбирають їх принципи роботи, переваги та недоліки. Вивчають САР-теорему та особливості побудови розподілених систем.
Цей модуль охоплює екосистему Hadoop та її альтернативи. Вчать користуватися Hadoop Distributed File System. Детально розглядають внутрішню архітектуру HDFS, вчать керувати файлами та даними. Також опанують роботу з Amazon S3 та Google Cloud Storage.
На цьому етапі ознайомлюються з трьома поколіннями архітектур Big Data. Потім переходять до Apache Spark - вивчають її відмінності від MapReduce, способи організації даних RDD, Data Frame та Dataset. Вчать використовувати Spark для роботи з великими даними.
Два модулі присвячені SparkSQL. Спочатку вчать завантажувати дані в Spark, працювати з зовнішніми джерелами та виконувати базові операції з DataFrame. Потім переходять до аналітики на структурованих даних та вивантаження результатів. Окремо розглядають оптимізацію завдань в Apache Spark для прискорення обробки даних.
Завершальні модулі охоплюють потокову обробку даних за допомогою Spark Streaming та інструменти Google Cloud. Вивчають BigQuery, Data Studio, Looker, Google Storage, GKE, Cloud Functions та Cloud Run. Також ознайомлюються з Google Composer, PubSub, Dataflow та хмарними рішеннями Hadoop від Google.
Курс поєднує теоретичну базу з практичними навичками. Учасники працюють з сучасними інструментами інженерії даних. В процесі навчання створюють проєкт для власного портфоліо. Отримують знання, необхідні для розвитку кар'єри в галузі Data Engineering.