Курс побудований логічно - від базових понять до складних архітектурних рішень. Кожен модуль розкриває конкретну тему та готує до наступного кроку.
На перших двох заняттях розглядаються фундаментальні поняття. Слухачі дізнаються, що таке Big Data та які завдання вирішує ця галузь. З'являється розуміння ролі інженера даних і його обов'язків. Далі йде огляд цілої платформи даних - від зберігання та обробки до візуалізації. Особлива увага приділяється хмарним концепціям та моделям послуг AWS.
Два модулі присвячені способам надходження інформації в систему. Розглядаються типи обміну даними, джерела інформації та методи їх пріоритезації. Слухачі вивчають пакетну інтеграцію, принципи проектування Data Lakes та архітектурні підходи Lambda, Kappa, Delta. Закріплюються знання про інструменти для роботи з потоковими даними.
Наступні два заняття охоплюють всі аспекти організації сховищ. Порівнюються OLTP та OLAP системи, Data Lakes та Data Warehouses. Детально розбираються принципи HDFS, Object Stores, NoSQL баз даних та хмарних сховищ. Теоретична частина включає теорему CAP, формати даних, стратегії партиціонування та реплікації.
Ці два модулі показують, як структурувати інформацію для ефективної роботи. Слухачі вивчають основи моделювання даних для різних типів сховищ, поняття схеми даних та підходи до читання і запису. Розглядаються стратегії партиціонування, грануляція даних, робота зі сховищами без схем та обробка запізнених даних.
Три заняття присвячені трансформації інформації. Починається з історичного контексту та основ ETL-конвеєрів, моделі Map-Reduce. Далі йде розбір управління ресурсами, фреймворків обробки та концепцій пакетної роботи - від розробки workflow до оркестрування. Завершується блок потоковою обробкою, семантикою гарантій доставки та типами синхронізації конвеєрів.
Два практичні модулі поглиблено розглядають роботу в хмарному середовищі. Слухачі ознайомляться з основними сервісами AWS, інструментами CLI та SDK для реалізації конвеєрів. Навчаться будувати, моніторити та реєструвати конвеєри даних в хмарі, а також працювати з CI/CD в контексті AWS.
Фінальні теми курсу охоплюють роботу з готовими даними. Модуль про запити та візуалізацію розкриває форми подання інформації, створення звітів та дашбордів, роботу з інструментами бізнес-аналітики та Notebooks. Заняття з регулювання даних охоплює управління даними, безпеку, приватність, політики збереження та відстеження лінії зв'язку.
На останньому занятті відбувається обговорення архітектурних ідей та фінальна сесія питань-відповідей. Це дозволяє закріпити отримані знання та отримати відповіді на залишені питання.
Після завершення курсу ви зрозумієте концептуальні проблеми аналізу, обробки та зберігання великих даних. Навчитеся аналізувати та обробляти великі дані різних форматів за допомогою сучасних інструментів. Зможете використовувати актуальне програмне забезпечення для практичної роботи з даними.
Для успішного навчання потрібно знати одну з мов програмування на середньому рівні: Python, Scala або Java. Обов'язкове володіння SQL та базовими знаннями Linux/Bash. Також знадобляться знання Docker для роботи з контейнеризацією.
Курс ведуть практики з досвідом роботи в галузі. Програма охоплює всі ключові аспекти роботи з даними - від отримання до візуалізації. Наголос робиться на практичних навичках та реальних кейсах. Після успішного завершення видається сертифікат.