Курс построен логично - от базовых понятий до сложных архитектурных решений. Каждый модуль раскрывает конкретную тему и готовит к следующему шагу.
На первых двух занятиях рассматриваются фундаментальные понятия. Слушатели узнают, что такое Big Data и какие задачи решает эта отрасль. Появляется понимание роли инженера данных и его обязанностей. Далее идет обзор целой платформы данных - от хранения и обработки до визуализации. Особое внимание уделяется облачным концепциям и моделям услуг AWS.
Два модуля посвящены способам поступления информации в систему. Рассматриваются типы обмена данными, источники информации и методы их приоритизации. Слушатели изучают пакетную интеграцию, принципы проектирования Data Lakes и архитектурные подходы Lambda, Kappa, Delta. Закрепляются знания об инструментах для работы с потоковыми данными.
Следующие два занятия охватывают все аспекты организации хранилищ. Сравниваются OLTP и OLAP системы, Data Lakes и Data Warehouses. Подробно разбираются принципы HDFS, Object Stores, NoSQL баз данных и облачных хранилищ. Теоретическая часть включает теорему CAP, форматы данных, стратегии партиционирования и репликации.
Эти два модуля показывают, как структурировать информацию для эффективной работы. Слушатели изучают основы моделирования данных для разных типов хранилищ, понятие схемы данных и подходы к чтению и записи. Рассматриваются стратегии партиционирования, грануляция данных, работа с хранилищами без схем и обработка запоздалых данных.
Три занятия посвящены трансформации информации. Начинается с исторического контекста и основ ETL-конвейеров, модели Map-Reduce. Далее идет разбор управления ресурсами, фреймворков обработки и концепций пакетной работы - от разработки workflow до оркестрирования. Завершается блок потоковой обработкой, семантикой гарантий доставки и типами синхронизации конвейеров.
Два практических модуля углубленно рассматривают работу в облачной среде. Слушатели ознакомятся с основными сервисами AWS, инструментами CLI и SDK для реализации конвейеров. Научатся строить, мониторить и регистрировать конвейеры данных в облаке, а также работать с CI/CD в контексте AWS.
Финальные темы курса охватывают работу с готовыми данными. Модуль про запросы и визуализацию раскрывает формы подачи информации, создание отчетов и дашбордов, работу с инструментами бизнес-аналитики и Notebooks. Занятие по регулированию данных охватывает управление данными, безопасность, приватность, политики сохранения и отслеживание линии связи.
На последнем занятии происходит обсуждение архитектурных идей и финальная сессия вопросов-ответов. Это позволяет закрепить полученные знания и получить ответы на оставшиеся вопросы.
После завершения курса вы поймете концептуальные проблемы анализа, обработки и хранения больших данных. Научитесь анализировать и обрабатывать большие данные различных форматов с помощью современных инструментов. Сможете использовать актуальное программное обеспечение для практической работы с данными.
Для успешного обучения нужно знать один из языков программирования на среднем уровне: Python, Scala или Java. Обязательное владение SQL и базовые знания Linux/Bash. Также понадобятся знания Docker для работы с контейнеризацией.
Курс ведут практики с опытом работы в отрасли. Программа охватывает все ключевые аспекты работы с данными - от получения до визуализации. Акцент делается на практических навыках и реальных кейсах. После успешного завершения выдается сертификат.