На этом курсе начинают с основ - разбирают, что такое данные и как бизнес может их использовать. Слушатели поймут разницу между Data Scientist, Data Analyst и другими смежными профессиями. Определят собственные сильные стороны для работы с данными. Одновременно знакомятся с Python - основным инструментом в этой области. Изучают базовый синтаксис, принципы ООП и функционального программирования. Учатся работать в Jupyter Notebook и использовать библиотеки для Data Science.
Далее курс охватывает математическую подготовку - линейную алгебру, векторы, матрицы и теорию вероятностей. Это помогает формализовать задачи математическим языком. Параллельно изучают работу с базами данных - как правильно хранить информацию и получать её с помощью SQL-запросов. Слушатели учатся использовать операторы SELECT, WHERE, JOIN для извлечения нужных данных.
Здесь переходят к практическому машинному обучению. Изучают регрессию, классификацию, кластеризацию и прогнозирование. Работают с разными алгоритмами - от деревьев решений до нейронных сетей. Учатся оценивать качество моделей с помощью метрик. На этом этапе строят первую нейронную сеть и работают с фреймворками TensorFlow и PyTorch.
Этот модуль посвящен подготовке данных к анализу. Слушатели учатся считывать данные из разных форматов, обрабатывать пропуски и строить понятные визуализации. Разбирают EDA и Feature Engineering. Далее переходят к работе с большими данными - изучают Spark, PySpark и принципы распределенных систем. Работают в Databricks Notebooks и осваивают параллельные вычисления.
На завершающих занятиях формируют профессиональный подход к работе. Учат формулировать гипотезы, понимать потребности бизнеса и презентовать результаты. Финальная часть - практический проект с реальными данными. Слушатели обрабатывают информацию, строят визуализации, создают пайплайн и тренируют модель для прогнозирования. Защищают свой проект перед коллегами.