Программа курса

Основы Python и работа с данными

На этом курсе начинают с понимания различий между машинным обучением и классическим программированием. Студенты осваивают инструменты для работы с Python - IPython, Jupyter Notebook и Google Colaboratory. Учатся работать с библиотекой NumPy: создавать массивы, выполнять операции с ними, фильтровать и сортировать данные. Этот модуль дает базовые навыки для дальнейшей работы.

Математические основы и Pandas

Далее курс охватывает линейную алгебру и статистику в NumPy. Студенты изучают математические функции и ввод/вывод данных. Затем переходят к библиотеке Pandas - работают со структурами Series и Dataframe, импортируют и экспортируют табличные данные. Обучаются манипулировать таблицами и эффективно с ними работать.

Визуализация и анализ данных

Здесь студенты знакомятся с библиотекой Matplotlib для построения графиков. Учатся создавать базовые и продвинутые визуализации - heatmap, box plot, pair plot. Осваивают три способа визуализации данных в Pandas и базовые интерактивные графики. Это помогает лучше понимать данные перед анализом.

Подготовка данных к моделированию

Этот блок посвящен Exploratory Data Analysis (EDA) и очистке данных. Студенты учатся быстро анализировать наборы данных любого размера. Особое внимание уделяется работе с пропущенными значениями - их обнаружению, классификации и способам заполнения. Используют Pandas, SweetViz и Pandas Profiling для эффективного анализа.

Регрессионные модели

Курс переходит к прогнозированию с помощью линейной регрессии. Рассматривают математическую основу модели, метод наименьших квадратов и градиентный спуск. Студенты тренируют модели в scikit-learn, оценивают качество через MSE и RMSE. Затем изучают другие типы регрессий - многомерную, полиномиальную, гребневую, LASSO и эластичную сеть.

Валидация и оптимизация моделей

Здесь объясняют, зачем разбивать данные на train/validation/test выборки. Студенты узнают о гиперпараметрах и методах их подбора. Изучают перекрестную валидацию, проблемы overfit и underfit. Обучаются применять регуляризацию для улучшения качества моделей.

Классификация и ансамбли моделей

Этот модуль охватывает задачу классификации через логистическую регрессию. Студенты строят модели для бинарной и мультиклассовой классификации. Затем переходят к деревьям решений и ансамблям моделей - изучают техники Max Voting, Averaging, Stacking, Bagging и Boosting. Понимают, какой метод использовать при high bias или high variance.

Продвинутые алгоритмы и анализ

Студенты изучают алгоритмы бустинга - адаптивный и градиентный, работают с библиотекой XGBoost. Затем переходят к кластерному анализу - K-Means, DBSCAN, Agglomerative Clustering. Осваивают методы уменьшения размерности данных (SVD, PCA, LDA) и выбора наиболее важных признаков. Завершают статистическим анализом с библиотекой SciPy, проверкой гипотез и A/B-тестированием.

Подготовка к работе

Последний модуль готовит к собеседованиям и карьерному развитию. Рассматривают требования работодателей и распространенные ошибки в технических заданиях. Дают практические советы для успешного трудоустройства в области Data Science.

Что включено

Вечерние занятия

Выдается диплом/сертификат

Реальный проект в портфолио

Сопровождение ментора

Data Science with Python

О курсе

Программа курса

Основы Python и работа с данными

Математические основы и Pandas

Визуализация и анализ данных

Подготовка данных к моделированию

Регрессионные модели

Валидация и оптимизация моделей

Классификация и ансамбли моделей

Продвинутые алгоритмы и анализ

Подготовка к работе

Что включено

О школе

Robot Dreams

Другие курсы школы

DevOps Engineer

Основи геймдизайну

SQL Advanced для аналітики