На этом курсе начинают с понимания различий между машинным обучением и классическим программированием. Студенты осваивают инструменты для работы с Python - IPython, Jupyter Notebook и Google Colaboratory. Учатся работать с библиотекой NumPy: создавать массивы, выполнять операции с ними, фильтровать и сортировать данные. Этот модуль дает базовые навыки для дальнейшей работы.
Далее курс охватывает линейную алгебру и статистику в NumPy. Студенты изучают математические функции и ввод/вывод данных. Затем переходят к библиотеке Pandas - работают со структурами Series и Dataframe, импортируют и экспортируют табличные данные. Обучаются манипулировать таблицами и эффективно с ними работать.
Здесь студенты знакомятся с библиотекой Matplotlib для построения графиков. Учатся создавать базовые и продвинутые визуализации - heatmap, box plot, pair plot. Осваивают три способа визуализации данных в Pandas и базовые интерактивные графики. Это помогает лучше понимать данные перед анализом.
Этот блок посвящен Exploratory Data Analysis (EDA) и очистке данных. Студенты учатся быстро анализировать наборы данных любого размера. Особое внимание уделяется работе с пропущенными значениями - их обнаружению, классификации и способам заполнения. Используют Pandas, SweetViz и Pandas Profiling для эффективного анализа.
Курс переходит к прогнозированию с помощью линейной регрессии. Рассматривают математическую основу модели, метод наименьших квадратов и градиентный спуск. Студенты тренируют модели в scikit-learn, оценивают качество через MSE и RMSE. Затем изучают другие типы регрессий - многомерную, полиномиальную, гребневую, LASSO и эластичную сеть.
Здесь объясняют, зачем разбивать данные на train/validation/test выборки. Студенты узнают о гиперпараметрах и методах их подбора. Изучают перекрестную валидацию, проблемы overfit и underfit. Обучаются применять регуляризацию для улучшения качества моделей.
Этот модуль охватывает задачу классификации через логистическую регрессию. Студенты строят модели для бинарной и мультиклассовой классификации. Затем переходят к деревьям решений и ансамблям моделей - изучают техники Max Voting, Averaging, Stacking, Bagging и Boosting. Понимают, какой метод использовать при high bias или high variance.
Студенты изучают алгоритмы бустинга - адаптивный и градиентный, работают с библиотекой XGBoost. Затем переходят к кластерному анализу - K-Means, DBSCAN, Agglomerative Clustering. Осваивают методы уменьшения размерности данных (SVD, PCA, LDA) и выбора наиболее важных признаков. Завершают статистическим анализом с библиотекой SciPy, проверкой гипотез и A/B-тестированием.
Последний модуль готовит к собеседованиям и карьерному развитию. Рассматривают требования работодателей и распространенные ошибки в технических заданиях. Дают практические советы для успешного трудоустройства в области Data Science.