На цьому курсі починають з розуміння відмінностей між машинним навчанням та класичним програмуванням. Студенти опановують інструменти для роботи з Python - IPython, Jupyter Notebook та Google Colaboratory. Вчаться працювати з бібліотекою NumPy: створювати масиви, виконувати операції з ними, фільтрувати та сортувати дані. Цей модуль дає базові навички для подальшої роботи.
Далі курс охоплює лінійну алгебру та статистику в NumPy. Студи вивчають математичні функції та введення/виведення даних. Потім переходять до бібліотеки Pandas - працюють із структурами Series та Dataframe, імпортують та експортують табличні дані. Навчаються маніпулювати таблицями та ефективно з ними працювати.
Тут студенти знайомляться з бібліотекою Matplotlib для побудови графіків. Вчаться створювати базові та просунуті візуалізації - heatmap, box plot, pair plot. Опанують три способи візуалізації даних у Pandas та базові інтерактивні графіки. Це допомагає краще розуміти дані перед аналізом.
Цей блок присвячений Exploratory Data Analysis (EDA) та очистці даних. Студенти вчаться швидко аналізувати набори даних будь-якого розміру. Особлива увага приділяється роботі з пропущеними значеннями - їх виявленню, класифікації та способам заповнення. Використовують Pandas, SweetViz та Pandas Profiling для ефективного аналізу.
Курс переходить до прогнозування з допомогою лінійної регресії. Розглядають математичну основу моделі, метод найменших квадратів та градієнтний спуск. Студенти тренують моделі в scikit-learn, оцінюють якість через MSE та RMSE. Потім вивчають інші типи регресій - багатовимірну, поліноміальну, гребінцеву, LASSO та еластичну мережу.
Тут пояснюють, навіщо розбивати дані на train/validation/test вибірки. Студенти дізнаються про гіперпараметри та методи їх підбору. Вивчають перехресну валідацію, проблеми overfit та underfit. Навчаються застосовувати регуляризацію для покращення якості моделей.
Цей модуль охоплює задачу класифікації через логістичну регресію. Студенти будують моделі для бінарної та мультикласової класифікації. Потім переходять до дерев рішень та ансамблів моделей - вивчають техніки Max Voting, Averaging, Stacking, Bagging та Boosting. Розуміють, який метод використовувати при high bias чи high variance.
Студи вивчають алгоритми бустингу - адаптивний та градієнтний, працюють з бібліотекою XGBoost. Потім переходять до кластерного аналізу - K-Means, DBSCAN, Agglomerative Clustering. Опанують методи зменшення розмірності даних (SVD, PCA, LDA) та вибору найважливіших ознак. Завершують статистичним аналізом з бібліотекою SciPy, перевіркою гіпотез та A/B-тестуванням.
Останній модуль готує до співбесід та кар'єрного розвитку. Розглядають вимоги роботодавців та поширені помилки у технічних завданнях. Дають практичні поради для успішного працевлаштування в галузі Data Science.