Програма курсу

Основи Python та робота з даними

На цьому курсі починають з розуміння відмінностей між машинним навчанням та класичним програмуванням. Студенти опановують інструменти для роботи з Python - IPython, Jupyter Notebook та Google Colaboratory. Вчаться працювати з бібліотекою NumPy: створювати масиви, виконувати операції з ними, фільтрувати та сортувати дані. Цей модуль дає базові навички для подальшої роботи.

Математичні основи та Pandas

Далі курс охоплює лінійну алгебру та статистику в NumPy. Студи вивчають математичні функції та введення/виведення даних. Потім переходять до бібліотеки Pandas - працюють із структурами Series та Dataframe, імпортують та експортують табличні дані. Навчаються маніпулювати таблицями та ефективно з ними працювати.

Візуалізація та аналіз даних

Тут студенти знайомляться з бібліотекою Matplotlib для побудови графіків. Вчаться створювати базові та просунуті візуалізації - heatmap, box plot, pair plot. Опанують три способи візуалізації даних у Pandas та базові інтерактивні графіки. Це допомагає краще розуміти дані перед аналізом.

Підготовка даних до моделювання

Цей блок присвячений Exploratory Data Analysis (EDA) та очистці даних. Студенти вчаться швидко аналізувати набори даних будь-якого розміру. Особлива увага приділяється роботі з пропущеними значеннями - їх виявленню, класифікації та способам заповнення. Використовують Pandas, SweetViz та Pandas Profiling для ефективного аналізу.

Регресійні моделі

Курс переходить до прогнозування з допомогою лінійної регресії. Розглядають математичну основу моделі, метод найменших квадратів та градієнтний спуск. Студенти тренують моделі в scikit-learn, оцінюють якість через MSE та RMSE. Потім вивчають інші типи регресій - багатовимірну, поліноміальну, гребінцеву, LASSO та еластичну мережу.

Валідація та оптимізація моделей

Тут пояснюють, навіщо розбивати дані на train/validation/test вибірки. Студенти дізнаються про гіперпараметри та методи їх підбору. Вивчають перехресну валідацію, проблеми overfit та underfit. Навчаються застосовувати регуляризацію для покращення якості моделей.

Класифікація та ансамблі моделей

Цей модуль охоплює задачу класифікації через логістичну регресію. Студенти будують моделі для бінарної та мультикласової класифікації. Потім переходять до дерев рішень та ансамблів моделей - вивчають техніки Max Voting, Averaging, Stacking, Bagging та Boosting. Розуміють, який метод використовувати при high bias чи high variance.

Просунуті алгоритми та аналіз

Студи вивчають алгоритми бустингу - адаптивний та градієнтний, працюють з бібліотекою XGBoost. Потім переходять до кластерного аналізу - K-Means, DBSCAN, Agglomerative Clustering. Опанують методи зменшення розмірності даних (SVD, PCA, LDA) та вибору найважливіших ознак. Завершують статистичним аналізом з бібліотекою SciPy, перевіркою гіпотез та A/B-тестуванням.

Підготовка до роботи

Останній модуль готує до співбесід та кар'єрного розвитку. Розглядають вимоги роботодавців та поширені помилки у технічних завданнях. Дають практичні поради для успішного працевлаштування в галузі Data Science.

Що включено

Вечірні заняття

Видається диплом/сертифікат

Реальний проект у портфоліо

Супровід ментора

Data Science with Python

Про курс

Програма курсу

Основи Python та робота з даними

Математичні основи та Pandas

Візуалізація та аналіз даних

Підготовка даних до моделювання

Регресійні моделі

Валідація та оптимізація моделей

Класифікація та ансамблі моделей

Просунуті алгоритми та аналіз

Підготовка до роботи

Що включено

Про школу

Robot Dreams

Інші курси школи

DevOps Engineer

Основи геймдизайну

SQL Advanced для аналітики