Robot Dreams

Data Science with Python

10 тижнів
Для досвідчених
1 відгуків
Python Data Science / Machine learning
Цей курс навчить вас вирішувати основні задачі Data Science за допомогою Python. Ви опануєте бібліотеки NumPy, Pandas, Matplotlib та scikit-learn, щоб аналізувати дані, будувати прогнози та тренувати моделі. Після курсу ви зможете працювати з реальними даними, візуалізувати результати та застосовувати машинне навчання.

Про курс

Програма курсу

Основи Python та робота з даними

На цьому курсі починають з розуміння відмінностей між машинним навчанням та класичним програмуванням. Студенти опановують інструменти для роботи з Python - IPython, Jupyter Notebook та Google Colaboratory. Вчаться працювати з бібліотекою NumPy: створювати масиви, виконувати операції з ними, фільтрувати та сортувати дані. Цей модуль дає базові навички для подальшої роботи.

Математичні основи та Pandas

Далі курс охоплює лінійну алгебру та статистику в NumPy. Студи вивчають математичні функції та введення/виведення даних. Потім переходять до бібліотеки Pandas - працюють із структурами Series та Dataframe, імпортують та експортують табличні дані. Навчаються маніпулювати таблицями та ефективно з ними працювати.

Візуалізація та аналіз даних

Тут студенти знайомляться з бібліотекою Matplotlib для побудови графіків. Вчаться створювати базові та просунуті візуалізації - heatmap, box plot, pair plot. Опанують три способи візуалізації даних у Pandas та базові інтерактивні графіки. Це допомагає краще розуміти дані перед аналізом.

Підготовка даних до моделювання

Цей блок присвячений Exploratory Data Analysis (EDA) та очистці даних. Студенти вчаться швидко аналізувати набори даних будь-якого розміру. Особлива увага приділяється роботі з пропущеними значеннями - їх виявленню, класифікації та способам заповнення. Використовують Pandas, SweetViz та Pandas Profiling для ефективного аналізу.

Регресійні моделі

Курс переходить до прогнозування з допомогою лінійної регресії. Розглядають математичну основу моделі, метод найменших квадратів та градієнтний спуск. Студенти тренують моделі в scikit-learn, оцінюють якість через MSE та RMSE. Потім вивчають інші типи регресій - багатовимірну, поліноміальну, гребінцеву, LASSO та еластичну мережу.

Валідація та оптимізація моделей

Тут пояснюють, навіщо розбивати дані на train/validation/test вибірки. Студенти дізнаються про гіперпараметри та методи їх підбору. Вивчають перехресну валідацію, проблеми overfit та underfit. Навчаються застосовувати регуляризацію для покращення якості моделей.

Класифікація та ансамблі моделей

Цей модуль охоплює задачу класифікації через логістичну регресію. Студенти будують моделі для бінарної та мультикласової класифікації. Потім переходять до дерев рішень та ансамблів моделей - вивчають техніки Max Voting, Averaging, Stacking, Bagging та Boosting. Розуміють, який метод використовувати при high bias чи high variance.

Просунуті алгоритми та аналіз

Студи вивчають алгоритми бустингу - адаптивний та градієнтний, працюють з бібліотекою XGBoost. Потім переходять до кластерного аналізу - K-Means, DBSCAN, Agglomerative Clustering. Опанують методи зменшення розмірності даних (SVD, PCA, LDA) та вибору найважливіших ознак. Завершують статистичним аналізом з бібліотекою SciPy, перевіркою гіпотез та A/B-тестуванням.

Підготовка до роботи

Останній модуль готує до співбесід та кар'єрного розвитку. Розглядають вимоги роботодавців та поширені помилки у технічних завданнях. Дають практичні поради для успішного працевлаштування в галузі Data Science.

Що включено

Вечірні заняття
Видається диплом/сертифікат
Реальний проект у портфоліо
Супровід ментора