Профессия

Профессия Data Science

34 часа

8 курсов

Освойте профессию Data Science

Зачем нужен сертификат?

• Подтверждение целостности полученных знаний
• Предъявить будущему работодателю или HR
• Прикрепить к резюме как подтверждающий документ

Инструкторы:

Озова Залина

Герц Екатерина

Визуализация данных в Seaborn. Продвинутый уровень

В этом курсе вы узнаете, как использовать сложные инструменты Seaborn для анализа множества наборов данных.

Seaborn. Введение

Основа Seaborn

Чтение csv-файла

100

Сравнение гистограммы pandas и Seaborn

100

Диаграммы распределения

Построение гистограммы

100

Анализ получившейся диаграммы

Regression plot или диаграмма регрессии в Seaborn

Создание диаграммы регрессии

100

Построение диаграмм c несколькими переменными

100

Разделение линий регрессии

100

Применение стилей Seaborn

Использование стиля по умолчанию

100

Сравнение стилей

100

Удаление линий осей

Цвета в Seaborn

Цветовые коды Matplotlib

100

Использование стандартных палитр

100

Цветовые палитры

Создание собственной палитры

100

Настройка диаграмм с помощью Matplotlib

Изменение названий осей

100

Дополнительные настройки диаграммы

100

Добавление легенды

100

Настройка нескольких диаграмм

100

Типы категориальных диаграмм

stripplot() и swarmplot()

100

boxplot(), violinplot() и boxenplot()

100

Столбчатые и точечные диаграммы

100

Диаграммы регрессии

Диаграммы регрессии и residual plot

100

Параметры диаграммы регрессии

100

Binning data или распределение данных

100

Matrix plot или матричная диаграмма

Создание тепловых карт

100

Настройка тепловых карт

100

Использование FacetGrid, factorplot() и lmplot()

Построение FacetGrid

100

Использование factorplot()

100

Использование lmplot

100

Изучение PairGrid и pairplot()

Построение PairGrid

100

Использование pairplot()

100

Параметры pairplot()

100

Использование JointGrid и jointplot()

Построение JointGrid и jointplot()

100

jointplot() для построения регрессии

100

Построение комбинированного графика с jointplot()

100

Подведение итогов курса

4 часа

Статистика 1

В нашем курсе вы начнете строить фундамент, необходимый вам для статистического мышления.

Введение в разведочный анализ данных

Цитаты Джона Тьюки о EDA

Преимущество графического EDA

Построение гистограммы

Строим гистограмму по данным об ирисах

100

Добавим подписи к осям!

100

Настроим количество ячеек в гистограмме

100

Выведем на график все наши данные с помощью функции .swarmplot()

Строим график пчелиного роя при помощи функции .swarmplot()

100

Интерпретируем график пчелиного роя

Выведем на график все наши данные с помощью эмпирической кумулятивной функции распределения (ECDF)

Вычислим ECDF

100

Построим график ECDF для длин лепестков ириса Андерсона

100

Сравним распределения длин лепестков нескольких видов ирисов при помощи ECDF

100

Вперед, к новым свершениям!

Введение в сводную статистику: среднее арифметическое и медиана.

Средние арифметическое и медианы

Вычислим среднее арифметическое

100

Процентили, выбросы и "Ящик с усами"

Вычислим процентили

100

Сравним процентили с ECDF

100

Построим график "Ящик с усами"

100

Дисперсия и стандартное отклонение

Вычислим дисперсию

100

Вычислим стандартное отклонение и дисперсию

100

Ковариация и коэффициент корреляции Пирсона

Строим диаграмму рассеяния

100

Рассмотрим дисперсию и ковариацию

Вычислим ковариацию

100

Вычислим коэффициент корреляции Пирсона

100

Вероятностная логика и статистический вывод

Какова конечная цель статистического вывода?

Почему нам нужно использовать вероятностный язык?

Генераторы случайных чисел и хакерская статистика

Генерация случайных чисел с помощью модуля np.random

100

Модуль np.random и испытание Бернулли

100

Какое количество непогашенных кредитов мы можем ожидать?

100

Обанкротится ли банк?

100

Примеры распределения вероятностей: биноминальное распределение

Биноминальное распределение из выборки

100

Строим график биноминального PMF

100

Пуассоновские процессы и распределение Пуассона

Взаимосвязь между биноминальным и пуассоновским распределениями

100

Какое распределение вероятностей подходит лучше?

Был ли 2015 год аномальным?

100

Функция плотности вероятности

Интерпретация PDF

Интерпретация CDF

Введение в Нормальное распределение

Нормальное распределение с PDF

100

Нормальное распределение с CDF

100

Нормальное распределение: свойства и предостережения

Гаусс и купюра в 10 немецких марок

Строим график нормального распределения для конных скачек

100

Определяем вероятность появления нового рекорда на скачках

100

Экспоненциальное распределение

Сопоставим распределение событий во времени

Ждем появления нового рекорда на скачках

Если у вас есть история, вы можете смоделировать её!

100

Распределение ноу-хиттеров и циклов

100

Последние размышления

4 часа

Статистика 2

В данном курсе вы расширите и отточите свой инструментарий хакерской статистики.

Оптимальные параметры

Как часто у нас бывают "ноу-хиттеры"?

100

Соответствуют ли данные нашей истории?

100

Насколько этот параметр оптимален?

100

Метод наименьших квадратов в линейной регрессии

EDA данных о грамотности/рождаемости

100

Линейная регрессия

100

Насколько это оптимально?

100

Значение EDA системы: квартет Анскомба

Значение EDA системы

Линейная регрессия на примере данных Анскомба

100

Линейная регрессия всех данных Анскомба

100

Генерация бутстреп выборок

Знакомство с терминологией

Бутстреппинг вручную

Визуализация примеров бутстрепа

100

Доверительные интервалы бутстрепа

Генерация множества бутстреп-выборок

100

Бутстреп-выборки для среднего значения и SEM

100

Интервалы достоверности данных о выпадении осадков

Бутстреп-репликации для сводной статистики

100

Доверительные интервалы для показателя числа "ноу-хиттеров"

100

Парный бутстреп

Функция для выполнения парного бутстрепа

100

Парный бутстреп по данным грамотности/рождаемости

100

Построение графиков регрессий бутстрепа

100

Формулирование и моделирование гипотезы

Генерация метода permutation

100

Визуализация выборки permutation

100

Статистическая гипотеза и p-значения

Статистическая гипотеза

Что такое p-значение?

100

Генерация пермутационных повторений

100

EDA перед проверкой гипотез

100

Пермутационный тест данных про лягушек

100

Проверка гипотез бутстрепа

Односторонний критерий бутстрепа

100

Двусторонний критерий проверки гипотезы для разности средних значений

100

A/B тестирование

Голосование за Закон о гражданских правах в 1964 году

100

Что является эквивалентом?

Аналог времени работы на сайте

100

Что вы должны были сделать в первую очередь?

Тест на корреляцию

Моделирование нулевой гипотезы относительно корреляции

100

Проверка гипотезы о корреляции Пирсона

100

Имеют ли неоникотиноиды инсектициды нежелательные проявления?

100

Проверка гипотез бутстрепа по числу пчелиных сперматозоидов

100

Клювы зябликов и статистические данные

EDA глубины клюва дарвиновских вьюрков

100

ECDF глубины клюва

100

Параметрические оценки глубины клюва

100

Проверка гипотезы: Являются ли клювы более глубокими в 2012 году?

100

Разновидности формы клюва

EDA длины и глубины клюва

100

Линейные регрессии

100

Отображение результатов линейной регрессии

100

Отношение длины клюва к глубине

100

Насколько отличается соотношение?

100

Расчет наследственности

100

EDA наследственности

100

Корреляция данных о потомстве и родителях

100

Корреляция Пирсона между данными потомства и родительскими

100

Измерение наследственности

100

Является глубина клюва наследственной у G. scandens?

100

Заключительные размышления

5 часов

Машинное обучение с учителем

Вы узнаете, как использовать Python для обучения с учителем, а также научитесь работать с прогностическими моделями на основе реальных данных.

Обучение с учителем

Применение классификации

Анализ данных (EDA)

Численный EDA

Визуальный EDA

Задача классификации

Метод k-ближайших соседей: Обучение

100

Метод k-ближайших соседей: Прогноз

100

Эффективность модели

Распознавание цифр

100

Обучение, прогнозирование, точность

100

Переобучение и недообучение

100

Введение в регрессию

Применение регрессии

Импорт данных для обучения с учителем

100

Изучение данных о странах

Основы линейной регрессии

Обучение и прогнозирование в регрессии

100

Обучающие и тестовые данные

100

Кросс-валидация

5-кратная кросс-валидация

100

k-кратное сравнение

100

Регуляризованная регрессия

Регуляризация: Lasso

100

Регуляризация: Ridge

100

Насколько хороша модель?

Метрики для классификации

100

Логистическая регрессия и ROC-кривая

Построение модели логистической регрессии

100

Построение ROC-кривой

100

Кривая Precision-recall

Площадь под ROC-кривой (AUC)

Вычисление AUC

100

Настройка гиперпараметров

Настройка гиперпараметров: GridSearchCV

100

Настройка гиперпараметров: RandomizedSearchCV

100

Итоговая оценка модели

Контроль на отложенных данных

Контроль на отложенных данных: Классификация

100

Контроль на отложенных данных: Регрессия

100

Предварительная обработка данных

Изучение категориальных признаков

100

Создание фиктивных переменных

100

Регрессия с категориальными признаками

100

Обработка отсутствующих данных

Удаление отсутствующих данных

100

Нормализация данных

Центрирование и масштабирование данных

100

Центрирование и масштабирование в пайплайне

100

Создание пайплайна для классификации

100

Поздравляем!

4 часа

Машинное обучение без учителя

Вы узнаете, как обнаружить основные группы (или "кластеры") в наборе данных.

Обучение без учителя

Сколько кластеров?

Поиск точек кластеров

100

Определение числа кластеров

Сколько кластеров в наборе данных семян?

100

Сравнение кластеров

100

Стандартизация набора данных

Стандартизация (Масштабирование) набора данных рыб

100

Составление кластеров рыб.

100

Получаем кластеры акций используя K-Means

100

Визуализация иерархии кластеров.

Количество слияний

Иерархическая кластеризация в наборе данных семян

100

Иерархическая кластеризация акций

100

Кластерные метки в иерархической кластеризации

Который из кластеров ближе?

Разные методы связи, разные иерархические кластеры

100

Количество кластеров

Получение меток кластера

100

Метод t-SNE

Используем t-SNE с набором данных семян

100

Используем t-SNE на рынке акций

100

Метод главных компонент PCA

Корреляция данных в природе

100

Декорреляция данных при помощью РСА

100

Главные компоненты

Уменьшение размерности при помощи РСА

Первый главный компонент

100

Дисперсия признаков PCA

100

Внутренняя размерность данных

Уменьшение размерности при помощью РСА

Уменьшение размерности данных

100

Оценка веса слов

100

Кластеры Википедии часть 1

100

Кластеры Википедии часть 2

100

Неотрицательная матричная факторизация NMF

Неотрицательные данные

Применение NMF к статьям Википедии

100

Признаки NMF в статьях Википедии

100

NMF восстановление образцов

NMF интерпретация данных

Анализ темы документа

100

Анализ набора данных изображений чисел

100

Анализ отдельных частей изображений

100

Анализ изображений с помощью PCA

100

Создание системы рекомендаций с помощью NMF

Какие статьи схожи с темой 'Криштиану Роналду'?

100

Рекомендованные музыкальные исполнители часть 1

100

Рекомендованные музыкальные исполнители часть 2

100

Итоги

4 часа

ML с использованием древовидных моделей в Python

В этом курсе вы узнаете, как использовать Python для обучения деревьев решений, изучите модели на основе деревьев с помощью удобной библиотеки машинного обучения Scikit-learn.

Дерево решений для классификации

Обучение первого дерева классификации

100

Оценка дерева классификации

100

Сравнение логистической регрессии с деревом классификации

100

Обучение дерева классификации

Рост дерева классификации

Использование энтропии в качестве критерия

100

Энтропия и индекс Джини

100

Дерево решений для регрессии

Обучение первого дерева регрессии

100

Оценка дерева регрессии

100

Сравнение линейной регрессии с деревом регрессии

100

Ошибка обобщения

Сложность, предвзятость и дисперсия

Переоценка и недооценка

Диагностика проблем смещения и дисперсии

Инстанцирование модели

100

Определение 10-кратной ошибки CV

100

Определение ошибки обучения

100

Большое смещение или высокая дисперсия

Ансамблевое обучение

Определение ансамбля

100

Оценка отдельных классификаторов

100

Лучшая производительность при использовании Voting Classifier

100

Bagging

Определяем классификатор bagging

100

Оценка производительности bagging

100

Оценка Out-of-Bag

Подготовка к работе

100

Сравнение оценки OOB с оценкой тестового набора

100

Random Forest (RF)

Подготовка регрессора RF

100

Оценка регрессора RF

100

Визуализация особенностей признаков

100

Adaboost

Определяем классификатор AdaBoost

100

Обучаем классификатор AdaBoost

100

Оцениваем классификатор AdaBoost

100

Gradient Boosting (GB)

Определяем регрессор GB

100

Обучение регрессора GB

100

Оценка регрессора GB

100

Stochastic Gradient Boosting (SGB)

Регрессия с SGB

100

Обучение регрессора SGB

100

Оценка регрессора SGB

100

Настройка гиперпараметров CART

Гиперпараметры деревьев

Установка сетки гиперпараметров дерева

100

Поиск оптимального дерева

100

Оценка оптимального дерева

100

Настройка гиперпараметров RF

Гиперпараметры Random Forest

Установка сетки гиперпараметров RF

100

Поиск Optimal Forest

100

Оценка Optimal Forest

100

Итоги изучения курса

5 часов

ML на практике: исследование Бюджета школы

В этом курсе вы начнете с построения базовой модели, которая представляет собой простой подход "первого прохода".

Знакомство с задачей

Разные типы машинного обучения

Цель алгоритма

Изучение данных

Загрузка данных

Обобщение данных

100

Категории типов данных

Изучение типов данных в pandas

Кодирование меток как категориальные переменные

100

Подсчет уникальных меток

100

Оценка точности модели машинного обучения

Наказание высокоуверенных неправильных ответов

Вычисление log loss с помощью NumPy

100

Построение модели

Настройка train-test-split в scikit-learn

100

Обучение модели

100

Составление прогнозов

Прогнозирование значений по удержанным данным с помощью модели

100

Отправление результатов прогноза, записанных в файл csv

100

Краткое введение в NLP

Токенизация текста

N-грамм и NLP

100

Представление текста в числовом виде

Создание bag-of-words в scikit-learn

100

Объединение текстовых столбцов для токенизации

100

Из чего состоит токен?

100

Конвейеры, признаки и предварительная обработка текста

Создание конвейера

100

Предварительная обработка числовых признаков

100

Признаки текста и объединение признаков

Предварительная обработка текстовых признаков

100

Несколько типов обработки: FunctionTransformer

100

Несколько типов обработки: FeatureUnion

100

Выбор классификатора модели

Использование FunctionTransformer на основном dataset

100

Добавление модели в конвейер

100

Использование модели другого класса

100

Изменение модели или параметров для повышения точности

100

Обработка

Определяем количество токенов

Обработка признаков текста

100

Диапазон N-грамм в scikit-learn

100

Статистическая хитрость

Модели данных включающие условия взаимодействия

Реализация моделирования взаимодействий в scikit-learn

100

Трюк хеширования

Польза хеширования

Реализация трюка хэширования в scikit-learn

100

Построение лучшей модели

100

Преимущества построенной модели

Заключение

4 часа

Кластерный анализ в Python

В этом курсе вы познакомитесь с одним из способов машинного обучения без учителя – кластеризацией с использованием библиотеки SciPy в Python.

Обучение без учителя: основы

Обучение без учителя в реальном мире

Наблюдения за покемонами

100

Основы кластерного анализа

Наблюдения за покемонами: иерархическая кластеризация

100

Наблюдения за покемонами: метод k-средних

100

Подготовка данных для кластерного анализа

Нормализация данных

100

Визуализация нормализованных данных

100

Нормализация маленьких чисел

100

FIFA 18: Нормализация данных

100

Основы иерархической кластеризации

Иерархическая кластеризация: метод ward

100

Иерархическая кластеризация: метод single

100

Иерархическая кластеризация: метод complete

100

Визуализация кластеров

Визуализация кластеров с помощью matplotlib

100

Визуализация кластеров с помощью seaborn

100

Определение количества кластеров

Создайте дендрограмму

100

Сколько кластеров в данных о конференции Pycon?

Недостатки иерархической кластеризации

Время выполнения иерархической кластеризации

FIFA 18: изучаем защитников

100

Основы кластеризации k-средних

Метод k-средних на практике

100

Время выполнения кластеризации k-средних

Определение количества кластеров

Метод локтя на четких кластерах

100

Метод локтя на однородных данных

100

Недостатки кластеризации k-средних

Влияние начальных центроидов на отдельные кластеры

100

Однородные кластеры

100

FIFA 18: новый обзор

100

Доминирующие цвета в изображениях

Извлечение RGB-значений из изображения

100

Сколько доминирующих цветов?

100

Отображение доминирующих цветов

100

Кластеризация документов

TF-IDF сюжетов фильмов

100

Кластеры фильмов

100

Кластеризация по нескольким признакам

Кластеризация с большим количеством признаков

Основные проверки кластеров

100

FIFA 18: характеристика идеального игрока

100

Поздравляем!

4 часа