Ничего не найдено

Профессия

Профессия Data Science

Иконка времени34 часа
Иконка курсов8 курсов

Освойте профессию Data Science

ИконкаЗачем нужен сертификат?
• Подтверждение целостности полученных знаний
• Предъявить будущему работодателю или HR
• Прикрепить к резюме как подтверждающий документ
Инструкторы:
Фото ментора
Озова Залина
Фото ментора
Герц Екатерина
Python

Визуализация данных в Seaborn. Продвинутый уровень

В этом курсе вы узнаете, как использовать сложные инструменты Seaborn для анализа множества наборов данных.

1
Seaborn. Введение
50
Основа Seaborn
50
Чтение csv-файла
100
Сравнение гистограммы pandas и Seaborn
100
Диаграммы распределения
50
Построение гистограммы
100
Анализ получившейся диаграммы
50
Regression plot или диаграмма регрессии в Seaborn
50
Создание диаграммы регрессии
100
Построение диаграмм c несколькими переменными
100
Разделение линий регрессии
100
Применение стилей Seaborn
50
Использование стиля по умолчанию
100
Сравнение стилей
100
Удаление линий осей
50
Цвета в Seaborn
50
Цветовые коды Matplotlib
100
Использование стандартных палитр
100
Цветовые палитры
50
Создание собственной палитры
100
Настройка диаграмм с помощью Matplotlib
50
Изменение названий осей
100
Дополнительные настройки диаграммы
100
Добавление легенды
100
Настройка нескольких диаграмм
100
Типы категориальных диаграмм
50
stripplot() и swarmplot()
100
boxplot(), violinplot() и boxenplot()
100
Столбчатые и точечные диаграммы
100
Диаграммы регрессии
50
Диаграммы регрессии и residual plot
100
Параметры диаграммы регрессии
100
Binning data или распределение данных
100
Matrix plot или матричная диаграмма
50
Создание тепловых карт
100
Настройка тепловых карт
100
Использование FacetGrid, factorplot() и lmplot()
50
Построение FacetGrid
100
Использование factorplot()
100
Использование lmplot
100
Изучение PairGrid и pairplot()
50
Построение PairGrid
100
Использование pairplot()
100
Параметры pairplot()
100
Использование JointGrid и jointplot()
50
Построение JointGrid и jointplot()
100
jointplot() для построения регрессии
100
Построение комбинированного графика с jointplot()
100
Подведение итогов курса
50
Иконка времени4 часа
Python

Статистика 1

В нашем курсе вы начнете строить фундамент, необходимый вам для статистического мышления.

2
Введение в разведочный анализ данных
50
Цитаты Джона Тьюки о EDA
50
Преимущество графического EDA
50
Построение гистограммы
50
Строим гистограмму по данным об ирисах
100
Добавим подписи к осям!
100
Настроим количество ячеек в гистограмме
100
Выведем на график все наши данные с помощью функции .swarmplot()
50
Строим график пчелиного роя при помощи функции .swarmplot()
100
Интерпретируем график пчелиного роя
50
Выведем на график все наши данные с помощью эмпирической кумулятивной функции распределения (ECDF)
50
Вычислим ECDF
100
Построим график ECDF для длин лепестков ириса Андерсона
100
Сравним распределения длин лепестков нескольких видов ирисов при помощи ECDF
100
Вперед, к новым свершениям!
50
Введение в сводную статистику: среднее арифметическое и медиана.
50
Средние арифметическое и медианы
50
Вычислим среднее арифметическое
100
Процентили, выбросы и "Ящик с усами"
50
Вычислим процентили
100
Сравним процентили с ECDF
100
Построим график "Ящик с усами"
100
Дисперсия и стандартное отклонение
50
Вычислим дисперсию
100
Вычислим стандартное отклонение и дисперсию
100
Ковариация и коэффициент корреляции Пирсона
50
Строим диаграмму рассеяния
100
Рассмотрим дисперсию и ковариацию
50
Вычислим ковариацию
100
Вычислим коэффициент корреляции Пирсона
100
Вероятностная логика и статистический вывод
50
Какова конечная цель статистического вывода?
50
Почему нам нужно использовать вероятностный язык?
50
Генераторы случайных чисел и хакерская статистика
50
Генерация случайных чисел с помощью модуля np.random
100
Модуль np.random и испытание Бернулли
100
Какое количество непогашенных кредитов мы можем ожидать?
100
Обанкротится ли банк?
100
Примеры распределения вероятностей: биноминальное распределение
50
Биноминальное распределение из выборки
100
Строим график биноминального PMF
100
Пуассоновские процессы и распределение Пуассона
50
Взаимосвязь между биноминальным и пуассоновским распределениями
100
Какое распределение вероятностей подходит лучше?
50
Был ли 2015 год аномальным?
100
Функция плотности вероятности
50
Интерпретация PDF
50
Интерпретация CDF
50
Введение в Нормальное распределение
50
Нормальное распределение с PDF
100
Нормальное распределение с CDF
100
Нормальное распределение: свойства и предостережения
50
Гаусс и купюра в 10 немецких марок
50
Строим график нормального распределения для конных скачек
100
Определяем вероятность появления нового рекорда на скачках
100
Экспоненциальное распределение
50
Сопоставим распределение событий во времени
50
Ждем появления нового рекорда на скачках
50
Если у вас есть история, вы можете смоделировать её!
100
Распределение ноу-хиттеров и циклов
100
Последние размышления
50
Иконка времени4 часа
Python

Статистика 2

В данном курсе вы расширите и отточите свой инструментарий хакерской статистики.

3
Оптимальные параметры
50
Как часто у нас бывают "ноу-хиттеры"?
100
Соответствуют ли данные нашей истории?
100
Насколько этот параметр оптимален?
100
Метод наименьших квадратов в линейной регрессии
50
EDA данных о грамотности/рождаемости
100
Линейная регрессия
100
Насколько это оптимально?
100
Значение EDA системы: квартет Анскомба
50
Значение EDA системы
50
Линейная регрессия на примере данных Анскомба
100
Линейная регрессия всех данных Анскомба
100
Генерация бутстреп выборок
50
Знакомство с терминологией
50
Бутстреппинг вручную
50
Визуализация примеров бутстрепа
100
Доверительные интервалы бутстрепа
50
Генерация множества бутстреп-выборок
100
Бутстреп-выборки для среднего значения и SEM
100
Интервалы достоверности данных о выпадении осадков
50
Бутстреп-репликации для сводной статистики
100
Доверительные интервалы для показателя числа "ноу-хиттеров"
100
Парный бутстреп
50
Функция для выполнения парного бутстрепа
100
Парный бутстреп по данным грамотности/рождаемости
100
Построение графиков регрессий бутстрепа
100
Формулирование и моделирование гипотезы
50
Генерация метода permutation
100
Визуализация выборки permutation
100
Статистическая гипотеза и p-значения
50
Статистическая гипотеза
50
Что такое p-значение?
100
Генерация пермутационных повторений
100
EDA перед проверкой гипотез
100
Пермутационный тест данных про лягушек
100
Проверка гипотез бутстрепа
50
Односторонний критерий бутстрепа
100
Двусторонний критерий проверки гипотезы для разности средних значений
100
A/B тестирование
50
Голосование за Закон о гражданских правах в 1964 году
100
Что является эквивалентом?
50
Аналог времени работы на сайте
100
Что вы должны были сделать в первую очередь?
50
Тест на корреляцию
50
Моделирование нулевой гипотезы относительно корреляции
100
Проверка гипотезы о корреляции Пирсона
100
Имеют ли неоникотиноиды инсектициды нежелательные проявления?
100
Проверка гипотез бутстрепа по числу пчелиных сперматозоидов
100
Клювы зябликов и статистические данные
50
EDA глубины клюва дарвиновских вьюрков
100
ECDF глубины клюва
100
Параметрические оценки глубины клюва
100
Проверка гипотезы: Являются ли клювы более глубокими в 2012 году?
100
Разновидности формы клюва
50
EDA длины и глубины клюва
100
Линейные регрессии
100
Отображение результатов линейной регрессии
100
Отношение длины клюва к глубине
100
Насколько отличается соотношение?
100
Расчет наследственности
100
EDA наследственности
100
Корреляция данных о потомстве и родителях
100
Корреляция Пирсона между данными потомства и родительскими
100
Измерение наследственности
100
Является глубина клюва наследственной у G. scandens?
100
Заключительные размышления
50
Иконка времени5 часов
Python

Машинное обучение с учителем

Вы узнаете, как использовать Python для обучения с учителем, а также научитесь работать с прогностическими моделями на основе реальных данных.

4
Обучение с учителем
50
Применение классификации
50
Анализ данных (EDA)
50
Численный EDA
50
Визуальный EDA
50
Задача классификации
50
Метод k-ближайших соседей: Обучение
100
Метод k-ближайших соседей: Прогноз
100
Эффективность модели
50
Распознавание цифр
100
Обучение, прогнозирование, точность
100
Переобучение и недообучение
100
Введение в регрессию
50
Применение регрессии
50
Импорт данных для обучения с учителем
100
Изучение данных о странах
50
Основы линейной регрессии
50
Обучение и прогнозирование в регрессии
100
Обучающие и тестовые данные
100
Кросс-валидация
50
5-кратная кросс-валидация
100
k-кратное сравнение
100
Регуляризованная регрессия
50
Регуляризация: Lasso
100
Регуляризация: Ridge
100
Насколько хороша модель?
50
Метрики для классификации
100
Логистическая регрессия и ROC-кривая
50
Построение модели логистической регрессии
100
Построение ROC-кривой
100
Кривая Precision-recall
50
Площадь под ROC-кривой (AUC)
50
Вычисление AUC
100
Настройка гиперпараметров
50
Настройка гиперпараметров: GridSearchCV
100
Настройка гиперпараметров: RandomizedSearchCV
100
Итоговая оценка модели
50
Контроль на отложенных данных
50
Контроль на отложенных данных: Классификация
100
Контроль на отложенных данных: Регрессия
100
Предварительная обработка данных
50
Изучение категориальных признаков
100
Создание фиктивных переменных
100
Регрессия с категориальными признаками
100
Обработка отсутствующих данных
50
Удаление отсутствующих данных
100
Нормализация данных
50
Центрирование и масштабирование данных
100
Центрирование и масштабирование в пайплайне
100
Создание пайплайна для классификации
100
Поздравляем!
50
Иконка времени4 часа
Python

Машинное обучение без учителя

Вы узнаете, как обнаружить основные группы (или "кластеры") в наборе данных.

5
Обучение без учителя
50
Сколько кластеров?
50
Поиск точек кластеров
100
Определение числа кластеров
50
Сколько кластеров в наборе данных семян?
100
Сравнение кластеров
100
Стандартизация набора данных
50
Стандартизация (Масштабирование) набора данных рыб
100
Составление кластеров рыб.
100
Получаем кластеры акций используя K-Means
100
Визуализация иерархии кластеров.
50
Количество слияний
50
Иерархическая кластеризация в наборе данных семян
100
Иерархическая кластеризация акций
100
Кластерные метки в иерархической кластеризации
50
Который из кластеров ближе?
50
Разные методы связи, разные иерархические кластеры
100
Количество кластеров
50
Получение меток кластера
100
Метод t-SNE
50
Используем t-SNE с набором данных семян
100
Используем t-SNE на рынке акций
100
Метод главных компонент PCA
50
Корреляция данных в природе
100
Декорреляция данных при помощью РСА
100
Главные компоненты
50
Уменьшение размерности при помощи РСА
50
Первый главный компонент
100
Дисперсия признаков PCA
100
Внутренняя размерность данных
50
Уменьшение размерности при помощью РСА
50
Уменьшение размерности данных
100
Оценка веса слов
100
Кластеры Википедии часть 1
100
Кластеры Википедии часть 2
100
Неотрицательная матричная факторизация NMF
50
Неотрицательные данные
50
Применение NMF к статьям Википедии
100
Признаки NMF в статьях Википедии
100
NMF восстановление образцов
50
NMF интерпретация данных
50
Анализ темы документа
100
Анализ набора данных изображений чисел
100
Анализ отдельных частей изображений
100
Анализ изображений с помощью PCA
100
Создание системы рекомендаций с помощью NMF
50
Какие статьи схожи с темой 'Криштиану Роналду'?
100
Рекомендованные музыкальные исполнители часть 1
100
Рекомендованные музыкальные исполнители часть 2
100
Итоги
50
Иконка времени4 часа
Python

ML с использованием древовидных моделей в Python

В этом курсе вы узнаете, как использовать Python для обучения деревьев решений, изучите модели на основе деревьев с помощью удобной библиотеки машинного обучения Scikit-learn.

6
Дерево решений для классификации
50
Обучение первого дерева классификации
100
Оценка дерева классификации
100
Сравнение логистической регрессии с деревом классификации
100
Обучение дерева классификации
50
Рост дерева классификации
50
Использование энтропии в качестве критерия
100
Энтропия и индекс Джини
100
Дерево решений для регрессии
50
Обучение первого дерева регрессии
100
Оценка дерева регрессии
100
Сравнение линейной регрессии с деревом регрессии
100
Ошибка обобщения
50
Сложность, предвзятость и дисперсия
50
Переоценка и недооценка
50
Диагностика проблем смещения и дисперсии
50
Инстанцирование модели
100
Определение 10-кратной ошибки CV
100
Определение ошибки обучения
100
Большое смещение или высокая дисперсия
50
Ансамблевое обучение
50
Определение ансамбля
100
Оценка отдельных классификаторов
100
Лучшая производительность при использовании Voting Classifier
100
Bagging
50
Определяем классификатор bagging
100
Оценка производительности bagging
100
Оценка Out-of-Bag
50
Подготовка к работе
100
Сравнение оценки OOB с оценкой тестового набора
100
Random Forest (RF)
50
Подготовка регрессора RF
100
Оценка регрессора RF
100
Визуализация особенностей признаков
100
Adaboost
50
Определяем классификатор AdaBoost
100
Обучаем классификатор AdaBoost
100
Оцениваем классификатор AdaBoost
100
Gradient Boosting (GB)
50
Определяем регрессор GB
100
Обучение регрессора GB
100
Оценка регрессора GB
100
Stochastic Gradient Boosting (SGB)
50
Регрессия с SGB
100
Обучение регрессора SGB
100
Оценка регрессора SGB
100
Настройка гиперпараметров CART
50
Гиперпараметры деревьев
50
Установка сетки гиперпараметров дерева
100
Поиск оптимального дерева
100
Оценка оптимального дерева
100
Настройка гиперпараметров RF
50
Гиперпараметры Random Forest
50
Установка сетки гиперпараметров RF
100
Поиск Optimal Forest
100
Оценка Optimal Forest
100
Итоги изучения курса
50
Иконка времени5 часов
Python

ML на практике: исследование Бюджета школы

В этом курсе вы начнете с построения базовой модели, которая представляет собой простой подход "первого прохода".

7
Знакомство с задачей
50
Разные типы машинного обучения
50
Цель алгоритма
50
Изучение данных
50
Загрузка данных
50
Обобщение данных
100
Категории типов данных
50
Изучение типов данных в pandas
50
Кодирование меток как категориальные переменные
100
Подсчет уникальных меток
100
Оценка точности модели машинного обучения
50
Наказание высокоуверенных неправильных ответов
50
Вычисление log loss с помощью NumPy
100
Построение модели
50
Настройка train-test-split в scikit-learn
100
Обучение модели
100
Составление прогнозов
50
Прогнозирование значений по удержанным данным с помощью модели
100
Отправление результатов прогноза, записанных в файл csv
100
Краткое введение в NLP
50
Токенизация текста
50
N-грамм и NLP
100
Представление текста в числовом виде
50
Создание bag-of-words в scikit-learn
100
Объединение текстовых столбцов для токенизации
100
Из чего состоит токен?
100
Конвейеры, признаки и предварительная обработка текста
50
Создание конвейера
100
Предварительная обработка числовых признаков
100
Признаки текста и объединение признаков
50
Предварительная обработка текстовых признаков
100
Несколько типов обработки: FunctionTransformer
100
Несколько типов обработки: FeatureUnion
100
Выбор классификатора модели
50
Использование FunctionTransformer на основном dataset
100
Добавление модели в конвейер
100
Использование модели другого класса
100
Изменение модели или параметров для повышения точности
100
Обработка
50
Определяем количество токенов
50
Обработка признаков текста
100
Диапазон N-грамм в scikit-learn
100
Статистическая хитрость
50
Модели данных включающие условия взаимодействия
50
Реализация моделирования взаимодействий в scikit-learn
100
Трюк хеширования
50
Польза хеширования
50
Реализация трюка хэширования в scikit-learn
100
Построение лучшей модели
100
Преимущества построенной модели
50
Заключение
50
Иконка времени4 часа
Python

Кластерный анализ в Python

В этом курсе вы познакомитесь с одним из способов машинного обучения без учителя – кластеризацией с использованием библиотеки SciPy в Python.

8
Обучение без учителя: основы
50
Обучение без учителя в реальном мире
50
Наблюдения за покемонами
100
Основы кластерного анализа
50
Наблюдения за покемонами: иерархическая кластеризация
100
Наблюдения за покемонами: метод k-средних
100
Подготовка данных для кластерного анализа
50
Нормализация данных
100
Визуализация нормализованных данных
100
Нормализация маленьких чисел
100
FIFA 18: Нормализация данных
100
Основы иерархической кластеризации
50
Иерархическая кластеризация: метод ward
100
Иерархическая кластеризация: метод single
100
Иерархическая кластеризация: метод complete
100
Визуализация кластеров
50
Визуализация кластеров с помощью matplotlib
100
Визуализация кластеров с помощью seaborn
100
Определение количества кластеров
50
Создайте дендрограмму
100
Сколько кластеров в данных о конференции Pycon?
50
Недостатки иерархической кластеризации
50
Время выполнения иерархической кластеризации
50
FIFA 18: изучаем защитников
100
Основы кластеризации k-средних
50
Метод k-средних на практике
100
Время выполнения кластеризации k-средних
50
Определение количества кластеров
50
Метод локтя на четких кластерах
100
Метод локтя на однородных данных
100
Недостатки кластеризации k-средних
50
Влияние начальных центроидов на отдельные кластеры
100
Однородные кластеры
100
FIFA 18: новый обзор
100
Доминирующие цвета в изображениях
50
Извлечение RGB-значений из изображения
100
Сколько доминирующих цветов?
100
Отображение доминирующих цветов
100
Кластеризация документов
50
TF-IDF сюжетов фильмов
100
Кластеры фильмов
100
Кластеризация по нескольким признакам
50
Кластеризация с большим количеством признаков
50
Основные проверки кластеров
100
FIFA 18: характеристика идеального игрока
100
Поздравляем!
50
Иконка времени4 часа

Получение сертификата DeepSkills

ООО «Дипскиллс»
г. Москва, ул. Измайловский Вал, д. 2
© DeepSkills, 2023