ML с использованием древовидных моделей в Python
В этом курсе вы узнаете, как использовать Python для обучения деревьев решений, изучите модели на основе деревьев с помощью удобной библиотеки машинного обучения Scikit-learn.

Преподаватель
Екатерина Герц
Практикующий Fullstack разработчик: Python, JavaScript, React, Node.js
5часов
15видео
42упражнения
4650опыта
Описание курсаДеревья решений – это модели контролируемого обучения, используемые для решения задач классификации и регрессии. Модели деревьев обладают высокой гибкостью. С одной стороны, деревья способны улавливать сложные нелинейные взаимосвязи, с другой стороны, они склонны запоминать шумы, присутствующие в наборе данных. За счет объединения прогнозов деревьев, обученных по-разному, ансамблевые методы используют преимущества гибкости деревьев, одновременно уменьшая их склонность к запоминанию шумов. Ансамблевые методы используются в различных областях и зарекомендовали себя как победители по машинному обучению. В этом курсе вы узнаете, как использовать Python для обучения деревьев решений, изучите модели на основе деревьев с помощью удобной библиотеки машинного обучения Scikit-learn. Вы поймете преимущества и недостатки деревьев и узнаете, как ансамблирование может уменьшить эти недостатки, практикуясь на реальных наборах данных. Вы поймете, как настраивать наиболее влиятельные гиперпараметры, чтобы получить максимальную пользу от ваших моделей.
1. Деревья классификации и регрессии
Деревья классификации и регрессии (CART) – это набор моделей контролируемого обучения, используемых для решения задач классификации и регрессии. В этой главе вы познакомитесь с алгоритмом CART.Дерево решений для классификации
50
Обучение первого дерева классификации
100
Оценка дерева классификации
100
Сравнение логистической регрессии с деревом классификации
100
Обучение дерева классификации
50
Рост дерева классификации
50
Использование энтропии в качестве критерия
100
Энтропия и индекс Джини
100
Дерево решений для регрессии
50
Обучение первого дерева регрессии
100
Оценка дерева регрессии
100
Сравнение линейной регрессии с деревом регрессии
100
2. Компромисс между смещением и дисперсией
Компромисс между смещением и дисперсией является одной из фундаментальных концепций в машинном обучении с учителем. В этой главе вы узнаете, как определить проблемы переобучения и недообучения. Вы также познакомитесь с концепцией ансамбля, когда прогнозы нескольких моделей объединяются для получения более достоверных предсказаний.Ошибка обобщения
50
Сложность, предвзятость и дисперсия
50
Переоценка и недооценка
50
Диагностика проблем смещения и дисперсии
50
Инстанцирование модели
100
Определение 10-кратной ошибки CV
100
Определение ошибки обучения
100
Большое смещение или высокая дисперсия
50
Ансамблевое обучение
50
Определение ансамбля
100
Оценка отдельных классификаторов
100
Лучшая производительность при использовании Voting Classifier
100
3. Bagging и Random Forest
Bagging – это метод ансамбля, предполагающий многократное обучение одного и того же алгоритма с использованием различных выборок из обучающих данных. В этой главе вы поймете, как можно использовать метод bagging для создания ансамбля деревьев. Вы также узнаете, как алгоритм Random Forests может привести к дальнейшему разнообразию ансамбля за счет рандомизации на уровне каждого разбиения в деревьях, образующих ансамбль.
4. Boosting
Boosting относится к методу ансамбля, в котором несколько моделей обучаются последовательно, причем каждая модель учится на ошибках своих предшественников. В этой главе вы познакомитесь с двумя методами – AdaBoost и Gradient Boosting.
Adaboost
50
Определяем классификатор AdaBoost
100
Обучаем классификатор AdaBoost
100
Оцениваем классификатор AdaBoost
100
Gradient Boosting (GB)
50
Определяем регрессор GB
100
Обучение регрессора GB
100
Оценка регрессора GB
100
Stochastic Gradient Boosting (SGB)
50
Регрессия с SGB
100
Обучение регрессора SGB
100
Оценка регрессора SGB
100
5. Настройка модели
Гиперпараметры модели машинного обучения – это параметры, которые не изучаются на основе данных. Они должны быть установлены до подгонки модели к обучающему набору. В этой главе вы узнаете, как настроить гиперпараметры модели на основе дерева с помощью перекрестной валидации с поиском по сетке.
Настройка гиперпараметров CART
50
Гиперпараметры деревьев
50
Установка сетки гиперпараметров дерева
100
Поиск оптимального дерева
100
Оценка оптимального дерева
100
Настройка гиперпараметров RF
50
Гиперпараметры Random Forest
50
Установка сетки гиперпараметров RF
100
Поиск Optimal Forest
100
Оценка Optimal Forest
100
Итоги изучения курса
50