ML с использованием древовидных моделей в Python

В этом курсе вы узнаете, как использовать Python для обучения деревьев решений, изучите модели на основе деревьев с помощью удобной библиотеки машинного обучения Scikit-learn.

Преподаватель

Екатерина Герц

Практикующий Fullstack разработчик: Python, JavaScript, React, Node.js

5часов

15видео

42упражнения

4650опыта

Описание курсаДеревья решений – это модели контролируемого обучения, используемые для решения задач классификации и регрессии. Модели деревьев обладают высокой гибкостью. С одной стороны, деревья способны улавливать сложные нелинейные взаимосвязи, с другой стороны, они склонны запоминать шумы, присутствующие в наборе данных. За счет объединения прогнозов деревьев, обученных по-разному, ансамблевые методы используют преимущества гибкости деревьев, одновременно уменьшая их склонность к запоминанию шумов. Ансамблевые методы используются в различных областях и зарекомендовали себя как победители по машинному обучению. В этом курсе вы узнаете, как использовать Python для обучения деревьев решений, изучите модели на основе деревьев с помощью удобной библиотеки машинного обучения Scikit-learn. Вы поймете преимущества и недостатки деревьев и узнаете, как ансамблирование может уменьшить эти недостатки, практикуясь на реальных наборах данных. Вы поймете, как настраивать наиболее влиятельные гиперпараметры, чтобы получить максимальную пользу от ваших моделей.

1. Деревья классификации и регрессии

Деревья классификации и регрессии (CART) – это набор моделей контролируемого обучения, используемых для решения задач классификации и регрессии. В этой главе вы познакомитесь с алгоритмом CART.

Дерево решений для классификации

Обучение первого дерева классификации

100

Оценка дерева классификации

100

Сравнение логистической регрессии с деревом классификации

100

Обучение дерева классификации

Рост дерева классификации

Использование энтропии в качестве критерия

100

Энтропия и индекс Джини

100

Дерево решений для регрессии

Обучение первого дерева регрессии

100

Оценка дерева регрессии

100

Сравнение линейной регрессии с деревом регрессии

100

2. Компромисс между смещением и дисперсией

Компромисс между смещением и дисперсией является одной из фундаментальных концепций в машинном обучении с учителем. В этой главе вы узнаете, как определить проблемы переобучения и недообучения. Вы также познакомитесь с концепцией ансамбля, когда прогнозы нескольких моделей объединяются для получения более достоверных предсказаний.

Ошибка обобщения

Сложность, предвзятость и дисперсия

Переоценка и недооценка

Диагностика проблем смещения и дисперсии

Инстанцирование модели

100

Определение 10-кратной ошибки CV

100

Определение ошибки обучения

100

Большое смещение или высокая дисперсия

Ансамблевое обучение

Определение ансамбля

100

Оценка отдельных классификаторов

100

Лучшая производительность при использовании Voting Classifier

100

3. Bagging и Random Forest

Bagging – это метод ансамбля, предполагающий многократное обучение одного и того же алгоритма с использованием различных выборок из обучающих данных. В этой главе вы поймете, как можно использовать метод bagging для создания ансамбля деревьев. Вы также узнаете, как алгоритм Random Forests может привести к дальнейшему разнообразию ансамбля за счет рандомизации на уровне каждого разбиения в деревьях, образующих ансамбль.

Bagging

Определяем классификатор bagging

100

Оценка производительности bagging

Сравнение оценки OOB с оценкой тестового набора

100

Random Forest (RF)

Подготовка регрессора RF

100

Оценка регрессора RF

100

Визуализация особенностей признаков

100

4. Boosting

Boosting относится к методу ансамбля, в котором несколько моделей обучаются последовательно, причем каждая модель учится на ошибках своих предшественников. В этой главе вы познакомитесь с двумя методами – AdaBoost и Gradient Boosting.

Adaboost

Определяем классификатор AdaBoost

100

Обучаем классификатор AdaBoost

100

Оцениваем классификатор AdaBoost

100

Gradient Boosting (GB)

Определяем регрессор GB

100

Обучение регрессора GB

100

Оценка регрессора GB

100

Stochastic Gradient Boosting (SGB)

Регрессия с SGB

100

Обучение регрессора SGB

100

Оценка регрессора SGB

100

5. Настройка модели

Гиперпараметры модели машинного обучения – это параметры, которые не изучаются на основе данных. Они должны быть установлены до подгонки модели к обучающему набору. В этой главе вы узнаете, как настроить гиперпараметры модели на основе дерева с помощью перекрестной валидации с поиском по сетке.

Настройка гиперпараметров CART

Гиперпараметры деревьев

Установка сетки гиперпараметров дерева

100

Поиск оптимального дерева

100

Оценка оптимального дерева

100

Настройка гиперпараметров RF

Гиперпараметры Random Forest

Установка сетки гиперпараметров RF

100

Поиск Optimal Forest

100

Оценка Optimal Forest

100

Итоги изучения курса