Кластерный анализ в Python
В этом курсе вы познакомитесь с одним из способов машинного обучения без учителя – кластеризацией с использованием библиотеки SciPy в Python.

Преподаватель
Залина Озова
Более 3 лет преподаю информатику и математику. Обучаю студентов основам программирования. Реализую программы углубленного изучения предмета.
4часа
14видео
32упражнения
3650опыта
Описание курсаВы наверняка сталкивались с сервисом Яндекс.Новости, который автоматически группирует похожие новостные статьи. Задумывались ли вы, как формируются эти группы? В этом курсе вы познакомитесь с одним из способов машинного обучения без учителя – кластеризацией с использованием библиотеки SciPy в Python. Курс охватывает предварительную обработку данных, применение иерархической и k-средней кластеризации. Также вы изучите статистику игроков из популярной футбольной видеоигры FIFA 18. После завершения курса вы сможете быстро применять различные алгоритмы кластеризации к данным, визуализировать сформированные кластеры и анализировать результаты.
1. Введение в кластеризацию
Прежде чем классифицировать новостные статьи, необходимо ознакомиться с основами кластеризации. Это один из наиболее используемых алгоритмов машинного обучения, называемых обучением без учителя. Вы узнаете о двух методах кластеризации – иерархической кластеризации и методе k-средних. Изучите основные шаги по предварительной обработке данных перед началом кластерного анализа.
Обучение без учителя: основы
50
Обучение без учителя в реальном мире
50
Наблюдения за покемонами
100
Основы кластерного анализа
50
Наблюдения за покемонами: иерархическая кластеризация
100
Наблюдения за покемонами: метод k-средних
100
Подготовка данных для кластерного анализа
50
Нормализация данных
100
Визуализация нормализованных данных
100
Нормализация маленьких чисел
100
FIFA 18: Нормализация данных
100
2. Иерархическая кластеризация
Эта глава посвящена иерархической кластеризации и ее реализации в SciPy. Помимо выполнения иерархической кластеризации в этой главе мы попытаемся ответить на вопрос – сколько кластеров в ваших данных? Глава завершается обсуждением недостатков данного алгоритма и рассмотрением особенностей при его использовании.Основы иерархической кластеризации
50
Иерархическая кластеризация: метод ward
100
Иерархическая кластеризация: метод single
100
Иерархическая кластеризация: метод complete
100
Визуализация кластеров
50
Визуализация кластеров с помощью matplotlib
100
Визуализация кластеров с помощью seaborn
100
Определение количества кластеров
50
Создайте дендрограмму
100
Сколько кластеров в данных о конференции Pycon?
50
Недостатки иерархической кластеризации
50
Время выполнения иерархической кластеризации
50
FIFA 18: изучаем защитников
100
3. Кластеризация: метод k-средних
В этой главе представлен другой алгоритм кластеризации – метод k-средних, и его реализация в SciPy. Он решает самую большую проблему иерархической кластеризации, которая обсуждалась в предыдущей части. Поскольку дендрограммы специфичны для иерархической кластеризации, в этой части рассматривается один из методов определения количества кластеров перед выполнением кластеризации k-средних. Основы кластеризации k-средних
50
Метод k-средних на практике
100
Время выполнения кластеризации k-средних
50
Определение количества кластеров
50
Метод локтя на четких кластерах
100
Метод локтя на однородных данных
100
Недостатки кластеризации k-средних
50
Влияние начальных центроидов на отдельные кластеры
100
Однородные кластеры
100
FIFA 18: новый обзор
100
4. Кластеризация в реальном мире
Вы познакомились с двумя наиболее популярными методами кластеризации. В данной главе вы примените эти знания для решения реальных задач. Сначала рассмотрите процесс поиска доминирующих цветов в изображении, а затем решите задачу, которая упоминалась в первой части, – кластеризация новостных статей. Последняя часть завершается обсуждением кластеризации с несколькими переменными.
Доминирующие цвета в изображениях
50
Извлечение RGB-значений из изображения
100
Сколько доминирующих цветов?
100
Отображение доминирующих цветов
100
Кластеризация документов
50
TF-IDF сюжетов фильмов
100
Кластеры фильмов
100
Кластеризация по нескольким признакам
50
Кластеризация с большим количеством признаков
50
Основные проверки кластеров
100
FIFA 18: характеристика идеального игрока
100
Поздравляем!
50