Ничего не найдено

Кластерный анализ в Python

В этом курсе вы познакомитесь с одним из способов машинного обучения без учителя – кластеризацией с использованием библиотеки SciPy в Python.

Залина Озова
Преподаватель

Залина Озова

Более 3 лет преподаю информатику и математику. Обучаю студентов основам программирования. Реализую программы углубленного изучения предмета.

4часа
14видео
32упражнения
3650опыта
Описание курсаВы наверняка сталкивались с сервисом Яндекс.Новости, который автоматически группирует похожие новостные статьи. Задумывались ли вы, как формируются эти группы? В этом курсе вы познакомитесь с одним из способов машинного обучения без учителя – кластеризацией с использованием библиотеки SciPy в Python. Курс охватывает предварительную обработку данных, применение иерархической и k-средней кластеризации. Также вы изучите статистику игроков из популярной футбольной видеоигры FIFA 18. После завершения курса вы сможете быстро применять различные алгоритмы кластеризации к данным, визуализировать сформированные кластеры и анализировать результаты.
1.  Введение в кластеризацию
Прежде чем классифицировать новостные статьи, необходимо ознакомиться с основами кластеризации. Это один из наиболее используемых алгоритмов машинного обучения, называемых обучением без учителя. Вы узнаете о двух методах кластеризации – иерархической кластеризации и методе k-средних. Изучите основные шаги по предварительной обработке данных перед началом кластерного анализа.

2.  Иерархическая кластеризация
Эта глава посвящена иерархической кластеризации и ее реализации в SciPy. Помимо выполнения иерархической кластеризации в этой главе мы попытаемся ответить на вопрос – сколько кластеров в ваших данных? Глава завершается обсуждением недостатков данного алгоритма и рассмотрением особенностей при его использовании.

3.  Кластеризация: метод k-средних
В этой главе представлен другой алгоритм кластеризации – метод k-средних, и его реализация в SciPy. Он решает самую большую проблему иерархической кластеризации, которая обсуждалась в предыдущей части. Поскольку дендрограммы специфичны для иерархической кластеризации, в этой части рассматривается один из методов определения количества кластеров перед выполнением кластеризации k-средних.

4.  Кластеризация в реальном мире
Вы познакомились с двумя наиболее популярными методами кластеризации. В данной главе вы примените эти знания для решения реальных задач. Сначала рассмотрите процесс поиска доминирующих цветов в изображении, а затем решите задачу, которая упоминалась в первой части, – кластеризация новостных статей. Последняя часть завершается обсуждением кластеризации с несколькими переменными.

ООО «Дипскиллс»
г. Москва, ул. Измайловский Вал, д. 2
© DeepSkills, 2023