Машинное обучение без учителя
Вы узнаете, как обнаружить основные группы (или "кластеры") в наборе данных.

Преподаватель
Залина Озова
Более 3 лет преподаю информатику и математику. Обучаю студентов основам программирования. Реализую программы углубленного изучения предмета.
4часа
13видео
37упражнений
3950опыта
Описание курсаВ этом курсе вы узнаете о двух методах обучения без учителя для визуализации данных.
1. Кластеризация данных
Вы узнаете, как обнаружить основные группы (или "кластеры") в наборе данных. К концу этой части вы будете составлять кластеры компаний по их биржевым ценам и составлять кластеры различные видов животных по их размерам.
Обучение без учителя
50
Сколько кластеров?
50
Поиск точек кластеров
100
Определение числа кластеров
50
Сколько кластеров в наборе данных семян?
100
Сравнение кластеров
100
Стандартизация набора данных
50
Стандартизация (Масштабирование) набора данных рыб
100
Составление кластеров рыб.
100
Получаем кластеры акций используя K-Means
100
2. Визуализация иерархической кластеризации. Метод t-SNE
В этой части вы узнаете о двух методах обучения без учителя для визуализации данных – иерархической кластеризации и t-SNE. Иерархическая кластеризация объединяет образцы данных во все более крупные кластеры, создавая древовидную визуализацию иерархии кластеров. t-SNE представляет образцы данных в двухмерном пространстве, чтобы можно было визуализировать расстояние между образцами.
Визуализация иерархии кластеров.
50
Количество слияний
50
Иерархическая кластеризация в наборе данных семян
100
Иерархическая кластеризация акций
100
Кластерные метки в иерархической кластеризации
50
Который из кластеров ближе?
50
Разные методы связи, разные иерархические кластеры
100
Количество кластеров
50
Получение меток кластера
100
Метод t-SNE
50
Используем t-SNE с набором данных семян
100
Используем t-SNE на рынке акций
100
3. Декорреляция данных и уменьшение размерности
Снижение размерности позволяет обобщить набор данных, используя общие закономерности. В этой части вы познакомитесь с наиболее фундаментальным методом сокращения размерности – "Principal Component Analysis" ("PCA"). PCA часто используется перед контролируемым обучением для улучшения производительности и обобщения модели. Он также может быть полезен для обучения без учителя. Например, вы будете использовать РСА, который позволит вам кластеризовать статьи Википедии по их содержанию!
Метод главных компонент PCA
50
Корреляция данных в природе
100
Декорреляция данных при помощью РСА
100
Главные компоненты
50
Уменьшение размерности при помощи РСА
50
Первый главный компонент
100
Дисперсия признаков PCA
100
Внутренняя размерность данных
50
Уменьшение размерности при помощью РСА
50
Уменьшение размерности данных
100
Оценка веса слов
100
Кластеры Википедии часть 1
100
Кластеры Википедии часть 2
100
4. Обнаружение интерпретируемых признаков
В этой части вы узнаете о технике уменьшения размерности под названием "Неотрицательная матричная факторизация" ("NMF"), которая выражает выборки как комбинации интерпретируемых частей. Например, документы выражаются в виде комбинаций тем, а изображения – в виде часто встречающихся визуальных паттернов. Вы также научитесь использовать NMF для создания рекомендательных систем, которые смогут находить для вас похожие статьи для чтения или музыкальных исполнителей, соответствующих вашей истории прослушивания!
Неотрицательная матричная факторизация NMF
50
Неотрицательные данные
50
Применение NMF к статьям Википедии
100
Признаки NMF в статьях Википедии
100
NMF восстановление образцов
50
NMF интерпретация данных
50
Анализ темы документа
100
Анализ набора данных изображений чисел
100
Анализ отдельных частей изображений
100
Анализ изображений с помощью PCA
100
Создание системы рекомендаций с помощью NMF
50
Какие статьи схожи с темой 'Криштиану Роналду'?
100
Рекомендованные музыкальные исполнители часть 1
100
Рекомендованные музыкальные исполнители часть 2
100
Итоги
50