ML на практике: исследование Бюджета школы
В этом курсе вы начнете с построения базовой модели, которая представляет собой простой подход "первого прохода".
Преподаватель
Залина Озова
Более 3 лет преподаю информатику и математику. Обучаю студентов основам программирования. Реализую программы углубленного изучения предмета.
4часа
15видео
36упражнений
3850опыта
Описание курсаНаука о данных нужна не только для прогнозирования рекламных кликов – она также полезна для социального воздействия. Этот курс представляет собой пример по машинному. Вы изучите проблему, связанную с составлением бюджета школы города Программинск. Построив модель для автоматической классификации статей школьного бюджета, школы смогут легче и быстрее сравнивать свои расходы с другими школами. В этом курсе вы начнете с построения базовой модели, которая представляет собой простой подход "первого прохода". В частности, вы выполните обработку естественного языка для подготовки бюджетов к моделированию. Далее у вас будет возможность попробовать свои собственные методы и посмотреть, как они работают. Наконец, вы увидите, как объединить несколько методов для построения наиболее точной модели.
1. Изучение исходных данных
В этой главе вы познакомитесь с проблемой, которую будете решать в этом курсе. Разберете как классифицировать статьи школьного бюджета на основании того, на что используются эти деньги. Изучите необработанные текстовые и числовые значения в наборе данных, как количественно, так и визуально. И вы узнаете, как измерить успех при попытке предсказать метки классов для каждой строки набора данных. Знакомство с задачей
50
Разные типы машинного обучения
50
Цель алгоритма
50
Изучение данных
50
Загрузка данных
50
Обобщение данных
100
Категории типов данных
50
Изучение типов данных в pandas
50
Кодирование меток как категориальные переменные
100
Подсчет уникальных меток
100
Оценка точности модели машинного обучения
50
Наказание высокоуверенных неправильных ответов
50
Вычисление log loss с помощью NumPy
100
2. Создание первой простой модели
В этой главе вы построите модель первого прохода. Для обучения модели вы будете использовать только числовые данные. Но помните, что выбрасывать все текстовые данные плохо для производительности. Вы узнаете, как форматировать свои предсказания. Познакомитесь с обработкой естественного языка – NLP, чтобы начать работать с большим количеством текста в данных. Построение модели
50
Настройка train-test-split в scikit-learn
100
Обучение модели
100
Составление прогнозов
50
Прогнозирование значений по удержанным данным с помощью модели
100
Отправление результатов прогноза, записанных в файл csv
100
Краткое введение в NLP
50
Токенизация текста
50
N-грамм и NLP
100
Представление текста в числовом виде
50
Создание bag-of-words в scikit-learn
100
Объединение текстовых столбцов для токенизации
100
Из чего состоит токен?
100
3. Улучшение модели
Здесь вы улучшите свою модель с помощью конвейеров. Поскольку бюджет состоит как из текстовых, так и из числовых данных, вы научитесь создавать конвейеры, обрабатывающие несколько типов данных. Вы также узнаете, как гибкость конвейерного процесса делает эффективным тестирование различных подходов даже в таких сложных задачах, как эта.Конвейеры, признаки и предварительная обработка текста
50
Создание конвейера
100
Предварительная обработка числовых признаков
100
Признаки текста и объединение признаков
50
Предварительная обработка текстовых признаков
100
Несколько типов обработки: FunctionTransformer
100
Несколько типов обработки: FeatureUnion
100
Выбор классификатора модели
50
Использование FunctionTransformer на основном dataset
100
Добавление модели в конвейер
100
Использование модели другого класса
100
Изменение модели или параметров для повышения точности
100
4. Объединение методов для построения точной модели
В этой главе вы узнаете методы, которые помогут сделать вашу модель совершенной и наиболее точной, и сами реализуете их с помощью scikit-learn.
Обработка
50
Определяем количество токенов
50
Обработка признаков текста
100
Диапазон N-грамм в scikit-learn
100
Статистическая хитрость
50
Модели данных включающие условия взаимодействия
50
Реализация моделирования взаимодействий в scikit-learn
100
Трюк хеширования
50
Польза хеширования
50
Реализация трюка хэширования в scikit-learn
100
Построение лучшей модели
100
Преимущества построенной модели
50
Заключение
50