Очистка данных в Python
В этом курсе вы узнаете, как определять, диагностировать и исправлять различные проблемы очистки данных в Python, от простых до сложных.

Преподаватель
Залина Озова
Более 3 лет преподаю информатику и математику. Обучаю студентов основам программирования. Реализую программы углубленного изучения предмета.
4часа
13видео
31упражнение
3250опыта
Описание курсаОбычно говорят, что специалисты по обработке данных тратят 80% своего времени на очистку и обработку данных и только 20% – на их анализ. Очистка данных является важной задачей в Data Sciense. Без надлежащей очистки данных результаты любого анализа данных или модели машинного обучения могут быть неточными. В этом курсе вы узнаете, как определять, диагностировать и исправлять различные проблемы очистки данных в Python, от простых до сложных. Вы будете иметь дело с неправильными типами данных, проверять правильность данных в необходимом диапазоне, восполнять недостающие данные, выполнять связывание записей и многое другое!
1. Стандартные проблемы с данными
В этой главе вы узнаете, как побороть некоторые из наиболее распространенных проблем с необработанными данными. Вы будете преобразовывать типы данных, применять ограничения диапазона для исключения возможных проблем с данными и удалять дублирующиеся ячейки данных, чтобы избежать двойного подсчета.2. Проблемы с текстовыми и категориальными данными
Категориальные и текстовые данные часто могут быть одними из самых беспорядочных частей набора данных из-за их неструктурированности. В этой главе вы узнаете, как исправлять пробелы и несоответствия капитализации в метках категорий, объединять несколько категорий в одну и переформатировать строки для обеспечения согласованности.3. Труднорешаемые проблемы с данными
В этой главе вы погрузитесь в более сложные проблемы очистки данных, например, убедитесь, что все веса записаны в килограммах, а не в фунтах. Вы также приобретёте бесценные навыки, которые помогут вам убедиться в том, что значения были добавлены правильно и что отсутствующие значения не оказывают негативного влияния на ваш анализ.
4. Связывание записей
Связывание записей – это мощный метод, используемый для объединения нескольких наборов данных вместе, применимый в тех случаях, когда значения содержат опечатки или разные написания. В этой главе вы узнаете, как связывать записи, определяя сходство между строками. Затем вы используете свои новые навыки для объединения двух наборов данных об обзорах ресторанов в один чистый основной набор данных.