Ничего не найдено

Очистка данных в Python

В этом курсе вы узнаете, как определять, диагностировать и исправлять различные проблемы очистки данных в Python, от простых до сложных.

Залина Озова
Преподаватель

Залина Озова

Более 3 лет преподаю информатику и математику. Обучаю студентов основам программирования. Реализую программы углубленного изучения предмета.

4часа
13видео
31упражнение
3250опыта
Описание курсаОбычно говорят, что специалисты по обработке данных тратят 80% своего времени на очистку и обработку данных и только 20% – на их анализ. Очистка данных является важной задачей в Data Sciense. Без надлежащей очистки данных результаты любого анализа данных или модели машинного обучения могут быть неточными. В этом курсе вы узнаете, как определять, диагностировать и исправлять различные проблемы очистки данных в Python, от простых до сложных. Вы будете иметь дело с неправильными типами данных, проверять правильность данных в необходимом диапазоне, восполнять недостающие данные, выполнять связывание записей и многое другое!
1.  Стандартные проблемы с данными
В этой главе вы узнаете, как побороть некоторые из наиболее распространенных проблем с необработанными данными. Вы будете преобразовывать типы данных, применять ограничения диапазона для исключения возможных проблем с данными и удалять дублирующиеся ячейки данных, чтобы избежать двойного подсчета.

2.  Проблемы с текстовыми и категориальными данными
Категориальные и текстовые данные часто могут быть одними из самых беспорядочных частей набора данных из-за их неструктурированности. В этой главе вы узнаете, как исправлять пробелы и несоответствия капитализации в метках категорий, объединять несколько категорий в одну и переформатировать строки для обеспечения согласованности.

3.  Труднорешаемые проблемы с данными
В этой главе вы погрузитесь в более сложные проблемы очистки данных, например, убедитесь, что все веса записаны в килограммах, а не в фунтах. Вы также приобретёте бесценные навыки, которые помогут вам убедиться в том, что значения были добавлены правильно и что отсутствующие значения не оказывают негативного влияния на ваш анализ.

4.  Связывание записей
Связывание записей – это мощный метод, используемый для объединения нескольких наборов данных вместе, применимый в тех случаях, когда значения содержат опечатки или разные написания. В этой главе вы узнаете, как связывать записи, определяя сходство между строками. Затем вы используете свои новые навыки для объединения двух наборов данных об обзорах ресторанов в один чистый основной набор данных.

ООО «Дипскиллс»
г. Москва, ул. Измайловский Вал, д. 2
© DeepSkills, 2023