Ничего не найдено

Анализ данных в Python

В этом курсе представлены инструменты, необходимые для очистки и проверки данных, визуализации распределений и связей между переменными, а также для использования регрессионных моделей для прогнозирований и объяснений.

Дарья Козлова
Преподаватель

Дарья Козлова

Учитель математики и информатики

4часа
16видео
36упражнений
4150опыта
Описание курсаКак перейти от набора данных к выводам? Исследовательский анализ данных – это процесс изучения наборов данных, ответов на вопросы и визуализации результатов. В этом курсе представлены инструменты, необходимые для очистки и проверки данных, визуализации распределений и связей между переменными, а также для использования регрессионных моделей для прогнозирований и объяснений. Вы изучите данные, связанные с демографией и здравоохранением, включая национальное обследование роста семьи и общее социальное обследование. Однако изучаемые вами методы применимы во всех областях науки, техники и бизнеса. Вы будете использовать Pandas, мощную библиотеку для работы с данными, и другие основные библиотеки Python, включая NumPy и SciPy, StatsModels для регрессии и Matplotlib для визуализации. С помощью этих инструментов и навыков вы будете готовы работать с реальными данными, совершать открытия и представлять убедительные результаты.
1.  Чтение, очистка и валидация
Первым шагом практически любого проекта по работе с данными является чтение данных, проверка на наличие ошибок и особых случаев, а также подготовка данных к анализу. Именно это вы и будете делать в этой главе, работая с набором данных, полученных из Национального исследования роста семьи.

2.  Распределение
В первой главе, очистив и проверив свои данные, вы начали исследовать их с помощью гистограмм для визуализации распределений. В этой главе вы узнаете, как представлять распределения с помощью функций массы вероятности (PMF) и кумулятивных функций распределения (CDF). Вы узнаете, когда и почему следует использовать каждую из них, работая с новым набором данных, полученным из Общего социального исследования.

3.  Взаимоотношения
До этого момента вы анализировали только одну переменную за раз. В этой главе вы изучите взаимосвязи между двумя переменными, используя диаграммы рассеяния и другие визуализации для извлечения информации из нового набора данных, полученных в ходе исследования поведенческих факторов риска. Вы также узнаете, как количественно оценить эти взаимосвязи с помощью корреляции и простой регрессии.

4.  Многомерное мышление
В заключительной части вы научитесь исследовать многомерные взаимосвязи с помощью множественной регрессии для описания нелинейных отношений и логистической регрессии для объяснения и прогнозирования бинарных переменных.

ООО «Дипскиллс»
г. Москва, ул. Измайловский Вал, д. 2
© DeepSkills, 2023