Анализ данных в Python
В этом курсе представлены инструменты, необходимые для очистки и проверки данных, визуализации распределений и связей между переменными, а также для использования регрессионных моделей для прогнозирований и объяснений.

Преподаватель
Дарья Козлова
Учитель математики и информатики
4часа
16видео
36упражнений
4150опыта
Описание курсаКак перейти от набора данных к выводам? Исследовательский анализ данных – это процесс изучения наборов данных, ответов на вопросы и визуализации результатов. В этом курсе представлены инструменты, необходимые для очистки и проверки данных, визуализации распределений и связей между переменными, а также для использования регрессионных моделей для прогнозирований и объяснений. Вы изучите данные, связанные с демографией и здравоохранением, включая национальное обследование роста семьи и общее социальное обследование. Однако изучаемые вами методы применимы во всех областях науки, техники и бизнеса. Вы будете использовать Pandas, мощную библиотеку для работы с данными, и другие основные библиотеки Python, включая NumPy и SciPy, StatsModels для регрессии и Matplotlib для визуализации. С помощью этих инструментов и навыков вы будете готовы работать с реальными данными, совершать открытия и представлять убедительные результаты.
1. Чтение, очистка и валидация
Первым шагом практически любого проекта по работе с данными является чтение данных, проверка на наличие ошибок и особых случаев, а также подготовка данных к анализу. Именно это вы и будете делать в этой главе, работая с набором данных, полученных из Национального исследования роста семьи.2. Распределение
В первой главе, очистив и проверив свои данные, вы начали исследовать их с помощью гистограмм для визуализации распределений. В этой главе вы узнаете, как представлять распределения с помощью функций массы вероятности (PMF) и кумулятивных функций распределения (CDF). Вы узнаете, когда и почему следует использовать каждую из них, работая с новым набором данных, полученным из Общего социального исследования.Функция вероятности
50
Знакомимся с PMF
100
График PMF
100
Функция распределения (CDF)
50
Знакомимся с CDF
100
Вычислить интерквартильный размах (IQR)
100
График CDF
100
Сравнение распределений
50
Распределение образования
50
Уровень образования
100
CDF уровня доходов
100
Моделирование распределений
50
Распределение доходов
100
Сравнение CDF
100
Сравнение PDF
100
3. Взаимоотношения
До этого момента вы анализировали только одну переменную за раз. В этой главе вы изучите взаимосвязи между двумя переменными, используя диаграммы рассеяния и другие визуализации для извлечения информации из нового набора данных, полученных в ходе исследования поведенческих факторов риска. Вы также узнаете, как количественно оценить эти взаимосвязи с помощью корреляции и простой регрессии.4. Многомерное мышление
В заключительной части вы научитесь исследовать многомерные взаимосвязи с помощью множественной регрессии для описания нелинейных отношений и логистической регрессии для объяснения и прогнозирования бинарных переменных.Пределы простой регрессии
50
Регрессия и причинно-следственная связь
50
Использование статистических моделей
100
Множественная регрессия
50
Взаимосвязь дохода и образования
100
Нелинейная модель образования
100
Визуализация результатов регрессии
50
Составление прогнозов
100
Визуализация прогнозов
100
Логистическая регрессия
50
Прогнозирование бинарной переменной
100
Следующие шаги
50