Статистика 2
В данном курсе вы расширите и отточите свой инструментарий хакерской статистики.

Преподаватель
Екатерина Герц
Практикующий Fullstack разработчик: Python, JavaScript, React, Node.js
5часов
15видео
51упражнение
5550опыта
Описание курсаПосле завершения курса "Статистическое мышление в Python" (часть 1) вы приобрели опыт в вероятностном мышлении и базовых навыков хакерской статистики. Погрузились в датасеты и извлекли из них полезную информацию. В данном курсе вы расширите и отточите свой инструментарий хакерской статистики. Познакомитесь с выполнением двух ключевых задач статистического вывода: оценкой параметров и проверкой гипотез. В процессе обучения вы будете работать с реальными датасетами, кульминацией которого станет анализ измерений клювов знаменитых дарвиновских вьюрков. Вы приобретете новые знания, попрактикуетесь и научитесь решать собственные проблемы в реальной жизни.
1. Оценка параметров путем оптимизации
При проведении статистических выводов мы говорим на языке вероятности. Вероятностное распределение, описывающее ваши данные, имеет параметры. Основной целью статистического вывода является оценка значения этих параметров. Это позволяет нам кратко и однозначно описать наши данные и сделать выводы. В этой главе вы узнаете, как найти оптимальные параметры, которые лучше всего описывают ваши данные.
Оптимальные параметры
50
Как часто у нас бывают "ноу-хиттеры"?
100
Соответствуют ли данные нашей истории?
100
Насколько этот параметр оптимален?
100
Метод наименьших квадратов в линейной регрессии
50
EDA данных о грамотности/рождаемости
100
Линейная регрессия
100
Насколько это оптимально?
100
Значение EDA системы: квартет Анскомба
50
Значение EDA системы
50
Линейная регрессия на примере данных Анскомба
100
Линейная регрессия всех данных Анскомба
100
2. Доверительные интервалы метода Bootstrap
"Заниматься саморазвитием" – классическая идиома, означающая, что вы решаете сложную задачу самостоятельно, без посторонней помощи. В статистических выводах вы узнаете, что произойдет, если повторить получение данных бесконечное число раз. Эта задача невыполнима. Можем ли мы использовать только те данные, которые у нас действительно есть, чтобы приблизиться к тому же результату, что и при бесконечном количестве экспериментов? Ответ – да! Техника, позволяющая это сделать, называется бутстрэппинг. В этой главе мы познакомим вас с этим мощным инструментом.
Генерация бутстреп выборок
50
Знакомство с терминологией
50
Бутстреппинг вручную
50
Визуализация примеров бутстрепа
100
Доверительные интервалы бутстрепа
50
Генерация множества бутстреп-выборок
100
Бутстреп-выборки для среднего значения и SEM
100
Интервалы достоверности данных о выпадении осадков
50
Бутстреп-репликации для сводной статистики
100
Доверительные интервалы для показателя числа "ноу-хиттеров"
100
Парный бутстреп
50
Функция для выполнения парного бутстрепа
100
Парный бутстреп по данным грамотности/рождаемости
100
Построение графиков регрессий бутстрепа
100
3. Введение в проверку гипотез
Вы уже знаете, как определить и оценить параметры данной модели. Но остается вопрос: насколько целесообразно вести наблюдение за данными, если модель верна? Этот вопрос решается с помощью проверки гипотез. Они являются глазурью на торте умозаключений. После завершения этой главы вы сможете тщательно строить и проверять гипотезы с помощью хакерской статистики.
Формулирование и моделирование гипотезы
50
Генерация метода permutation
100
Визуализация выборки permutation
100
Статистическая гипотеза и p-значения
50
Статистическая гипотеза
50
Что такое p-значение?
100
Генерация пермутационных повторений
100
EDA перед проверкой гипотез
100
Пермутационный тест данных про лягушек
100
Проверка гипотез бутстрепа
50
Односторонний критерий бутстрепа
100
Двусторонний критерий проверки гипотезы для разности средних значений
100
4. Примеры проверки гипотез
Как вы видели из предыдущей главы, проверка гипотез может быть сложной. Нужно определить нулевую гипотезу, придумать, как ее моделировать, и вычислить p-значение. Попрактикуемся в проверке гипотез, чтобы закрепить пройденный материал.
A/B тестирование
50
Голосование за Закон о гражданских правах в 1964 году
100
Что является эквивалентом?
50
Аналог времени работы на сайте
100
Что вы должны были сделать в первую очередь?
50
Тест на корреляцию
50
Моделирование нулевой гипотезы относительно корреляции
100
Проверка гипотезы о корреляции Пирсона
100
Имеют ли неоникотиноиды инсектициды нежелательные проявления?
100
Проверка гипотез бутстрепа по числу пчелиных сперматозоидов
100
5. Примеры проверки гипотез
Каждый год на протяжении последних 40 с лишним лет Питер и Розмари Грант отправлялись на галапагосский остров Дафни-Майор. Они собирали данные о дарвиновских вьюрках. Используйте свои знания в статистических выводах, и изучите датасет эволюции данных птиц в действии. Это отличный способ закончить курс!
Клювы зябликов и статистические данные
50
EDA глубины клюва дарвиновских вьюрков
100
ECDF глубины клюва
100
Параметрические оценки глубины клюва
100
Проверка гипотезы: Являются ли клювы более глубокими в 2012 году?
100
Разновидности формы клюва
50
EDA длины и глубины клюва
100
Линейные регрессии
100
Отображение результатов линейной регрессии
100
Отношение длины клюва к глубине
100
Насколько отличается соотношение?
100
Расчет наследственности
100
EDA наследственности
100
Корреляция данных о потомстве и родителях
100
Корреляция Пирсона между данными потомства и родительскими
100
Измерение наследственности
100
Является глубина клюва наследственной у G. scandens?
100
Заключительные размышления
50