Статистика 1
В нашем курсе вы начнете строить фундамент, необходимый вам для статистического мышления.
Преподаватель
Екатерина Герц
Практикующий Fullstack разработчик: Python, JavaScript, React, Node.js
4часа
18видео
43упражнения
4550опыта
Описание курсаПосле всей тяжелой работы по сбору данных и приведению их в работоспособный вид, вы захотите по ним сделать четкие, краткие выводы. Этот решающий последний шаг для анализа данных зависит от принципов статистического вывода. В нашем курсе вы начнете строить фундамент, необходимый вам для статистического мышления, говорить на языке ваших данных и понимать, что говорят вам ваши данные. На создание основ статистического мышления ушли десятилетия, но сегодня с помощью компьютеров их можно постичь гораздо быстрее. Благодаря возможностям инструментов на основе Python вы быстро освоитесь и начнете мыслить статистически к концу этого курса.
1. Графический разведочный анализ данных (EDA)
Прежде чем углубляться в сложные методы статистического вывода, вы должны сначала изучить свои данные, построив на основе них график и вычислив простую сводную статистику. Этот процесс, называемый предварительным анализом данных, является важным первым шагом в статистическом анализе данных.
Введение в разведочный анализ данных
50
Цитаты Джона Тьюки о EDA
50
Преимущество графического EDA
50
Построение гистограммы
50
Строим гистограмму по данным об ирисах
100
Добавим подписи к осям!
100
Настроим количество ячеек в гистограмме
100
Выведем на график все наши данные с помощью функции .swarmplot()
50
Строим график пчелиного роя при помощи функции .swarmplot()
100
Интерпретируем график пчелиного роя
50
Выведем на график все наши данные с помощью эмпирической кумулятивной функции распределения (ECDF)
50
Вычислим ECDF
100
Построим график ECDF для длин лепестков ириса Андерсона
100
Сравним распределения длин лепестков нескольких видов ирисов при помощи ECDF
100
Вперед, к новым свершениям!
50
2. Количественный разведочный анализ данных
В этой главе вы вычислите полезную сводную статистику для краткого описания основных характеристик датасета с помощью нескольких чисел.Введение в сводную статистику: среднее арифметическое и медиана.
50
Средние арифметическое и медианы
50
Вычислим среднее арифметическое
100
Процентили, выбросы и "Ящик с усами"
50
Вычислим процентили
100
Сравним процентили с ECDF
100
Построим график "Ящик с усами"
100
Дисперсия и стандартное отклонение
50
Вычислим дисперсию
100
Вычислим стандартное отклонение и дисперсию
100
Ковариация и коэффициент корреляции Пирсона
50
Строим диаграмму рассеяния
100
Рассмотрим дисперсию и ковариацию
50
Вычислим ковариацию
100
Вычислим коэффициент корреляции Пирсона
100
3. Вероятностное мышление и дискретные переменные
Статистический вывод основывается на вероятности. Поскольку мы очень редко можем сказать что-либо значимое с абсолютной уверенностью на основе данных, мы используем вероятностный язык для количественных утверждений о данных. В этой главе вы узнаете, как вероятностно мыслить о дискретных величинах: тех, которые могут принимать только определенные значения, например, целые числа.
Вероятностная логика и статистический вывод
50
Какова конечная цель статистического вывода?
50
Почему нам нужно использовать вероятностный язык?
50
Генераторы случайных чисел и хакерская статистика
50
Генерация случайных чисел с помощью модуля np.random
100
Модуль np.random и испытание Бернулли
100
Какое количество непогашенных кредитов мы можем ожидать?
100
Обанкротится ли банк?
100
Примеры распределения вероятностей: биноминальное распределение
50
Биноминальное распределение из выборки
100
Строим график биноминального PMF
100
Пуассоновские процессы и распределение Пуассона
50
Взаимосвязь между биноминальным и пуассоновским распределениями
100
Какое распределение вероятностей подходит лучше?
50
Был ли 2015 год аномальным?
100
4. Вероятностное мышление и непрерывные переменные
Пришло время перейти к непрерывным переменным, таким как те, которые могут принимать любое дробное значение. Многие принципы те же, но есть некоторые тонкости. В конце этой заключительной главы вы будете говорить на вероятностном языке, который вам нужен, чтобы приступить к методам вывода, описанным в продолжении этого курса.
Функция плотности вероятности
50
Интерпретация PDF
50
Интерпретация CDF
50
Введение в Нормальное распределение
50
Нормальное распределение с PDF
100
Нормальное распределение с CDF
100
Нормальное распределение: свойства и предостережения
50
Гаусс и купюра в 10 немецких марок
50
Строим график нормального распределения для конных скачек
100
Определяем вероятность появления нового рекорда на скачках
100
Экспоненциальное распределение
50
Сопоставим распределение событий во времени
50
Ждем появления нового рекорда на скачках
50
Если у вас есть история, вы можете смоделировать её!
100
Распределение ноу-хиттеров и циклов
100
Последние размышления
50