Шпаргалка по статистике для аналитика
Проверь себя · 1/3разбор после ответа
P90 времени на сайте равен 12 минутам. Как это интерпретировать?
Описательная статистика
Меры центра
- Среднее — арифметическое. Чувствительно к выбросам.
- Медиана — серединное значение. Устойчива к выбросам.
- Мода — наиболее частое значение.
Меры разброса
- Дисперсия (σ²) — среднее квадратов отклонений от среднего.
- Стандартное отклонение (σ) — корень из дисперсии, в тех же единицах, что и данные.
- Межквартильный размах (IQR) — Q3 − Q1, устойчив к выбросам.
Форма распределения
- Асимметрия (skewness) — насколько распределение сдвинуто вбок.
- Эксцесс (kurtosis) — насколько «тяжёлые» хвосты.
Распределения
- Нормальное — колоколообразное, параметры μ и σ. Правило 68–95–99,7%.
- Бернулли — одно бинарное испытание с вероятностью успеха p.
- Биномиальное — число успехов в n независимых Bernoulli, среднее np.
- Пуассона — число событий за интервал при постоянной интенсивности λ; среднее и дисперсия равны λ.
- Экспоненциальное — время между событиями в пуассоновском процессе.
- Логнормальное — логарифм распределён нормально; тяжёлый правый хвост (доходы, длительности).
- Равномерное — все значения в диапазоне одинаково вероятны.
Вероятность
Условная вероятность
P(A | B) = P(A ∩ B) / P(B)
Формула Байеса
P(A | B) = P(B | A) × P(A) / P(B)
Независимость
P(A ∩ B) = P(A) × P(B)
Выборка и теоремы
- Центральная предельная теорема. Распределение выборочного среднего стремится к нормальному с ростом n, независимо от исходного распределения (при конечной дисперсии).
- Закон больших чисел. Выборочное среднее сходится к теоретическому при n → ∞.
Оценки
Точечная оценка
Одно число: среднее, доля.
Доверительный интервал
Диапазон, в котором с заданной вероятностью находится истинный параметр:
CI_95 = оценка ± 1,96 × SEПроверка гипотез
Шаги
- Сформулировать H0 и H1.
- Выбрать уровень значимости α (обычно 0,05).
- Посчитать статистику критерия.
- Сравнить с критическим значением или оценить p-value.
- Принять решение.
Ошибки
- Первого рода (α): отвергнуть верную H0.
- Второго рода (β): не отвергнуть неверную H0.
- Мощность: 1 − β, вероятность обнаружить реальный эффект.
Основные критерии
- t-тест — сравнение средних.
- z-тест — сравнение средних при известной σ или больших выборках; для долей.
- χ² — независимость и согласие для категорий.
- ANOVA — сравнение трёх и более средних.
- Mann-Whitney — непараметрическая альтернатива t-тесту.
- Колмогоров-Смирнов — сравнение распределений.
Подготовься к собесу по A/B и статистике
300+ вопросов с разбором: дизайн, размер выборки, p-value, ловушки
Корреляция
- Пирсон — линейная связь, чувствителен к выбросам.
- Спирмен — ранговая, устойчив к нелинейности.
- Kendall Tau — альтернативная ранговая мера.
Регрессия
Линейная регрессия
Y = β₀ + β₁ × X + εКоэффициент β₁ — средний прирост Y при изменении X на единицу при прочих равных (если условия модели выполнены).
Логистическая регрессия
Моделирует вероятность бинарного исхода через сигмоиду, работает с логарифмом шансов.
Основные предположения линейной регрессии
- Линейность связи
- Независимость наблюдений
- Гомоскедастичность (постоянство дисперсии остатков)
- Нормальность остатков
- Отсутствие сильной мультиколлинеарности
Размер эффекта
- Cohen's d — стандартизированная разность средних.
- Отношение шансов (odds ratio) — для логистической регрессии и 2×2-таблиц.
Частые ловушки
- Корреляция не означает причинность.
- p-hacking: множественные проверки ради значимости.
- Конфаундеры: неучтённые общие причины искажают оценки.
- Ошибка выжившего: в выборке остались только «выжившие».
- Selection bias: нерепрезентативная выборка.
- Base rate fallacy: игнорирование фоновой вероятности (см. задачи на Байеса).
- Парадокс Симпсона: тренд в подгруппах противоположен общему.
Быстрая Python-шпаргалка
import numpy as np
from scipy import stats
import statsmodels.api as sm
# сравнение средних
t, p = stats.ttest_ind(a, b)
# сравнение долей
from statsmodels.stats.proportion import proportions_ztest
z, p = proportions_ztest([x1, x2], [n1, n2])
# χ² для независимости
chi2, p, dof, exp = stats.chi2_contingency(table)
# корреляция
r, p = stats.pearsonr(x, y)
# простая регрессия
X = sm.add_constant(X)
model = sm.OLS(y, X).fit()
print(model.summary())Связанные темы
- p-value простыми словами
- t-test простыми словами
- Нормальное распределение простыми словами
- Центральная предельная теорема простыми словами
- Формула Байеса простыми словами
- Шпаргалка по A/B-тестам
FAQ
Какие источники стоит прочитать?
- «OpenIntro Statistics» (свободно доступна онлайн)
- Курс Harvard Stat110 (есть бесплатное видео)
- Книга «All of Statistics» Ларри Вассермана
Параметрический или непараметрический критерий?
Если распределение близко к нормальному и/или выборка большая — можно параметрический. Если данные сильно скошены или выборка маленькая — непараметрический безопаснее.
Что важнее: p-value или размер эффекта?
Оба. p-value без размера эффекта можно «нарисовать» на большой выборке, а размер эффекта без оценки значимости может быть шумом.