Шпаргалка по статистике для аналитика

Проверь себя · 1/3разбор после ответа
P90 времени на сайте равен 12 минутам. Как это интерпретировать?

Описательная статистика

Меры центра

  • Среднее — арифметическое. Чувствительно к выбросам.
  • Медиана — серединное значение. Устойчива к выбросам.
  • Мода — наиболее частое значение.

Меры разброса

  • Дисперсия (σ²) — среднее квадратов отклонений от среднего.
  • Стандартное отклонение (σ) — корень из дисперсии, в тех же единицах, что и данные.
  • Межквартильный размах (IQR) — Q3 − Q1, устойчив к выбросам.

Форма распределения

  • Асимметрия (skewness) — насколько распределение сдвинуто вбок.
  • Эксцесс (kurtosis) — насколько «тяжёлые» хвосты.

Распределения

  • Нормальное — колоколообразное, параметры μ и σ. Правило 68–95–99,7%.
  • Бернулли — одно бинарное испытание с вероятностью успеха p.
  • Биномиальное — число успехов в n независимых Bernoulli, среднее np.
  • Пуассона — число событий за интервал при постоянной интенсивности λ; среднее и дисперсия равны λ.
  • Экспоненциальное — время между событиями в пуассоновском процессе.
  • Логнормальное — логарифм распределён нормально; тяжёлый правый хвост (доходы, длительности).
  • Равномерное — все значения в диапазоне одинаково вероятны.

Вероятность

Условная вероятность

P(A | B) = P(A ∩ B) / P(B)

Формула Байеса

P(A | B) = P(B | A) × P(A) / P(B)

Независимость

P(A ∩ B) = P(A) × P(B)

Выборка и теоремы

  • Центральная предельная теорема. Распределение выборочного среднего стремится к нормальному с ростом n, независимо от исходного распределения (при конечной дисперсии).
  • Закон больших чисел. Выборочное среднее сходится к теоретическому при n → ∞.

Оценки

Точечная оценка

Одно число: среднее, доля.

Доверительный интервал

Диапазон, в котором с заданной вероятностью находится истинный параметр:

CI_95 = оценка ± 1,96 × SE

Проверка гипотез

Шаги

  1. Сформулировать H0 и H1.
  2. Выбрать уровень значимости α (обычно 0,05).
  3. Посчитать статистику критерия.
  4. Сравнить с критическим значением или оценить p-value.
  5. Принять решение.

Ошибки

  • Первого рода (α): отвергнуть верную H0.
  • Второго рода (β): не отвергнуть неверную H0.
  • Мощность: 1 − β, вероятность обнаружить реальный эффект.

Основные критерии

  • t-тест — сравнение средних.
  • z-тест — сравнение средних при известной σ или больших выборках; для долей.
  • χ² — независимость и согласие для категорий.
  • ANOVA — сравнение трёх и более средних.
  • Mann-Whitney — непараметрическая альтернатива t-тесту.
  • Колмогоров-Смирнов — сравнение распределений.
Подготовься к собесу по A/B и статистике
300+ вопросов с разбором: дизайн, размер выборки, p-value, ловушки
Тренировать A/B в Telegram

Корреляция

  • Пирсон — линейная связь, чувствителен к выбросам.
  • Спирмен — ранговая, устойчив к нелинейности.
  • Kendall Tau — альтернативная ранговая мера.

Регрессия

Линейная регрессия

Y = β₀ + β₁ × X + ε

Коэффициент β₁ — средний прирост Y при изменении X на единицу при прочих равных (если условия модели выполнены).

Логистическая регрессия

Моделирует вероятность бинарного исхода через сигмоиду, работает с логарифмом шансов.

Основные предположения линейной регрессии

  • Линейность связи
  • Независимость наблюдений
  • Гомоскедастичность (постоянство дисперсии остатков)
  • Нормальность остатков
  • Отсутствие сильной мультиколлинеарности

Размер эффекта

  • Cohen's d — стандартизированная разность средних.
  • Отношение шансов (odds ratio) — для логистической регрессии и 2×2-таблиц.

Частые ловушки

  • Корреляция не означает причинность.
  • p-hacking: множественные проверки ради значимости.
  • Конфаундеры: неучтённые общие причины искажают оценки.
  • Ошибка выжившего: в выборке остались только «выжившие».
  • Selection bias: нерепрезентативная выборка.
  • Base rate fallacy: игнорирование фоновой вероятности (см. задачи на Байеса).
  • Парадокс Симпсона: тренд в подгруппах противоположен общему.

Быстрая Python-шпаргалка

import numpy as np
from scipy import stats
import statsmodels.api as sm

# сравнение средних
t, p = stats.ttest_ind(a, b)

# сравнение долей
from statsmodels.stats.proportion import proportions_ztest
z, p = proportions_ztest([x1, x2], [n1, n2])

# χ² для независимости
chi2, p, dof, exp = stats.chi2_contingency(table)

# корреляция
r, p = stats.pearsonr(x, y)

# простая регрессия
X = sm.add_constant(X)
model = sm.OLS(y, X).fit()
print(model.summary())

Связанные темы

FAQ

Какие источники стоит прочитать?

  • «OpenIntro Statistics» (свободно доступна онлайн)
  • Курс Harvard Stat110 (есть бесплатное видео)
  • Книга «All of Statistics» Ларри Вассермана

Параметрический или непараметрический критерий?

Если распределение близко к нормальному и/или выборка большая — можно параметрический. Если данные сильно скошены или выборка маленькая — непараметрический безопаснее.

Что важнее: p-value или размер эффекта?

Оба. p-value без размера эффекта можно «нарисовать» на большой выборке, а размер эффекта без оценки значимости может быть шумом.