23 апреля 2026 г.·4 мин чтения

Шпаргалка по статистике для аналитика

Q: Какие источники стоит прочитать?

- «OpenIntro Statistics» (свободно доступна онлайн) - Курс Harvard Stat110 (есть бесплатное видео) - Книга «All of Statistics» Ларри Вассермана

Проверь себя · 1/3разбор после ответа

У вас два сценария: (1) критичное решение по безопасности, (2) поиск идей среди 50 метрик для следующего спринта. Какое сочетание контроля ошибок чаще всего разумно?

Описательная статистика

Меры центра

Среднее — арифметическое. Чувствительно к выбросам.
Медиана — серединное значение. Устойчива к выбросам.
Мода — наиболее частое значение.

Меры разброса

Дисперсия (σ²) — среднее квадратов отклонений от среднего.
Стандартное отклонение (σ) — корень из дисперсии, в тех же единицах, что и данные.
Межквартильный размах (IQR) — Q3 − Q1, устойчив к выбросам.

Форма распределения

Асимметрия (skewness) — насколько распределение сдвинуто вбок.
Эксцесс (kurtosis) — насколько «тяжёлые» хвосты.

Распределения

Нормальное — колоколообразное, параметры μ и σ. Правило 68–95–99,7%.
Бернулли — одно бинарное испытание с вероятностью успеха p.
Биномиальное — число успехов в n независимых Bernoulli, среднее np.
Пуассона — число событий за интервал при постоянной интенсивности λ; среднее и дисперсия равны λ.
Экспоненциальное — время между событиями в пуассоновском процессе.
Логнормальное — логарифм распределён нормально; тяжёлый правый хвост (доходы, длительности).
Равномерное — все значения в диапазоне одинаково вероятны.

Вероятность

Условная вероятность

P(A | B) = P(A ∩ B) / P(B)

Формула Байеса

P(A | B) = P(B | A) × P(A) / P(B)

Независимость

P(A ∩ B) = P(A) × P(B)

Выборка и теоремы

Центральная предельная теорема. Распределение выборочного среднего стремится к нормальному с ростом n, независимо от исходного распределения (при конечной дисперсии).
Закон больших чисел. Выборочное среднее сходится к теоретическому при n → ∞.

Оценки

Точечная оценка

Одно число: среднее, доля.

Доверительный интервал

Диапазон, в котором с заданной вероятностью находится истинный параметр:

CI_95 = оценка ± 1,96 × SE

Проверка гипотез

Шаги

Сформулировать H0 и H1.
Выбрать уровень значимости α (обычно 0,05).
Посчитать статистику критерия.
Сравнить с критическим значением или оценить p-value.
Принять решение.

Ошибки

Первого рода (α): отвергнуть верную H0.
Второго рода (β): не отвергнуть неверную H0.
Мощность: 1 − β, вероятность обнаружить реальный эффект.

Основные критерии

t-тест — сравнение средних.
z-тест — сравнение средних при известной σ или больших выборках; для долей.
χ² — независимость и согласие для категорий.
ANOVA — сравнение трёх и более средних.
Mann-Whitney — непараметрическая альтернатива t-тесту.
Колмогоров-Смирнов — сравнение распределений.

Подготовься к собесу по A/B и статистике

300+ вопросов с разбором: дизайн, размер выборки, p-value, ловушки

Тренировать A/B в Telegram

Корреляция

Пирсон — линейная связь, чувствителен к выбросам.
Спирмен — ранговая, устойчив к нелинейности.
Kendall Tau — альтернативная ранговая мера.

Регрессия

Линейная регрессия

Y = β₀ + β₁ × X + ε

Коэффициент β₁ — средний прирост Y при изменении X на единицу при прочих равных (если условия модели выполнены).

Логистическая регрессия

Моделирует вероятность бинарного исхода через сигмоиду, работает с логарифмом шансов.

Основные предположения линейной регрессии

Линейность связи
Независимость наблюдений
Гомоскедастичность (постоянство дисперсии остатков)
Нормальность остатков
Отсутствие сильной мультиколлинеарности

Размер эффекта

Cohen's d — стандартизированная разность средних.
Отношение шансов (odds ratio) — для логистической регрессии и 2×2-таблиц.

Частые ловушки

Корреляция не означает причинность.
p-hacking: множественные проверки ради значимости.
Конфаундеры: неучтённые общие причины искажают оценки.
Ошибка выжившего: в выборке остались только «выжившие».
Selection bias: нерепрезентативная выборка.
Base rate fallacy: игнорирование фоновой вероятности (см. задачи на Байеса).
Парадокс Симпсона: тренд в подгруппах противоположен общему.

Быстрая Python-шпаргалка

import numpy as np
from scipy import stats
import statsmodels.api as sm

# сравнение средних
t, p = stats.ttest_ind(a, b)

# сравнение долей
from statsmodels.stats.proportion import proportions_ztest
z, p = proportions_ztest([x1, x2], [n1, n2])

# χ² для независимости
chi2, p, dof, exp = stats.chi2_contingency(table)

# корреляция
r, p = stats.pearsonr(x, y)

# простая регрессия
X = sm.add_constant(X)
model = sm.OLS(y, X).fit()
print(model.summary())

Связанные темы

FAQ

Какие источники стоит прочитать?

«OpenIntro Statistics» (свободно доступна онлайн)
Курс Harvard Stat110 (есть бесплатное видео)
Книга «All of Statistics» Ларри Вассермана

Параметрический или непараметрический критерий?

Если распределение близко к нормальному и/или выборка большая — можно параметрический. Если данные сильно скошены или выборка маленькая — непараметрический безопаснее.

Что важнее: p-value или размер эффекта?

Оба. p-value без размера эффекта можно «нарисовать» на большой выборке, а размер эффекта без оценки значимости может быть шумом.