Effect size простыми словами

Проверь себя · 1/3разбор после ответа
Что вернёт запрос SELECT COUNT(DISTINCT user_id) FROM orders, если у некоторых пользователей несколько заказов?

Зачем это знать

«p < 0.05» не значит «эффект практически важен». С выборкой в миллион почти любая разница будет статистически значима. Но прибавка 0.01 п.п. к конверсии при гигантских затратах на фичу — нерентабельна. Effect size измеряет практическую значимость, а не только статистическую.

На собесе middle+ аналитика часто спрашивают: «p < 0.05, что дальше?». Правильный ответ: «посмотрю effect size». Без этого — ответ джуна.

В статье:

  • Что такое effect size.
  • Cohen's d для сравнения средних.
  • Phi / Cramér's V для категориальных данных.
  • Когда значимо, но эффект маленький.
  • Когда эффект большой, но не значимо.

Короткое объяснение

Effect size — мера «величины» эффекта. Отвечает на вопрос «насколько большая разница», в отличие от p-value, который говорит «есть ли вообще разница».

Cohen's d

Для сравнения средних:

d = (mean1 − mean2) / pooled_std

Интерпретация Cohen's:

  • d = 0.2: small
  • d = 0.5: medium
  • d = 0.8: large

Пример

A/B-тест. Control mean = 100, test mean = 105. Pooled std = 20.

d = (105 − 100) / 20 = 0.25

Small effect.

В Python:

import numpy as np
from numpy import mean, std

def cohens_d(x, y):
    nx, ny = len(x), len(y)
    dof = nx + ny - 2
    pooled_std = np.sqrt(((nx-1)*std(x)**2 + (ny-1)*std(y)**2) / dof)
    return (mean(x) - mean(y)) / pooled_std

Другие effect sizes

Hedge's g

Скорректированный Cohen's d для маленьких выборок.

Pearson's r

Корреляция — effect size для связи двух переменных.

Odds ratio

В классификации и медицине. OR = 2 → «в 2 раза больше шанс».

Eta-squared / η²

Для ANOVA. Доля объяснённой дисперсии.

Cramér's V

Для категориальных × категориальных. От 0 до 1.

Cliff's delta

Непараметрический. Для распределений с тяжёлыми хвостами.

p-value vs effect size

|               Маленький          Большой
p < 0.05     |  Значимо,           Значимо и
             |  но не важно        важно
p > 0.05     |  Не значимо,        Не значимо,
             |  не важно           возможно мощности не хватило

Сценарий 1: p < 0.05, d = 0.05. Статистически значимо, но эффект так мал, что не стоит внедрять.

Сценарий 2: p = 0.12, d = 0.6. Не значимо, но эффект большой. Возможно, нужно больше данных (низкая мощность).

Готовься к собесу аналитика как в Duolingo
10 минут в день — SQL, Python, A/B, метрики. 1700+ вопросов в Telegram
Открыть Карьерник в Telegram

В A/B-тестах

MDE (Minimum Detectable Effect)

Вместо Cohen's d часто используют относительный эффект — например «+5% к CR». Это и есть MDE.

n ∝ 1 / MDE²

Определяете заранее, какой effect size важен → сколько выборки нужно.

Пример

Хочу задетектить +1 п.п. к CR (с 10% до 11%). Это мой MDE. Power analysis даст N.

Практическая значимость

«Practical significance» — другое название для effect size.

Конверсия А: 10.0%
Конверсия Б: 10.1%
p-value: 0.03 (значимо)
Effect size (lift): +1% относительный

Стоит ли катить? Зависит от:

  • Стоимости внедрения.
  • Масштаба (1% от миллиарда = много).
  • Риска для других метрик.

На собесе

«Чем effect size отличается от p?» P — статистическая значимость. Effect size — практическая.

«Что такое Cohen's d?» Стандартизованная разница средних.

«Когда effect size важнее?» Большая выборка, маленькие эффекты. Или наоборот — маленькая выборка с видимым лифтом.

«MDE — это effect size?» Да, это effect size, который вы хотите задетектить.

Частые ошибки

1. Только p-value

«Значимо» без effect size → может быть тривиально.

2. Только effect size

«Большой эффект» на маленькой выборке → может быть шум.

3. Игнорировать доверительный интервал

CI показывает диапазон эффекта. Узкий — точно. Широкий — нужно больше данных.

4. Сравнивать effect sizes разных методов

Cohen's d ≠ Pearson's r ≠ Cramér's V — разные шкалы.

5. Путать абсолютный и относительный эффект

«+1%» может значить +1 п.п. (с 10 до 11) или +1% относительных (с 10 до 10.1). Разница в 10 раз — уточняйте всегда.

Связанные темы

FAQ

Cohen's d подходит для ненормальных данных?

Лучше Cliff's delta или effect size на базе bootstrap.

Правило 0.2/0.5/0.8 строгое?

Нет, это ориентир. Контекст имеет значение.

Effect size в процентах?

Если говорим про lift — да. Абсолютный (п.п.) или относительный (%) — уточняйте всегда.

Доверительный интервал для effect size?

Да, обязательно. d = 0.3 [95% CI: 0.1, 0.5].