Effect size простыми словами
SELECT COUNT(DISTINCT user_id) FROM orders, если у некоторых пользователей несколько заказов?Содержание:
Зачем это знать
«p < 0.05» не значит «эффект практически важен». С выборкой в миллион почти любая разница будет статистически значима. Но прибавка 0.01 п.п. к конверсии при гигантских затратах на фичу — нерентабельна. Effect size измеряет практическую значимость, а не только статистическую.
На собесе middle+ аналитика часто спрашивают: «p < 0.05, что дальше?». Правильный ответ: «посмотрю effect size». Без этого — ответ джуна.
В статье:
- Что такое effect size.
- Cohen's d для сравнения средних.
- Phi / Cramér's V для категориальных данных.
- Когда значимо, но эффект маленький.
- Когда эффект большой, но не значимо.
Короткое объяснение
Effect size — мера «величины» эффекта. Отвечает на вопрос «насколько большая разница», в отличие от p-value, который говорит «есть ли вообще разница».
Cohen's d
Для сравнения средних:
d = (mean1 − mean2) / pooled_stdИнтерпретация Cohen's:
- d = 0.2: small
- d = 0.5: medium
- d = 0.8: large
Пример
A/B-тест. Control mean = 100, test mean = 105. Pooled std = 20.
d = (105 − 100) / 20 = 0.25Small effect.
В Python:
import numpy as np
from numpy import mean, std
def cohens_d(x, y):
nx, ny = len(x), len(y)
dof = nx + ny - 2
pooled_std = np.sqrt(((nx-1)*std(x)**2 + (ny-1)*std(y)**2) / dof)
return (mean(x) - mean(y)) / pooled_stdДругие effect sizes
Hedge's g
Скорректированный Cohen's d для маленьких выборок.
Pearson's r
Корреляция — effect size для связи двух переменных.
Odds ratio
В классификации и медицине. OR = 2 → «в 2 раза больше шанс».
Eta-squared / η²
Для ANOVA. Доля объяснённой дисперсии.
Cramér's V
Для категориальных × категориальных. От 0 до 1.
Cliff's delta
Непараметрический. Для распределений с тяжёлыми хвостами.
p-value vs effect size
| Маленький Большой
p < 0.05 | Значимо, Значимо и
| но не важно важно
p > 0.05 | Не значимо, Не значимо,
| не важно возможно мощности не хватилоСценарий 1: p < 0.05, d = 0.05. Статистически значимо, но эффект так мал, что не стоит внедрять.
Сценарий 2: p = 0.12, d = 0.6. Не значимо, но эффект большой. Возможно, нужно больше данных (низкая мощность).
В A/B-тестах
MDE (Minimum Detectable Effect)
Вместо Cohen's d часто используют относительный эффект — например «+5% к CR». Это и есть MDE.
n ∝ 1 / MDE²Определяете заранее, какой effect size важен → сколько выборки нужно.
Пример
Хочу задетектить +1 п.п. к CR (с 10% до 11%). Это мой MDE. Power analysis даст N.
Практическая значимость
«Practical significance» — другое название для effect size.
Конверсия А: 10.0%
Конверсия Б: 10.1%
p-value: 0.03 (значимо)
Effect size (lift): +1% относительныйСтоит ли катить? Зависит от:
- Стоимости внедрения.
- Масштаба (1% от миллиарда = много).
- Риска для других метрик.
На собесе
«Чем effect size отличается от p?» P — статистическая значимость. Effect size — практическая.
«Что такое Cohen's d?» Стандартизованная разница средних.
«Когда effect size важнее?» Большая выборка, маленькие эффекты. Или наоборот — маленькая выборка с видимым лифтом.
«MDE — это effect size?» Да, это effect size, который вы хотите задетектить.
Частые ошибки
1. Только p-value
«Значимо» без effect size → может быть тривиально.
2. Только effect size
«Большой эффект» на маленькой выборке → может быть шум.
3. Игнорировать доверительный интервал
CI показывает диапазон эффекта. Узкий — точно. Широкий — нужно больше данных.
4. Сравнивать effect sizes разных методов
Cohen's d ≠ Pearson's r ≠ Cramér's V — разные шкалы.
5. Путать абсолютный и относительный эффект
«+1%» может значить +1 п.п. (с 10 до 11) или +1% относительных (с 10 до 10.1). Разница в 10 раз — уточняйте всегда.
Связанные темы
- P-value простыми словами
- Что такое effect size
- Размер выборки для A/B
- Power analysis простыми словами
FAQ
Cohen's d подходит для ненормальных данных?
Лучше Cliff's delta или effect size на базе bootstrap.
Правило 0.2/0.5/0.8 строгое?
Нет, это ориентир. Контекст имеет значение.
Effect size в процентах?
Если говорим про lift — да. Абсолютный (п.п.) или относительный (%) — уточняйте всегда.
Доверительный интервал для effect size?
Да, обязательно. d = 0.3 [95% CI: 0.1, 0.5].