Экспоненциальное распределение простыми словами
Pearson r между ценой и конверсией равен -0.7. Как это интерпретировать?Содержание:
Зачем это знать
Время до churn пользователя, время между заказами, время ответа API — всё описывается экспоненциальным распределением. Это непрерывный аналог Poisson — если Poisson считает «сколько событий», exponential говорит «через сколько времени».
На собесах middle+ и в survival analysis exponential — базовый строительный блок. Без него нет hazard rate, нет Cox regression.
Короткое объяснение
Exponential(λ) описывает время до первого события в Poisson-процессе со скоростью λ.
Примеры:
- Время до прихода следующего клиента.
- Время жизни лампочки.
- Интервал между покупками.
Формула
PDF (плотность):
f(x) = λ × e^(-λ × x), x ≥ 0CDF:
F(x) = 1 - e^(-λ × x)Вероятность, что событие случится до момента x.
Характеристики
- Среднее: 1 / λ
- Дисперсия: 1 / λ²
- Median: ln(2) / λ ≈ 0.693 / λ
Пример в аналитике
В среднем клиенты приходят каждые 2 минуты → λ = 1/2 = 0.5 клиента в минуту.
Время до следующего клиента — Exp(0.5).
Mean = 2 минуты (как ожидалось).
Memoryless property
Уникальное свойство: прошлое не влияет на будущее.
P(X > t + s | X > s) = P(X > t)Если лампочка живёт в среднем 100 часов (Exp) и проработала уже 50 часов — оставшееся ожидаемое время жизни всё ещё 100 часов.
Это сильное допущение, часто нереалистичное (деградация существует).
В Python
from scipy.stats import expon
import numpy as np
# λ = 1/mean = 1/2
samples = expon.rvs(scale=2, size=1000)
# Вероятность x < 3
expon.cdf(3, scale=2) # ≈ 0.777Связь с Poisson
- Poisson(λ) — сколько событий за интервал.
- Exponential(λ) — время до первого события.
Если N событий в час распределены как Poisson(λ),
то время между ними — Exponential(λ).Использование
Survival analysis
Время до churn:
S(t) = e^(-λ × t)Вероятность дожить до момента t. Exponential — самая простая функция выживаемости.
Теория массового обслуживания
Время ожидания в очереди часто экспоненциальное.
Надёжность
Время до отказа компонента.
Латентность веба
Время ответа часто имеет экспоненциальный хвост.
Hazard rate
Для экспоненциального — постоянный hazard:
h(t) = λ (не зависит от t)Это memoryless property: вероятность «сломаться» одинакова в любой момент.
В Cox regression — обобщение на другие формы hazard.
Оценка параметра
MLE для λ по данным:
λ̂ = 1 / mean(data)Просто.
В A/B-тестах
Время до конверсии — часто экспоненциальное. Для таких метрик:
- Тест на средние не очень надёжен (выбросы сильно влияют).
- Лучше survival analysis или log-rank test.
Частые ошибки
Применять к отрицательным значениям
Экспоненциальное — только для x ≥ 0.
Игнорировать memoryless
Если данные имеют «возраст» (лампочки деградируют) — экспоненциальное не подходит. Используйте Weibull.
Путать exp и log-normal
Оба имеют тяжёлый хвост, но разные формы. Log-normal — не memoryless.
Считать mean по выборке с цензурированием
В survival данных часть наблюдений оборвана в конце периода. Простое среднее занижает реальный mean — нужна survival-оценка.
На собесе
«Что описывает exponential?» Время до события в Poisson-процессе.
«Memoryless что это?» Прошлое не влияет на будущее. Единственное непрерывное с этим свойством.
«Связь с Poisson?» Poisson — count, exponential — intervals.
«Mean и variance?» 1/λ и 1/λ².
Связанные темы
FAQ
Всегда λ > 0?
Да. Иначе распределение не существует.
Альтернативы для time-to-event?
Weibull (гибче), log-normal, gamma.
Где встречается?
Queueing, reliability, survival, latency.