Шум в сигнале


Все знают про ошибку смещения — это когда кучно, но не в цель, ошибку разброса — когда в цель, но не кучно, но есть в случае прогнозов и неустранимая ошибка.

Отклонения

Систематической ошибки нет, когда данные полны абсолютно, оно же сгенерированы некоторой формулой — которую можно раскрутить в обратную сторону из данных.

Стоит интересующему сигналу начинать объясняться не всегда (а так всегда) — любая модель при подборе параметров будет воспринимать отклонения как должное:

  1. Воспринимать часть шума как сигнал, несмотря на данные,
  2. Отклоняться в прогнозах на меру своего некорректного восприятия.

Для того чтобы это происходило, достаточно потенциальной ситуации, когда один случай можно обозначить разными правильными ответами.

Ситуация может быть и не потенциальной.

Тигр, или собака. Как посмотреть

Что делать

Модели нужно улучшать, специфицировать штрафы, эвристики, ограничения, регуляризовывать короче. В том числе увеличением числа данных.

А когда уже выжал всё — смириться с несовершенством и потенциальным риском (равным вероятности умножить на ущерб). Подстраховаться:

  • не отдавать в модели последнее,
  • следить за данными, чтобы они на входе/выходе были похожи на те, на которых модель обучалась,
  • иметь контрольные признаки чего-то плохого,
  • не отпускать A/B/C/… группы, подруливая их размер (хоть многорукими бандитами, хоть обучением с подкреплением на синтетических данных).

Я вообще думаю, что мы уже привыкли к ошибкам в моделях, но все равно ожидания завышены. Тем не менее польза даже от немного качественной модели выше пользы чем без модели.

А в важных случаях нужно не забывать про интуицию в дополнение к аналитике. Мозг человека еще ни одна модель не переплюнула в большинстве задач.


Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *