Все знают про ошибку смещения — это когда кучно, но не в цель, ошибку разброса — когда в цель, но не кучно, но есть в случае прогнозов и неустранимая ошибка.
Отклонения
Систематической ошибки нет, когда данные полны абсолютно, оно же сгенерированы некоторой формулой — которую можно раскрутить в обратную сторону из данных.
Стоит интересующему сигналу начинать объясняться не всегда (а так всегда) — любая модель при подборе параметров будет воспринимать отклонения как должное:
- Воспринимать часть шума как сигнал, несмотря на данные,
- Отклоняться в прогнозах на меру своего некорректного восприятия.
Для того чтобы это происходило, достаточно потенциальной ситуации, когда один случай можно обозначить разными правильными ответами.
Ситуация может быть и не потенциальной.
Что делать
Модели нужно улучшать, специфицировать штрафы, эвристики, ограничения, регуляризовывать короче. В том числе увеличением числа данных.
А когда уже выжал всё — смириться с несовершенством и потенциальным риском (равным вероятности умножить на ущерб). Подстраховаться:
- не отдавать в модели последнее,
- следить за данными, чтобы они на входе/выходе были похожи на те, на которых модель обучалась,
- иметь контрольные признаки чего-то плохого,
- не отпускать A/B/C/… группы, подруливая их размер (хоть многорукими бандитами, хоть обучением с подкреплением на синтетических данных).
Я вообще думаю, что мы уже привыкли к ошибкам в моделях, но все равно ожидания завышены. Тем не менее польза даже от немного качественной модели выше пользы чем без модели.
А в важных случаях нужно не забывать про интуицию в дополнение к аналитике. Мозг человека еще ни одна модель не переплюнула в большинстве задач.