Вот «до» или «после» или «с» и «без»? Почему это correlation does not imply causation и количество пиратов влияет на глобальное потепление?
Распутываем
После того, все же не вследствие того. Но и ставить вопросы как «до» и «после» принципиально неверно, и так не делается ни в оценке реальных инвестиций (например), ни в том числе в машинном обучении.
В последнем проверяют, лучше ли с конкретным признаком, или нет. Корреляция вообще токсичный концепт для практики, это всего лишь число (статистика — это функция выборки).
То есть пусть существует прогноз с пиратами, и прогноз без учёта пиратов. Если с пиратами лучше — это не значит что именно в пиратах дело тупо. Модели принципиально не догадываются изначально, чем занимаются пираты.
Утверждают, что вот развитие технологий общий драйвер пиратских историй и глобального потепления.
Нет, это ловушка. Просто число пиратов хороший опосредованный маркер — до тех пор, пока пиратов не начинают трогать (или шлепаное это глобальное потепление).
Короче нельзя смешивать математику с бытовой логикой.
Любая модель, машинного ли обучения или неважно, оперирует системой понятий, вложенной в нее создателем.
Сценарии
Делая прогноз, мы же не рассуждаем в виде «после еще сотни пиратов в моем городе апельсины зацветут». Рассуждаем как «если добавить сто пиратов, апельсины зацветут». И тут просится, «а если не добавлять, зацветут?»
Если да, то потому что… потеплеет. А потеплеет потому что… ну выбросы, которых тем больше, чем лучше экономика, больше возят грузов… в пиратах тоже можно измерять. Кроссвалидируем.
Не экстраполируется?
Только потому что не все факторы учтены и их взаимодействие. Можно ли? Старайтесь.
И что самое интересное. Все любят ARIMA — которая про корреляции by design. А вот сетки, которые как раз находят слоями систему корреляций — что-то ругают за неинтерпретируемость.
Ну ок, делайте ручных Коббов-Дугласов, калибруйте, если ошибка устраивает.
Не ищите объяснений у нейросеток, они умнее нас
они повидали всякого
Один комментарий на «“Post hoc ergo propter hoc”»
Всё это вольное понимание причинности по Грейнджеру. С которой я тоже не согласен 🙂