Вложения — это сжатые представления описаний каких-то фактов.
Хороший пример — это нейросети-автокодировщики. Они берут исходное описание, сжимают его слоями до вектора чисел заданной размерности, а потом в обратную сторону — выдают (пытаются) всё свой же вход.
Казалось бы какая невидаль, но нет, погодите. То что сжатие есть, это не только означает что какая-то информация в исходном описании лишняя. Нейросети с каждым слоем все более наводят корреляцию до выхода.
Раз вектор коррелирует с фактом, будучи обученным на множестве примеров, автокодировщик понимает и их структуру, самого процесса генерации данных. Вкратце, не только убирает лишнее с точки зрения описания, но и с точки зрения устройства набора фактов.
Это хорошо, когда факты идут всегда из каких-то ситуаций, более-менее однородных. Одинаково распределённых. Это основной случай.
Чем это лучше какого-нибудь архиватора, вопрос, ну например фиксированной длиной описания, хоть и с потерей качества.
Поскольку слои нелинейны, взаимодействие признаков внутри самих фактов тоже учитывается.
Желаемое свойство кодированных представлений — наличие семантической структуры у вложений, когда схожие объекты имеют близкое расстояние. Так, схожие по оригинальной конструкции факты, имеют некоторое (линейное) отношение на вложениях и наоборот.
Круто, про какие факты речь?
Предложения, или изображения, или табличные факты. Заменяя какую-то маленькую деталь, мы получим близкое вложение.
Избыточность, восстанавливаемая взаимосвязями, означает что сколько ни живописуй ситуации, полезного с точки зрения дальнейших действий смысла в них не всегда так уж и много
Дашборд Вселенной был бы как автомобиль — две-три педали, рычаг и руль. Это не 100% информация.
«Непрерывная классификация» процессов с точки зрения баланса богатства описания против простоты преобразования — предмет восстановления моделью. Сложнее и точнее модель — меньше влияние разнообразия.
Когда-то давным давно, два года назад… я что-то подобное смотрел — автокодировщики — для набора данных траекторий самолётов. Они, траектории, разбиваются на части при деформации вложений, то есть кодирование потеряло факт их непрерывности как феномена.
Тут правда еще и выбор способа измерять расстояние играет роль.
Факт непрерывности потерян был в том числе и из-за выбора типа функции ошибки — как для классификации, а не для регрессии.
То есть это плохое кодирование. При обучении можно было (и нужно было) налагать штраф на разрывы. А так, кодировщик понял все не как траектории, а как картинки. А теперь внимание, интуиция, мы нашли пространство сжатия, и в нем переход от одного кодированного представления к другому происходит скачками, то есть с точки зрения такого (избыточного) моделирования, несуществующие траектории это существующие картинки (мы же их видим), и это значит что потенциальных фактов запредельно больше, чем их существует реальных в природе. Можно же сколько угодно учить так-себе-кодировщики.
И описание структуры в формате ограничений позволяет улучшить результаты, именно поэтому частные модели лучше общих.