LSTM решают проблему с помощью уникальной структуры аддитивного градиента, которая включает прямой доступ к активациям шлюзов забвения, позволяя сети поощрять желаемое поведение из градиента ошибок с помощью частого обновления шлюзов. на каждом временном шаге процесса обучения.
Как LSTM решает проблему взрывающегося градиента?
Очень короткий ответ: LSTM разделяет состояние ячейки (обычно обозначается c) и скрытый слой/выход (обычно обозначается h) и выполняет только аддитивные обновления для c, что делает память в c более стабильной. Таким образом, градиентные потоки через c сохраняются и трудно исчезают (следовательно, общий градиент трудно обращается в нуль).
Как решить проблему исчезающего градиента?
Решения: Самое простое решение - использовать другие функции активации, такие как ReLU, которые не вызывают малую производную. Остаточные сети - еще одно решение, так как они обеспечивают остаточные соединения прямо с более ранними уровнями.
Какую проблему решает LSTM?
LSTM. LSTM (сокращение от длинной кратковременной памяти) в первую очередь решает проблему исчезающего градиента при обратном распространении. LSTM используют механизм стробирования, который контролирует процесс запоминания. Информацию в LSTM можно хранить, записывать или читать через ворота, которые открываются и закрываются.
Почему LSTM не дают вашим градиентам исчезнуть из представления при обратном проходе?
Причина этого в том, что, чтобы обеспечить этот постоянный поток ошибок, вычисление градиента было усечено, чтобы не возвращаться к входным или потенциальным вентилям..