Почему lstm решает исчезающий градиент?

Оглавление:

Почему lstm решает исчезающий градиент?
Почему lstm решает исчезающий градиент?

Видео: Почему lstm решает исчезающий градиент?

Видео: Почему lstm решает исчезающий градиент?
Видео: Лекция 6. Рекуррентные нейронные сети 2024, Октября
Anonim

LSTM решают проблему с помощью уникальной структуры аддитивного градиента, которая включает прямой доступ к активациям шлюзов забвения, позволяя сети поощрять желаемое поведение из градиента ошибок с помощью частого обновления шлюзов. на каждом временном шаге процесса обучения.

Как LSTM решает проблему взрывающегося градиента?

Очень короткий ответ: LSTM разделяет состояние ячейки (обычно обозначается c) и скрытый слой/выход (обычно обозначается h) и выполняет только аддитивные обновления для c, что делает память в c более стабильной. Таким образом, градиентные потоки через c сохраняются и трудно исчезают (следовательно, общий градиент трудно обращается в нуль).

Как решить проблему исчезающего градиента?

Решения: Самое простое решение - использовать другие функции активации, такие как ReLU, которые не вызывают малую производную. Остаточные сети - еще одно решение, так как они обеспечивают остаточные соединения прямо с более ранними уровнями.

Какую проблему решает LSTM?

LSTM. LSTM (сокращение от длинной кратковременной памяти) в первую очередь решает проблему исчезающего градиента при обратном распространении. LSTM используют механизм стробирования, который контролирует процесс запоминания. Информацию в LSTM можно хранить, записывать или читать через ворота, которые открываются и закрываются.

Почему LSTM не дают вашим градиентам исчезнуть из представления при обратном проходе?

Причина этого в том, что, чтобы обеспечить этот постоянный поток ошибок, вычисление градиента было усечено, чтобы не возвращаться к входным или потенциальным вентилям..

Рекомендуемые: