Logo hr.boatexistence.com

Zašto lstm rješava gradijent koji nestaje?

Sadržaj:

Zašto lstm rješava gradijent koji nestaje?
Zašto lstm rješava gradijent koji nestaje?

Video: Zašto lstm rješava gradijent koji nestaje?

Video: Zašto lstm rješava gradijent koji nestaje?
Video: ML/AI Split #4: Upoznavanje i rad s TensorFlow.js bibliotekom 2024, Svibanj
Anonim

LSTM-ovi rješavaju problem korištenjem jedinstvene aditivne gradijentne strukture koja uključuje izravan pristup aktivacijama vrata zaboravi, omogućavajući mreži da potiče željeno ponašanje s gradijentom pogreške korištenjem čestih ažuriranja vrata na svakom vremenskom koraku procesa učenja.

Kako LSTM rješava eksplodirajući gradijent?

Vrlo kratak odgovor: LSTM razdvaja stanje ćelije (obično označeno s c) i skriveni sloj/izlaz (obično označeno s h), te samo aditivno ažurira c, što uspomene u c čini stabilnijim. Stoga se gradijent koji teče kroz c zadržava i teško ga je nestati (stoga je cjelokupni gradijent teško nestati).

Kako se problem nestajanja gradijenta može riješiti?

Rješenja: Najjednostavnije rješenje je koristiti druge aktivacijske funkcije, kao što je ReLU, što ne uzrokuje malu izvedenicu. Preostale mreže su još jedno rješenje jer pružaju preostale veze ravno na ranije slojeve.

Koji problem rješava LSTM?

LSTM. LSTM (skraćeno od dugotrajne kratkoročne memorije) prvenstveno rješava problem nestajanja gradijenta u backpropagaciji. LSTM-ovi koriste mehanizam za zatvaranje koji kontrolira proces memorisanja. Informacije u LSTM-ima mogu se pohranjivati, pisati ili čitati preko vrata koja se otvaraju i zatvaraju.

Zašto LSTM-ovi sprječavaju vaše gradijente da nestanu pogled s prijevoja unatrag?

Razlog za to je zato što je, kako bi se nametnuo ovaj konstantni protok pogrešaka, izračun gradijenta skraćen kako se ne bi vraćao na ulazna ili kandidatska vrata.

Preporučeni: