چرا lstm گرادیان ناپدید را حل می کند؟

2024 نویسنده: Fiona Howard | [email protected]. آخرین اصلاح شده: 2024-01-10 06:36

LSTM با استفاده از یک ساختار گرادیان افزودنی منحصربه‌فرد مشکل را حل می‌کند که شامل دسترسی مستقیم به فعال‌سازی‌های دروازه فراموشی است و شبکه را قادر می‌سازد تا رفتار دلخواه را از گرادیان خطا با استفاده از به‌روزرسانی مکرر گیت تشویق کند. در هر مرحله زمانی از فرآیند یادگیری.

چگونه LSTM گرادیان انفجاری را حل می کند؟

یک پاسخ بسیار کوتاه: LSTM حالت سلول (معمولاً با c نشان داده می شود) و لایه/خروجی پنهان (معمولاً با h نشان داده می شود) را جدا می کند و فقط به روز رسانی های افزودنی را برای c انجام می دهد که باعث پایداری حافظه در c می شود. بنابراین، گرادیان جریان از طریق c حفظ می شود و به سختی ناپدید می شود (بنابراین شیب کلی به سختی محو می شود).

چگونه مشکل گرادیان ناپدید شدن را می توان حل کرد؟

راه حل های

: ساده ترین راه حل این است که از توابع فعال سازی دیگراستفاده کنید، مانند ReLU، که مشتق کوچکی ایجاد نمی کند. شبکه های باقیمانده راه حل دیگری هستند، زیرا اتصالات باقی مانده را مستقیماً به لایه های قبلی ارائه می دهند.

LSTM چه مشکلی را حل می کند؟

LSTMs. LSTM (کوتاه برای حافظه کوتاه مدت بلند مدت) در درجه اول مسئله گرادیان ناپدید شدن در پس انتشار را حل می کند. LSTM ها از مکانیزم دروازه ای استفاده می کنند که فرآیند یادداشت را کنترل می کند. اطلاعات موجود در LSTM ها را می توان از طریق دروازه هایی که باز و بسته می شوند ذخیره، نوشت یا خواند.