چرا lstm گرادیان ناپدید را حل می کند؟

فهرست مطالب:

چرا lstm گرادیان ناپدید را حل می کند؟
چرا lstm گرادیان ناپدید را حل می کند؟

تصویری: چرا lstm گرادیان ناپدید را حل می کند؟

تصویری: چرا lstm گرادیان ناپدید را حل می کند؟
تصویری: شبکه های عصبی مکرر LSTM و ناپدید شدن و انفجار گرادیان - یادگیری ماشینی سرگرم کننده و آسان 2024, اکتبر
Anonim

LSTM با استفاده از یک ساختار گرادیان افزودنی منحصربه‌فرد مشکل را حل می‌کند که شامل دسترسی مستقیم به فعال‌سازی‌های دروازه فراموشی است و شبکه را قادر می‌سازد تا رفتار دلخواه را از گرادیان خطا با استفاده از به‌روزرسانی مکرر گیت تشویق کند. در هر مرحله زمانی از فرآیند یادگیری.

چگونه LSTM گرادیان انفجاری را حل می کند؟

یک پاسخ بسیار کوتاه: LSTM حالت سلول (معمولاً با c نشان داده می شود) و لایه/خروجی پنهان (معمولاً با h نشان داده می شود) را جدا می کند و فقط به روز رسانی های افزودنی را برای c انجام می دهد که باعث پایداری حافظه در c می شود. بنابراین، گرادیان جریان از طریق c حفظ می شود و به سختی ناپدید می شود (بنابراین شیب کلی به سختی محو می شود).

چگونه مشکل گرادیان ناپدید شدن را می توان حل کرد؟

راه حل های

: ساده ترین راه حل این است که از توابع فعال سازی دیگراستفاده کنید، مانند ReLU، که مشتق کوچکی ایجاد نمی کند. شبکه های باقیمانده راه حل دیگری هستند، زیرا اتصالات باقی مانده را مستقیماً به لایه های قبلی ارائه می دهند.

LSTM چه مشکلی را حل می کند؟

LSTMs. LSTM (کوتاه برای حافظه کوتاه مدت بلند مدت) در درجه اول مسئله گرادیان ناپدید شدن در پس انتشار را حل می کند. LSTM ها از مکانیزم دروازه ای استفاده می کنند که فرآیند یادداشت را کنترل می کند. اطلاعات موجود در LSTM ها را می توان از طریق دروازه هایی که باز و بسته می شوند ذخیره، نوشت یا خواند.

چرا LSTM ها شیب های شما را از ناپدید شدن نمایی از گذرگاه به عقب باز می دارند؟

دلیل این امر این است که، برای اعمال این جریان خطای ثابت ، محاسبه گرادیان کوتاه شد تا به دروازه ورودی یا نامزد بازنگردد.

توصیه شده: