طبق گفته یک دانشمند ارشد داده، یکی از مزایای بارز استفاده از شیب نزولی تصادفی این است که محاسبات را سریعتر از شیب نزول و نزول گرادیان دسته ای انجام می دهد. مجموعه دادههای عظیم، نزول گرادیان تصادفی میتواند سریعتر همگرا شود زیرا بهروزرسانیها را بیشتر انجام میدهد.
Stochastic Gradient Descent برای چه استفاده می شود؟
نزول گرادیان تصادفی یک الگوریتم بهینهسازی است که اغلب از در برنامههای یادگیری ماشین استفاده میشود تا پارامترهای مدلی را پیدا کند که با بهترین تناسب بین خروجیهای پیشبینیشده و واقعی مطابقت دارد این یک تکنیک نادقیق اما قدرتمند است.. نزول گرادیان تصادفی به طور گسترده در برنامه های یادگیری ماشین استفاده می شود.
چرا برای آموزش یک شبکه عصبی کانولوشن باید از شیب نزولی تصادفی به جای گرادیان نزولی استاندارد استفاده کنیم؟
نزول گرادیان تصادفی پارامترها را برای هر مشاهده بهروزرسانی میکند که منجر به تعداد بیشتری بهروزرسانی میشود. بنابراین این یک رویکرد سریعتر است که به تصمیم گیری سریعتر کمک می کند. به روز رسانی های سریعتر در جهت های مختلف را می توان در این انیمیشن مشاهده کرد.
چرا نزول شیب را ترجیح می دهیم؟
دلیل اصلی استفاده از نزول گرادیان برای رگرسیون خطی پیچیدگی محاسباتی است: یافتن راهحل با استفاده از نزول گرادیان در برخی موارد از نظر محاسباتی ارزانتر (سریعتر) است. در اینجا، باید ماتریس X'X را محاسبه کنید و سپس آن را معکوس کنید (به یادداشت زیر مراجعه کنید). این یک محاسبه گران است.
چرا SGD استفاده می شود؟
نزول گرادیان تصادفی (اغلب به اختصار SGD) یک روش تکراری برای بهینهسازی یک تابع هدف با ویژگیهای همواری مناسب است (مثلاً قابل تمایز یا تفکیک پذیر).