این پایان نامه بررسی و تفسیری از گذشته، حال و آیندۀ الگوریتم های بهینه سازی عددی را فراهم می کند که در زمینه کاربردهای یادگیری ماشین باشند. با مطالعه های موردی دربارۀ طبقه بندی متن و آموزش شبکه های عصبی ژرف، روی این موضوع بحث خواهد شد که مسائل بهینه سازی چگونه در آموزش ماشین پدید می آیند و چه چیزی آنها را دشوار خواهد کرد. یک موضوع مهم در این مطالعه آن است که یادگیری ماشین بزرگ مقیاس محیط متمایزی را نشان می دهد که در آن روش گرادیان تصادفی SG)) به طور مرسوم نقش اصلی را بازی می کند، در حالی که شگردهای متداول بهینه سازی غیرخطی بر پایۀ گرادیان، معمولاً متزلزل می شوند. بر این اساس، یک نظریۀ جامع از الگوریتمی ساده و در عین حال چندکارۀ SG ارائه می شود، رفتار عملی آن بحث می شود، و فرصت هایی برای طراحی الگوریتم ها با اجرای بهتر برجسته خواهند شد. این دیدگاه منجر به بحث در مورد نسل جدیدی از روشهای بهینه سازی برای یادگیری ماشین بزرگ مقیاس می شود که شامل بررسی دو جریان عمده پژوهشی روی شگردهایی است که موجب کاهش نوفه در جهتهای تصادفی و استفاده از تقریب های مشتق مرتبۀ دوم می شود