پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع کارشناسی ارشد > سال 1398
پدیدآورندگان:
بهناز سادات میرهادی تفرشی [پدیدآور اصلی]، هدی مشایخی[استاد راهنما]، محسن بیگلری[استاد مشاور]
چکیده: امروزه الگوریتم‎های رده‌بندی به جهت پردازش داده‌ها، با مجموعه داده‌های کلان روبرو هستند. از این رو، جهت رده‌بندی این داده‌ها که حجم عظیمی از محاسبات را دارند، انجام محاسبات با سرعت بالا اهمیت به سزایی پیدا می‌کند. الگوریتم‌های رده‌بندی به منظور بهینه‌سازی تابع هدف مسئله مورد نظر، از روش‌های بهینه‌سازی متعددی استفاده می‌کنند. در میان این روش‌ها، روش گرادیان نزولی تصادفی یکی از پرکاربردترین و محبوب‌ترین الگوریتم‌های بهینه‌سازی می‌باشد. این روش، یک تقریب از روش گرادیان نزولی است که با انتخاب تصادفی یک نمونه، گرادیان تابع هدف را به طور مکرر محاسبه می‌کند. اما به دلیل محاسبات اضافی و چالش در انتخاب نرخ یادگیری مناسب و همچنین نوسانات زیاد در هنگام رسیدن به نقطه کمینه تابع هدف، واریانس بالایی را ایجاد نموده و در نتیجه همگرایی ضعیفی را به همراه دارد. بنابراین به جهت آمد بهبود در الگوریتم، روشی با نام گرادیان نزولی تصادفی بازگشتی ارائه شده است. در این روش در هر دوره از الگوریتم با استفاده از یک فرمول بازگشتی واریانس ایجاد شده به جهت نمونه برداری تصادفی مورد محاسبه قرار گرفته و پارامتر مدل رده‌بندی بروزرسانی می‌گردد. بنابراین در حجم بالای داده‌ها، رده‌بندی با استفاده از این روش بهینه‌سازی دچار کاهش سرعت در پردازش مجموعه داده موردنظر می‌شود. الگوریتم پیشنهادی به منظور افزایش سرعت در رده‌بندی داده ها با حجم بالا، روشی را جهت رده‌بندی توزیع شده با استفاده از گرادیان نزولی تصادفی مورد بررسی قرار داده است. در این روش، یک مسئله رده‌بندی رگرسیون لجستیک با استفاده از الگوریتم بهینه‌سازی گرادیان نزولی تصادفی، جهت افزایش سرعت در یک سیستم توزیع شده، پیاده‌سازی شده است. در الگوریتم مذکور، پارامترهای مسئله رده‌بندی با تعامل بین گره‌های کارگر و سرور بروزرسانی می‌شوند، به طوری‌که داده‌ها بین گره‌های کارگر پخش شده و از اشغال شدن حجم شبکه جلوگیری می‌شود. گره‌های کارگر یک کپی از پارامتر سراسری مسئله رده‌بندی را با یک درخواست از سرور، دریافت کرده و عملیات بروزرسانی را روی این پارامترها انجام می‌دهند. در نهایت پارامترهای بروزرسانی شده به سمت سرور فرستاده می‌شوند. گره سرور این پارامترها را دریافت کرده و عمل تجمیع را روی آن ها انجام می‌دهد و به عنوان پارامتر سراسری ذخیره می‌کند. در روش پیاده‌سازی شده محاسبه کاهش واریانس به صورت بازگشتی و نمونه‌برداری تصادفی به جهت همگرایی خطی تابع هدف در سیستم توزیع شده، موجب بهبود دقت الگوریتم نیز می‌شود. در این پژوهش با استفاده از چهار مجموعه داده حجیم، الگوریتم پیشنهادی به صورت توزیع شده در محیط اسپارک پیاده‌سازی شده است. نتایج بدست آمده از مقایسه روش پیشنهادی با حالت متمرکز نمایانگر آن است که در چهار داده آموزشی با افزایش تعداد گره های کارگر در هر آزمایش انجام شده، تقریبا با حفظ نرخ همگرایی، سرعت اجرای الگوریتم پیشنهادی حداقل دو برابر نسبت به حالت متمرکز افزایش یافته است.‎‎‎‎‎‎
کلید واژه ها (نمایه ها):
#رده‌بندی #رگرسیون لجستیک #گرادیان نزولی #گرادیان نزولی تصادفی #کاهش واریانس #سیستم توزیع شده #کلان داده #اسپارک
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرود
یادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده:
پایان نامه های مرتبط (بر اساس کلیدواژه ها)