پایان نامه > کتابخانه مرکزی دانشگاه صنعتی شاهرود > مهندسی کامپیوتر > مقطع کارشناسی ارشد > سال 1398
پدیدآورندگان:
بهناز سادات میرهادی تفرشی [پدیدآور اصلی]، هدی مشایخی[استاد راهنما]، محسن بیگلری[استاد مشاور]
چکیده: امروزه الگوریتمهای ردهبندی به جهت پردازش دادهها، با مجموعه دادههای کلان روبرو هستند. از این رو، جهت ردهبندی این دادهها که حجم عظیمی از محاسبات را دارند، انجام محاسبات با سرعت بالا اهمیت به سزایی پیدا میکند. الگوریتمهای ردهبندی به منظور بهینهسازی تابع هدف مسئله مورد نظر، از روشهای بهینهسازی متعددی استفاده میکنند. در میان این روشها، روش گرادیان نزولی تصادفی یکی از پرکاربردترین و محبوبترین الگوریتمهای بهینهسازی میباشد. این روش، یک تقریب از روش گرادیان نزولی است که با انتخاب تصادفی یک نمونه، گرادیان تابع هدف را به طور مکرر محاسبه میکند. اما به دلیل محاسبات اضافی و چالش در انتخاب نرخ یادگیری مناسب و همچنین نوسانات زیاد در هنگام رسیدن به نقطه کمینه تابع هدف، واریانس بالایی را ایجاد نموده و در نتیجه همگرایی ضعیفی را به همراه دارد. بنابراین به جهت آمد بهبود در الگوریتم، روشی با نام گرادیان نزولی تصادفی بازگشتی ارائه شده است. در این روش در هر دوره از الگوریتم با استفاده از یک فرمول بازگشتی واریانس ایجاد شده به جهت نمونه برداری تصادفی مورد محاسبه قرار گرفته و پارامتر مدل ردهبندی بروزرسانی میگردد. بنابراین در حجم بالای دادهها، ردهبندی با استفاده از این روش بهینهسازی دچار کاهش سرعت در پردازش مجموعه داده موردنظر میشود. الگوریتم پیشنهادی به منظور افزایش سرعت در ردهبندی داده ها با حجم بالا، روشی را جهت ردهبندی توزیع شده با استفاده از گرادیان نزولی تصادفی مورد بررسی قرار داده است. در این روش، یک مسئله ردهبندی رگرسیون لجستیک با استفاده از الگوریتم بهینهسازی گرادیان نزولی تصادفی، جهت افزایش سرعت در یک سیستم توزیع شده، پیادهسازی شده است. در الگوریتم مذکور، پارامترهای مسئله ردهبندی با تعامل بین گرههای کارگر و سرور بروزرسانی میشوند، به طوریکه دادهها بین گرههای کارگر پخش شده و از اشغال شدن حجم شبکه جلوگیری میشود. گرههای کارگر یک کپی از پارامتر سراسری مسئله ردهبندی را با یک درخواست از سرور، دریافت کرده و عملیات بروزرسانی را روی این پارامترها انجام میدهند. در نهایت پارامترهای بروزرسانی شده به سمت سرور فرستاده میشوند. گره سرور این پارامترها را دریافت کرده و عمل تجمیع را روی آن ها انجام میدهد و به عنوان پارامتر سراسری ذخیره میکند. در روش پیادهسازی شده محاسبه کاهش واریانس به صورت بازگشتی و نمونهبرداری تصادفی به جهت همگرایی خطی تابع هدف در سیستم توزیع شده، موجب بهبود دقت الگوریتم نیز میشود. در این پژوهش با استفاده از چهار مجموعه داده حجیم، الگوریتم پیشنهادی به صورت توزیع شده در محیط اسپارک پیادهسازی شده است. نتایج بدست آمده از مقایسه روش پیشنهادی با حالت متمرکز نمایانگر آن است که در چهار داده آموزشی با افزایش تعداد گره های کارگر در هر آزمایش انجام شده، تقریبا با حفظ نرخ همگرایی، سرعت اجرای الگوریتم پیشنهادی حداقل دو برابر نسبت به حالت متمرکز افزایش یافته است.
کلید واژه ها (نمایه ها):
#ردهبندی #رگرسیون لجستیک #گرادیان نزولی #گرادیان نزولی تصادفی #کاهش واریانس #سیستم توزیع شده #کلان داده #اسپارک دانلود نسخه تمام متن (رایگان)
محل نگهداری: کتابخانه مرکزی دانشگاه صنعتی شاهرودیادداشت: حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.
تعداد بازدید کننده: