حسین باغیشنی

استادیار دانشکده علوم ریاضی

دکتری تخصصی آمار

دانشگاه محل فارغ التحصیلی: تربیت مدرس تهران
زمینه ها و علایق پژوهشی: تحلیل داده‌های وابسته (فضایی)، استنباط بیزی، الگوریتم‌های MCMC، مدل‌های آمیخته خطی تعمیم‌یافته، نظریه مجانبی توزیع‌ها
عضویت در مجامع علمی: انجمن آمار ایران، انجمن آمار آمریکا (ASA)، انجمن بین‌المللی تحلیل بیزی (ISBA)، انجمن ریاضی ایران
افتخارات علمی و اختراعات:
شرح مختصر:
سایت شخصی من: http://hbastat.ir

تلفن تماس:
تلفن داخلی:

تابلوی اعلانات

داده‌های gmp (1393/7/18)

زمینه‌های تدریس

دکتری
کارشناسی ارشد
کارشناسی

سرپرستی پایان‌نامه‌ها

تعداد کل 25
مونا عابدی مهر (1396)، "مدل رگرسیونی نرخ شفایافتگی آماسیده در صفر و کاربرد آن در تسهیلات بانکی"، پایان نامه کارشناسی ارشد، دانشگاه صنعتی شاهرود، نگار اقبال[استاد/ اساتید راهنما]، حسین باغیشنی[استاد/ اساتید مشاور]
امیر علی نیایی (1396)، "توزیع‌های مبتنی بر کوماراسوامی و تعمیم آن‌ها"، پایان نامه کارشناسی ارشد، دانشگاه صنعتی شاهرود، احمد نزاکتی رضازاده[استاد/ اساتید راهنما]، حسین باغیشنی[استاد/ اساتید مشاور]
حسن محمدی (1396)، "تحلیل بیزی رگرسیون چگالی برای پاسخ‌های گسسته"، پایان نامه کارشناسی ارشد، دانشگاه صنعتی شاهرود، حسین باغیشنی[استاد/ اساتید راهنما]،
لیلا عابدین پور لیارجدمه (1396)، "یک مدل منعطف برای پیش‌گویی فضایی پاسخ‌های نرخ به کمک توزیع بتا-دوجمله‌ای"، پایان نامه کارشناسی ارشد، دانشگاه صنعتی شاهرود، حسین باغیشنی[استاد/ اساتید راهنما]، نگار اقبال[استاد/ اساتید مشاور]
فاطمه شیاسی (1396)، "استنباط بیزی تقریبی مدل‌های الگوی نقطه‌ای فضایی پیچیده با روش تقریب لاپلاس"، پایان نامه کارشناسی ارشد، دانشگاه صنعتی شاهرود، حسین باغیشنی[استاد/ اساتید راهنما]، نگار اقبال[استاد/ اساتید مشاور]
فاطمه خدابخشی پالندی (1395)، "همگرایی ارگودیک یکنواخت و هندسی الگوریتم های مونت کارلویی زنجیر مارکوفی مولفه به مولفه"، پایان نامه کارشناسی ارشد، دانشگاه صنعتی شاهرود، نگار اقبال[استاد/ اساتید راهنما]، حسین باغیشنی[استاد/ اساتید مشاور]
فاطمه کارگر (1395)، "استنباط بیزی تقریبی در فرآیندهای پواسون ناهمگن با کاربرد در تحلیل پیشامدهای بازگشتی"، پایان نامه کارشناسی ارشد، دانشگاه صنعتی شاهرود، حسین باغیشنی[استاد/ اساتید راهنما]،
سمانه رحمانی (1395)، "همگرایی کامل برآوردگر مدل رگرسیون ناپارامتری با جملات خطای وابسته زبرجمعی منفی "، پایان نامه کارشناسی ارشد، دانشگاه صنعتی شاهرود، نگار اقبال، حسین باغیشنی[استاد/ اساتید راهنما]،
سولماز بلوری کلورزی (1395)، "تحلیل پاسخ‌های دو سطحی نامتعادل با مدل رگرسیون مقادیر فرین تعمیم‌یافته"، پایان نامه کارشناسی ارشد، دانشگاه صنعتی شاهرود، حسین باغیشنی[استاد/ اساتید راهنما]،
هادی سید غراوی (1395)، "مدل فرآیند هندسی وایبل برای تحلیل آزمون‌های طول عمر تسریع‌یافته"، پایان نامه کارشناسی ارشد، دانشگاه صنعتی شاهرود، احمد نزاکتی رضازاده[استاد/ اساتید راهنما]، حسین باغیشنی[استاد/ اساتید مشاور]
حانیه کیهانی (1394)، "مدل بندی پاسخ های نرخ و نسبت با رگرسیون مستطیلی بتا"، پایان نامه کارشناسی ارشد، دانشگاه صنعتی شاهرود، حسین باغیشنی[استاد/ اساتید راهنما]،
سعید محمدی (1394)، "تشخیص اثرات متقابل موثر در داده‌های با بعد بالا"، پایان نامه کارشناسی ارشد، دانشگاه صنعتی شاهرود، داود شاهسونی، حسین باغیشنی[استاد/ اساتید راهنما]،
بهمن حمیدیان (1394)، "مدل‌های فضایی-زمانی یک و چندمتغیره برای داده‌های زمین‌آماری حجیم"، پایان نامه کارشناسی ارشد، دانشگاه صنعتی شاهرود، حسین باغیشنی[استاد/ اساتید راهنما]،
محسن مهدی زاده (1394)، "رهیافت بیزی قابلیت اطمینان سیستم های موازی در مدل های فشار-مقاومت"، پایان نامه کارشناسی ارشد، دانشگاه صنعتی شاهرود، احمد نزاکتی رضازاده[استاد/ اساتید راهنما]، حسین باغیشنی[استاد/ اساتید مشاور]
مهناز عجم (1393)، "تحلیل بیزی مدل های رگرسیونی بتا با پاسخ های وابسته"، پایان نامه کارشناسی ارشد، دانشگاه صنعتی شاهرود، حسین باغیشنی[استاد/ اساتید راهنما]،
سعید افچنگی (1393)، "محاسبات بیزی تقریبی: روش ها و کاربردها"، پایان نامه کارشناسی ارشد، دانشگاه صنعتی شاهرود، حسین باغیشنی[استاد/ اساتید راهنما]، نگار اقبال[استاد/ اساتید مشاور]
رحیم خیر گو (1393)، "تقریب توزیعهای پسین با استفاده از بسط اچوورث و اتحاد استاین"، پایان نامه کارشناسی ارشد، دانشگاه صنعتی شاهرود، حسین باغیشنی[استاد/ اساتید راهنما]، نگار اقبال[استاد/ اساتید مشاور]
سحر رفیعی دهبنه (1392)، "سری های زمانی با تغییرات غیرنرمال و کاربردهای آن"، پایان نامه کارشناسی ارشد، دانشگاه صنعتی شاهرود، احمد نزاکتی رضازاده[استاد/ اساتید راهنما]، حسین باغیشنی، محمدعلی مولائی[استاد/ اساتید مشاور]
احسان اسحقی (1392)، "مدل های نیمه پارامتری تحلیل بقا برای داده های بازگشتی با روش هسته"، پایان نامه کارشناسی ارشد، دانشگاه صنعتی شاهرود، داود شاهسونی، حسین باغیشنی[استاد/ اساتید راهنما]،
مریم مقدم (1392)، "تشخیص داده های پرت فضایی"، پایان نامه کارشناسی ارشد، دانشگاه صنعتی شاهرود، داود شاهسونی، محمد کنشلو[استاد/ اساتید راهنما]، حسین باغیشنی[استاد/ اساتید مشاور]
میعاد ولیپور پاشا کلایی (1392)، "مدل بندی داده های نرخ و نسبت با رگرسیون بتا"، پایان نامه کارشناسی ارشد، دانشگاه صنعتی شاهرود، حسین باغیشنی[استاد/ اساتید راهنما]، محمد آرشی[استاد/ اساتید مشاور]
سید علی اصغر تجدد (1391)، "برآورد انقباضی در مدل های چندمتغیره"، پایان نامه کارشناسی ارشد، دانشگاه صنعتی شاهرود، محمد آرشی[استاد/ اساتید راهنما]، حسین باغیشنی[استاد/ اساتید مشاور]

مقالات و کتب

    Close
    مقالات
    • باغیشنی، حسین، و محمدزاده، محسن، ""، جلد 111، صفحات 66-77، 1391
    • باغیشنی، حسین، ""، جلد 74، صفحات 402، 1391
    • باغیشنی، حسین، رو هووارد، و محمدزاده، محسن، ""، جلد 22، شماره 2، صفحات 597-613، 1390
    • باغیشنی، حسین، و محمدزاده محسن، ""، جلد 55، شماره 4، صفحات 1748-1759، 1389
    • باغیشنی، حسین، ""، 1389
    • باغیشنی، حسین، و محمدزاده محسن، ""، صفحات 36-42، 1389
    • باغیشنی، حسین، "مدل‌های آماری برای داده‌های شمارشی وابسته به زمان"، مجله اندیشه آماری، جلد 11، صفحات 31-42، 1387
    • باغیشنی، حسین، و طباطبایی، سیدمحمد مهدی، "استنباط درستنمایی مرکب و ملاک انتخاب مدل در مدل‌های پارامترمبنا"، مجله علوم آماری، جلد 1، شماره 1، صفحات 1-17، 1386
    • وحید پرتوی‌نیا، و باغیشنی، حسین ، "دیدگاه‌های مختلف بر تحلیل ممیزی"، مجله ندا، جلد 3، صفحات 26-35، 1384
    • باغیشنی، حسین، و وحید پرتوی‌نیا، "رگرسیون با پاسخ ترتیبی و مدل‌های لجیت تجمعی"، مجله ندا، جلد 2، صفحات 27-32، 1383

پروژه‌های تحقیقاتی

سوابق پژوهشی و اجرایی

دانشجویان دکتری

برنامه هفتگی

برنامه هفتگی 8-10 10-12 12-14 14-16 16-18 18-20
شنبهاستنباط آماری ۱ (ارشد)مطالعه و طرح درس
یک‌شنبهاستنباط پیشرفته (دکتری)
دوشنبهمشاوره دانشجویان کارشناسی ارشد *جلسات گروه و دانشکدهاستنباط آماری ۱ (ارشد)
سه‌شنبهآمار برای حسابداریاستنباط پیشرفته (دکتری)مشاوره دانشجویان کارشناسی ارشد *
چهارشنبهآمار برای حسابداریرفع اشکال دانشجویان کارشناسی ارشد *رفع اشکال دانشجویان کارشناسی *
پنج‌شنبه
توضیحات: * دانشجویان ارشد با تعیین وقت قبلی می‌توانند مراجعه کنند

پرسش و پاسخ

پاسخ: سلام. طراحی و ایجاد یک پایگاه داده بیشتر به علوم کامپیوتر مرتبط می‌شه. اما تحلیل اطلاعات موجود در پایگاه‌های داده و استخراج دانش ممکن برای استفاده سازمان مربوط نیازمند دانش آماری و همین‌طور داده‌کاوی هست. شاید تخصص شما چندان کمکی به ساخت یک پایگاه داده نکنه. یا اگر کارایی داره من بی‌اطلاع هستم.

موفق باشید.
پاسخ: سلام. موفق باشید.
پاسخ: سلام.
دیدگاه بیزی یک قالب منسجم برای استنباط آماری داره: ۱) تعیین توزیع پیشین ۲) تعیین مدل و در نتیجه درستنمایی مدل ۳) ترکیب اطلاعات پیشین و درستنمایی و محاسبه توزیع پسین. ۴) استخراج تمام نتایج استنباط (مانند احتمال پسینی یک مجموعه مثل A، امید ریاضی پسینی تابعی مثل g و موارد مشابه) بر اساس توزیع پسین.
این مکانیسم منسجم برای تمام مسایل یکسان است و بسته به هدف تحقیق کمیت مورد استفاده به عنوان تابعی از توزیع پسین ممکنه متفاوت باشه.

با این توضیح واضحه که توزیع پیشین از جمله مواد اصلی در دیدگاه استنباط بیزی هست و بدون حضور اون توزیع پسین که مبنای همه استنباط‌های بیزی است، قابل تعریف و محاسبه نیست. پس تا این‌جا نیازمندی به توزیع پیشین چه مطلع چه غیرمطلع واضح شد.

اما چرا غیرمطلع (یا همون ناآگاهی‌بخش)؟ دلیلش عینی کردن اسنتباط تا حد ممکنه. در واقع دلیلش پرهیز از رفتن به زیر تیغ انتقاد "وارد کردن نظر شخصی به استنباط علمی" هست که طرفداران استنباط کلاسیک (یا بسامدی) یا حتی طرفداران بیزی عینی‌گرا به طرفداران بیزی ذهنی‌گرا وارد می‌دانند. بیزی‌های عینی‌گرا سعی می‌کنند از توزیع‌های پیشینی استفاده کنند که تا حد امکان اطلاع مشخصی در مورد مجهولات توزیع وارد مساله نکنند تا نتایج استنباط مبتنی بر اطلاعات حاصل از داده‌ها باشد (ولی در عین حال حضور توزیع پیشین حتما ضروری است و باید باشد).

امیدوارم این توضیح قابل درک و واضح باشد.
پاسخ: سلام. از شما هم قبول باشه.
سوال زیاد دارید. من به‌جای جواب دادن به این همه سوال، شما رو ارجاع می‌دم به دو تا منبع خیلی خوب. برای اطلاع از انواع توزیع‌های پیشین و درک عمیق از پیشین‌های ناآگاهی‌بخش، به کتاب The Bayesian Choice تالیف C.P. Robert مراجعه کنید. در مورد مقایسه بین استنباط کلاسیک و بیزی هم همین کتاب خوبه و هم کتاب All of Statistics تالیف Larry Wasserman مناسب هست.
موفق باشید.
پاسخ: سلام. متشکرم از شما هم قبول باشه.
نمونه‌گیری گیبز روشی هست که بر اساس اون می‌شه از هر توزیع توام با هر بعدی نمونه تولید کرد (البته تحت شرایطی).
پاسخ: سلام. موفق باشید.
فرشید - 4/3/1397، 02:04:24)
مشاهده پاسخ
پاسخ: سلام. من در این مورد چیزی نشنیده بودم. جالبه اگر این روش جواب‌های قابل قبولی بده.
پاسخ: سلام و از شما هم قبول باشه.
من درک نمی‌کنم مکانیسم این روش برای برآورد یک پارامتر مجهول چیه؟ نمودار pp یا نمودار qq برای بررسی مناسب بودن توزیع برای یک بردار داده زمانی استفاده می‌شه که ما پارامترها رو بدونیم یا با روشی برآورد کنیم. این‌که چطور این روش برای برآورد پارامتر استفاده بشه من ندیدم و نمی‌شناسم.

بله توضیح در مورد روش KS و این‌که پذیره معلوم بودن پارامترها رو داره در سوال قبلی نوشتم. موفق باشید.
پاسخ: پاسخ این سوال رو در پیام (ویرایش‌شده) قبلی دادم. این عکس چیزی هست که پرسیده بودین. یعنی یک مساله Aggregation هست. بله میشه و کار ساده‌ای هم هست. برای توضیح بیشتر و دیدن نحوه انجامش در R صفحه زیر رو ببینید:
https://otexts.org/fpp2/aggregates.html
پاسخ: سلام. اگر داده‌هایی که تولید می‌کنید از توزیعی باشه که شرایط نظم برای برقراری توزیع مجانبی GEV برای مقادیر فرین رو داشته باشه، بله عموما اون ۵۰ ماکسیممی که به دست آوردین باید از یک توزیع GEV پیروی کنند (این شرایط رو می‌تونید در متون مربوط به مقادیر فرین پیدا کنید).
اما اگر اون شرایط برقرار نباشند، باز هم توزیع GEV به‌عنوان تقریبی برای توزیع مقادیر فرین قابل استفاده است. پس توزیع ۵۰ مشاهده ماکسیمم شما (دقیق یا تقریبی) از GEV پیروی می‌کنند.

موفق باشید.
پاسخ: سلام.

در مدل‌های سری زمانی، ساختار وابستگی فرآیند در مدل‌بندی وارد می‌شه و با در نظر گرفتن پذیره‌هایی مثل مانایی (و ارگودیک بودن) فرآیند سری زمانی، می‌توان از آن در بازه‌های زمانی خارج از مشاهده (مثل آینده) برای پیش‌بینی مقدار فرآیند استفاده کرد. اما در رگرسیون برای داده‌های ناهمبسته چنین پذیره‌ای وجود ندارد و مدل فقط در دامنه مشاهده‌شده معتبر است و استفاده از آن برای خارج دامنه مشاهده‌شده نیاز به افزودن پذیره‌ای مثل ارگودیک بودن مدل داره.

در مورد سوال دوم دقیق متوجه منظور شما نشدم. منظور شما اینه که اگر فاصله بین مشاهدات روز باشه، اونوقت می‌شه از سری زمانی برازش‌شده برای پیش‌بینی در مقیاس ساعت استفاده کرد؟ اگر منظور شما اینه، این یک مساله پیچیده سری زمانی به اسم
Temporal Disaggregation
هست که بر عکس Aggregation هست. برای این مساله و روش‌هایی معرفی شدند که اگه مایل باشید می‌تونید مقاله زیر رو ببینید:
https://journal.r-project.org/archive/2013-2/sax-steiner.pdf
موفق باشید.
پاسخ: سلام. تا جایی که من اطلاع دارم هر دو مورد باید قابل انجام باشه.
در تئوری کلی روش PLS هر دوی X و Y بعد بزرگتر از ۱ می‌تونند داشته باشند و طوری ترکیبات خطی Xها و Yها پیدا میشه که کوواریانس بین اون‌ها ماکسیمم بشه. بنابراین بدون از دست دادن کلیت بعد هر کدوم از اون‌ها می‌تونه ۱ هم باشه.
اگر کسی اطلاع دقیق‌تری داره و فکر می‌کنه من اشتباه می‌گم لطفا اصلاح کنه گفته من رو.
فرشید - 26/2/1397، 15:48:32)
مشاهده پاسخ
پاسخ: سلام و متشکرم.
من در مورد روش برآورد نمودار احتمال چیزی نمی‌دونم. اگه می‌تونید منبعی برای اون معرفی کنید.

اما در مورد سوال‌های دیگه: از روش کولموگروف اسمیرنوف می‌تونید برای بررسی نیکویی برازش هر توزیعی به داده‌ها زمانی استفاده کنید که پارامتر نامعلوم وجود نداشته باشه. دلیلش هم اینه که اگه پارامترهای توزیع رو برآورد کنید و آماره KS رو محاسبه کنید، توزیع این آماره توزیعی نیست که برای KS به دست اومده و بنابراین p-مقداری که به‌دست می‌یاد، با p-مقدار واقعی فاصله داره. در چنین موردی توصیه می‌کنم از آزمونی استفاده کنید که پذیره معلوم بودن پارامترهای توزیع رو نداشته باشه: مثل آزمون شاپیرو-ویلکس یا آزمون کی‌دو پیرسون.
اگر هم p-مقدار بزرگتر از سطح معنی‌داری باشه می‌تونید نیکویی برازش اون توزیع مشخص روی داده‌ها رو بپذیرید و بله اونوقت چند مدل رقیب مناسب وجود دارند که برای انتخاب بهترین می‌تونید از معیارهای انتخاب مدل مثل AIC استفاده کنید.

موفق باشید.
پاسخ: سلام. برآوردگر MLE و KM چه کمیتی؟ اگر منظور شما براورد تابع بقای پایه در مدل‌های بقا هست، خوب برآوردگر ML یک برآوردگر پارامتری هست ولی برآوردگر KM یک برآوردگر ناپارامتری محسوب می‌شه.
پاسخ: سلام و متشکرم.

به‌طور کلی تعریف یک متغیر بقا، متغیری است که مقادیر نامنفی بگیرد. بنابراین داده‌های مثبت نیز مشاهداتی از متغیرهای بقا هستند.
اما ویژگی بارز مشاهدات طول عمر همان سانسوری است که شما اشاره کردید. همین ویژگی باعث شده است شاخه‌ای با نام تحلیل بقا (تحلیل داده‌های زمان تا رخداد یک پیشامد) در آمار ایجاد بشه. بنابراین اگر سانسوری در داده‌های مثبت شما نباشه (که اصطلاحا داده کامل نامیده می‌شود)، هم می‌توانید بدون ورود به تحلیل بقا با آن برخورد کنید و هم با روش‌های بقا از آن استفاده کنید.

موفق باشید.
پاسخ: سلام.
در مورد مجوز برون‌یابی در رگرسیون غیرخطی من چیزی نشنیدم. درسته ساختار میانگین شرطی توزیع پاسخ (که همان تابع رگرسیون هست) غیرخطی است، اما این شکل غیرخطی نیز در دامنه مشاهدات متغیر تبیینی معتبر هست و خارج از آن (بدون داشتن پذیره‌هایی مثل ارگودیک بودن مدل) نمی‌توان به پیش‌گویی پاسخ (یا همان برون‌یابی) اعتماد داشت.

موفق باشید.
پاسخ: سلام و متشکرم.
بستگی داره که در R از چه تابع یا بسته‌ای برای برآورد پارامترهای مدل استفاده کنید. مثلا اگر از تابع پایه nls استفاده کنید، برآوردگرهای کمترین توان‌های دوم وزنی با یک روش بهینه‌سازی تکراری که به‌طور پیش‌فرض روش گاوس-نیوتون است نتیجه خواهند شد.

معمولا توزیع مجانبی این برآوردگرها نرمال هستند. البته بستگی به پذیره‌های مدل غیرخطی و متغیر پاسخ داره.

اگه ضریب یک متغیر تبیینی (چه در مدل خطی چه غیرخطی) صفر بشه به معنی عدم تاثیر آن متغیر است.
موفق باشید.
پاسخ: سلام. متشکرم و سال نو شما هم مبارک.
خوب این داده‌ها ذاتا شمارشی هستند و بهتر است این ذات در انتخاب توزیع احتمالی پشتیبان داده‌ها در نظر گرفته شود.
با این حال می‌تونید از توزیع نرمال به‌عنوان تقریبی برای توزیع واقعی داده‌ها (در صورت مناسب بودن تقریب نرمال) استفاده کنید.
پاسخ: سلام. در مدل رگرسیون خطی، اگر توزیع جمله خطا نرمال پذیرفته شود، برآوردگرهای کمترین توان‌های دوم و ماکسیمم درستنمایی پارامترهای رگرسیونی معادل خواهند بود. در غیر این‌صورت لزوما یکی نیستند.
برآوردگرهای مشابه در مدل رگرسیون غیرخطی یکی نیستند. حتی لزوما به‌طور دقیق و بسته نمی‌شه به دستشون آورد.
پاسخ: سلام. متشکرم سلامت باشید.
فکر کنم منظور شما از مدل خطی اول، مدل غیرخطی باشه. اگه این‌طوره بله نظر شما درسته؛ برآوردگرهای پارامترها لزوما شکل بسته ندارند و به‌صورت تقریبی (عددی و با الگوریتم‌های تکراری) به‌دست می‌آیند. بنابراین خطای معیار برآوردگرها هم تقریبی هستند.

برای مدل‌های خطی، کتاب مقدمه‌ای بر مدل‌های رگرسیون خطی تالیف مونت گومری و میرز و بیبی کتاب خیلی خوبیه.

موفق باشید.
پاسخ: سلام. متشکرم.
با این‌که تعداد نمونه‌های شما کمه اما با توجه به این دانش قبلی، می‌تونید مساله رو پیش ببرید و مشکلی نیست.
البته اگه دانش قبلی یا مشابه در مورد مساله خودتون دارین توصیه می‌کنم از روش‌های بیزی آماری کمک بگیرید.
موفق باشید.
پاسخ: سلام. برآوردگرهای ضرایب رگرسیونی مثل a و b تابعی از متغیرهای تصادفی هستند و بنابراین همبستگی برای اون‌ها تعریف می‌شه. برآوردگرها متغیر تصادفی هستند. اونی که شما می‌گید مقدار مشاهده‌شده (برآورد) به ازای نمونه مشاهده‌شده است.
پاسخ: سلام.
فکر کنم منظور از شما از مدل دومی غیرخطی باشه.
در مدل‌های خطی هم وابستگی بین پارامترها وجود داره. مثلا در مدل رگرسیون خطی ساده کوواریانس بین برآوردگر شیب خط و عرض از مبدا، منفی میانگین نمونه xها در واریانس برآوردگر شیب خط هست.
پاسخ: سلام. با توجه به تعریف معیارهای انتخاب مدل AIC و BIC، اگه مقدار ماکسیمم تابع درستنمایی بزرگتر از ۱ بشه (که برای متغیرهای تصادفی پیوسته این امکان وجود داره) اونوقت لگاریتم درستنمایی مثبت خواهد بود و منفی دو برابر اون منفی میشه. حالا مثلا در AIC اگه دو برابر تعداد پارامترهای مدل از منفی دو برابر لگاریتم ماکسیمم درستنمایی (از نظر اندازه) کوچکتر باشه، مقدار AIC منفی می‌شه.
اگه معیار همین‌طور که گفتم به صورت منفی ۲ برابر لگاریتم ماکسیمم درستنمایی مدل به اضافه ۲ برابر تعداد پارامترها (برای AIC) یا به اضافه تعداد پارامترها در لگاریتم تعداد نمونه (برای BIC) تعریف بشه، مدلی برتر هست که معیار مورد نظر برای اون کمتر باشه.
پاسخ: سلام. با این نوشته من چیزی متوجه نشدم و نمیشم. اگه کسی می‌تونه به سوال ایشون پاسخ بده، لطفا در همین صفحه پیام بذاره.
متشکرم.
پاسخ: سلام.
۱) خیر پذیره‌های مدل غیرخطی با خطی یکی نیست. بارزترین اختلاف در اساسی‌ترین پذیره است که برای مدل خطی، می‌پذیریم رابطه پاسخ و متغیر یا متغیرهای تبیینی خطی است ولی در مدل غیرخطی می‌پذیریم این رابطه خطی نیست.
در واقع هر مدل غیرخطی باید به صورت موردی بررسی و پذیره‌های اون مشخص بشه.

۲) ضریب تعیین معیاری برای برازش مدل به داده‌ها محسوب می‌شه که برای مدل‌های خطی معیاری معتبر و قابل استفاده است. اما همون‌طور که شما اشاره کردید برای مدل‌های غیرخطی معتبر نیست و استفاده از اون توصیه نمی‌شه. دلایل مختلفی برای عدم استفاده از اون توسط شبیه‌سازی‌هایی مطرح شده‌اند که می‌تونید بگردین و پیداشون کنید. راه‌حلی که ارایه شده، استفاده از شبه ضریب تعیین هست که معمولا برای مدل‌های غیرخطی در بسته‌های نرم‌افزاری گزارش می‌شه و می‌شه از اون برای مقایسه مدل‌های رقیب استفاده کرد.

۳) منظور شما رو از خطای معیار رگرسیون نفهمیدم.

موفق باشید.
پاسخ: سلام.

مدل‌های خطی‌شدنی رو بهتره به صورت مدل خطی بنویسید و استنباط رو انجام بدهید. دلیل اون هم بسته بودن برآوردگرها و نتایج مختلف استنباط مبتنی بر مدل‌های خطی است.

موفق باشید.
پاسخ: سلام. پذیره‌های اصلی که باید در مورد باقی‌مانده‌های هر مدل رگرسیونی بررسی شوند، ناهمبستگی اون‌ها و هم‌پراشی (همگنی یا همون واریانس ثابت داشتن) هستند.
اما در اغلب مدل‌ها، نسخه‌هایی از باقی‌مانده‌های مقیاس‌بندی‌شده مثل پیرسونی یا استودنت‌شده و ... معرفی شده‌اند که در صورت مناسب بودن برازش مدل از توزیع نرمال پیروی می‌کنند و می‌توان نرمال بودن اون‌ها رو بررسی کرد. به‌عنوان مثال متون مربوط به مدل‌های خطی تعمیم‌یافته رو ببینید.

موفق باشید.
پاسخ: سلام. ابرپارامتر اصطلاحی است که برای پارامترهای توزیع پیشین در دیدگاه بیزی استفاده می‌شه. دلیل اون هم تفاوت قایل شدن بین پارامترهای مدل با پارامترهای توزیع پیشینی است که برای پارامتر در نظر می‌گیرن. حالا توزیع پیشین برای یک پارامتر دلخواه می‌تونه هر چیزی مثل گاما، بتا، نرمال و ... باشه.
پاسخ: سلام.
بدون جزییات نمیشه نظر داد. به‌طور کلی برآورد‌گرهای مونت کارلویی شامل حداقل خطای مونت کارلو هستند و می‌تونه چیزهای عجیب مثل منفی بودن یک کمیت نامنفی رخ بده. من از جزییات نظری مساله شما چیزی نمی‌دونم فقط می‌تونم یک نظر بدم که شاید هم بی‌ربط باشه. ماکسیمم صفر و مقدار برآوردشده کولبک لیبلر رو تعریف کنید در خروجی مورد نظرتون.

موفقق باشید.
پاسخ: سلام. انشالله همینطوره.
پاسخ: سلام.
در صورتی که توزیع پیشین در یک نقطه تباهیده باشه، داده‌ها نمی‌تونن پیشین رو به‌روز کنند و بنابراین توزیع پسین هم در همون نقطه تباهیده خواهد بود.
این به این معنی هست که برآوردگر بیزی شما (بر حسب هر تابع زیانی) همون نقطه است (چون فضای پارامتر یک نقطه بیشتر نداره) و برآوردگرهای ثابت همیشه مجاز هستند. این برآوردگر یکتا هم هست.
پاسخ: سلام.
منظور شما از تباهی پیشین همون تباهیده در یک نقطه ثابت است؟

در مورد سوال دوم بله قضیه داریم (مثلا قضیه ۵.۲.۴ کتاب لهمن و کسلا) که می‌گه هر برآوردگر بیزی یکتا، پذیرفتنی است.
پاسخ: سلام.
سوال خوبی پرسیدین. مشکل این هست که وقتی تصمیم‌های بیزی به بچه‌ها درس داده می‌شه به‌جای تاکید بر مخاطره پسینی (میانگین تابع زیان بر حسب توزیع پسین) و تعریف تصمیم‌های بیزی به‌عنوان تصمیم‌هایی که می‌نیمم‌کننده تابع مخاطره پسینی هستند، از مخاطره بیزی (میانگین تابع مخاطره بر حسب توزیع پیشین) و می‌نیمم‌کننده این مخاطره صحبت می‌شه فقط..
بله درسته که نقطه می‌نیمم‌کننده مخاطره پسینی و مخاطره بیزی یکی هستند، ولی بر اساس فلسفه دیدگاه بیزی همه استنباط‌ها مبتنی بر توزیع پسین انجام می‌شه و باید تصمیم بیزی هم بر اساس کمیتی بر حسب توزیع پسین تعریف بشه که میشه همون مخاطره پسینی.

با این توضیح، اگرچه توزیع پیشین ناسره است، ولی توزیع پسین لزوما برای چنین توزیع‌های پیشینی، ناسره نیست و می‌تواند سره باشد و بنابراین مخاطره پسینی بی‌معنی نیست. اما دقت کنید اگر توزیع پسین به‌ازای توزیع پیشین ناسره، به یک توزیع ناسره منتهی شود، مخاطره پسینی هم بی‌معنی میشه و همه استنباط‌ها هم بی‌معنی می‌شن و مبنای احتمالی ندارند.

امیدوارم این توضیح واضح باشه.
پاسخ: سلام. همه عبارت‌های تعمیم‌یافته لزوما موارد غیرتعمیم‌یافته خودشون رو به‌عنوان حالت خاص در بر نمی‌گیرن. استفاده از این کلمه به فکر و ایده فردی که اون رو پیشنهاد می‌ده داره.
در مورد برآوردگرهای بیزی تعمیم‌یافته بله به معنی حالت کلی‌تری از برآوردگرهای بیزی معمولی نیست و بیشتر به مساله پیدا کردن برآوردگرهای بیزی تحت توابع پیشین ناسره می‌پردازه.
پاسخ: سلام. اگه فقط یک داده دارین نه کار خاصی نمی‌تونید انجام بدین. یعنی استنباطی به ذهن من نمیرسه برای مقایسه به‌جز این‌که کار توصیفی کنید.
البته اگه وارد دیدگاه بیزی بشید با یک عدد هم می‌شه استنباط انجام داد مشروط بر این‌که توزیع پیشین مناسبی برای مساله خودتون بتونید پیدا کنید.
پاسخ: سلام. متشکرم.

ذات داده‌های شما از نوع داده‌های ترکیبی (compositional data) است. بنابراین می‌شه از مدل‌های خاص این نوع داده‌ها، مثل رگرسیون داده‌های ترکیبی یا رگرسیون دیریکله، استفاده کرد که با توجه به سطح دانش و رشته شما انجامش رو براتون توصیه نمی‌کنم.
از طرفی چون داده‌ها رو جمع کردین، پس ۷ داده مثلا از پوشش مرجانی بیشتر ندارین. این حجم نمونه کوچک هست و اگر بخواهید آنالیز واریانس یک عاملی برای ۷ ایستگاه انجام بدین، چندان مناسب نیست. بنابراین می‌تونید از آزمون کروسکال والیس که یک آزمون ناپارامتری برای آنالیز واریانس یک‌طرفه هست استفاده کنید.
اگر ریز همه داده‌ها رو در هر ایستگاه دارید، مشکل حجم نمونه مرتفع می‌شه، ولی به دلیل وابستگی مقادیر نزدیک به هم در بستر هر ایستگاه (که وابستگی فضایی محسوب می‌شه) باز لحاظ کردن اون به مدل‌های پیچیده‌ای برای شما منتهی می‌شه که باز برای شما توصیه نمی‌کنم. البته اگر به یک مشاور آماری بدین شاید از پس همه اون‌ها بر بیاد.

امیدوارم اطلاعاتی که این‌جا مطرح کردم مفید باشه براتون.
موفق باشید.
sina - 12/10/1396، 19:20:39)
مشاهده پاسخ
پاسخ: سلام. خیلی متشکرم.

۱) زمانی که انتگرال توزیع پیشین کراندار بشه مثلا برابر M بشه که لزوما ۱ نیست، به راحتی با تقسیم کردن M بر توزیع پیشین می‌شه اون رو تبدیل به توزیعی کرد که انتگرالش برابر ۱ بشه. بنابراین سره بودن به معنی کرانداری انتگرال تحت توزیع پیشین و ناسره بودن یعنی نامتناهی شدن اون انتگرال هست.
۲) اگه توزیع ناسره باشه، محاسبه هر کمیت احتمالی مانند گشتاورها بی‌معنی است؛ زیرا تفسیر احتمالی ندارن.
۳) به هدف شما بستگی داره. اگر بهترین مدل را برای توصیف پدیده می‌خوایین استفاده کنید، مدلی که برازش بهتری داره (مثلا مدل نمایی در مثال شما) باید انتخاب بشه. اما اگر هدف پیش‌گویی هست، نتیجه می‌تونه متفاوت باشه. برای این‌که پاسخ دقیق‌تر رو ببینید به جوابی که به خانم Mina در تاریخ ۹/۱۳ دادم نگاه کنید.

موفق باشید.
پاسخ: سلام.
نظریه تصمیم مبانی تصمیم‌سازی مبتنی بر حضور اطلاعات رو ضابطه‌مند می‌کنه و به شما اجاز می‌ده که تصمیم‌های بهینه رو بتونید بر اساس داده‌ها انتخاب کنید.
استنباط آماری مبتنی بر نظریه تصمیم هر دو دیدگاه بیزی و کلاسیک رو شامل می‌شه. به عبارتی، بخشی از نظریه تصمیم به تصمیم‌های بیزی منتهی می‌شه و بخشی به تصمیم‌های کلاسیک مثل تصمیم‌های می‌نیماکس و مجاز. البته بین هر دو نوع تصمیم بیزی و کلاسیک روابطی هم وجود دارن که نظریه تصمیم اون‌ها رو متحد می‌کنه.
موفق باشید.
پاسخ: سلام. متشکرم از شما.
بله برداشت درستی هست. تعبیر کلاس کامل تصمیم‌ها همین هست که شما گفتید.
فکر کنم منظور شما برآوردگر اریب هست به‌جای نارایب نه؟ اگه منظورتون اریب هست بله حق با شماست. اگه منظورتون برآوردگر نااریب وجود داشته باشه که UMVUE رو مغلوب کنه (البته تحت زیان توان دوم خطا) خیر درست نیست.
موفق باشید
پاسخ: سلام.
قضیه‌ای هست که عنوان می‌کنه اگر تابع زیان محدب اکید باشه، برآوردگر بیزی که از می‌نیمم کردن تابع مخاطره بیزی (یا مخاطره پسینی) به دست می‌یاد، یکتا است. بنابراین این نتیجه کلی هست.
در خیلی از متون از منفی تابع لگاریتم درستنمایی به عنوان تابع زیان استفاده می‌شه، که برای بسیاری از مدل‌ها مثل مدل‌های آمیخته محدب نیست.

موفق باشید.
پاسخ: سلام. احتمالا به معنی وجود بیش از یک عضو در زیرمجموعه هست. با این حال بهتر است محتوی متنی که این اصطلاح در آن هست رو دقیق مطالعه کنید.
پاسخ: سلام.
برآوردگرهای درستنمایی ماکسیمم مبنای نظریه تصمیم ندارن. یعنی این برآوردگرها بر اساس می‌نیمم کردن یک تابع مخاطره (که همان میانگین تابع زیان است) به‌دست نمی‌آیند. بلکه این برآوردگرها از ماکسیمم کردن تابع درستنمایی حاصل می‌شوند.
پاسخ: سلام. خیر پایین بودن مولفه دقت به معنی برازش خوب مدل برآورشده بر اساس اون برآوردگر نیست.
مثلا در یک مدل رگرسیونی فرض کنید مدل واقعی خطی باشد؛ حال اگر یک مدل خطی را برآورد کنید دقت برآوردگرها مناسب خواهند بود و برازش مدل (یعنی نزدیکی مقادیر پیش‌گویی به مقادیر واقعی) هم شاید خوب باشد. اکنون اگر یک مدل بیش‌برازش به داده‌ها برازش دهید، مثلا یک مدل چندجمله‌ای از درجه دو یا سه، برازش بهتر خواهد شد یعنی مقادیر پیش‌گویی‌شده بر اساس مدل چندجمله‌ای به مقادیر واقعی نزدیک‌تر از مدل خطی خواهند بود. این یعنی برازش بهتر (یا همان اریبی کوچکتر). اما دقت برآوردگرها (به‌ویژه دقت برآوردگر ضرایب متغیرهای چندجمله‌ای بالاتر از خطی) ضعیف خواهد بود.
امیدوارم این مثال واضح باشد.
پاسخ: سلام.
جزییات کامل این نوع توابع زیان رو می‌تونید در رساله دکتری آقای دکتر جعفری جوزانی (که الان در دانشگاه منیتوبا کانادا هستند) پیدا کنید.
مولفه اول احتلاف بین مشاهدات و مقادیر پیش‌گویی‌شده بر اساس برآوردگر به‌دست امده است (نه بین مشاهدات و برآوردگر) و مولفه دوم اختلاف بین برآوردگر و پارامتر واقعی. بنابراین واضح است که مولفه اول برازش را می‌سنجد و مولفه دوم دقت برآورد را می‌سنجد.
اگر نیاز به توضیح بیشتری داشتید به منبعی که اسم بردم مراجعه کنید.
پاسخ: سلام. این مبحث مفصلی هست. بهتره به مقاله‌های دکتر آرشی مراجعه کنید.
بله می‌شه مقایسه کرد. این برآوردگرها اریب هستند ولی معمولا مخاطره کمتری نسبت به برآوردگرهای نااریب مثل UMVUE دارند.
پاسخ: الان منظور شما رو متوجه شدم. این نمادگذاری به نوع نگاه افراد به پارامتر بستگی داره.
معمولا در دیدگاه کلاسیک پارامتر رو مقداری ثابت ولی نامعلوم در نظر می‌گیرند بنابراین به عنوان یک شاخص در شکل تابع احتمال متغیر تصادفی در نظر می‌گیرن و می‌نویسن f(x; theta)
اما در دیدگاه بیزی به پارامتر به دید یک متغیر تصادفی نگاه میشه. بنابراین وقتی تابع احتمال مشاهدات رو می‌نویسن به شکل شرطی می‌نویسن که تاکید کنند این تابع احتمال به ازای مقدار مشخصی از تکیه‌گاه پارامتر (که یک متغیر تصادفی محسوب می‌شه) هست.
البته این دو نگاه مختص دیدگاه‌های بیزی و کلاسیک نیست...
موفق باشید.
پاسخ: سلام.

بله کران پاینن برای واریانس تمام برآوردگرهای پارامتر مورد نظر رو نشون می‌ده.
بله واریانس UMVUE از کران پایین بزرگتر یا مساوی اون هست. اگر برآوردگر نااریبی واریانسی برابر کران پایین نامساوی CR داشته باشه، UMVUE هست ولی عکس اون درست نیست.

موفق باشید.
پاسخ: سلام.

برای استفاده از مدل تحلیل واریانس یک‌طرفه نرمال (برای مقایسه میانگین‌ها)، محدودیتی در مورد حجم نمونه در گروه‌های مورد نظر وجود ندارد. در این مدل باید سه پذیره ۱) هم‌پراشی یا همان واریانس‌های برابر ۲) نرمال بودن و ۳) مستقل بودن گروه‌ها، برقرار باشند. بنابراین برای داده‌ها با شرایطی که مطرح کردین می‌تونید از مدل تحلیل واریانس یک‌طرفه استفاده کنید.

البته ذکر دو نکته در این‌جا لازم است:
۱) بررسی نرمال بودن پاسخ در گروه‌های کم حجم (مثل گروهی با ۳ مشاهده) می‌تواند سوال‌برانگیز باشد. البته مدل تحلیل واریانس نسبت به تخطی ضعیف از پذیره نرمال چندان حساس نیست. یا این‌که می‌توانید از جانشین ناپارامتری آن مانند آزمون کروسکال-والیس استفاده کنید.
۲) وقتی حجم‌های نمونه در گروه‌ها نابرابر باشند، معمولا پذیره هم‌پراشی (واریانس‌های برابر) نیز برقرار نیست. در این حالت باید از روش‌های وزنی استفاده کنید.

موفق باشید.
پاسخ: خوب این سوال رو باید از اون‌ها بپرسید که احتمالا بهتر می‌تونن جواب بدن. اما من می‌تونم بگم به‌طور کلی تفاوت عمده در نظری و کاربردی بودن است. یعنی در کارهای ما آماری‌های معمولا جنبه‌های نظری بیشتر مورد توجه است و در کارهای اون‌ها بیشتر جنبه‌های کاربردی و اون‌ها معمولا کاربر روش‌های مطرح‌شده در قابلیت اعتماد هستند و تسلط چندانی بر مبانی آن روش‌ها ندارند.
به نظر من آمیزه‌ای از هر دو شامل تسلط بر مبانی نظری و توسعه آن‌ها و پرداختن به کاربرد ملموس آن در یک موقعیت واقعی، می‌تواند یک مساله جذاب برای کار و پژوهش باشد.

موفق باشید.
پاسخ: سلام.

مباحث استنباط آماری پا بر روی دوش نظریه احتمال گذاشته‌اند و بدون مبانی احتمال و رعایت اصول آن، اعتبار ندارند. بنابراین جدا کردن اون‌ها از هم چندان بامعنی نیست.
با این حال منظور شما رو می‌فهمم. خوب اگه دیدگاه نظریه احتمالی خوبی داشته باشید، بهتر می‌تونید روی مباحث استنباطی قابلیت اعتماد کار کنید.
این زمینه هر دو مبحث نظری و کاربردی را در زمینه‌های استنباط و احتمال دارد. با توجه به علاقه شما به مباحث استنباط آماری، زمینه‌های مختلفی را می‌توانید در قابلیت اعتماد پیدا کنید که تمرکز اصلی در آن‌ها استنباط است. مثل برآورد تابع قابلیت اعتماد کالاها، برآورد پارامتر تنش-مقاومت در سیستم‌های مختلف (موازی و سری) قابلیت اعتماد و ....

موفق باشید
پاسخ: سلام.
در مواردی (به‌ویژه در خانواده توزیع‌های نمایی) این دو برآوردگر یکی هستند و در مواردی برآوردگر نارایب با کمترین واریانس تابعی از MLE هست. برای دانستن این‌که کدام موارد و چطور، می‌توانید به کتاب‌های استنباطی مثل کتاب‌های لهمن، برگر و کسلا، و روهاتگی و صالح مراجعه کنید.

در رده برآوردگرهای نااریب (که چندان هم ویژگی جذابی نیست) برآوردگر UMVUE از منظر تابع زیان توان دوم بهترین هست. ولی همون‌طور که شما گفتید اگه برآوردگر اریبی باشه که مخاطره کمتری (نسبت به هر تابع زیانی) نسبت به برآوردگرهای نارایب داشته باشه، خوب حتما از اون استفاده کنید.

موفق باشید
پاسخ: سلام. من یک نگاهی به سایت انداختم خوب حتما می‌تونه برای شما مفید باشه. اما توصیه من به شما استفاده از کتاب‌های آماری هست. ابتدا ببینید برای انجام کارتون به چه روش‌ها و مدل‌های آماری نیاز دارید. سپس بر اساس اون روی کتابی که اون مطالب رو پوشش بده تمرکز کنید.

مثلا برای رگرسیون یک کتاب خیلی خوب کتاب مقدمه‌ای بر مدل‌های رگرسیون خطی تالیف میرز و مونت‌گومری و سایرین هست. کتابی شبیه به این رو آقای دکتر نیرومند نوشتن که فکر کنم انتشارات دانشگاه فردوسی مشهد هست.

موفق باشید.
پاسخ: سلام.

من انگیزه و دلیل انجام چنین آزمونی را نمی‌دانم. اما در مورد سوال شما...

اثبات می‌شود p-مقدار، تحت درستی فرضیه صفر (نه در حالت کلی)، دارای توزیع یکنواخت است. این واقعیت به توزیع آماره آزمون تحت فرضیه صفر (مثلا نرمال بودن) ربطی ندارد.

موفق باشید.
فاطمه - 21/6/1396، 00:58:42)
مشاهده پاسخ
پاسخ: سلام.

باکس: همه مدل‌ها نادرست هستند، اما برخی از آن‌ها مفیدند.

تکیه‌گاه (دامنه تغییرات) توزیع نرمال مجموعه اعداد حقیقی است. بنابراین به‌طور کلی می‌توان گفت متغیر تصادفی نامنفی نمی‌تواند از توزیع نرمال پیروی کند. اما اگر میانگین بزرگ باشد شاید توزیع نرمال به داده‌ها برازش مناسبی داشته باشد.

با این توضیح برای مثالی که شما گفتید، از نظر من بله حق با شماست اگر این شرایط باشد پذیره توزیع نرمال برای آن داده‌ها نامناسب است.
موفق باشید.
پاسخ: سلام. آماره آزمون کروسکال والیس تابعی از اختلاف میانگین رتبه مشاهدات برای هر تیمار و میانگین رتبه همه مشاهدات روی هم است.
از طرفی میانگین رتبه‌های یک مجموعه داده معادل با رتبه میانه مشاهدات است. برای همین است که از میانه نام برده می‌شود ولی باید دقت کنیم که این آماره تابعی از رتبه‌های مشاهدات است نه خود مشاهدات. هرچند که اندازه مشاهدات بر مقادیر رتبه‌ها تاثیر دارند.
پاسخ: سلام. دو نکته:

۱) من روش‌های بیزی رو توصیه کردم. اما اگر حجم نمونه کوچک باشد و در نظر گرفتن پذیره توزیع نرمال مشکوک باشد، و شما مصر به استفاده از روش‌های کلاسیک استنباط آماری باشید، از روش‌های ناپارامتری کلاسیک نیز می‌توان استفاده کرد.

۲) منظور از سه، تکرار برای هر آزمودنی است یا کلا اندازه‌های سه آزمودنی موجود هستند؟ این دو خیلی با هم متفاوت هستند.
پاسخ: سلام. برای دیدن پاسخ به این لینک مراجعه کنید:
https://math.stackexchange.com/questions/763567/is-umvue-unique-is-the-best-unbiased-estimator-unique
پاسخ: سلام. برداشت شما از بسندگی اشتباه است. این جمله شما

"اگر دو بار آزمایش برنولی را با احتمال موفقیت p انجام دهیم، با داشتن مجموع موفقیت‌ها می‌توان احتمال هر پیشامدی را بدون داشتن مقدار p تعیین کرد"

نادرست هست. بدون دانشی از p نمی‌توان احتمالی رو به صورت عددی حساب کرد. بسندگی به این مفهوم هست که اگر آماره بسنده‌ای وجود داشته باشه (به غیر از نمونه) تمام اطلاعات موجود در نمونه اصلی برای شناخت پارامتر در آماره بسنده نیز هست. پس استفاده از نمونه و آماره بسنده هر دو استنباط مشابهی رو در مورد پارامتر ارایه می‌دهند.

به‌عنوان مثال، اگر با استفاده از نمونه به برآورد 0.4 برای p برسید، با روش استنباطی مشابه با استفاده از آماره بسنده هم به همون برآورد می‌رسید.
پاسخ: سلام. استفاده از هر کدام از این مدل‌ها به پذیره‌های شما و اهداف تحلیل بستگی داره. ممکنه برای هدفی که شما دارین استفاده از مدل اول کافی باشه.

اما در مورد سوال دوم که مربوط بود به استفاده از مدل اول در حالتی که علاقه‌مند به اثر متقابل نیستید، پاسخ من استفاده از مدل انالیز واریانس دوطرفه بدون اثر متقابل هست. مدل اول اثر هر عامل را بدون حضور دیگری بررسی می‌کند. در حالی که ممکن است عامل B (اثر دوره) روی عامل A (اثر جنسیت) یک تاثیر مداخله‌گرانه داشته باشه که لحاظ نکردن ان بر کاهش دقت استنباط اثر خواهد داشت.

موفق باشید.
پاسخ: سلام. به‌طور خیلی خلاصه می‌تونم پاسخ‌های زیر رو برای سوالات شما ارایه بدم:

۱) اگه اثری واقعا معنی‌دار باشد، با حجم نمونه کم یا زیاد باز هم معنی‌دار است و اندازه اثر (برآورد نقطه‌ای اثر) نیز بزرگ و قابل ملاحظه است. افزایش حجم نمونه می‌تواند بر معنی‌دار شدن اثرات ناچیز تاثیر بذاره که با توجه به اندازه اثر و نظر متخصص زمینه مورد نظر می‌توان به صفر بودن آن اثر پی برد.
تعیین یک حجم نمونه مشخص در علوم بی‌معنی است زیرا اولا دنیای جاری دنیای داده‌های بزرگ است و تعیین یک عدد مشخص به معنی کنار گذاشتن سایر اطلاعات است و دوم این‌که همان‌طور که اشاره کردم استفاده از معیارهای معنی‌داری باید در کنار سایر ویژگی‌ها مثل اندازه اثر، و فاصله اطمینان (فاصله اعتبار، فاصله عدم قطعیت) استفاده بشن.

۲) تعیین بزرگی اندازه اثر به مساله مورد نظر و متخصص مربوطه بستگی داره.

۳) اگه جامعه مورد نظر همین باشه که گفتید و تمام اطلاعات در دسترس باشند بله. در عین حال، دقت کنید این جامعه نمونه‌ای است از ابرجمعیت بزرگتر آقایان ۲۵ ساله کشور در سال‌های مختلف از گذشته تا آینده. بنابراین با این نگاه می‌توان کار استنباطی هم انجام داد.

موفق باشید.
پاسخ: سلام.
این موضوعی هست که بحث‌های زیادی روش شده و هنوز هم می‌شه. به‌عنوان نمونه می‌تونید در وبلاگ Andrew Gelman در مورد این موضوع جستجو کنید.

جواب کوتاه من:
تقریبا هیچ اثری (مثل اختلاف یک متغیر در دو سطخ خود) در دنیا نمی‌تونید پیدا کنید که دقیقا صفر باشه و زمانی که به اندازه کافی بزرگ داده جمع‌آوری بشه این اثر بر اساس معیارهایی مثل p-value معنی‌دار تشخیص داده می‌شه. مثلا جمله
We know that for large enough sample sizes, every study—including ones in which the null hypothesis of no effect is true—will declare a statistically significant effect.
رو می‌تونید در مقاله زیر پیدا کنید:
http://magazine.amstat.org/blog/2010/09/01/statrevolution/

اما چند نکته وجود داره:
۱) معیاری مثل p-value قراردادی و اختیاری است. به این معنی که با جمع‌آوری به اندازه کافی داده می‌توان اون رو به اندازه دلخواه کوچک کرد.
۲) مقدار آستانه سطح معنی‌داری برای مقایسه با p-value هم اختیاری است و مقداری مثل ۰.۰۵ پایه نظری نداره و مرسوم شده.

با این مقدمه، اهمیت آماری اثر در موقعیت‌های کاربردی باید مد نظر باشه نه معنی‌داری آماری. این کار هم بر اساس اندازه اثر (effect size) باید سنجیده بشه نه p-value. در واقع اگر اثری معنی‌دار شد که از نظر متخصص اصلا وجود چنین اثری توجیه ندارد و اندازه آن نیز نزدیک به صفر است یا چندان بزرگ نیست، به معنی‌داری آماری آن نباید اعتنایی کرد.

مثلا در پرسش قبلی شما، همبستگی ۰.۱۱ بین متغیر پاسخ و متغیر رگرسیونی به معنی توجیه واریانس پاسخ توسط این متغیر به اندازه ۰.۰۱۲ هست (ضریب تعیین رگرسیون برابر ضریب همبستگی به توان دو و مقدار واریانس توجیه‌شده پاسخ توسط متغیر رگرسیونی است). آیا توجیه تقریبا ۱ درصدی واریانس پاسخ توسط یک متغیر رگرسیونی، اهمیت زیاد اون متغیر رو نشون می‌ده؟ هر چند که معنی‌دار شده باشه؟

این بحث در دنیای امروز باعث شده که نظریه آزمون فرضیه‌ها (به‌ویژه آزمون‌های معنی‌داری) تقریبا کم‌رنگ یا حتی سرکوب بشه و از نظریه نواحی اطمینان و برآورد اندازه اثر طرفداری بشه.

امیدوارم پاسخ کوتاه من روشن و واضح باشه.


پاسخ: سلام. قسمت دوم سوال شما رو با سوال بعدی شما (در بالا) پاسخ دادم.

در مورد قسمت اول، طبق سوال شما اگر پذیره‌های رگرسیون خطی برقرار باشند و خط برازش‌شده معنی‌دار شود، با رعایت مساله برون‌یابی (extrapolation) یعنی نقطه پیشگویی در بین مشاهدات قرار گیرد نه بیرون، می‌تونید از خط برازش‌شده برای پیشگویی استفاده کنید.

منتهی یک واقعیت رو باید مد نظر قرار دهید، آن هم این‌که نیکویی برازش مدل رو باید بررسی و تایید کنید.

موفق باشید.
رضا - 14/4/1396، 19:07:13)
مشاهده پاسخ
پاسخ: سلام.

پاسخ سوال خانم فاطمه را در بالا ملاحظه کنید.

موفق باشید.
پاسخ: سلام. تفاوتشون در نوع همگرایی هست. یکی همگرایی در احتمال هست (قانون ضعیف) و دیگری همگرایی قریب به یقین (قانون قوی). همگرایی قریب به یقین از احتمال قوی‌تر هست و اگر دنباله‌ای به یک متغیر همگرای قریب به یقین باشه، همگرای در احتمال هم هست ولی عکس اون برقرار نیست. برای همین هم هست که به اون قوی می‌گن.
پاسخ: سلام. فرقی ندارن. دو اصطلاح برای یک مفهوم هست.
پاسخ: سلام. اگر تمام تحقق‌های شما ۱ هستند و صفری دیده نشده، نیازی به انجام آزمون سالم بودن سکه نیست. سکه اریب هست و سالم نیست.
پاسخ: سلام. در نت بگردین مطلب زیاده. با این حال کتاب واسرمن با عنوان All of Nonparametric Statistics می‌تونه کمک کنه. موفق باشید.
پاسخ: سلام. متشکرم. عمل‌های شما هم قبول درگاه خدا باشه انشالله.
خوب منعی در یادگیری نرم‌افزارهای تخصصی و عمومی برای دانشجوها نیست. فرد علاقه‌مند می‌تونه یاد بگیره هر چی دوست داره. اما اگه منظور شما نرم‌افزارهایی هست که همراه با درس‌ها تدریس می‌شن، خوب نرم‌افزار R که یکی از برترین‌های آماری هست در کنار شاید نرم‌افزارهای SPSS، Minitab و سایر موارد رو می‌شه اسم برد.
در مورد منبع برای یادگیری SPSS و موارد مرتبط بهتره از آقای دکتر ربیعی بپرسید.
موفق باشید.
پاسخ: سلام. متشکرم. به هر حال دوره دکتری دوره پژوهش هست و وقتی رقابت هست برای یک موقعیت دکتری، باید از بین رقبا انتخاب کرد. اصلی‌ترین مساله برای انتخاب سنجش توانایی پژوهش افراد هست. اگر کسی خروجی پژوهشی نداشته باشه، چطور می‌شه توانایی اون فرد در این زمینه رو سنجید؟ قبول کنید با حرف زدن نمی‌شه به این شناخت رسید چون راحتترین راه اداعا کردن هست. معمولا افرادی هم که زیاد ادعای انجام کاری رو دارن در حالی که هیچ نشانی از قبل در مورد اون کار در فعالیت‌هاشون دیده نمی‌شه، طبل توخالی هستن.

شما اگر بدون داشتن کار پژوهشی در رزومه خودتون می‌تونید به روشی دیگه توانایی پژوهشی خودتون رو اثبات کنید، حتما مورد توجه مصاحبه‌کننده‌ها قرار خواهد گرفت.

انشالله موفق باشید.
پاسخ: سلام. انشالله موفق باشید. این‌که تحصیلات ریاضی دارید خوب می‌تونه خیلی کمک کنه بهتون در یادگیری اصولی روش‌ها و مبانی آماری. در مورد کیفیت برگزاری رشته آمار در دانشگاه پیام نور بی اطلاعم. اما می‌تونم بگم خیلی از بخش یادگیری عمیق به خود دانشجو بستگی داره. شما می‌تونید از کتاب‌های مختلف در کنار کلاس‌های درس استفاده کنید و کارهای عملی و نرم‌افزاری رو هم خودتون پیش ببرید. به‌طور کلی کار سختی نیست.
پاسخ: سلام. متشکرم. نتایج نهایی شدن و در سازمان سنجش ثبت. تجدید نظری امکان نداره. در عین حال اگر هم ممکن بود باید تیم مصاحبه‌کننده تجدید نظر کنن نه یک فرد. موفق باشید.
پاسخ: سلام. رشته آمار یکی از شاخه‌های ریاضی محسوب می‌شه و البته من فکر می‌کنم کاربردی‌ترین شاخه اون هست. به‌طور کلی همه دنیا ریاضیات محسوب می‌شه. یک نگاهی به اطرافتون بندازید می‌بینید همشون ارقام و توابع و ... هستند. برای عمق دادن به دانش آماری دانستن خوب ریاضیات (یا به قول شما پایه ریاضی قوی) خیلی مهم و حیاتی هست.
آمار شبیه ریاضی هست چون شاخه‌ای از اونه. اما اونقدر در سایر علوم جا باز کرده و بهش نیاز دارن (به‌طور اصولی منظورمه نه چیزی که داره اجرا می‌شه) که فکر می‌کنم بهترین و کاربردی‌ترین رشته علمی دنیا هست.

موفق باشید.
پاسخ: سلام. متشکرم از احوال‌پرسی شما. با توجه به نکاتی که گفتید، من هم چند مورد بگم:
۱) تعداد افرادی که در روز مصاحبه تشریف آوردن ۳۵ نفر بود.
۲) بحث اعتماد نیست. بحث شناخت توانایی برای انجام یک کار بزرگ تحقیقاتی هست. فردی قرار دکتری رشته‌ای رو بگیره. پس نمی‌شه ساده ازش گذشت. ابزار شناخت ما هم محدود هستند. تنها نتیجه یک امتحان کاملا غیراستاندارد و یک جلسه مصاحبه شاید ۱۰ دقیقه‌ای.
۳) به آزمون نمی‌شه چندان اعتماد کرد. به‌ویژه این‌که نمرات هم بالا نبود در بین ۳۵ نفر. از طرفی، مصاحبه افراد هم خوب نبود یا تخصصشون اصلا در راستای بنده نبود.
۴) نتیجه اعلان‌شده نظر جمع مصاحبه‌کننده بود نه یک نفر.

انشالله هر جا هستید سلامت و موفق باشید.
پاسخ: سلام. وقتی توزیع پیشین آگاهی‌بخش محسوب می‌شه، پس به برخی از نواحی فضای پارامتر شانس (احتمال یا چگالی) بیشتری برای دیده شدن اختصاص می‌ده. بنابراین می‌شه نتیجه گرفت که سره است.
مریم حیدری - 29/9/1395، 22:24:23)
مشاهده پاسخ
پاسخ: سلام. در توزیع نرمال میانگین و واریانس وابستگی تابعی ندارن. یعنی واریانس می‌تونه از میانگین بزرگتر باشه یا کوچکتر. پس اونی که شما می‌گید دلیلی بر نانرمال بودن نیست. آزمون مقایسه میانگین‌ها برای سه سطح یک آنالیز واریانس یک‌طرفه هست که به راحتی در نرم‌افزارهای آماری قابل اجراست. این آنالیز به پذیره نرمال بودن پاسخ خیلی حساس نیست یعنی اگه کمی هم توزیع در سه سطح مختلف مثال شما از نرمال فاصله داشت عیب نداره. در عین حال اگر حجم نمونه شما بزرگ باشه اصلا نگران پذیره توزیعی نباشید. موفق باشید.
پاسخ: سلام. این رشته یکی از شاخه‌های آمار محسوب می‌شه. شاخه‌ای که به کاربردهای آمار در رشته‌های پزشکی می‌پردازه. بررسی عوامل موثر بر ابتلا به بیماری‌ها و تقریب میزان شدت تاثیر آن‌ها، محاسبه خطر وقوع رخداد‌هایی مثل مرگ ناشی از بیماری مشخصی برای افراد با ویژگی‌های مختلف تنها دو مثال از هزاران مثالی هست که می‌شه از کاربردهای این رشته گفت. خوشبختانه در ایران هر دو مقطع ارشد و دکتری این رشته در دانشگاه‌های علوم پزشکی وجود دارند. برای کسب آگاهی بیشتر در این مورد پیشنهاد می‌کنم به گروه‌های مربوط در دانشگاه‌های علوم پزشکی یک سر بزنید.
موفق باشید
پاسخ: سلام. خوب الگوریتم بوت‌استرپ (ناپارامتری) خیلی ساده و سرراست است. داده‌ها رو بازنمونه‌گیری کنید و هر بار برای مجموعه داده بازنمونه‌گیری‌شده هر دو برآورد رو محاسبه کنید. این کار رو به تعداد مشخصی تکرار کنید. در پایان، دو بردار از برآوردهای دو روش نتیجه می‌شن. با اون دو بردار می‌تونید اریبی برآوردگرها، انحراف معیارشون و MSE اون‌ها رو تقریب کنید. موفق باشید.
پاسخ: سلام. محاسبه تابع چگالی شرطی در R؟ شاید منظور شما تولید نمونه از یک چنین چیزی هست؟ یا ...؟ سوال رو دقیق بپرسید.
پاسخ: سلام. برای پذیرش از دانشگاه‌های معتبر خارجی در دوره دکتری، نمرات دوره‌های کارشناسی و ارشد می‌تونه تاثیر داشته باشه. اما خیلی مهمتر از این مورد، موارد پژوهشی و زبان انگلیسی شماست. البته تصور من اینه که منظور شما پذیرش با پرداخت هزینه‌ها از طرف دانشگاه هست نه خود شما. بهتره به فکر نمره خوب زبان و رزومه پژوهشی خوب باشید. موفق باشید.
پاسخ: سلام. متشکرم. در این مورد منبع زیاده. کافیه در اینترنت جستجو کنی. کتاب استنباط آماری برگر و کسلا، کتاب مقدمه‌ای بر آمار و احتمال روهاتگی و صالح، جزوات درس استنباط ۱ دانشگاه خودمون (دکتر آرشی و بنده) در این مورد مطالب مورد نیاز شما رو دارن. موفق باشی
پاسخ: سلام. بله می‌گیرم.
آزمون دکتری از امسال تغییر کرده. برای جزییات به سایت سازمان سنجش مراجعه کنید.
امسال یک آزمون اولیه سازمان سنجش برگزار می‌کنه و افراد یک نمره کسب می‌کنن. بعد هر دانشگاه مجری دوره دکتری کف نمره مورد قبول خود رو اعلام می‌کنه. اگه فردی اون کف رو دارا باشه، می‌تونه در آزمون تخصصی دانشگاه مورد نظر شرکت کنه. مرحله بعدش مصاحبه هست و در نهایت با توجه به نمره تخصصی و مصاحبه اساتید دانشجو انتخاب می‌کنن.
دوستان فارغ‌التحصیل مبتنی بر دوره آموزشی هم شانس دارند برای قبولی. نکته تاثیرگذار برای جبران پایان‌نامه، داشتن انتشارات پژوهشی هست که به اساتید توانایی پژوهشی خودتون رو تا حدودی اثبات کنید.

موفق باشید.
پاسخ: سلام. برای bagging به مقاله اصلی برایمن مراجعه کنید:
L. Breiman, “Bagging predictors,” Machine Learning,
24(2):123-140, 1996.
برای MBB هم توصیه می‌کنم کارهای آقای دکتر ایران پناه در دانشگاه اصفهان رو ببینید:
http://sci.ui.ac.ir/iranpanah
موفق باشید.
پاسخ: سلام. پایه‌های نظری و فلسفی دیدگاه بیزی (از منظر بهینگی) بر روی دوش نظریه تصمیم قرار دارند. در واقع تصمیم‌های بیزی (شامل برآوردگرهای بیزی، نواحی اعتبار بیزی و آزمون فرضیه‌های بیزی) و نحوه پیدا کردن اون‌ها بر اساس اصولی انجام می‌شن که در نظریه تصمیم تبیین می‌شن. پس تصمیم‌های بیزی در دل نظریه تصمیم قرار می‌گیرند.

موفق باشید.
پاسخ: سلام.
6 فصل اول کتاب انشالله و اگر برسیم بیشتر از اون هم پیش می ریم.
پاسخ: سلام. این توزیع رو کجا دیدین؟ بدون دونستن محتوی نمی‌تونم نظری بدم. فکر کنم منظور از این توزیع، توزیع تابع پایه بقا در تحلیل بقا باشه. اگر این‌طور باشه، شما می‌تونین در متون مربوط به تحلیل داده‌های بقا (رمانی که تابع پایه رو به‌صورت پارامتری مدل‌بندی می‌کنند) مطالب جامعی رو در موردش پیدا کنید. موفق باشید.
پاسخ: سلام
اگر منظور شما رگرسیون خطی است، باید نرمال بودن جمله خطا بررسی شود نه متغیر پاسخ. برای این بررسی آزمون‌ها و روش‌های در متون مربوط به رگرسیون وجود دارند.
اما به‌طور کلی تخطی ضعیف از پذیره نرمال در رگرسیون خطی، قابل صرفنظر کردن است. به این معنی که اگر جمله خطا نرمال نبود اما از نرمال هم زیاد دور نبود، می‌توان باز هم از نتایح مدل برازش‌شده برای برخی از اهداف مدل‌بندی (مثل توصیف پدیده) استفاده کرد.
حجم نمونه بالا می‌تواند این قانون سرانگشتی کلی که گفتم را تقویت کند.
موفق باشید.
پاسخ: سلام. منابع فارسی رو باید توی پایان‌نامه‌های ارشد و دکتری رشته آمار در دانشگاه‌ها دنبال باشین. اما منبع مناسب و استاندارد لاتین کتاب نلسن هست. لینک زیر رو ببینید:
http://www.springer.com/us/book/9780387286594
پاسخ: سلام. شما بهتره آزمون نرمال بودن رو بدون در نظر گرفتن گروه‌های (جنسیت یا میزان تحصیلات) انجام بدی و برای بررسی تاثیر دو موردی که گفتی می‌تونی از آزمون‌های t (برای جنسیت) و آنالیز واریانس یکطرفه (برای میزان تحصیلات) استفاده کنی.
در مدل‌های آنالیز واریانس پذیره نرمال بودن پاسخ چندان جدی نیست و نتایج نسبت به این پذیره حساس نیستند. بنابراین حتی اگر پاسخ نرمال نباشه باز هم می‌تونی از این مدل‌ها و آزمون t برای بررسی تاثیر مواردی که گفتی استفاده کنی.

موفق باشی.
پاسخ: سلام. بله حتما تاثیر داره. تبدیل داده‌های خام می‌تونه به اهداف پیش‌بینی و کارایی پیش‌بینی‌ها کمک کنه. البته تشخیص تبدیل مناسب هر داده با توجه به ماهیت اون‌ها و هدفی که از تحلیل اون‌ها داریم، مساله مهمی هست.
در مورد منبعی که پرسیدین، می‌تونین سراغ تبدیلات توانی باکس-کاکس برین. برای شروع این‌جا رو ببینید: https://en.wikipedia.org/wiki/Power_transform
موفق باشید.
پاسخ: سلام
میانگین این توزیع همیشه صفره و نیازی به آزمون نداره. واریانس هم برابر درجه آزادی تقسیم بر (درجه آزادی منهای 2). بنابراین آزمون واریانس هم منتهی می شه به آزمون درجه آزادی. بله می شه در مورد درجه آزادی این توزیع فرضیه های مختلفی رو مطرح و آزمون کرد.
پاسخ: سلام. کتاب ویلیام وی که ترجمه هم شده (توسط آقای دکتر نیرومند) و چاپ انتشارات دانشگاه فردوسی مشهد هست، کتاب خوبیه. یک کتاب لاتین ساده و خوب هم هست که نویسندش جاناتان دی‌کرایر هست و توی اینترنت قابل دانلوده. موفق باشید.
پاسخ: سلام. معیار MSE مربوط به اندازه‌گیری چه کمیتی است؟

معنی‌داری پارامترهای یک مدل سری زمانی و نرمال بودن باقی‌مانده‌هاش لزوما به معنی مناسب بودن مدل سری زمانی نیست. در سری‌های زمانی مهمتر از نرمال بودن باقی‌مانده‌ها اینه که باقی‌مانده‌ها حاوی اطلاعات ساختاری نباشند و نوفه باشند. به این معنی که ناهمبسته باشند و واریانس ثابت داشته باشند.

بسته به مدلی که برازش می‌دی، در سری‌های زمانی معیار ضریب همبستگی بین مقادیر برازش‌شده و مشاهده‌شده می‌تونه معیار مناسبی نباشه. برای نیکویی برازش در مدل‌های سری زمانی معیارهای متفاوتی وجود دارند که برای اطلاع از این معیارها می‌تونی به متون سری زمانی مراجعه کنی.

موفق باشی
پاسخ: سلام. یک مفهموم جدیده که بعضی‌ها معتقدند شامل رشته‌های آمار، یادگیری ماشینی، محاسبات عددی، اینفوگرافیک و ... می‌شه. برای این‌که بیشتر در این مورد بدونی، می‌تونی وبلاگ اندرو گلمن رو ببینی که در این مورد مطالبی رو نوشته:
andrewgelman.com
موفق باشی
پاسخ: سلام. offset یک مجموعه نیست. توی مدل‌های رگرسیونی، ممکنه همراه با متغیر پاسخ، یک متغیری تعریف بشه که هدف اصلی نیست که البته باید در مدل باشه. به اون می‌گن offset. برای روشن شدن مطلب یک مثال می‌زنم.

رگرسیون پواسون معمولا برای مدل‌بندی پاسخ‌های شمارشی استفاده می‌شه. اما بعضی مواقع مدل‌بندی پاسخ‌های به صورت نرخ به‌جای پاسخ‌های شمارشی،‌معمول‌تر هست. به عنوان نمونه، ممکنه تعداد شمارش‌شده متغیر پاسخ برای افراد مختلف، در فاصله‌های زمانی یکسان نباشه. در این صورت مثلا مدل مناسب به شکل زیره:
log(\mu_x/t_x)=\beta_0+\beta_1 x
به‌طوری که mu_x تعداد مورد انتظار متغیر پاسخ برای متغیر توضیحی x است. این مدل رو می‌شه بر حسب میانگین پاسخ به صورت زیر نوشت:
log(\mu_x)=log(t_x)+\beta_0+\beta_1 x
در این حالت متغیر
log(t_x)
نقش offset رو بازی می‌کنه.

موفق باشی
پاسخ: سلام. پیچش دو تابع توزیع، به معنی توزیع مجموع دو متغیر تصادفی با توزیع‌های متناظرشونه. نماد حاصلضرب دو توزیع، بسته به تعریف هست و یک نماده. می‌تونه مثلا توزیع حاصلضرب دو متغیر تصادفی باشه.
پاسخ: سلام. منظور از جمله تولید داده کمبود برای پارامتر مستقل رو نفهمیدم.
بوت‌استرپ در مدل‌های رگرسیونی (به‌طور کلی) می‌تونه هم پارامتری انجام بشه هم ناپارامتری. اگه نسبت به مدلی که در نظر گرفتین، تا حدودی اطمینان دارین بهتره از بوت‌استرپ پارامتری استفاده کنین (نمی‌دونم تفاوت اون‌ها رو می‌دونین یا نه).

مساله مهمی که در مورد مدل شما وجود داره اینه که مدل پانلی هست و نوعی وابستگی بین داده‌های هر پانل وجود داره. بنابراین دقت کنین که بازنمونه‌گیری باید از پانل‌ها انجام بشه نه همه داده‌ها. برای اطلاعات بیشتر می‌تونین از منابع مختلفی که در مورد بوت‌استرپ داده‌های وابسته وجود داره استفاده کنین.

توضیحات من خیلی کلی هست. اما این‌جا همین اندازه می‌شه توضیح داد. موفق باشید.
پاسخ: سلام. منظورتون از مدل‌سازی، چه مدلی هست؟ یک مدل رگرسیونی پانلی؟ یا چیز دیگه؟ هدف از تحلیل داده‌ها چیه؟ چه محدودیت‌هایی در مدل هست که به فکر بوت‌استرپ افتادین؟ این اطلاعات لازمه تا بتونم نظر دقیق‌تری بدم.

برای درک بهتر از انگیزه استفاده از روش‌های بوت‌استرپ، توضیح زیر شاید مفید باشه:
در مدل‌سازی آماری، معمولا پارامترهایی وجود دارند که باید به روشی برآورد بشن. برای ارزیابی مناسبت مدل و درستی اون برای پدیده تحت مطالعه، باید رفتار برآوردگرها رو بررسی کرد. شناخت رفتار برآوردگرهای یک مدل آماری، نیازمند معلوم بودن توزیع اون‌هاست. اما معمولا شکل برآوردگرها طوریه که شناخت توزیع اون‌ها کار سخت یا حتی ناممکنی هست. در این موارد، که در دنیای واقعی معمول هم هست، باید توزیع برآوردگرها رو تقریب زد. یک راه‌حل تقریب توزیع واقعی برآوردگرها، استفاده از روش‌های بوت‌استرپ هست. بحث در مورد این روش‌ها و نسخه‌های مختلفش در موقعیت‌های (داده‌ای) مختلف، گسترده است و هنوز مطالعه بر روی تعمیم و توسعه اون‌ها جاریه.

موفق باشید.
پاسخ: سلام. بستگی به مجلش داره. اکثر مجله‌ها برای چاپ مثلا رنگی ممکنه هزینه بخوان. اما در صورت انتخاب‌های خاصی (مثل چاپ سیاه و سفید، عدم دریافت نسخه‌ای از مجله و ...) هزینه‌ای از طرف مجله درخواست نمی‌شه.
پاسخ: سلام. بهتره در این مورد از اساتید گروه جبر بپرسید. برای دانشجویان رشته آمار کتاب جبر خطی پیام نور خوبه. کتاب لاتین هم کتاب سبر خوبه. موفق باشید
حسن محمدی - 18/9/1393، 18:32:50)
مشاهده پاسخ
پاسخ: سلام. این سوال، مساله جالب و کاربردی هست. جواب کامل و دقیق به این سوال توی صفحه زیر قابل دستیابی هست. برای بقیه هم می‌تونه مفید باشه دیدنش:
http://en.wikipedia.org/wiki/Randomized_response
موفق باشید.
پاسخ: سلام. در مورد پذیرش تو همین صفحه بعضی از دوستان قبلا سوال کردند من هم اطلاعاتی که داشتم نوشتم. هزینه‌ها بستگی داره به دانشگاه و کشوری که پذیرش می‌دن و معمولا اروپا از کانادا و آمریکا گرونتره.
چیزی که در دوره دکتری وزن زیادی داره تا ترغیب کنه شخص یا کمیته‌ای رو برای دادن پذیرش به شخصی، توانایی‌های پژوهشی افراده. هر چی رزومه پژوهشی قویتر باشه، احتمال گرفتن پذیرش بیشتر می‌شه (البته معیارهای دیگه‌ای هم هستند). داشتن یک مقاله با این ضریب تاثیر می‌تونه نشون‌دهنده توانایی پژوهشی شما باشه و قطعا تاثیر مثبت داره، اما می‌تونه قانع‌کننده هم نباشه و بهتره این رزومه پر و پیمون‌تر بشه.
قاعده‌ای که معمولا در پذیرش دانشجویان دکتری (همراه با کمک‌هزینه تحصیلی) در کشورهای اروپایی و آمریکای شمالی وجود داره، استادمحور هست. یعنی اگر استادی رو که قراره با اون کار کنین راضی کنین تا به شما پذیرش بده (با توجه به گرنت‌های خوب تحقیقاتی که در اختیار دارن)، تقریبا قسمت مهم مسیر پذیرش رو طی کردین. البته این قاعده معموله و کلیت نداره. بنابراین بهتره ابتدا روی فرد یا افرادی که دوست دارین باهاشون کار کنین، فکر کنین. بعد از این‌که یک یا چند نامزد مشخص شدند، دانشگاه و کشورشون معلوم می‌شه و می‌تونین ملاک‌های بعدی رو (از جمله اعتبار دانشگاه، هزینه‌های زندگی، ویزا گرفتن و سایر موارد) برای انتخاب در نظر بگیرین.
پیشنهاد می‌کتم موازی با تقویت رزومه پژوهشی، مطالعه برای انتخاب فرد مورد نظر رو شروع و مکاتبه با اون و دانشگاهش رو شروع کنین. ممکنه اولین فرد یا اولین افراد جواب مثبت ندن. به این ترتیب زمان رو از دست نمی‌دین.

موفق باشین انشالله.
پاسخ: سلام و متشکرم. منظور از همبستگی، وابستگی از نوع خطی هست. در واقع معیاری است برای سنجش (فقط) وابستگی خطی بین دو متغیر.

اگرچه مفهوم وابستگی یک مفهوم گسترده است و مثلا مشابه استقلال متغیرها، تعریف مشخص و واحدی رو نمی‌شه برای اون ارایه داد، اما انواعی از وابستگی (ازجمله وابستگی‌های منفی و غیره) در متون آماری و احتمالی معرفی شده‌اند که می‌تونین با جستجو در اینترنت در موردشون اطلاعاتی کسب کنید.
برای اطلاع از معیارهای وابستگی و نحوه استفاده از اون‌ها، توصیه می‌کنم به متون مربوط به مفصل‌ها (کاپولا) مراجعه کنید. در تعریف مفصل‌ها و انواع اون‌ها از معیارهای وابستگی و همبستگی برای ساخت وابستگی‌های خاصی استفاده می‌شه که جزییاتش رو می‌تونین در متون مربوط پیدا کنید.

موفق باشید.
پاسخ: سلام و متشکرم. خیر اصلا چنین هدفی ندارم. تصادفی بودنش برای رعایت عدالته. اما شما باید نشون بدین که سر کلاس حواستون به درس هست و درس‌های جلسه‌های قبل رو هم بلدین. پس دلیلی نداره ترسی باشه. مشارکت کلاسی در ارزیابی نمره نهایی شما تاثیر داره و من به این طریق می‌خوام به بالا بردن نمره شما کمک کنم اگر خودتون بخوایید.
موفق باشید.
پاسخ: سلام. به کتاب‌های مربوط به این زمینه مراجعه کنید یا از آقای موسوی بپرسید. موفق باشید.
پاسخ: سلام. در مورد شاخه‌ای که گفتی اطلاعی ندارم. آمار زیستی رو خوب می‌شناسم اما ریاضی زیستی رو نه. متاسفم که نمی‌تونم کمکی کنم. به هر حال در گروه‌هایی که این شاخه رو دارن، می‌تونی بگردی و اطلاعاتت رو در این مورد کامل کنی. موفق باشی.
پاسخ: سلام. منظورم همون اولی بود. یعنی تعداد افرادی که متقاضی ادامه تحصیل در رشته‌های ریاضی هستند، نسبت به قبل کمتر شده. برای همین کسانی که در کسوت محققین ریاضی مشغول هستند، به دنبال دانشجویان خوب در این زمینه هستند و برای پذیرش دادن به دانشجویان با استعداد حاضر و آماده.

دلایل مختلف داره: مهمترینش فکر کنم پیدایش رشته‌های جدید میان‌رشته‌ای جذاب و کاربردی مثل نانو و بایو و غیره هست. یک دلیل دیگش سخت بودن تحصیل و تحقیق در شاخه های ریاضیه. دلیل دیگش کمتر ملموس بودن آنی کاربردهای این رشته است. رشته‌هایی مثل مهندسی، پس از تکمیل تحقیقشون کاربرد اون رو بلافاصله در قالب مثلا اختراع یک دستگاه یا مشابه اون می‌بینند و انگیزشون واسه ادامه کار بیشتر می‌شه. اما رشته‌های مادر مثل ریاضی که پایه و اساس سایر علوم هستند، به‌طور مستقیم این شکل از کاربردهای رشته خودشون رو کمتر می‌بینند و اگر وسعت دیدشون محدود باشه، ممکنه از ادامه تحصیل ناامید بشن. دلایل دیگه‌ای رو هم می‌شه گفت.

موفق باشید

پاسخ: سلام

پذیرش از دانشگاه‌های خارجی کار غیرممکنی نیست اما بسته به دانشگاه سخت می‌تونه باشه. اما این‌که سخته نباید باعث بشه اقدامی نکنی. تهش اینه که جواب رد می‌دن. برای پذیرش (چه با پشتیبانی مالی چه غیر اون) از یک دانشگاه، معیارهایی که برای اون دانشگاه مهمه توی سایتشون هست و با خوندن اون‌ها می‌تونی بفهمی ملاک‌هاشون چیا هستن.

شما باید بتونی توانایی خودت رو به اون‌ها ثابت کنی. از اونجایی که معمول نیست واسه نمایش توانایی و پذیرش گرفتن، افراد برن دانشگاه مورد نظر و مصاحبه و ... بدن، این توانایی با مجموعه‌ای از مدارک ارزیابی می‌شه که یک موردش هم سابقه تحصیلی (ریز نمرات) افراده. دقت کن که این یک مورد هست و بقیه موارد می‌تونن جبران کننده باشند.

سه مورد مهم رو متذکر می‌شم: اول، برای دوره دکتری توانایی پژوهش کردن (به‌ویژه توی یک تیم) خیلی مهمه واسه اساتید. پس اگر سابقه پژوهشی خوبی داشته باشی، خیلی می‌تونه راهگشا باشه.

دوم، واسه پذیرش گرفتن در دوره دکتری در دانشگاه‌های خارجی، معمولا باید استادی رو که می‌خوای باهاش کار کنی راضی کنی. اگه اون بخواد شما رو خیلی به هدفت نزدیک شدی. پس بهتره روی کسی که می‌خوای رساله دکتری باهاش داشته باشی کار کنی و تواناییت رو به اون اثبات کنی. اون‌هم با ایجاد ارتباط با اون از طریق ای‌میل و ... .

سوم، استقبال از رشته‌های ریاضی در دانشگاه‌های خارجی تراز اول مثل ایران کم شده. این به اون معنیه که اساتیدی که گرنت‌های خیلی خوب دارن از خداشون ادم‌های توانمند رو در کنارشون داشته باشن. پس اگه شما واقعا لایق باشی و این لیاقت رو بتونی بهشون نشون بدی، حتما به شما پذیرش می‌دن.

در مجموع امیدوارم شما و بقیه ایرانی‌های شایسته همیشه و همه جا موفق باشین.
پاسخ: سلام. وقتی پارامترها تابعی (تابعی از زمان) هستند، پس بردار پارامترها در هر نقطه زمانی در مدل، یک مدل پارامتری معمولی می‌سازه. خوب تصور کن که به ازای مقادیر دامنه هر (تابع) پارامتر، یک مدل داریم. پس بی‌نهایت مدل یا دنباله‌ای از مدل‌ها داریم.
پاسخ: سلام. بدون دیدن مطلب نمیشه حرف زیادی زد، اما با توجه به بحث مدل‌های پویا می‌شه گفت چون پارامترهای مدل پویا هستند (وابسته به زمان) در نتیجه در هر زمان (و در نتیجه زمان‌های پی در پی) یک مدل تغریف می‌شه که با زمانی متفاوت فرق داره (البته ماهیت مدل می‌تونه یکسان باقی بمونه: یعنی مثلا خطی باشه در هر زمان) و این یعنی یک مدل که به صورت دنباله‌ای داره عمل می‌کنه.
از نظر مفومی ساده است. با این حال همونطور که گفتم اگه خود مطلب دم دست باشه بهتر می‌شه نظر داد.
موفق باشی
پاسخ: سلام و متشکرم.


نمی‌دونم اصطلاح مدل دنباله‌ای رو کجا دیدی. من این رو نشنیدم یا ندیدم. منظور از این اصطلاح چیه رو نمی‌دونم. اما دنباله‌ای از مدل‌ها واضحه. هر مدل آماری با یک خانواده از توزیع‌ها تعریف می‌شه و نماینده هر توزیع یک متغیر تصادفی هست. پس دنباله‌ای از مدل‌ها (چه پارامتری چه ناپارامتری و چه نیمه‌پارامتری) همون دنباله‌ای از متغیرهای تصادفی رو تعریف می‌کنه. یا به عبارتی تعریفی از یک فرآیند تصادفی است.

موفق باشی
پاسخ: سلام. مقدار برآورد عامل‌ها در مدل تحلیل واریانس یا هر مدل رگرسیونی رو اندازه اثر عامل می‌گن. یعنی مثلا در مدل رگرسیونی همون مقدار برآوردشده ضرایب می‌شه. با استفاده از اندازه اثر هر متغیر تببینی (یا تیمار) هست که می‌شه اندازه و جهت تاثیرش رو روی متغیر پاسخ سنجید. مثلا اگر ضریب برآوردشده (یا همون اندازه اثر) مثبت باشه، می‌فهمیم که جهت اثر متغیر روی پاسخ مستقیم هست.

چیزی که گفتی واسه برآورد اندازه اثر استفاده می‌شه من نشنیدم. در واقع بدون مدل و فرمول نمی‌شه نظر داد. موفق باشی.
پاسخ: سلام. خود تابع رو بنویسی، کد نوشته شده برای تابع مورد نظر رو میاره. موفق باشید.
پاسخ: پارامتر متغیر نیست. یک مقدار ثابته. اما در دیدگاه بیزی فرض می‌شه که مقدار واقعی پارامتر توسط یک توزیع آماری مشخص می‌شه یا به عبارتی تحققی از یک توزیع آماری هست.

یک جواب کلی به سوال شما اینه: استنباط بیزی (جدا از انتخاب توزیع پیشین) بسیار سرراست و نظام‌منده. با تعیین توزیع پیشین، آن‌چه که در استنباط بیزی باقی می‌مونه (در کنار صدق کردن در برخی مبانی فلسفی خوب) محاسبه توزیع پسینه چون همه استنباط‌ها در این دیدگاه مبتنی بر توزیع پسین به‌دست می‌آیند. بنابراین این استنباط همیشه قابل انجام هست حتی با انتخاب توزیع پیشین غلط. اما در دیدگاه بسامدی برخی از مسایل قابل حل نیستند. مثال‌هایی در این مورد رو می‌تونی با جستجو در اینترنت پیدا کنی.

در کنار این جواب کلی، ویژگی‌های خوبی داره که باعث می‌شه طرفداران زیادی در بین کاربران آمار پیدا کنه: قابل انجام بودن در حجم نمونه کوچک، صدق کردن در اصل شرطی، صدق کردن در اصل درستنمایی، منسجم بودن نتایج استنباط و ....برای این‌که به جواب دقیقی به این سوالت برسی، بهتره کتاب زیر رو (سه فصل اول) بخونی:
The Bayesian Choice, 2nd Edition, 2008, Christian P. Robert

موفق باشی.
پاسخ: سلام. برای جواب به این پرسش، به این فکر کن که در استنباط بسامدی چه اتفاقی داره می‌افته. در ضمن اصراری بر استفاده از یک مکتب خاص (بسامدی و بیزی) در حل همه مسایل وجود نداره. هر جا که هر کدوم بتونه یک جواب منطقی به سوالت بده، از همون استفاده کن.

از طرفی، هر کدام از این استنباط‌ها اهداف متفاوتی رو دنبال می‌کنن و لزوما به دنبال یک هدف نیستند. بنابراین در بسیاری از موارد قابل مقایسه با هم نیستند.

و حرف آخر، شما که از استنباط بیزی اطلاعی نداری این چه اسمیه که انتخاب کردی؟

موفق باشی.
پاسخ: سلام. اگه اطلاعات پیشین در مورد پارامترهای مدلمون داشته باشیم و بتونیم توزیع مناسبی برای اون اطلاعات استخراج کنیم، باید (دقت کنید باید) از چنین توزیع پیشینی استفاده کنیم. توزیع‌های ناآگاهی‌بخش در مواردی مطرح می‌شوند که در زمینه مورد نظر اطلاعی نداشته باشیم یا نتونیم به توزیع پیشینی برسیم که با اطلاعات موجود هماهنگ باشه. در این موارد دسته‌ای از بیزین‌ها که طرفدار استنباط بیزی عینی هستند، معتقدند باید توزیع پیشینی رو وارد مدل کنیم که کمترین اطلاع رو در مورد پارامتر در خودش داشته باشه یا اگر ممکن باشه هیچ اطلاعی نداشته باشه. انگیزه استفاده از این توزیع‌ها نبود اطلاع در مورد پارامترهای مدل هست.

موفق باشید.
پاسخ: سلام. متشکرم. در کنفرانس ها پذیرش تنها نمره ای نداره چون باید چکیده یا اصل مقاله چاپ بشه. بنابراین باید کنفرانس برگزار بشه و شما کپی چاپ چکیده یا مقاله رو بیارید. اما اگر مجله باشه، همون پذیرش رو بیارید کافیه و نیازی نیست حتما مقاله چاپ بشه.

موفق باشید.
پاسخ: سلام. نمودار boxplot واسه رسم منحنی نرمال نیست. در این نرم‌افزار از گزینه مربوط به برازش منحنی نرمال باید استفاده کنید. برای درک رفتار توزیع احتمالی داده‌ها بهتره از نمودار هیستوگرام (بافت‌نگار) استفاده کنید.
طراحی پرسشنامه به شکلی که روایی و پایایی داشته باشه، یک بحث تخصصی است که باید از متخصص زمینه‌ای که قراره پرسشنامه در اون طراحی بشه بپرسید. متخصصین آمار وظیفه تحلیل پاسحنامه‌ها در راستای اهداف تحقیق رو دارند.

موفق باشید.
پاسخ: سلام. خیر کار نکردم.
این سوال شما دقیق نیست. اگر منظورت از نرمال بودن اینه که پاسخ‌های مربوط به هر سوال نرمال باشه، که نیست. چون مقیاس داده‌ها ترتیبی هستند و گسسته و نمی‌تونه نرمال باشه. اگر منظورت اینه که مجموع امتیاز همه سوالات برای پاسخ‌دهندگان نرمال باشه، اون هم نیست چون باز هم مقیاس داده‌ها گسسته هست. اما در این حالت دوم (بر اساس قضیه حد مرکزی) می‌تونه به نرمال نزدیک باشه (چون به صورت مجموع امتیازها نمایش داده می‌شه).
برای بررسی نرمال بودن مجموع امتیازهای سوالات با مقیاس لیکرت، اگر حجم نمونه (تعداد پاسخ‌دهندگان) کم هست، بهتره از آزمون گرافیکی qq-plot (نمودار چندک-چندک) استفاده کنی. اگر مشکل حجم نمونه وجود نداره، می‌تونی از آزمون‌های رسمی (ناپارامتری) مثل آزمون کولموگروف-اسمیرنوف یا آزمون شاپیرو-ویلکس استفاده کنی.

موفق باشی.
پاسخ: سلام. با این‌که مساله رو دقیق نگفتی، اما می‌شه یک جواب تقریبی داد. به طور کلی بله می‌شه معیاری بر اساس اختلافی که گفتی تعریف کرد و آزمونی که این اختلاف معنی‌دار (که واقعا وجود داره) رو با قدرت بیشتری نشون بده، برتر هست. این معیار مفهومی نزدیک به توان آزمون رو داره. توان یک آزمون به معنی تشخیص درست است (رد فرضیه صفر به درستی). بنابراین توصیه می‌کنم به‌جای تعریف و استفاده از معیاری که اسم بردی، از همون توان آزمون برای مقایسه دو آزمون مورد نظرت استفاده کنی.

اگر توان آزمون‌ها شکل بسته ندارند، با تولید ۱۰۰۰ مجموعه داده، می‌تونی به کمک روش مونت کارلو توان‌ها رو برآورد کنی. کار ساده‌ای هست.

موفق باشی
پاسخ: سلام. برای استنباط تقریبی بیزی به‌جای استفاده از روش‌های مبتنی بر نمونه‌گیری، مانند الگوریتم‌های نمونه‌گیری MCMC، یک رهیافت کلی دیگه وجود داره که با عنوان Variational Inference معروف هست. بنابراین، همونطور که گفتید تنها Collapsed Gibbs Sampling روشی در رده الگوریتم‌‌های MCMC محسوب می‌شه.
پاسخ: سلام.

آزمون فریدمن برای بررسی پیروی داده‌ها از یک توزیع؟؟؟؟؟؟
این آزمون نسخه ناپارامتری آزمون‌های تحلیل واریانس یک‌طرفه هستش و در موردی که شما گفتین اصلا استفاده‌ای نداره. قبلا به شما گفتم، چون دانش آماریتون خیلی کمه، حتما با یک کارشناس آمار مشورت کنید و از اون کمک بگیرید.
موفق باشید.
پاسخ: سلام.
خوب، بحث مدل‌بندی آماری در عین حالی که دانش مناسبی را می‌طلبد، یک هنر هم هست.
در این مورد، ابتدا باید یک تحلیل اکتشافی انجام بشه، مثلا نمودار بافت‌نگار داده‌ها رسم بشه (یا از سایر ابزار این تحلیل استفاده کنید) و در مورد ماهیت داده‌ها اطلاعات اولیه‌ای به دست بیارید. یعنی این‌که، مثلا، توزیع داده‌ها می‌تونه متقارن باشه یا نه، اگه چوله هست به راست هست یا چپ، یک منحنی نرمال به بافت‌نگار داده‌ها برازش بدین و ببینید توزیع داده‌ها دم کلفت‌تری از نرمال داره یا نه و ....
این تحلیل اکتشافی به شما این ایده رو می‌ده که چه توزیع‌هایی می‌تونن واسه مدل کردن داده‌های شما مناسب باشند. با این ایده اولیه، باید چند توزیع کاندید رو به داده‌ها برازش بدین و از بین اون‌ها توزیع‌هایی که برازش قابل قبولی داشتند رو انتخاب کنید. بعد بهترین برازش را بر اساس یک یا چند ملاک نیکویی برازش (که تو آمار زیاد هستند)، مثلا ملاک ضریب تعیین، انتخاب کنید و به عنوان توزیعی که داده‌ها از اون پیروی می‌کنند، معرفی کنید.
موفق باشید.
پاسخ: سلام.
به‌طور ‌کلی محاسبه ضریب همبستگی بین دو متغیر که یکی اسمی و دیگری فاصله‌ای است، معنی ندارد. ضریب همبستگی، وابستگی خطی بین دو متغیر را اندازه‌گیری می‌کند که برای متغیرهای اسمی بی‌معنی است.
اما در حالتی که متغیر اسمی دو سطح داشته باشد، مثل همین مورد شما، می‌توان از ضریب همبستگی پیرسون استفاده کرد.

موفق باشید.
پاسخ: سلام. متشکرم.
سوال شما خیلی کلی هست و به این شکل قابل پاسخ‌گویی نیست. چه نوع چکالی شرطی؟ تابعی از خود متغیرها تا چه تاخیری؟ در چه مدلی؟ سوال باید دقیق باشه. موفق باشید.
پاسخ: سلام. متشکرم.

خوب برای دستیابی به این شناخت باید:
۱) به موضوع مقاله (کارهایی که بقیه کردن و جاهایی که منتشر شدن) اشراف داشته باشید.
۲) مجله‌های رشته خودتون (مثل آمار) و زمینه‌های مورد نظر هر کدوم (از جمله نظری، کاربردی، نظری-کاربردی) رو بشناسید. این شناخت خیلی مهمه و کمک می‌کنه که در انتخاب کمترین خطا رو مرتکب بشین.
۳) اگر تازه‌کار هستین، حتما با راهنمایی افراد با تجربه مجله رو انتخاب کنید. دقت داشته باشین، اگه دانشجو هستین حتما این انتخاب باید با راهنمایی اساتید راهنماتون انجام بشه.

موفق باشید.


پاسخ: سلام. اگه شما Latex یاد بگیرین، Ftex هم یاد دارین. چون دستوراتش عینه همه و هیچ فرقی نمی‌کنه. بنابراین هر کتابی که Latex بگه (که توی اینترنت زیاد هم هستند) به درد شما می‌خوره.
فقط این نکته یادتون باشه که Ftex چند ساله که به‌روز نشده و مشکلاتش زیاده. بهتره برید سراغ بسته زی‌پرشین که روی نسخه به‌روز Latex نوشته شده.

موفق باشید.
پاسخ: سلام
hbaghishani@shahroodut.ac.ir
hbaghishani@yahoo.com
ای‌میل دانشگاه کمی مشکل داره. بعضی از پیام‌های دوستان که برام فرستاده شدند به دستم نرسیده. برای همین توصیه می‌کنم به ای‌میل یاهو هم هم‌زمان بفرستید.

موفق باشید
پاسخ: سلام و متشکرم.

۱) به‌طور کلی اگر پاسخ سوالات ترتیبی نباشند (مثل جواب‌های شامل سه یا چهار سطح بدون ترتیب)، از اندازه ضریب آلفای کرونباخ نمی‌توان استفاده کرد.

۲) اگر پاسخ‌ها دوسطحی باشند (مثل درست/نادرست یا بله/خیر)، خیلی از افراد از این اندازه استفاده می‌کنند. البته این اندازه مشکلات جدی زیادی دارد. به عنوان مثال به مقاله زیر می‌توانید مراجعه کنید:
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2792363/

۳) یک معیار جانشین و ساده برای این اندازه، آماره GLB است که جزییات آن در همان مقاله ذکرشده وجود دارد. این آماره توسط تابع glb در نرم‌افزار R نیز قابل اجراست.

موفق باشید.
پاسخ: سلام. در دیدگاه بیزی، تمامی استنباط‌های مبتنی بر توزیع پسین به دست می‌ایند. برای به‌دست آوردن توزیع پسین به همراه درستنمایی حاصل از مشاهدات به توزیع پیشین برای پارامترها نیاز داریم. انتخاب توزیع پیشین برای پارامترها بزرگترین چالش موجود بر سر راه استنباط‌های بیزی است. تاکنون توزیع‌های پیشین متفاوت معرفی شده‌اند: توزیع‌های پیشین مزدوج، جفریز، مبهم، ناآگاهی‌بخش و ....
این انواع پیشن‌ها مزایا و معایبی دارند که جای بحث در مورد اون‌ها نیست.

به دلایلی، محققین علاقه‌مند هستند (در مواردی که پیشینه خاصی که راهنمای انتخاب نوع مشخصی از پیشین باشد، وجود ندارد) از توزیع‌های پیشینی استفاده کنند که کمترین اطلاع را در خود داشته باشند. به عنوان مثال، توزیع‌های ناآگاهی‌بخش تخت از این دسته هستند. اما این پیشین‌ها ناسره هستند. پیشین‌های ناسره ممکن است به پسین‌های ناسره منتهی شوند که در نتیجه نمی‌توان از آن استفاده کرد.

یک راه حل استفاده از توزیع‌های سره است که همیشه پسین سره خواهند داشت. اما توزیع‌های سره معمولا در مورد پارامتر اطلاع دارند. برای کم کردن این اطلاع، یک راه حل جامع استفاده از پیشین‌های سلسله‌مراتبی است. هر چه سطوح پیشن بیشتر باشد، اطلاعات موجود در آن‌ها در مورد پارامتر کمتر خواهد بود.

این‌که تعداد این سطوح چند باشد، بستگی به محقق، اهداق تحقیق و میزان تحمل پیچیدگی مدل سلسله‌مراتبی، دارد. امیدوارم توضیح کافی باشد

موفق باشید.
پاسخ: سلام.

شما به این سایت مراجعه کنید
http://www.r-project.org/
در اونجا قسمت document می‌تونین سه فایل به زبان فارسی هم پیدا کنید. خوب یا بد بودنش رو بی‌اطلاع هستم. اما راهنماهای انگلیسی خیلی ساده توضیح دادند.

مساله رو دقیقا بنویسید در یک فایل وورد و برام بفرستید.
پاسخ: سلام. نرم افزارهای مختلفی این روش ها و سایر روش های درخت تصمیم رو دارند. مثلا نرم افزارهایی مثل SAS و R. از هر کدام که کار باهاش راحتتره استفاده کنین.

موفق باشید
پاسخ: سلام. برای تنظیم هسته تولید اعداد شبه‌تصادفی از این دستور استفاده می‌شه. دلیلش هم اینه که اگر کد رو در آینده اجرا کنی، دقیقا نتایج یکسان با اجراهای قبلی داشته باشی.
پاسخ: سلام. منظورتون از داده‌های پارامتری رو نفهمیدم.
برای مقایسه میانگین‌های دو جامعه وابسته، می‌توان از آزمون t جفت‌شده استفاده کرد. یک راه جامع‌تر استفاده از مدل‌های آمیخته برای مقایسه دو گروه هست.

موفق باشید.
پاسخ: The optimize() in SPlus has similar features as the optim() in R. So, you can optimize a multivariate function by optimize() in SPlus as well. Indeed, I strongly recommend you to use R because it
is open source
has a flexible and nice graphical environment
implements many modern statistical methods
...

Regards


پاسخ: Hi
You can easily use the optim() function in R to find out the ML estimates of the parameters, indirectly. This means that you have to define the likelihood function properly and introduce some initial values, then use the optim() function to extract MLE numerically. You also define, directly, the derivatives of the likelihood function with respect to parameters and solve the system. In this way, you should compute digamma function numerically by some available methods.
Briefly, I recommend to use optim() function in R to catch your estimates.

Good luck
پاسخ: سلام.
تفاوت یک مدل بیزی با مدل کلاسیک، در فرض کردن پارامتر به عنوان یک متغیر تصادفی و در نظر گرفتن یک توزیع احتمالی برای پارامتر با نام توزیع پیشین است. این‌که چه توزیع پیشینی در یک مساله برای پارامتر انتخاب شود، بحث گسترده‌ای است که سال‌ها برپا بوده و هنوز هم هست و یکی از زمینه‌های زنده و پویا در تحقیقات روز آماری است.
یک رده از توزیع‌های پیشین، معروف به توزیع‌های پیشین مزدوج، برای برخی از مدل‌ها وجود دارند، به طوری که توزیع پسین حاصل از همان خانواده توزیع پیشین خواهد بود. اگر برای مساله‌ای بتوان توزیع پیشین مزدوج برای پارامتر تعریف کرد، محاسبه توزیع پسین و در نتیجه انجام استنباط بیزی (که مبتنی بر توزیع پسین است) ساده خواهد بود. این سادگی یک مزیت استفاده از توزیع پیشین مزدوج (در صورت وجود) است. اما دو سوال باید مورد توجه باشد:
۱) انتخاب توزیع پیشین مزدوج برای یک مساله، مناسب است؟
۲) سادگی محاسبات در یک مساله مورد توجه است یا دقت استنباط‌ها؟
پاسخ به این دو سوال، محقق را در استفاده از توزیع پیشین مزدوج راهنمایی می‌کند.

با این توضیحات، انگیزه انتخاب توزیع دیریکله برای مدل چندجمله‌ای روشن می‌شود. اما دقت کنید برای پارامتر‌های مدل چندجمله‌ای می‌توان توزیع‌های پیشین دیگر هم انتخاب کرد. اما نوع انتخاب می‌تواند باعث افزایش حجم محاسبات شود.
البته دقت داشته باشید، با پیدایش الگوریتم‌های محاسباتی جدید (مثل الگوریتم‌های نمونه‌گیری MCMC) و ارتقای قدرت کامپیوترهای امروزی، آنچه که اهمیت پیدا کرده است، انتخاب مدل بیزی است که منجر به استنباط‌های کاراتری شود و مساله انتخاب مدلی با کارایی کمتر اما محاسبات ساده‌تر دیگر مطرح نیست.

موفق باشید.
پاسخ: سلام. منظورتون رو از خروجی توزیع دیریکله نفهمیدم. اما شاید توضیح زیر به دردتون بخوره:

همونطور که گفتید، توزیع دیریکله یک پیشین مزدوج برای مدل چندجمله‌ای است. یعنی توزیع پسین حاصل از مدل و پیشین، دیریکله خواهد بود. بنابراین با این پسین می‌توان استنابط بیزی در مورد پارامترهای مدل چندجمله‌ای رو به دست آورد.
به عنوان مثال، توزیع‌های پسین حاشیه‌ای هر پارامتر، دارای توزیع دوجمله‌ای هستند و مثلا برآورد بیزی پارامترها بر اساس این توزیع‌ها قابل محاسبه هستند. یا به راحتی می‌توان فواصل اعتبار بیزی رو برای پارامترها محاسبه کرد. یا انتخاب مدل بیزی رو انجام داد یا ....

موفق باشید.
پاسخ: سلام. دو موردی که شما نوشتین بیانگر توزیع نیستند، بلکه تعریف‌کننده دو فرآیند هستند که در آمار بیزی ناپارامتری مورد بهره‌برداری قرار می‌گیرند. یعنی در واقع هستند:
PDP=Poisson-Dirichlet Process (که همان فرآیند پیتمن یور هست) و DP=Dirichlet Process

توضیح این‌که زمینه‌های استفاده از آن‌ها و رابطه بینشان چیست، کار ساده‌ای نیست و نیازمند خواندن مقاله‌ها و کتاب‌هایی در زمینه بیز ناپارامتری است. و البته در این‌جا نمی‌توان پاسخ داد.
فکر می‌کنم راهنمایی برای جواب سوال شما در سایت ویکی‌پدیا وجود داشته باشه و البته منابع تخصصی‌تر متعددی وجود دارند که از طریق اینترنت می‌تونید بهشون دسترسی داشته باشید. مثلا به لینک زیر مراجعه کنید:
http://en.wikipedia.org/wiki/Pitman%E2%80%93Yor_process

برای دسترسی به منابع تخصصی باید در متون آمار بیزی ناپارامتری جستجو کنید. دو کتاب خوب با همین عنوان (Nonparametric Bayesian Statistics) می‌شناسم که می‌تونند به شما کمک کنند. یا می‌تونید به سایت‌های شخصی Micheal Jordan و David Dunson برای اطلاعات بیشتر مراجعه کنید.

موفق باشید
پاسخ: سلام. شما می‌تونید از فایل‌های درس مباحث من که این ترم در دانشگاه شاهرود دارم (بخش مربوط به روش‌های نمونه‌گیری مونت‌کارلو و الگوریتم‌های MCMC) استفاده کنید. در مورد وجود کتاب فارسی در این زمینه امیدوار نیستم، اما پایان‌نامه‌ها و رساله‌های زیادی هستند که در این مورد مطلب دارند. می‌تونید توی سایت دانشگاه‌ها جستجو کنید. مثلا دانشگاه تربیت مدرس در این مورد پایان‌نامه داره.
اما کتاب‌های لاتین موجود فراوانی هستند مختص همین موضوع و به سادگی و روشن، با مثال‌های مختلف توضیح دادند. توصیه می‌کنم از اون‌ها هم استفاده کنید.

در نهایت روز آمار و برنامه‌ریزی رو به شما و همه آماردوستان تبریک می‌گم.
پاسخ: سلام. منظورتون از توزیع آخر رو با خودش جمع می‌کنیم، نفهمیدم. تقریبا درسته. به این روش می‌گن روش تبدیل. می‌تونین به طریق زیر عمل کنین:
۱) دو بردار با حجم نمونه‌ای که لازم هست، متغیر نرمال استاندارد تولید کن
۲) هر دو بردار رو به توان دو برسون و دو تاشون رو با هم جمع کن
۳) بردار جدید، نمونه‌ای از توزیع کای‌دو با ۲ درجه آزادی هست

دقت کنید روش‌های کاراتری هم هستند، اما این هم ساده هست هم چون حجم نمونه کوچک است، مساله کارایی چندان مطرح نیست
پاسخ: خواهش می‌کنم. میدونم اشتباه تایپی بوده. صرفا نوشتم که بگم با دقت سوالاتون رو می‌خونم ;-)
پاسخ: سلام (اما شما خسته نباشید!!!). از طریق اینترنت می‌تونید به منابع زیادی در این زمینه دسترسی داشته باشید. کافیه از موتورهای جستجوی اینترنتی استفاده کنید. در این زمینه آماردانی به نام هابر خیلی کار کرده و کتابی با همین عنوان دارد که می‌تونین ازش بهره ببرید.
پاسخ: سلام. منابع خوب فارسی کم هستند و بهتره با همون کتاب‌های لاتین مانوس بشید. به هر حال دیر یا زود گریزی از صمیمی شدن با منابع لاتین ندارین. با این حال، پیشنهاد می‌کنم برای درس فرآیندهای تصادفی از کتابی با همین اسم، انتشارات دانشگاه پیام نور (تالیف استاد فقید دکتر شاهکار) و برای استنباط آماری ۱ از کتاب مبانی آمار ریاضی (تالیف استاد ارجمند دکتر پارسیان) استفاده کنید. موفق باشید.
پاسخ: سلام.

هر مدل‌بندی، مبتنی بر پذیره‌هایی است که محقق قبل از برازش مدل برقراری آن‌ها را می‌پذیرد. اما از آن‌جا که اعتبار نتایج استخراج‌شده از مدل وابسته به پذیره‌های اولیه است، باید برقراری (تقریبی) آن‌ها بررسی شود. در مدل‌های آماری برای بررسی اعتبار این پذیره‌ها (بسته به نوع مدل و پذیره‌ها)، روش‌هایی مانند آزمون‌های فرضیه یا تحلیل گرافیکی وجود دارند. مثلا در همان آزمون t استودنت که بیان کردید، پذیره نرمال بودن دو جامعه مورد مقایسه در ابتدا در نظر کرفته می‌شود. برای بررسی نرمال (تقریبی) بودن یک جامعه بر اساس یک نمونه از آن، آزمون‌های آماری رسمی و گرافیکی مختلفی وجود دارند که می‌توان استفاده کرد.

بنابراین چه خود داده‌های اصلی چه داده‌های پاک‌شده مورد نظر باشند، می‌توان برقراری پذیره‌ها را بررسی کرد. اگر برقراری بعضی از پذیره‌ها رد شدند، باید به دنبال چرایی این عدم برقراری باشیم که برای آن به دانش آماری و زمینه تخصصی تحقیق، به طور همزمان، نیاز دارید و با توجه به جواب این چرایی، می‌توان مدل یا پذیره‌های اولیه را در جهت بهبود فرآیند مدل‌بندی تغییر داد.

یک ویژگی خوب و مورد علاقه در روش‌های آماری که طرفداران زیادی هم دارد، مفهومی به اسم تنومندی (robustness) است. به این معنی که روش آماری مورد نظر نسبت به تخطی از پذیره‌های اولیه تنومند و مقاوم باشد. به عنوان مثال، معروف است که آزمون t نسبت به پذیره نرمال بودن دو جامعه تنومند است. به عبارت دیگر، اگر دو جامعه نرمال نباشند (البته از توزیع نرمال فاصله زیادی هم نباید داشته باشند) نتیجه آزمون قابل استناد است و از توان این آزمون چندان کاسته نمی‌شود. دقت کنید که این اصلا به مفهوم چشم‌پوشی پذیره نرمال بودن نیست.

پس دو مساله‌ای که شما گفتید مطرح است: تصحیح مدل (که شامل پذیره‌های اولیه هم می‌شود) یا استفاده از روش‌های تنومند برای همان مدل اول.

کاملا منطقی است که اگر محقق بتواند مدل را در جهت درستی از طبیعت زمینه مورد تحقیق بهبود بخشد، بهتر از آن است که مدل با واقعیت طبیعی زمینه تحقیق فاصله داشته باشد اما از روش‌های تنومندی استفاده کنیم که به این فاصله چندان حساس نباشند یا به عبارتی در برابر این فاصله مقاوم باشند. امیدوارم این توضیحات کامل باشند.

موفق باشید.
پاسخ: سلام. الگوریتم EM روشی است برای یافتن برآوردگرهای ML. این روش در مواردی که محاسبه مستقیم تابع درستنمایی مشاهدات پیچیده است، می‌تواند مفید باشد. ویژگی‌های خوبی هم دارد. یکی از مهمترین این ویژگی‌ها اینست که (می‌توان گفت) ثابت می‌شود پاسخ به دست آمده به برآورد ML همگراست.

با این توضیح، واضح است که در بهترین شرایط برآورد به‌دست آمده با استفاده از روش EM با برآورد ML یکی می‌شود. بنابراین اگر به‌طور مستقیم می‌تونی MLE را محاسبه کنی، نیازی به روش EM و مقایسه نیست.
پاسخ: سلام و متشکرم. باید از دوستانی که به تازگی در آزمون جدید شرکت کرده‌اند و سوال‌ها رو دیدند بپرسید. چون به نظر می‌رسد (بر اساس شنیده‌ها) موارد درسی آزمون در سطحی پایینتر از کارشناسی ارشد ارایه می‌شوند. با این حال من موارد زیر رو پشنهاد می‌کنم:
۱) استنباط: کتاب‌های کسلا و برگر، دکتر پارسیان، هر دو کتاب لهمن (به همراه سایرین)،
۲) احتمال: کتاب‌های گات، کار، بلینگسلی، کای لای چانگ و کتاب دکتر پاشا.
۳) ریاضی: هر کتاب ریاضی که دارید.

موفق باشید
پاسخ: سلام. نزدیک بودن این دو مقدار به هم پدیده عجیبی نیست. در آمار توزیع‌هایی داریم که میانگین و انحراف معیار آن‌ها دقیقا با هم برابرند. به عنوان مثال توزیع نمایی. پس اگر داده‌ها از چنین جامعه‌ای استخراج شده باشند، طبیعی است که انتظار داشته باشیم میانگین و انحراف معیار نمونه‌ای به هم نزدیک باشند.

در مورد مفهوم ممکن نزدیک بودن این دو معیار به هم، جواب آقای دکتر آرشی به همین سوال کافی و مناسب است. موفق باشید.

پی.اس. سوال دوم شما مربوط به مقایسه دو الگوریتم که مرتبط با این سوال از آقای دکتر آرشی پرسیده بودین رو تازه دیدم. با این سوال جدید، جزییات بیشتری رو مطرح کردین و من چند نکته زیر به ذهنم رسید:
۱) با توجه به حجم نمونه بالا (۱۰۰) می‌تونین از تقریب توزیع نرمال استفاده کنین.
۲) با توجه به نکته ۱ برای مقایسه میانگین دو الگوریتم، می‌تونین از آماره t استودنت استفاده کنین. اما از طرفی با توجه به این‌که واریانس‌ها (انحراف معیارها) نابرابر هستند (البته نابرابری واریانس‌ها رو هم می‌شه آزمون کرد)، باید از آماره t تقریبی که درجه آزادیش بر اساس قانون ستروایت محاسبه می‌شه و برای زمانی هست که انحراف معیارها نابرابرند، استفاده کنین.
۳) با آزمون بالا، اگر فرضیه برابری میانگین تعداد تکرارهای دو الگوریتم رد بشه، می‌شه نتیجه گرفت که عملکرد الگوریتمی که میانگین کوچکتری داره، بهتر از الگوریتم دوم است.
۴) با توجه به هدفی که شما دارین، حتی می‌تونین فرضیه کوچک‌تر بودن میانیگین الگوریتم اول نسبت به دوم رو، به‌طور مستقیم، آزمون کنید.
۵) جزییات آزمون‌هایی که اشاره کردم تو خیلی از کتاب‌های آماری قابل دسترسی هستند و در اکثر نرم‌افزارهای آماری مثل R و SPSS قابل اجرا.

برای مساله شما، آزمون‌های مناسبی وجود دارند و به راحتی می‌تونین ازشون استفاده کنین. و البته نیازی به دونستن این‌که انحراف معیار به میانگین نزدیک باشه یعنی چی، ندارین.

موفق باشید.
پاسخ: سلام. خیر. داده پرت در کنار مواردی از قبیل ثبت نادرست و اندازه‌گیری غلط، می‌تونه واقعا تحققی از مکانیسم واقعی تولید داده‌ها باشه. بنابراین نمی‌شه گفت داده پرت یعنی داده علط و به درد نخور. بعد از تشخیص پرت بودن یک داده، باید ابتدا بررسی بشه که این مقدار می‌تونه ناشی از ثبت یا اندازه‌گیری نادرست باشه یا خیر. اگر قانع شدین که می‌تونه واقعا از فرآیند واقعی تولید داده‌ها اومده باشه، می‌شه با مدل‌های مناسب برای مدل‌بندی داده‌هایی که شامل داده پرت هم هست، آن‌ها را مدل کرد.

خیر با نظر استادتون موافق نیستم. داده فرین، داده‌ای است که رخداد آن نادر است ولی احتمال رخداد آن خیلی کم نیست. در بسیاری از موارد شناخت این داده‌ها و محاسبه احتمال رخداد آن‌ها (برای برنامه‌ریزی‌ و تصمیم‌گیری) خیلی هم مهم و تاثیرگذار هستند: مثلا در لرزه‌نگاری و مونیتور کردن زلزله‌های با شدت بالا، یا وجود رگه‌های فلزهای ارزشمند مانند طلا با عیار بالا، یا رکوردهای ورزشی مثلا در المپیک و غیره.
پاسخ: سلام.

قبل از هر چیز باید بگم من نمی‌تونم پست مستقل از پاسخ در اینجا بذارم و باید در جواب به یک سوال، جوابم رو بنویسم. از طرفی شاید این نگرانی شما، سوال خیلی دیگه هم باشه که فکر می‌کنم هست. پس بهتره متن شما دیده بشه.

با توجه به وضعیت جذب دانشجویان در دانشگاه‌های کشور و وضعیت جدید جذب هیات علمی، تا حدی به شما حق می‌دم که این نگرانی‌ها رو داشته باشید. اما از طرف دیگه این وضعیت خوب هم هست. همیشه وجود تعداد بیشتری متخصص در یک موضوع خیلی بهتر از تعداد کمترشون هست. در این مورد صحبت نمی‌کنم که وقتگیره. اما نحوه تعامل و به کار گرفتن این تخصص‌ها و به عبارتی مدیریت اون‌ها خیلی مهمه. این هم بحث مفصلی هست که واردش نمی‌شم. فقط خواستم بگم همه این‌ها که گفتید در صورت وجود مدیریت درست خیلی هم خوبه.

اما نگرانی خود شما و وضعیت ادامه تحصیل و کار و .... من تمام نظرم رو در یک جمله می‌گم: "از تو حرکت از خدا برکت". این که ممکنه ۵ سال دیگه چی بشه، این که وضعیت بازار کار و فارغ‌التحصیلان دکتری چطوری میشه، این که وضیت رشته ریاضی چطور خواهد بود و مطالبی از این دست، دستخوش خیلی چیزاست که همش هم دست خداست. البته خدا به بنده‌هاش نقش میده. نقش هر بنده هم اینه که در بهتر شدن وضعیت خودش و سایرین فعالیت کنه. پس اگه با این تصوراتی که الان دارید و اجازه دادین شما رو به یاس بکشه، دست از وظیفه بندگی که دارین بردارین،‌ به نظر من دچار گناه شدین. هم به خودتون ظلم کردین هم به بقیه. یادتون نره "دست خدا در جماعته". پس نگاهتون را صاف کنید و به همه، نه فقط خودتون، فکر کنید. هر وقت سردرگم شدین به قرآن مراجعه کنید، ‌مطمئن باشید جواب می‌گیرید. استخاره گرفتن با نیت پاک و دل صاف همیشه جواب می‌ده. همیشه. مشروط بر این که بهش شک نکنید.

خلاصه کلام، رشته ریاضی یک رشته پایه است. هر کاربردی تو دل فرمول‌های ریاضیه. فقط کافیه راه استفادش رو پیدا کنید. این پیدا کردن هم نیاز به تخصص داره. یعنی یاد گرفتن و یاد گرفتن و یاد گرفتن. یعنی ادامه تحصیل همیشه و همه جا. یعنی اشتیاق به یادگیری. یعنی حفظ انگیزه. یعنی.... پس اگر به رشتتون علاقه دارین، با داشتن تلاش و انگیزه هر کاری می‌تونین بکنین. طوری که باعث می‌شید عده زیادی دیگه هم به کار شما علاقه‌مند بشند. طوری که باعث رونق کارتون میشید. طوری که به خلق خدا خدمت می‌کنید و از این خدمت، خود شما هم سود می‌برید. هم سود مالی، هم معنوی. البته همه اینا به این شرطه که ایمان داشته باشید که می‌تونید انجامش بدین و هدفی هم که دارین عام‌المنفعه باشه، که در مورد افرادی که می‌خوان لبه علم رو جابجا کنن همینطوره.

یاس و ناامیدی برای آدم‌هایی که اهداف بلند و ارزشمند دارند، وجود نداره. بلند نظر باشید و توکل کنید به خدا. از نعمت بزرگ وجود که خدا بهتون داده استفاده کنید. خدا کار بیهوده نمی‌کنه. پس وجود شما تو این دنیا دلیل مهمی داره. وظیفه شما پی بردن به این دلیل مهم و انجام درست اونه. پی بردن به اون هم بدون گام نهادن در مسیر درست، ممکن نیست. مسیر درست برای شما علم‌آموزی و اشاعه درست اونه. شما سعیتون رو بکنید، به اندازه سعیتون خدا عوض میده. اگه حقتون باشه، جایی که فکر می‌کنید باید باشید، بهش می‌رسید. من آرزو می‌کنم بهترین‌ها رو خدا به همه جوون‌های ما بده. انشالله.

موفق باشید.
پاسخ: سلام. تا جایی که من اطلاع دارم، اثبات برخی قضایا می‌تواند طولانی و در نتیجه گیج‌کننده (و خسته‌کننده) باشد. برای پرهیز از این موارد، بخش مهم اثبات قضیه را حفظ می‌کنند و سایر موارد لازم برای اثبات را در قالب لم‌هایی (که می‌توانند در اثبات قضیه‌های دیگری هم استفاده شوند) بیان و اثبات می‌کنند تا در خود قضیه از نتایج آن‌ها استفاده کنند.

به عبارت دیگر می‌توان این طور گفت که در اثبات یک قضیه (به تعبیر من، باز کردن درهایی برای رسیدن به حیاط دانش (حاصل از قضیه))، نیازمند داشتن لم‌هایی (به عنوان کلیدهای برچسب خورده مخصوص هر در) و نحوه استفاده از آن‌ها هستیم. اگر همه این کلیدها را بدون برچسب و در یک دسته کلید (همان بدنه اثبات قضیه) قرار دهیم، هرچند مجموعه آن‌ها درها را باز می‌کنند، اما پیدا کردن آن‌ها با سرعت و دقت (فهم مناسب اثبات قضیه) کار سختی خواهد بود.
پاسخ: سلام. یک آزمون ناپارامتری معادل برای ANOVA معروف به آزمون کروسکال-والیس است که عمدتا از آن استفاده می‌شود. اما اشاره به این نکته هم می‌تونه مفید باشه که روش‌های ANOVA نسبت به پذیره نرمال بودن جمله خطا، تنومند هستند. به این معنی که اگر پذیره نرمال بودن جمله خطا درست نباشه (و از توزیع دیگری مثلا با دم‌های کلفت‌تر اومده باشه) نتایج به دست آمده حساسیت زیادی به این نادرستی ندارند و با کمی اغماض می‌توان از همان پذیره نرمال بودن استفاده کرد. البته این نادرستی و میزان آن با روش‌های مختلف بررسی مانده‌های مدل قابل ارزیابی است. با این ارزیابی این نظر آماردان هست که تصمیم بگیره از آزمون ناپارامتری استفاده کنه یا نه. موفق باشید.
پاسخ: سلام. با توجه به نکاتی که شما گفتید چند نکته زیر به ذهنم رسید که ممکنه مفید باشه:
۱) من در زمینه کاری شما اطلاعی ندارم و بهتره با اساتید این زمینه مشورت کنید.
۲) اگر زمینه جدیده (همانطور که گفتید) حتما جای کار زیاد داره. از طرفی هر زمینه علمی (که یافته‌های به‌روز هم در اون زمینه وجود داره) جای کار و تحقیق داره.
۳) یک دانشجوی ارشد باید اصولا مراحل و فرآیند انجام یک تحقیق علمی رو یاد بگیره و در انتشار اون (نوشتن پایان‌نامه) باتجربه بشه. از چنین فردی انتظار نوشتن مقاله علمی مناسب وجود نداره. هرچند که اگر این اتفاق هم بیافته، اتفاق میمونی خواهد بود. البته دقت داشته باشید که متاسفانه و متاسفانه جدیدا اهمیت این داستان (یعنی نوشتن مقاله) مهمتر از نوشتن خوب پایان نامه شده.
۴) اساتید راهنما (و البته استاد راهنمای شما) نگاه بازتری از دانشجوها دارند و باید به راهنمایی و مشاوره آنها اطمینان کرد. زود قضاوت نکنید. در ضمن وظیفه استاد راهنمای شما هدایت شماست و این شما هستید که باید طی مسیر کنید نه ایشان. پس اگر نتونستید به موضوع علاقه‌مند بشید یا اینکه به نتیجه مناسبی برسید، این شمایید که درست حرکت نکردید (البته نه اینکه اساتید راهنما مصون از اشتباه باشند). من به شما توصیه می‌کنم خودتون رو در این مسیر قرار دهید و کمی راه را طی کنید، مطمئن باشید در مسیر زیبایی‌هایی هم خواهید دید که به ادامه راه تشویق می‌شوید.
۵) دریایی باشید کم‌عرض اما عمیق. این شاخه و اون شاخه پریدن به نتایج تاثیرگذاری منتهی نمی‌شود.
۶) اشتیاق و انگیزه از مهمترین بخش‌های موفقیت هستند. پس اون‌ها رو در خودتون حفظ کنید.
۷) امیدوارم شما و همه ایرانی‌ها همیشه موفق باشید.
پاسخ: سلام. آنچه که می توانم بگویم اینست که عجله نکنید. در نوشتن مقاله به مفهوم نشر دانش (جدید) هدفی دنبال می شود که شاید این هدف، جدیدا قربانی برخی مسایل دیگر شده است که به آنها نمی پردازم. در انتشار یک مقاله توسط یک دانشمند، هدف، بهره مند کردن سایرین از دانشی است که توسط وی تولید شده، قبلا وجود نداشته است و با بهره گرفتن از این دانش جدید می توان:
۱) سوال های جدید (با ارزشی) مطرح کرد که شاید تفکر و سعی در یافتن پاسخ آنها به نتایج با ارزش تری منتهی شود.
۲) قسمتی (هر چند کوچک) از سوال های موجود را پاسخ داد.
۳) جواب های تقریبی بهتری در مقایسه با جواب های قبلی ارایه داد. یا به عبارتی توضیح بهتری برای سوال های مطرح شده قبلی فراهم کرد.
بنابراین اگر با خواندن یک مقاله و دانشی که از قبل دارید، و البته کمک استاد راهنما و سایرین، می توانید به هدفی نزدیک و شبیه به آنچه که گفتم دست یابید، پس نوشتن مقاله و انتشار آن مفید است. در غیر این صورت به هدفی که از نوشتن آن دارید فکر کنید. به دنبال چه هستید؟ جواب این سوال راهنمای شما خواهد بود. از طرفی استاد راهنمای شما شناخت مناسبی از شما و توانایی شما دارد. پس ایشان بهتر می توانند شما را راهنمایی کنند. اگر استاد شما فکر می کند باید بعدا به فکر مقاله نوشتن باشید، شاید احساس می کند، با توجه به شناختش، هنوز نیاز به آموزش بیشتری در این زمینه دارید. و نکته بسیار مهم این که تدوین پایان نامه، نحوه نوشتن آن به شیوه ای که شیوایی کلام داشته باشد و خواننده آن دچار گنگی نشود خیلی خیلی مهم تر از مقاله نوشتن در این مقطع است. نوشتن هنری است که تعداد کمی ذاتا از آن بهره مندند و خیلی های دیگر باید با تجربه و تمرین به آن برسند. پس توصیه من به شما این است:
۱) عجله نداشته باشید. وقت زیادی دارید.
۲) به نظر استاد راهنما و مشاور و افراد باتجربه، توجه کنید. آن ها مسیری را که شما در ابتدای راه آن هستید قبلا (تا حدودی) طی کرده اند.
۳) اشتیاق و علاقه خود را حفظ کنید. این اشتیاق و انگیزه در بسیاری از موارد کارگشاست.
۴) پایان نامه شما معرف شماست. پس در تدوین آن خیلی دقت کنید.

موفق باشید.