سواد آماری

Download Report

Transcript سواد آماری

‫آمار مقدماتی و پیشرفته‬
‫مدرس‪ :‬دکتر بریم نژاد‬
‫دانشیار واحد کرج‬
‫آمار چیست؟‬
‫• آمار به عنوان يك موضوع علمي‪ ،‬امروزه شامل مفاهيم و روشهائي است كه در تمام پژوهشهايي كه مستلزم جمعآوري‬
‫دادهها به وسيلة يك فرآيند آزمايش و مشاهده و انجام استنباط و نتيجهگيري به وسيلة تجزيه و تحليل اين دادهها‬
‫هستند‪ ،‬اهميت بسيار دارند‪.‬‬
‫•‬
‫آمار هنر و علم جمعآوري‪ ،‬تعبير و تجزيه و تحليل دادهها و استخراج تعميمهاي منطقي در مورد پديدههاي تحت بررس ي‬
‫است‪.‬‬
‫•‬
‫معادل كلمة آمار در زبان انگليس ي ‪ Statistics‬است كه از لحاظ تاريخي‪ ،‬از كلمة التين ‪ status‬مشتق شده و يكي از‬
‫معاني كلمة اخير‪ ،‬دولت است‪.‬‬
‫• در طول چندين دهه‪ ،‬آمار فقط با بيان اطالعات و مقادير عددي دربارة اقتصاد‪ ،‬جمعيت شناس ي و اوضاع سياس ي حاكم‬
‫در يك كشور‪ ،‬سر و كار داشت‪.‬‬
‫• حتي امروز‪ ،‬بسياري از نشريات و گزارشهاي دولتي كه تودهاي از آمار و ارقام را در بردارند و تحت عناويني از قبيل « آمار‬
‫توليد مزارع» و «آمار كارگران» منتشر ميشوند‪ ،‬معني اولية كلمة آمار را در ذهن زنده ميكنند‪.‬‬
‫اكثر افراد معمولي هنوز اين تصور غلط را دربارة آمار دارند كه آن را منحصر به ستونهاي عددي سرگيجهآور و گاهي يك‬
‫سري شكلهاي مبهوتكننده ميدانند‪.‬‬
‫•‬
‫ل‬
‫ي‬
‫بنابراين‪ ،‬يادآوري اين نكته ضروري است كه نظريه و روشهاي جديد آمار ‪ ،‬از حد ساختن جدو هاي اعداد و نمودارها‬
‫بسيار فراتر رفتهاند‪ .‬نمايشهاي عددي به صورت جنبهاي فرعي از آمار درآمدهاند‪.‬‬
‫ديدگاههاي زيررا درمورد آماربخوانيد‪.‬‬
‫آيا علم آماراينگونه است؟‬
‫دیدگاههایی در مورد آمار‪:‬‬
‫ا‬
‫• تهيه آمار كاري وقتگير و زمان بر و اصوال كسالتآور است‪.‬‬
‫• آمار گورستاني از اعداد و ارقام است كه در هر اداره و سازمان نمونهاي از آن پيدا ميشود‪.‬‬
‫• آمار مجموعهاي از روابط و فرمولهاي رياض ي پيچيده و گيجكننده است‪.‬‬
‫آمار شامل نمودارها و جدولهايي از اعداد است‪.‬‬
‫• آمار فرايندي است كه در آن هر ده سال افرادي را به منازل فرستاده و اطالعات خانوارها مانند تعداد فرزندان‪ ،‬سن افراد‬
‫خانوار را از آنها كسب ميكنند‪.‬‬
‫• آمار ابزاري است كه بسياري با توسل به آن افكار عمومي را به نفع خود جلب ميكنند‪.‬‬
‫• آمار مفهومي است كه براي ثبت و نمايش اطالعات عددي به كار ميرود‪ ،‬مانند تعداد بيكاران‪ ،‬كارمزد حمل كاال به وسيلة‬
‫كشتي در ‪ 15‬سال گذشته‪ ،‬جمعيت نواحي جنوب شهر تهران‪ ،‬تعداد افراد تلف شده در اثر شيوع يك بيماري يا مقدار‬
‫مسافت طي شده در زمان معيني به وسيلة برندة مسابقة دو‪.‬‬
‫مثالهائي از مطالعات آماري‪:‬‬
‫مثالهای زیر‪ ،‬نشاندهندة مواردي نوعي هستند كه در آنها‪ ،‬فرايند كسب آگاهي در بررس ي يك پديده‬
‫شامل گردآوري و تجزيه و تحليل دادههاست و اين خود مستلزم استفاده از روشهاي آماري‬
‫است‪.‬‬
‫پرورش گياه ‪:‬‬
‫• آزمايش پيوندزدن انواعي از گياهان كه از نظر ژنتيكي متفاوتند‪ ،‬به منظور توليد‬
‫گياهان پيوندي پر محصول‪ ،‬مورد عالقة شديد متخصصان كشاورزي است‪.‬‬
‫بهعنوان يك مثال ساده‪ ،‬فرض كنيد كه قرار است ميزان محصول دو نوع گياه‬
‫پيوندي تحت آب و هوا و شرايط اقليمي مشخص با هم مقايسه شوند‪ .‬تنها راه‬
‫كسب اطالع از ميزان باروري اين دو نوع گياه نسبت بهيكديگر عبارت است از‬
‫پروراندن آنها در تعدادي از كرتها‪ ،‬گردآوردن دادهها دربارة ميزان محصول آنها و‬
‫سپس تجزيه و تحليل دادههاي مزبور‪.‬‬
‫تشخيص بيماريها‬
‫• براي انجام موفقيتآميز معالجة بسياري از انواع سرطان با عمل جراحي‪ ،‬تشخيص بموقع بيماري از اهميت خاص ي‬
‫ا‬
‫برخوردار است و از اينرو الزم است كه براي انجام معاينات پزشكي مرتبا به بيمارستان مراجعه شود‪ .‬چون مراجعة‬
‫مرتب به بيمارستان و انجام معاينات پزشكي گران و مشكل است‪ ،‬پزشكان در جستجوي نوعي روش تشخيص مؤثر‬
‫بيماري هستند كه خود شخص بتواند آن را انجام دهد‪ .‬براي ارزيابي قابليت يك روش جديد تشخيص بيماري برحسب‬
‫درصد موفقيت آن در تشخيص درست موارد بيماري و اجتناب از تشخيصهاي اشتباه‪ ،‬روش موردنظر بايد روي افراد‬
‫زيادي آزمايش شود و نتيجه با معاينات بيمارستاني مقايسه شود‪.‬‬
‫برنامههاي تربيتي و آموزش ي‬
‫• برنامهاي تربيتي وآموزش ي كه براي انواع متقاضيان (از قبيل دانشجويان دانشگاه‪ ،‬كارگران كارخانه‪ ،‬گروههاي اقليت‪،‬‬
‫ا‬
‫افراد ناقصالعضو‪ ،‬كودكان عقبافتاده) در بسياري از زمينهها طرح ميشوند‪ ،‬دائما مورد بررس ي‪ ،‬ارزيابي و اصالح قرار‬
‫ميگيرند تا سودمندي آنها براي جامعه افزايش يابد‪ .‬براي كسب اطالع از كارائي برنامههاي مختلف در مقايسه با يكديگر‪،‬‬
‫ضرورت دارد كه دادههائي دربارة موفقيتها يا رشد مهارت افرادي كه برنامه در مورد آنها اجرا ميگردد‪ ،‬گردآوري شود‪.‬‬
‫تحقيقات اجتماعي‪ -‬اقتصادي‪:‬‬
‫در بسياري از قلمروهاي جامعهشناس ي‪ ،‬اقتصاد‪ ،‬علوم سياس ي‪ .‬مطالعاتي در زمينههاي مربوط به رفاه اقتصادي گروههاي قومي گوناگون‪ .‬هزينههاي‬
‫مصرفكنندگان در سطوح مختلف درآمد و نظرات گوناگون در هنگام وضع يك قانون و زمينههايي نظير اينها انجام ميگيرد‪ .‬اين مطالعات نوعا بر مبناي‬
‫دادههايي انجام ميگيرند كه از راه مصاحبه يا تماس با نمونهاي از افراد بهدست ميآيند‪ ،‬كه اين نمونه به وسيلة روشهاي آماري از كل جامعهاي كه‬
‫قلمرو مطالعه را تشكيل ميدهد‪ ،‬انتخاب ميشوند‪ .‬سپس اين دادهها مورد تجزيه و تحليل قرار ميگيرند و تغييراتي از موضوع مورد نظر به عمل ميآيد‪.‬‬
‫بازاريابي‪:‬‬
‫با گسترش صنايع مختلف و بحث بازار رقابتي در قرن بيست و یک بسياري از صنايع به دنبال يافتن روشهائي در شناسائي بازار و خواستههاي مشتري به‬
‫طريق علمي گرديدهاند‪ .‬نتايج حاصل همواره با استفاده از مطالعات آماري روي مشتريان و يا مراكزي كه مشتري با آنها در ارتباط است صورت‬
‫ميپذيرد‪ .‬بهعنوان مثال يك شركت توليدكنندة پودر لباسشوئي پس از تحقيق دربارة ميزان فروش فروشگاههاي يك منطقه سهم فروش پودر ‪ ...‬را‬
‫درمييابد‪ .‬پس از اعمال تبليغات جديد و به فاصلة زماني مناسب اينكار مجددا صورت گرفته و سهم افزايش فروش بررس ي ميگردد‪ .‬و يا در همين‬
‫مقوله براي كسب اطالع از اينكه در توليد مايع ظرفشوئي آيا از لحاظ مصرفكنندگان‪ ،‬بوي اسانس ليمو با توتفرنگي تفاوتي وجود دارد‪ ،‬از ‪ 400‬نفر‬
‫مصاحبه ميشود كه ‪ 145‬نفربوي اسانس ليمو و بقيه توتفرنگي را ترجيح ميدهند‪.‬‬
‫كنترل كيفيت‪:‬‬
‫پيشرفتهاي آماري در بخش صنايع بيشتر مربوط به مسائل كنترل كيفي است‪ .‬استفاده از مفهوم آزمون فرضهاي آماري در بحث كنترل حين توليد محصوالت‬
‫توليدي‪ ،‬استفاده از روشهاي نمونهكيري جهت پذيرش براي شناسائي محصول مطابق درخواست با استفاده از يك نمونه از محصول به جاي بازرس ي‬
‫صددرصد و استفاده از ابزارهاي ساده آماري در كنترل فرآيند آماري ) ‪ (Statistical Process Control‬مانند هيستوگرام‪ ،‬نمودار پراكنش‪،‬‬
‫نمودار ميلهاي و استفاده از بحث طراحي آزمايشهاي مناسب و جمعآوري اطالعات و بسياري روشهاي آماري كه به صور مختلف مورد استفاده واقع‬
‫ميشوند بخش ي از تالش مسئولين كيفي صنايع را به خود اختصاص داده است‪.‬‬
‫آمارشناسها چه میکنند؟‬
‫جهان به سوی کمی شدن اطالعات پیش می رود‪ .‬در بسیاری از حرفهها و شغلها‪ ،‬تصمیمگيریها به اندازهگيریهای عددی‬
‫و داده بستگی دارند‪ .‬داده ها تنها شامل اعداد نیستند‪ ،‬بلکه اعداد خود حامل اطالعاتی در مورد یک سیستم مشخص‬
‫هستند و احتیاج دارند که در سیستم مربوطه تفسير شوند‪ .‬با توجه به این رشد در استفاده از دادهها‪ ،‬نیاز و تقاضا‬
‫برای وجود آمارشناسهایی که در زمینههای زیر کارشناس باشند‪ ،‬احساس می شود‪:‬‬
‫• ارائه و تولید دادههای قابل اعتماد‬
‫• تجزیه و تحلیل دادهها به منظور روشن و واضح ساختن معنای آنها‬
‫• ارائه استنتاجهای عملی از دادهها‬
‫آمارشناسها از تواناییهای کمی‪ ،‬علم آمار و مهارتهای روابط عمومی و برقراری ارتباط برای حل بسیاری از مشکالت و‬
‫مسایل موجود در جامعه استفاده میکنند‪ .‬آمارشناسها در تعیين روشهای نمونهگيری و جمعآوری دادهها‪ ،‬نظارت بر‬
‫اجرای مطالعه‪ ،‬پردازش دادهها و نظر دادن در مورد نتایج مطالعات بدستآمده کمک میکنند‪.‬‬
‫• فعالیت آمارشناسها در زمینه مطالعه و بررس ی نمونهای‬
‫• فعالیت آمارشناسها در مراکز دولتی برخی زمینههای فعالیت برای آماریها در‬
‫مراکز دولتی‬
‫• فعالیت آمارشناسها در زمینه پژوهشهای علمی‬
‫• فعالیت آمارشناسها در زمینه صنعت و تجارت‬
‫• برخی زمینههای فعالیت برای آماریها در صنعت و تجارت‬
‫• فعالیت آمارشناس ها در زمینه بهداشت‪ ،‬پزشکی و سالمت‬
‫مشخصههای شغلی آمارشناسها‬
‫• استفاده از دادهها برای حل مشکالت و مسایل‬
‫• استفاده از دانش ریاض ی و آمار خود در حل مشکالت اجتماعی‪ ،‬اقتصادی‪،‬‬
‫پزشکی‪ ،‬زیست محیطی‪ ،‬سیاس ی و ‪...‬‬
‫• کارکردن هم به صورت انفرادی و هم به صورت عضوی از یک گروه‬
‫• استفاده از علم ارتباطات در برقراری رابطه با متخصصين علوم دیگر و مشورت‬
‫با آنها و ادامه دادن مستمر فعالیتهای آموزش ی‬
‫• گسترش مرزها و قلمرو آمار و احتمال از طریق آموزش و تحقیق‬
‫سواد آماری چیست؟‬
‫سواد آماری یک توانایی‪/‬قابلیت است‪:‬‬
‫• توانایی فکر کردن منتقدانه درمورد استداللها با به کار بردن آمار به عنوان سند یا مدرک‬
‫• قابلیت خواندن و تفسير دادهها‪ ،‬قابلیت فهم آنچه که خوانده میشود‪.‬‬
‫• توانایی فهم و تفسير آمارهایی که هر فرد در زندگی روزمره با آنها سروکار دارد‪.‬‬
‫• توانایی استفاده صحیح از آمار توسط همه افراد جامعه‬
‫سواد آماری‪ ،‬بر تصمیمگيریها با استفاده از آمار به عنوان سند و مدرک متمرکز شده است‪ ،‬همانگونه که سوادخواندن و‬
‫نوشتن بر استفاده از کلمات به عنوان مدرک متمرکز شده است‪.‬‬
‫سواد آماری بیشتر درمورد سؤاالت است تا جواب ها‪ .‬سوادآماری جوابهای زیادی ندارد‪ .‬اما میتواند کمک کند تا سؤاالت‬
‫بهتری پرسش شود و در نتیجه تصمیمها و قضاوتهای بهتری صورت گيرد‪.‬‬
‫سواد آماری یک هنر است‪ ،‬هنر تصمیمگرفتن و قضاوت کردن تحت شرایط نامطمئن‪.‬‬
‫با سواد آماری کیست؟‬
‫• با سواد آماری کس ی است که قادر باشد تفاوت بين رابطه معمولی و رابطه علت و معلولی را‬
‫از یکدیگر تشخیص دهد‪.‬‬
‫• او کس ی است که وقتی با جمالتی همانند جمالت زیر روبرو میشود‪ ،‬درست یا غلط بودن‬
‫جمله دوم را مدرکی مستند برای درست یا غلط بودن جمله سوم نداند‪:‬‬
‫جمله اول‪ :‬افرادیکه وزن بیشتری دارند بلندقدتر از افرادی هستند که وزن کمتری دارند‪.‬‬
‫جمله دوم‪ :‬وزن یک رابطه مثبت با قد دارد‪.‬‬
‫جمله سوم‪ :‬اگر شما وزن بیشتری بدست آورید‪ ،‬انتظار میرود که قدتان نيز بلندتر شود‪.‬‬
‫• واضح است که برای بزرگساالن جمله سوم غلط است‪ .‬اما نمیتوان نتیجه گرفت که‬
‫اگر جمله سوم غلط باشد آنگاه جمله دوم نيز غلط خواهد بود‪ .‬درستی جمله دوم مدرکی‬
‫است برای درستی جمله سوم‪ ،‬اما درستی جمله دوم برای اثبات درستی جمله سوم کافی‬
‫نیست‪.‬‬
‫با سواد آماری کیست؟ (ادامه)‬
‫• با سواد آماری کس ی است که قادر باشد تفاوت بين عبارت “نسبت دادنی” را از عبارت “نسبت داده شده”‬
‫تشخیص دهد‬
‫‪.‬‬
‫مثال‪90‬درصد خودکش ی ها را افراد متاهل مرتکب می شوند‪ .‬این آمار به افراد متاهل نسبت داده شده‬
‫است‪ ،‬اما این بدین معنا نیست که اگر افراد ازدواج نکنند این نسبت کاهش خواهد یافت‪.‬‬
‫• با سواد آماری کس ی است که فرق آماری که بر اساس نمونه به دست آمده را از پارامتر جمعیت تشخیص‬
‫دهد ‪.‬‬
‫• باسواد آماری کس ی است که بتواند برداشت درستی از درصدها‪ ،‬ميزان ها و نرخ ها داشته باشد‬
‫مثال‪ :‬درصد رانندهها در میان زنان همانند درصد راننده هایی که زن هستند‪ ،‬نیست‪ .‬درصد بیمارانی که‬
‫نتیجه آزمایش آنها در مورد نوعی بیماری مثبت است همانند درصد افرادی که نتیجه آزمایش مثبت دارند و‬
‫بیمار هستند‪ ،‬نیست ‪.‬‬
‫شیوههای جمعآوری اطالعات‬
‫تعریف هر تیمار (متغير) تاحد امکان به‬
‫صورت ویژه‬
‫کدگذاری برای دادههای قیاس ی یعنی تعیين‬
‫عدد برای هر طبقه یا دسته‪.‬‬
‫جنسیت‬
‫زن ‪1‬‬
‫مرد ‪2‬‬
‫مشخص کردن روشن واحدهای اندازهگيری‬
‫• وزن شما چقدر است؟ (برحسب کیلوگرم‪ ،‬پوند‪ ،‬گرم)‬
‫• دیشب چند ساعت تلویزیون تماشا کردید؟ (ساعت‪ ،‬دقیقه)‬
‫نوشتن سؤاالت بدون اریب‬
‫• با اریب‪ :‬آیا شما موافقید که افزایش مصرف کود باعث کاهش عملکرد میشود؟‬
‫• بدون اریب‪ :‬نظر شما در مورد مصرف کود بر عملکرد محصول چیست؟‬
‫سؤاالت خود را در یک مطالعة پیلوت قبل از‬
‫انجام مطالعة اصلی امتحان نمایید‬
‫• (‪ 8‬تا ‪ 10‬مورد یا واحد از افراد‪ ،‬دانشآموزان‪ ،‬درختان و ‪)...‬‬
‫انواع دادهها‬
‫انواع دادهها‬
‫• دادههای قیاس ی‬
‫دادههای معیاری‬
‫دادههای قیاس ی‬
‫• موضوعات و صفات مورد بررس ی به طبقاتی بر اساس بعض ی از صفات کیفی گروهبندی‬
‫میشوند‪.‬‬
‫مثال‪ :‬دادههای قیاس ی‬
‫• رنگ مو‬
‫• بلوند‪ ،‬قهوهای‪ ،‬قرمز‪ ،‬سیاه‪ ،‬غيره‬
‫• نظر دانشجویان در مورد نحوة تدریس‬
‫• ناراحت‪ ،‬خنثی‪ ،‬خوشحال‬
‫• وضعیت سیگارکشیدن‬
‫• سیگاری‪ ،‬غيرسیگاری‬
‫طبقهبندی دادههای قیاس ی به صورت‪:‬‬
‫اسمی‪ ،‬ترتیبی و دوتایی‬
‫دادههای قیاس ی‬
‫دادههای ترتیبی‬
‫غيردودویی‬
‫دادههای اسمی‬
‫دودویی‬
‫غيردودویی‬
‫دودویی‬
‫دادههای اسمی‬
‫یک نوع از دادههای قیاس ی است که صفات در طبقههای غيرمرتب قرار میگيرند‪.‬‬
‫مثال‪ :‬دادههای اسمی‬
‫• رنگ مو‬
‫• بلوند‪ ،‬قهوهای‪ ،‬مشکی‪ ،‬قرمز‪ ،‬غيره‬
‫• نژاد‬
‫• هندی‪ ،‬افریقایی‪ ،‬آمریکایی‪ ،‬غيره‬
‫دادههای ترتیبی‬
‫نوعی از دادههای قیاس ی میباشند که رتبة آنها مهم است‬
‫مثال‪ :‬دادههای ترتیبی‬
‫• طبقه‬
‫• خیلی کم‪ ،‬کم‪ ،‬متوسط‪ ،‬زیاد‪ ،‬خیلی زیاد‬
‫• شدت بیماری‬
‫• نظر دانشجویان دربارة درس‬
‫دادههای دودویی‬
‫• شکلی از دادههای قیاس ی که تنها دارای دو طبقه هستند‪.‬‬
‫• دادههای دودویی میتوانند یا اسمی یا ترتیبی باشند‪.‬‬
‫مثال‪ :‬دادههای دودویی‬
‫• وضعیت سیگاری بودن‬
‫• سیگاری‪ ،‬غيرسیگاری‬
‫• حضور‬
‫• حاضر‪ ،‬غایب‬
‫دادههای سنجش ی‬
‫• اهداف مورد مطالعه بر اساس بعض ی از صفات کمی قابل اندازهگيری میباشند‪.‬‬
‫• دادهها به صورت اعداد میباشند‪.‬‬
‫مثال‪ :‬دادههای سنجش ی‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫سطح کلسترول‬
‫قد‬
‫سن‬
‫ميزان عملکرد‬
‫تعداد دانشجویانی که درکالس دیر حاضر میشوند‪.‬‬
‫زمان الزم برای انجام تکالیف درس ی در منزل‬
‫دادههای سنجش ی تقسیم میشوند به‬
‫گسسته یا پیوسته‬
‫‪Discrete or Continuous‬‬
‫دادههای سنجش ی‬
‫پیوسته‬
‫گسسته‬
‫دادههای سنجش ی گسسته‬
‫تنها مقادیر معینی را خواهند داشت‬
‫(شکافی بين مقادیر ممکن وجود دارد)‬
‫دادههای سنجش ی پیوسته‬
‫از نظر تئوریک‪ ،‬هر مقداری‬
‫در درون یک فاصله را میتوان با ابزارهای اندازهگيری دقیق‬
‫محاسبه نمود‪.‬‬
‫دادههای گسسته ‪ -‬شکاف بين مقادیر ممکن‬
‫‪7‬‬
‫‪6‬‬
‫‪5‬‬
‫‪4‬‬
‫‪3‬‬
‫‪2‬‬
‫‪1‬‬
‫‪0‬‬
‫دادههای پیوسته ‪ -‬از نظر تئوریکی هیچ شکافی بين مقادیر ممکن وجود ندارد‬
‫‪1000‬‬
‫‪0‬‬
‫مثالها‬
‫دادههایی با معیارهای گسسته‬
‫•‬
‫•‬
‫•‬
‫•‬
‫نمرات آمار‬
‫تعداد دانشجویانی که دیر به کالس میآیند‬
‫تعداد جرائمی که به مراکز پلیس گزارش شده است‪.‬‬
‫تعداد دفعاتی که از یک کلمه استفاده میشود‪.‬‬
‫عموما دادههای گسسته قابل شمارش هستند‪.‬‬
‫مثالها‪:‬‬
‫دادههای معیاری پیوسته‬
‫•‬
‫•‬
‫•‬
‫•‬
‫سطح کلسترول‬
‫قد‬
‫سن‬
‫زمان الزم برای انجام تکالیف مدرسه‬
‫عموما دادههای پیوسته از اندازهگيری بدست میآیند‬
‫انواع دادههای جمعآوری شده در‬
‫یک مطالعه تعیينکنندة نوع‬
‫تحلیل آماری مورد استفاده‬
‫میباشد‬
‫برای مثال ‪...‬‬
‫ا‬
‫• دادههای قیاس ی عموما با استفاده از درصد (یا نسبتها) خالصه میشوند‪.‬‬
‫• ‪11‬درصد دانشجویان دارای خالکوبی میباشند‪.‬‬
‫• ‪ ٪39،٪33 ،٪2‬و ‪ ٪26‬دانشجویان درکالس به ترتیب جدیدالورود‪ ،‬سال دوم‪ ،‬سال سوم و سال چهارم‬
‫و برای مثال ‪...‬‬
‫• دادههای معیاری به طور مثال با استفاده از متوسط (یا میانگين) خالصه میشوند‪.‬‬
‫• متوسط وزن مردان در بين ‪ 250‬دانشجوی درس آمار در پایيز ‪ 173 ،1387‬پوند است‬
‫• متوسط وزن زنان در بين ‪ 250‬دانشجوی درس آمار در پایيز ‪ 138 ،1387‬پوند است‬
‫آمار توصیفی‬
‫توصیف دادهها با اعداد‬
‫معیارهای مکانی‬
‫چه چيزی توصیف میشود؟‬
‫• مکان یا مرکز دادهها چیست؟ (معیارهای مکانی)‬
‫• دادهها چگونه تغیير میکنند؟ (معیارهای تغیيرپذیری)‬
‫معیارهای مکانی‬
‫• میانگين‬
‫• میانه‬
‫• مد‬
‫میانگين‬
‫• نام دیگر متوسط‬
‫• اگر میانگين یک جمعیت را توصیف کنیم با ‪ ‬نمایش داده میشود‪.‬‬
‫• اگر میانگين نمونه را توصیف کنیم با ‪ x-bar‬نمایش داده میشود‪.‬‬
‫‪x‬‬
‫• مناسب برای توصیف دادههای سنجش ی‬
‫• به ميزان زیادی تحتتأثير مقادیر غيرمعمول که «برونهشت» یا‬
‫‪ outliers‬نام دارند‪ ،‬قرار میگيرد‪.‬‬
‫محاسبة میانگين نمونه‬
‫‪X‬‬
‫‪X n i‬‬
‫یعنی جمع تمام دادهها و تقسیم به تعداد آنها‬
‫‪:‬فرمول‬
‫میانه‬
‫• نام دیگر برای صدک ‪50‬ام‬
‫• مناسب برای توصیف دادههای سنجش ی‬
‫• مناسب برای دادههای برونهشت‪ ،‬یعنی تحتتأثير مقادیر غيرمعمول قرار نمیگيرد‪.‬‬
‫محاسبة میانة نمونه‬
‫مرتب کردن دادهها از کوچک به بزرگ‬
‫اگر تعداد دادهها فرد باشد‪ ،‬میانه مقدار وسط میباشد‪.‬‬
‫‪8‬‬
‫‪4‬‬
‫‪1‬‬
‫‪4‬‬
‫‪3‬‬
‫‪3‬‬
‫‪2‬‬
‫‪: 1‬دادههای مرتب شده‬
‫میانه‬
‫‪8‬‬
‫‪: 2‬دادهها‬
‫محاسبة میانة نمونه‬
‫مرتب کردن دادهها از کوچک به بزرگ‬
‫اگر تعداد دادهها زوج باشد‪ ،‬میانه متوسط دو مقدار وسطی است‬
‫‪ : 2 8 3 4 1 8‬دادهها‬
‫‪8‬‬
‫‪8‬‬
‫‪4‬‬
‫‪3‬‬
‫‪ = (3+4)/2 = 3.5‬میانه‬
‫‪2‬‬
‫‪: 1‬دادههای مرتب شده‬
‫مد‬
‫• مقادیری که بیشترین فراوانی را دارند‪.‬‬
‫• یک مجموعه داده میتواند چندین مد داشته باشد‬
‫• برای تمام انواع داده مناسب است اما بیشتر برای دادههای قیاس ی یا دادههای گسسته‬
‫با تعداد اندکی از مقادیر ممکن مفید است‪.‬‬
Minitab: ‫در برنامة‬
Variable
Phone
Variable
Phone
N
139
Mean
121.6
Minimum
2.0
Median
60.0
TrMean
88.1
Maximum
2000.0
N = ‫تعداد دادهها‬
‫میانة نمونه‬
‫میانگين نمونه‬
Q1
30.0
StDev
217.7
Q3
120.0
SE Mean
18.5
‫مناسبترین معیارهای مکانی بستگی به شکل‬
‫توزیع دادهها دارد‬
‫مناسبترین معیارهای مکانی بستگی دارد به‪:‬‬
‫• آیا دادهها متقارن هستند یا چوله‬
‫• آیا دادههای دارای یک مد هستند (‪ )unimodal‬یا دارای چند مد‬
‫(‪)multimodal‬‬
‫متقارن و یک نمایی‬
‫‪20‬‬
‫‪0‬‬
‫‪2.0 2.2 2.4 2.6 2.8 3.0 3.2 3.4 3.6 3.8 4.0‬‬
‫‪GPAs‬‬
‫‪Percent‬‬
‫‪10‬‬
‫متقارن و یک نمایی‬
‫‪4‬‬
‫‪3‬‬
‫‪GPA‬‬
‫‪2‬‬
‫متقارن و یک نمایی‬
Descriptive Statistics
Variable
GPA
N
92
Mean
3.0698
Variable
GPA
Minimum
2.0200
Median
3.1200
Maximum
3.9800
TrMean
3.0766
StDev
0.4851
Q1
2.6725
SE Mean
0.0506
Q3
3.4675
‫متقارن و دونمایی‬
‫متقارن و دونمایی‬
Variable
Males
Females
All
N
84
89
176
Variable SE Mean
Males
0.331
Females
0.305
All
0.303
Mean
70.048
64.798
67.313
Min
63.0
56.0
56.0
Median
70.000
65.000
67.000
Max
76.0
77.0
77.0
TrMean
70.092
64.753
67.291
Q1
68.0
63.0
64.0
StDev
3.030
2.877
4.017
Q3
72.0
67.0
70.0
‫متقارن و دونمایی‬
‫چوله به راست‬
Number of Music CDs of Spring 1998 Stat 250 Students
Frequency
20
10
0
0
100
200
300
Number of Music CDs
400
‫چوله به راست‬
0
100
200
Number of CDs
300
400
‫چوله به راست‬
Descriptive Statistics
Variable
CDs
N
92
Mean
61.04
Variable
CDs
Minimum
0.00
Median
46.50
Maximum
400.00
TrMean
52.93
Q1
21.50
StDev
62.90
SE Mean
6.56
Q3
83.00
‫چوله به چپ‬
30
Percent
20
10
0
50
55
60
65
70
75
80
grades
85
90
95 100
‫چوله به چپ‬
‫چوله به چپ‬
Variable
grades
Variable
grades
N
22
Mean
89.18
Minimum
50.00
Median
93.50
Maximum
100.00
TrMean
90.60
StDev
12.92
Q1
87.00
SE Mean
2.76
Q3
98.00
‫انتخاب معیار مناسب مکانی‬
‫• اگر دادهها متقارن باشند‪ ،‬میانگين‪ ،‬میانه و مد‪ ،‬تقریبا برابر هستند‪.‬‬
‫• اگر دادههای دارای چند مد باشند‪ ،‬میانگين‪ ،‬میانه و یا مد را برای هر زیرگروه گزارش‬
‫دهید‪.‬‬
‫• اگر دادهها چوله باشند‪ ،‬میانه را گزارش دهید‪.‬‬
‫آمارهای توصیفی‬
‫توصیف دادهها با اعداد‬
‫معیارهای تغیيرپذیری‬
‫چه چيزی توصیف میشود؟‬
‫• مکان یا مرکز دادهها چیست؟‬
‫• دادهها چگونه تغیير میکنند؟‬
‫معیارهای تغیيرپذیری‬
‫•‬
‫•‬
‫•‬
‫•‬
‫دامنه‬
‫دامنة بينچارکی‬
‫واریانس و انحراف معیار‬
‫ضریب تغیير‬
‫تمام این معیارها تنها برای دادههای سنجش ی مناسب هستند‪.‬‬
‫دامنه‬
‫• تفاوت بين بزرگترین و کوچکترین داده‬
‫• به ميزان زیادی تحت تأثير برونهشتها قرار میگيرد‪.‬‬
‫• برای دادههای متقارن بدون هیچ برونهشتی مناسب است‪.‬‬
‫دامنه چیست؟‬
GPAs of Spring 1998 Stat 250 Students
Frequency
20
10
0
2.0 2.2 2.4 2.6 2.8 3.0 3.2 3.4 3.6 3.8 4.0
GPA
‫دامنه‬
Descriptive Statistics
Variable
GPA
N
92
Mean
3.0698
Variable
GPA
Minimum
2.0200
Median
3.1200
Maximum
3.9800
TrMean
3.0766
StDev
0.4851
Q1
2.6725
‫ = دامنه‬3.98 - 2.02 = 1.96
SE Mean
0.0506
Q3
3.4675
‫دامنة بين چارکی‬
‫• تفاوت بين چارک سوم (درصد ‪75‬ام) و اولين چارک (درصد ‪25‬ام) یعنی نیمة وسطی‬
‫دادهها‬
‫‪• IQR = Q3-Q1‬‬
‫• برای مشاهدات برون هشت و کرانی کارا میباشد‪.‬‬
‫• برای دادههای چوله مناسب است‪.‬‬
‫دامنة بين چارکی چیست؟‬
GPAs of Spring 1998 Stat 250 Students
Frequency
20
10
0
2.0 2.2 2.4 2.6 2.8 3.0 3.2 3.4 3.6 3.8 4.0
GPA
‫دامنة بينچارکی‬
Descriptive Statistics
Variable
GPA
N
92
Mean
3.0698
Variable
GPA
Minimum
2.0200
Median
3.1200
Maximum
3.9800
TrMean
3.0766
StDev
0.4851
Q1
2.6725
SE Mean
0.0506
Q3
3.4675
IQR = 3.4675 - 2.6725 = 0.795
‫واریانس‬
‫‪ .1‬تفاوت بين هر داده با میانگين را بیابید‪.‬‬
‫‪ .2‬این تفاوتها را به توان دو رسانده و با هم‬
‫جمع کنید‪.‬‬
‫‪ .3‬به یکی کمتر از تعداد دادهها تقسیم کنید‪.‬‬
‫‪2‬‬
‫‪(x‬‬
‫‪‬‬
‫‪x‬‬
‫)‬
‫‪s2  ‬‬
‫‪n 1‬‬
‫واریانس‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫اگر واریانس جمعیت را اندازه بگيریم آن را با ‪ 2‬نشان میدهیم‪.‬‬
‫اگر واریانس نمونه را اندازه بگيریم آن را با ‪ s2‬نشان میدهیم‪.‬‬
‫متوسط مربع انحراف دادهها از میانگين خود را اندازه میگيرد‪.‬‬
‫به ميزان زیادی تحتتأثير برونهشتها میباشد‪ .‬برای دادههای متقارن بهتر است‪.‬‬
‫واحدها درجة دوم هستند‪.‬‬
‫انحراف معیار‬
‫•‬
‫•‬
‫•‬
‫•‬
‫انحراف معیار نمونه ریشة دوم واریانس نمونه میباشد و بنابراین با ‪ s‬نشان داده‬
‫میشود‪.‬‬
‫واحدها‪ ،‬واحدهای اصلی هستند‬
‫انحراف متوسط دادهها از میانگين خود را اندازه میگيرد‪.‬‬
‫همچنين به ميزان زیادی تحتتأثير برونهشتها قرار دارد‪.‬‬
‫واریانس یا انحراف معیار چیست؟‬
Fastest Ever Driving Speed
226 Stat 100 Students, Fall '98
100
Men
126
Women
70
80
90
100 110 120 130 140 150 160
Speed (MPH)
‫واریانس یا انحراف معیار‬
Sex
N
female 126
male
100
female
male
Mean
91.23
06.79
Minimum
65.00
75.00
Median
90.00
110.00
Maximum
120.00
162.00
TrMean
90.83
105.62
StDev SE Mean
11.32
1.01
17.39
1.74
Q1
85.00
95.00
Q3
98.25
118.75
Females: s = 11.32 mph and s2 = 11.322 = 128.1 mph2
Males: s = 17.39 mph and s2 = 17.392 = 302.5 mph2
‫واریانس یا انحراف معیار چیست؟‬
Fastest Ever Driving Speed
Sex
male
female
120
170
220
KPH
270
‫واریانس یا انحراف معیار‬
Sex
female
male
N
126
100
Mean
152.05
177.98
Sex
Minimum
female 108.33
male
125.00
Median
150.00
183.33
Maximum
200.00
270.00
TrMean
151.39
176.04
Q1
141.67
158.33
StDev SE Mean
18.86
1.68
28.98
2.90
Q3
163.75
197.92
Females: s = 18.86 kph and s2 = 18.862 = 355.7 kph2
Males: s = 28.98 kph and s2 = 28.982 = 839.8 kph2
‫ضریب تغیير‬
‫• نسبت انحراف معیار نمونه به میانگين نمونه ضربدر ‪100‬‬
‫• معیار تغیيرپذیری نسبی‪ ،‬یعنی تغیيرپذیری نسبت به بزرگی دادهها‬
‫• بدون واحد است بنابراین برای مقایسة تفاوت بين دو گروه خوب است‪.‬‬
‫ضریب تغیير‬
Sex
N
Mean
female 126 91.23
male
100 106.79
female
male
Minimum
65.00
75.00
Median
90.00
110.00
Maximum
120.00
162.00
TrMean
90.83
105.62
StDev SE Mean
11.32
1.01
17.39
1.74
Q1
85.00
95.00
Females: CV = (11.32/91.23) x 100 = 12.4
Males: CV = (17.39/106.79) x 100 = 16.3
Q3
98.25
118.75
‫ضریب تغیير‬
Sex
female
male
N
126
100
Mean
152.05
177.98
Sex
Minimum
female 108.33
male
125.00
Median
150.00
183.33
Maximum
200.00
270.00
TrMean
151.39
176.04
Q1
141.67
158.33
StDev SE Mean
18.86
1.68
28.98
2.90
Q3
163.75
197.92
Females: CV = (18.86/152.05) x 100 = 12.4
Males: CV = (28.98/177.98) x 100 = 16.3
‫مناسبترین معیار تغیيرپذیری بستگی دارد به‬
‫‪...‬‬
‫شکل توزیع دادهها‬
‫انتخاب معیار مناسب تغیيرپذیری‬
‫• اگر دادهها متقارن باشند‪ ،‬بدون هیچ برونهشت جدی‪ ،‬از دامنه و انحراف معیار‬
‫استفاده میشود‪.‬‬
‫• اگر دادهها چوله باشند‪ ،‬و یا دارای برونهشت باشند از دامنة بينچارکی استفاده‬
‫میگردد‪.‬‬
‫• اگر در حال مقایسه تفاوت در بين دو مجموعه داده باشیم‪ ،‬از ضریب تغیير استفاده‬
‫میگردد‪.‬‬
‫احتمال‬
‫مجموعهای از قوانين احتمال‬
‫حادثه‬
‫• نتیجة یک مشاهده یا آزمایش یا توصیف بعض ی از پیامدهای بالقوه‬
‫• با این حروف نشان داده میشوند‪A, B, C, ….‬‬
‫احتمال‬
‫•‬
‫•‬
‫•‬
‫•‬
‫بين صفر و ‪ 1‬میباشد که نشاندهندة احتمال وقوع یک حادثه است‪.‬‬
‫یک حادثه با احتمال صفر‪ ،‬یک حادثة بیاثر است‪.‬‬
‫یک حادثه با احتمال یک یک حادثة قطعی است‪.‬‬
‫نزدیکتر به یک‪ ،‬احتمال وقوع حادثه بیشتر است‪.‬‬
‫• احتمال حادثة ‪ A‬را با )‪ P(A‬نشان میدهند‪.‬‬
‫مثالها از حادثة پوچ‪:‬‬
‫• یک مرد باردار شود‬
‫• زن از سرطان پروستات بميرد‪.‬‬
‫مثالهای از حادثههای قطعی‬
‫• خورشید امشب غروب خواهد کرد‪.‬‬
‫• نیمسال به پایان خواهد رسید‪.‬‬
‫• یک نفر خواهد مرد‪.‬‬
‫سه راه برای تعیين احتماالت‬
‫• روش فراوانی‬
‫• روش کالسیک‬
‫• روش عقیدة شخص ی‬
‫توزیع نرمال‬
‫و مقدمهای بر توابع پیوسته چگالی احتمال ‪...‬‬
‫هیستوگرام درصد‬
IQ
(Intervals of size 20)
40
Percent
30
20
10
0
55
75
95
IQ
115
135
‫هیستوگرام‬
‫مساحت مستطیل = احتمال‬
IQ
(Intervals of size 20)
Density
0.02
0.01
0.00
55
75
95
IQ
115
135
... ‫کاهش اندازة فاصله‬
IQ
(Intervals of size 10)
Density
0.02
0.01
0.00
55
65
75
85
95
IQ
105
115
125
135
... ‫کاهش بیشتر اندازة فاصلهها‬
IQ
(Intervals of size 5)
0.03
Density
0.02
0.01
0.00
50
60
70
80
90
100
IQ
110 120
130 140
‫توابع پیوستة چگالی احتمال ‪...‬‬
‫• منحنی توصیفکنندة احتمال هر محدودهای از مقادیر را کسب میکند‪ .‬مثل‪:‬‬
‫)‪P(X > 120), P(X<100), P(110 < X < 120‬‬
‫• مساحت زیر منحنی = احتمال‬
‫• کل مساحت زیر منحنی = ‪1‬‬
‫• احتمال بدستآوردن یک عدد خاص ‪ 0‬است‪ .‬مثال‬
‫‪P(X=120) = 0‬‬
‫ نوع ویژهای از تابع چگالی احتمال پیوسته‬p.d.f
Bell-shaped curve
0.08
Mean = 70 SD = 5
0.07
Density
0.06
0.05
0.04
Mean = 70 SD = 10
0.03
0.02
0.01
0.00
40
50
60
70
Grades
80
90
100
‫خصوصیات توزیع نرمال‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫متقارن – منحنی زنگولهای‬
‫شکل منحنی بستگی به میانگين جمعیت ‪ ‬و انحراف معیار ‪ ‬دارد‪.‬‬
‫مرکز توزیع ‪ ‬است‪.‬‬
‫وسعت منحنی بستگی به ‪ ‬دارد‪.‬‬
‫بیشتر مقادیر اطراف میانگين هستند اما بعض ی از مقادیر کوچکتر و بعض ی بزرگتر‬
‫میباشند‪.‬‬
‫مثالهایی از متغيرهای تصادفی نرمال‬
‫• عملکرد تولید کشاورزان در یک منطقه‬
‫ چقدر است؟‬75 ‫احتمال باالی‬
Probability student scores higher than 75?
0.08
0.07
Density
0.06
0.05
P(X > 75)
0.04
0.03
0.02
0.01
0.00
55
60
65
70
Grades
75
80
85
‫سطح زیر منحنی = احتمال‬
‫•‬
‫•‬
‫•‬
‫•‬
‫محاسبة جبری؟‬
‫شخص ی این کار سخت را برای ما انجام داده است‪.‬‬
‫ما تنها به یک جدول احتماالت برای هر توزیع نرمالی نیاز داریم‪.‬‬
‫اما تعداد بینهایت توزیع نرمال وجود دارد (برای هر میانگين و انحراف معیاری یک‬
‫توزیع)‬
‫• جواب استانداردکردن ‪ standardize‬میباشد‪.‬‬
‫استاندارد کردن ‪...‬‬
‫• مقدار ‪ x‬را از میانگين ‪ ‬کم نموده و به انحراف معیار تقسیم کنید‪ .‬نتیجه مقدار ‪z‬‬
‫میباشد‪ .‬یعنی‪:‬‬
‫‪Z = (X- )/‬‬
‫• ‪ Z‬را نرمال استاندارد مینامند‪ .‬میانگين آن ‪ 0 ‬و انحراف معیاری برابر با ‪ 1‬دارد‪.‬‬
‫• سپس از جدول احتمال برای ‪ z‬استفاده میشود‪.‬‬
z ‫استفاده از جدول‬
Standard Normal Curve
0.4
Density
0.3
0.2
Tail probability
P(Z > z)
0.1
0.0
-4
-3
-2
-1
0
Z
1
2
3
4
‫ چیست؟‬70 ‫ و‬65 ‫احتمال بين‬
0.08
0.07
Density
0.06
0.05
P(65 < X < 70)
0.04
0.03
0.02
0.01
0.00
55
60
65
70
Grades
75
80
85
‫ چیست؟‬65 ‫احتمال زیر‬
0.08
0.07
Density
0.06
0.05
0.04
0.03
0.02
P(X < 65)
0.01
0.00
55
65
75
Grades
85
‫یادآوری!‬
‫• احتماالت محاسبهشده دقیق هستند تنها اگر فروض ایجادشده به طور واقعی درست‬
‫باشند‪.‬‬
‫• وقتی محاسبات فوق را انجام میدهید‪ ،‬فرض شما این است که دادهها به طور نرمال‬
‫توزیع شده باشند‪.‬‬
‫• همیشه این فرض را چک کنید! (بعدا یاد خواهیم گرفت)‬
‫آزمون فرضیه‬
‫مقدمه‬
‫برای دانستن خصوصیات یک‬
‫جمعیت بزرگتر‪ ،‬از یک نمونة‬
‫تصادفی استفاده نمایید‪.‬‬
‫دو راه برای یادگيری در مورد یک جمعیت‬
‫• فواصل اطمینان‬
‫• آزمون فرضیه‬
‫فواصل اطمینان‬
‫• اجازه دهید که با استفاده از دادههای نمونه‪ ،‬مقادیر جمعیت مانند میانگين یا‬
‫نسبتهای واقعی را برآورد نماییم‪.‬‬
‫• مثال‪ :‬متوسط واقعی زمانی که دانشجویان در آخر هفته مطالعه میکنند‪ ،‬چقدر است؟‬
‫آزمون فرضیه‬
‫• به ما اجازه دهید که با استفاده از دادههای نمونه‪ ،‬یک ادعا در مورد یک جمعیت را آزمون‬
‫نماییم‪ .‬مثال اینکه نسبتی از جمعیت یا میانگين جمعیت برابر با یک عدد است‪.‬‬
‫• مثال‪ :‬آیا مقدار واقعی متوسط مطالعة دانشجویان در آخر هفته ‪ 20‬دقیقه است؟‬
‫ایدة عمومی آزمون فرضیه‬
‫• یک فرض ابتدایی بسازید‪.‬‬
‫• شواهد را جمعآوری کنید (دادهها)‬
‫• بر اساس شواهد موجود‪ ،‬تصمیم بگيرید که آیا فرض اولیه قابل قبول است یا خير‪.‬‬
‫اجازه دهید که این فرضیه را نشان دهیم‪.‬‬
‫مثال‬
‫آیا متوسط نمره ‪7/2‬‬
‫است؟‬
‫چقدر احتمال دارد که ‪100‬‬
‫دانشجو دارای متوسط نمرهای‬
‫به اندازة ‪ 9/2‬باشند اگر متوسط‬
‫جمعیت ‪ 7/2‬باشد؟‬
‫جمعیت ‪ 5‬میلیون دانشجوی‬
‫کالج‬
‫نمونة ‪ 100‬دانشجو‬
‫تصمیمگيری‬
‫• آن محتمل یا غيرمحتمل است که ما شواهدی داشته باشیم که فرض اولیة ما را تأیید‬
‫یا رد کند‪.‬‬
‫• (توجه‪ :‬محتمل یا غيرمحتمل با محاسبة احتمال مشخص میشود)‬
‫• اگر محتمل باشد‪ ،‬آنگاه ما فرض اولیة خود را رد نمیکنیم‪ .‬یعنی شواهد کافی برای چيز‬
‫دیگر نداریم‪.‬‬
‫تصمیمگيری (ادامه)‬
‫• اگر غيرمحتمل باشد‪ ،‬آنگاه‪:‬‬
‫• یا فرض اولیة ما درست است و ما یک حادثة غيرمعمول را تجربه میکنیم‪.‬‬
‫• یا فرض اولیة ما نادرست است‪.‬‬
‫• در آمار‪ ،‬اگر غيرمحتمل باشد‪ ،‬ما تصمیم به رد فرض اولیه میگيریم‪.‬‬
‫ایدة آزمون فرضیه‬
‫• اول دو فرضیه ارائه میکنیم‪ ،‬فرضیة صفر‬
‫)”‪• the null hypothesis (“H0‬‬
‫• و فرضیة جایگزین‬
‫)”‪• and the alternative hypothesis (“HA‬‬
‫خوانده گناهکار نیست ‪• H0:‬‬
‫خوانده گناهکار است ‪• HA:‬‬
‫شناسایی فرضیهها‬
‫• فرضیه صفر همیشه نشاندهندة وضعیت موجود میباشد یعنی فرضیهای که نیازمند هیچ تغیيری‬
‫در رفتار جاری ندارد‪.‬‬
‫• فرضیه جایگزین‪ ،‬نتیجهای است که محقق سعی دارد آن را بدست آورد‪.‬‬
‫ادامة مثال‬
‫• سپس‪ ،‬شواهدی مانند اثر انگشت‪ ،‬لکههای خون‪ ،‬نمونههای مو‪ ،‬الیاف فرش‪ ،‬رد کفش‪،‬‬
‫نمونههای دستخط و غيره جمعآوری میشود‪.‬‬
‫• در آمار‪ ،‬دادهها همان شواهد هستند‪.‬‬
‫ادامة مثال‬
‫• سپس فرض اولیه ساخته میشود‬
‫• خوانده‪ ،‬بیگناه است تا وقتی که ثابت شود‪ ،‬گناهکار است‪.‬‬
‫• درآمار‪ ،‬ما همیشه فرض میکنیم فرضیة صفر درست است‪.‬‬
‫ادامة مثال‬
‫• سپس یک تصمیم بر اساس شواهد موجود بگيرید‪.‬‬
‫• اگر شواهد کافی وجود داشت (ماورای شک منطقی)‪ ،‬فرضیة صفر رد میشود‪( .‬خوانده‬
‫گناهکار است)‪.‬‬
‫• اگر شواهد کافی وجود نداشته باشد‪ ،‬فرضیة صفر رد نمیشود (خوانده گناهکار نیست)‬
‫نکتة مهم‬
‫• هیچ تصمیمی مستلزم اثبات فرضیة صفر یا فرضیة جایگزین نمیباشد‪.‬‬
‫• ما فقط اظهار میداریم که شواهد کافی برای حرکت در یک راه یا راه دیگر نداریم‪.‬‬
‫• این موضوع همیشه در آمار درست است‪ ،‬موضوع این نیست که ما چه تصمیمی‬
‫میگيریم‪ ،‬همیشه شانس این وجود دارد که ما تصمیم اشتباه بگيریم‪.‬‬
‫آزمون فرضیه‬
‫ادامة مقدمه ‪...‬‬
‫خطاهای قضاوت‬
‫واقعی ت‬
‫گناهکار‬
‫بیگناه‬
‫تصمی م هیئ ت منصفه‬
‫‪ERROR‬‬
‫‪OK‬‬
‫بیگناه‬
‫‪OK‬‬
‫‪ERROR‬‬
‫گناهکار‬
‫خطاها در آزمون فرضیه‬
‫واقعی ت‬
‫فرضیة ج ایگزی ن‬
‫فرضیةصفر‬
‫تصمی م‬
‫‪TYPE II‬‬
‫‪ERROR‬‬
‫‪OK‬‬
‫ع دم رد فرضیةصفر‬
‫‪OK‬‬
‫‪TYPE I‬‬
‫‪ERROR‬‬
‫رد فرضیةصفر‬
‫تعاریف‪ :‬انواع خطا‬
‫• خطای نوع اول‪ :‬فرضیة صفر رد شود درحالیکه درست است‪.‬‬
‫• خطای نوع دوم‪ :‬فرضیة صفر رد نشود‪ ،‬وقتی اشتباه است‪.‬‬
‫• همیشه شانس ایجاد یکی از این خطاها وجود دارد اما هدف ما باید حداقل کردن‬
‫شانس وقوع این خطاها باشد‪.‬‬
‫مثال‬
‫آیا متوسط درجة حرارت‬
‫بدن ‪ 6/98‬درجه است؟ یا آن‬
‫کمتر است؟‬
‫متوسط درجة حرارت‬
‫بدن ‪ 80‬نفر بزرگسال‬
‫‪ 4/98‬درجه است‪.‬‬
‫جمعیت تعداد زیادی بزرگسال‬
‫نمونه ‪ 80‬نفر بزرگسال‬
‫مثال (ادامه)‬
‫• تعیين فرضیه‬
‫درجه ‪• H0:  = 98.6‬‬
‫درجه ‪• HA:  < 98.6‬‬
‫• فرضیة اولیه را ‪  = 98.6‬بسازید‪.‬‬
‫• جمعآوری دادهها‪ :‬متوسط درجة حرارت بدن ‪ 80‬نفر نمونه‪ 4/98 ،‬است‪ .‬احتمال این که‬
‫درجة حرارت بدن یک نمونة ‪ 80‬نفره از بزرگساالن کمتر از ‪ 4/98‬باشد‪ ،‬اگر دمای متوسط‬
‫جمعیت ‪ 6/98‬باشد‪ ،‬چه مقدار است؟‬
‫استفاده از ‪p-value‬‬
‫برای تصمیمگيری‬
‫•‬
‫•‬
‫•‬
‫•‬
‫‪ p-value‬نشاندهندة احتمالی است که ما چنين نمونة کرانی را مشاهده خواهیم‬
‫کرد اگر فرضیة صفر درست باشد‪.‬‬
‫‪ p-value‬احتمال است‪ ،‬بنابراین بين صفر و یک میباشد‪.‬‬
‫نزدیک به صفر به معنای غيرمحتمل است‪.‬‬
‫بنابراین اگر ‪ p-value‬کوچک باشد (به طور مثال کمتر از ‪ ،05/0‬آنگاه فرضیة‬
‫صفر رد میشود‪.‬‬
)‫مثال (ادامه‬
.‫ بدست آورد‬MINITAB ‫ را به آسانی میتوان از نرمافزارهای آماری مانند‬p-value
Test of mu = 98.6000 vs mu < 98.6000
The assumed sigma = 0.600
Variable N
Temp
80
Mean
98.4
StDev
0.67
SE Mean
Z
0.0671 -2.80
‫ا‬
.‫ نشان میدهند‬p ‫ را عموما با‬p-value
P
0.0026
‫مثال (ادامه)‬
‫• ‪ p-value‬برابر ‪ 0026/0‬نشان میدهد که اگر دمای متوسط بدن در جمعیت ‪6/98‬‬
‫باشد‪ ،‬غيرمحتمل است که یک نمونة ‪ 80‬نفره بزرگسال دارای دمای متوسط بدن ‪4/98‬‬
‫باشند‪.‬‬
‫• تصمیم‪ :‬رد فرضیة صفر‬
‫• نتیجه اینکه دمای متوسط بدن کمتر از ‪ 6/98‬میباشد‪.‬‬
‫چه نوع خطایی ممکن است برای ما پیش آید؟‬
‫• خطای نوع اول در اینجا ادعا در این مورد است که متوسط دمای‬
‫بدن کمتر از ‪ 6/98‬است درحالیکه واقعا اینگونه نیست‪.‬‬
‫• خطای نوع دوم در اینجا شکست در این ادعا که متوسط دمای بدن‬
‫کمتر از ‪ 6/98‬است درحالیکه واقعا اینگونه است‪.‬‬
‫• ما فرضیة صفر را رد کردیم یعنی ادعا کردیم که دمای بدن کمتر از‬
‫‪ 6/98‬است بنابراین ما ممکن است خطای نوع اول را داشته باشیم‪.‬‬
‫آزمون فرضیه برای میانگين یک‬
‫جمعیت‬
‫مثال‬
‫آیا متوسط نمره ‪7/2‬‬
‫است؟‬
‫چقدر احتمال دارد که ‪100‬‬
‫دانشجو دارای متوسط نمرهای‬
‫به اندازة ‪ 9/2‬باشند اگر متوسط‬
‫جمعیت ‪ 7/2‬باشد؟‬
‫جمعیت ‪ 5‬میلیون دانشجوی‬
‫کالج‬
‫نمونة ‪ 100‬دانشجو‬
‫مقادیر ‪p‬‬
‫چقدر محتمل است که ‪ 100‬دانشجو دارای میانگين نمرهای به اندازة ‪9/2‬‬
‫باشند اگر متوسط جمعیت ‪ 7/2‬باشد؟‬
‫تعیين مقادیر ‪P‬‬
‫‪ = 2.7‬متوسط نمرات جمعیت = ‪H0: μ‬‬
‫‪ > 2.7‬متوسط نمرات جمعیت = ‪HA: μ‬‬
‫اگر ‪ 100‬دانشجو دارای متوسط نمرهای برابر ‪ 9/2‬با انحراف معیار ‪6/0‬‬
‫باشد‪ ،‬مقدار ‪ P‬برابر است با‪:‬‬
‫])‪P( X  2.9)  P[Z  (2.9  2.7) /(0.6 / 100‬‬
‫‪ P[Z  3.33]  0.0004‬‬
‫تصمیمگيری‬
‫• مقدار ‪ P‬کوچک است‪ .‬غيرمحتمل است که ما نمونهای به اندازة ‪ 9/2‬داشته باشیم اگر‬
‫متوسط نمرات جمعیت ‪ 7/2‬باشد‪.‬‬
‫• فرضیة صفر رد میشود‪ .‬شواهد کافی وجود دارد که متوسط نمرات بزرگتر از ‪ 7/2‬باشد‪.‬‬
‫اصطالحات‬
‫‪ HA: μ > 2.7‬در برابر ‪• H0: μ = 2.7‬‬
‫یک آزمون فرضیة دنبالة راست یا یک طرفه نامیده میشود چون مقدار‬
‫‪ P‬مربوط به دنبالة سمت راست است‪.‬‬
‫‪• Z = 3.33‬‬
‫را آمارة آزمون مینامند‪.‬‬
‫• اگر ما فکر کنیم که مقدار ‪ P‬ما کوچک است یعنی کوچکتر از ‪05/0‬‬
‫باشد‪ ،‬آنگاه احتمال اینکه ما یک خطای نوع اول بسازیم برابر ‪05/0‬‬
‫است‪ .‬این مقدار را سطح معنیداری آزمون مینامند‪ .‬ما میگوییم‬
‫‪ α=0.05‬جاییکه ‪ α‬سطح معنیداری است‪.‬‬
‫مثال‬
‫آیا متوسط درجة حرارت‬
‫بدن ‪ 6/98‬درجه است؟ یا آن‬
‫کمتر است؟‬
‫متوسط درجة حرارت‬
‫بدن ‪ 80‬نفر بزرگسال‬
‫‪ 4/98‬درجه است‪.‬‬
‫جمعیت تعداد زیادی بزرگسال‬
‫نمونه ‪ 80‬نفر بزرگسال‬
‫مقادیر ‪p‬‬
‫چقدر محتمل است که ‪ 80‬بزرگسال دارای یک دمای متوسط بدنی به اندازة ‪4/98‬‬
‫باشد اگر متوسط جمعیت ‪ 6/98‬باشد؟‬
‫تعیين مقادیر ‪P‬‬
‫‪ = 98.6‬متوسط دمای بدن جمعیت = ‪H0: μ‬‬
‫‪ < 98.6‬متوسط دمای بدن جمعیت = ‪HA: μ‬‬
‫اگر ‪ 80‬نفر بزرگسال دمای بدنشان ‪ 4/98‬با انحراف معیار ‪ 6/0‬باشد‪ ،‬مقدار‬
‫‪ P‬برابر است با‪:‬‬
‫]) ‪P( X  98.4)  P[Z  (98.4  98.6) /(0.6 / 80‬‬
‫‪ P[Z  2.98]  0.001‬‬
‫تصمیمگيری‬
‫• مقدار ‪ P‬کوچک است‪ ،‬غيرمحتمل است که ما نمونهای به اندازة ‪ 4/98‬بدست آوریم‬
‫اگر متوسط دمای بدن در جمعیت ‪ 6/98‬باشد‪.‬‬
‫• رد فرضیة صفر‪ .‬شواهد کافی برای این نتیجه که متوسط دمای بدن کوچکتر از ‪6/98‬‬
‫میباشد وجود دارد‪.‬‬
‫اصطالحات‬
‫‪ HA: μ < 98.6‬در برابر ‪• H0: μ = 98.6‬‬
‫آزمون فرضیة با دنبالة چپ یا یک طرفه نامیده میشود‪ ،‬چونکه مقدار‬
‫‪ P‬مربوط به سمت چپ است‪.‬‬
‫آمارة آزمون میباشد ‪• Z = -2.98‬‬
‫• اگر ما فکر کنیم که مقدار ‪ P‬کوچک است؛ یعنی کوچکتر از ‪ ،02/0‬آنگاه‬
‫احتمال اینکه ما خطای نوع اول ایجاد کنیم برابر با ‪ 02/0‬میباشد‪.‬‬
‫یعنی سطح معنیداری برابر‪ α = 0.02.‬میباشد‪.‬‬
‫مثال‬
‫آیا متوسط زمان صرف وقت‬
‫برای مطالعه ‪ 20‬دقیقه است؟‬
‫مقدار متوسط ‪ 17‬دقیقه با‬
‫انحراف معیار‪ 16‬دقیقه‪.‬‬
‫جمعیت دانشجویان‬
‫نمونة ‪ 64‬دانشجو‬
‫مقادیر ‪P‬‬
‫چگونه محتمل است که ‪ 64‬دانشجو‪ ،‬به طور متوسط حداقل ‪ 17‬دقیقه و حداکثر‬
‫‪ 23‬دقیقه صرف مطالعه کنند اگر متوسط جمعیت ‪ 20‬دقیقه باشد؟‬
‫تعیين مقدار ‪P‬‬
‫‪ = 20‬متوسط وقت صرفشده = ‪H0: μ‬‬
‫‪ # 20‬متوسط وقت صرف شده = ‪HA: μ‬‬
‫اگر ‪ 64‬دانشجوبه طور متوسط ‪ 17‬دقیقه با انحراف معیار ‪ 16‬دقیقه صرف‬
‫مطالعه کنند‪ ،‬مقدار ‪ P‬برابر است با‪:‬‬
‫]) ‪P( X 17)  P[Z  (17  20) /(16 / 64‬‬
‫‪ P[Z  1.5]  0.067‬‬
‫‪P( X  23)  0.067‬‬
‫‪ P-value = 0.067 × 2 = 0.134‬بنابراین‬
‫و‬
‫تصمیمگيری‬
‫• مقدار ‪ P‬کوچک نیست‪ .‬محتمل است که ما یک نمونه به کوچکی ‪ 17‬دقیقه و به بزرگی‬
‫‪ 23‬دقیقه داشته باشیم اگر مقدار متوسط صرف شده ‪ 20‬دقیقه باشد‪.‬‬
‫• فرضیة صفر رد نمیشود‪ .‬شواهد کافی برای اینکه بگوییم مقدار متوسط متفاوت از ‪20‬‬
‫دقیقه است وجود ندارد‪.‬‬
‫اصطالحات‬
‫‪ HA: μ # $20‬در برابر ‪• H0: μ = 20‬‬
‫آزمون فرضیة دو دنباله یا دو طرفه نامیده میشود چونکه مقدار ‪ P‬در هر دو طرف‬
‫میباشد‪.‬‬
‫آمارة آزمون میباشد ‪• Z = -1.5‬‬
‫چون ما در رد فرضیة صفر شکست خوردیم‪ ،‬ممکن است خطای نوع اول را داشته‬
‫باشیم‪.‬‬
‫• اگر دادهها به طور نرمال توزیع نشده باشند باید دارای یک نمونة بزرگ مثال ‪n > 60‬‬
‫باشیم‪.‬‬
‫نکتة بسیار مهم‬
‫• مقدار ‪ P‬شما‪ ،‬صحیح نخواهد بود مگر اینکه فرضهای شما درست باشد‪.‬‬
‫• اگر شما نمونة کوچکی داشته باشید‪ ،‬باید ببینید آیا دادههای شما به طور نرمال توزیع‬
‫شده است یا نه‬
‫• اگر دادهها به طور نرمال توزیع نشده باشند‪ ،‬شما باید یک نمونة بزرگ داشته باشید‪.‬‬
Testing Hypotheses Made about the Means of Two Populations
START
Are the
two samples
dependent?
Paired t test (samples must come
from normal populations):
d d
t
sd n
Yes
No
where df = n - 1
Do n1 and n2
both exceed
30?
No
z test (normal distribution):
z  (x1 x2)(1  2)
s12 s22

n1 n2
Yes
No
Are both populations
normally distributed?
Yes
After applying the F
test, what do we conclude
2
2
about 1   2 ?
Use nonparametric methods
Reject
12   22
separate variances t test
(samples must come from
normal populations)
Fail to reject
12   22
Pooled variances t test (samples must
come from normal populations):
t
(x x )(  )
sp 1  1
n1 n 2
1
2
1
where
2
and
(n1  1)s12  (n2  1)s22
s p  (n1 1)  (n2 1)
2
df  n1  n2  2
‫یادآوری‬
‫•‬
‫عدم توجه به سطوح اندازه گيری در بکارگيری روشهای مختلف آماری‬
‫اعم از آمار توصیفی یا استنباطی‪ ،‬اشتباه رایجی است که در بسیاری از‬
‫تحقیقات به چشم میخورد‪.‬‬
‫‪ .1‬سطوح اسمی ‪ Nominal scale‬مقوالت یک متغير به صورت‬
‫قراردادی کنار هم قرار میگيرند‪ .‬زن یا مرد (همسانی یا ناهمسانی)‬
‫‪ .2‬در سطح ترتیبی ‪:ordinal scale‬‬
‫جهت تغیير از کم به زیاد یا از ضعیف به شدید است‪ ،‬بنابراین در این سطح‬
‫عالوه بر همسانی یا ناهمسانی مقوالت‪ ،‬شدت و ضعف و ترتیب آنها نيز‬
‫مشخص میشود ولی چون فواصل بين مقوالت مشخص نیست اعداد‬
‫اختصاصیافته به آنها باز هم فاقد ارزش عددی است‪ .‬یعنی نمیتوان گفت‬
‫که فالنی سه برابر دیگری به تحصیل عالقه دارد‪.‬‬
‫‪ .3‬سطح فاصلهای ‪Interval Scale‬‬
‫در این سطح عالوه بر تعیين سطوح مختلف و ترتیب منطقی و واقعی بين مقادیر‬
‫یک متغير‪ ،‬فاصلۀ بين مقادیر متغير فوق نيز مشخص میشود‪.‬‬
‫به عنوان مثال میتوان گفت دانشجوئی که نمره ‪ 20‬گرفته است به اندازۀ ‪10‬‬
‫نمره با دانشجوئی که نمرۀ ‪ 10‬گرفته است فاصله دارد‪.‬‬
‫ا‬
‫در این مقیاس صفر مطلق وجود ندارد‪ ،‬مثال اگر دانشجوئی در درس آمار صفر‬
‫ا‬
‫گرفته باشد‪ ،‬نباید فرض کرد که اصوال فاقد دانش آمار است‬
‫‪ .4‬سطح نسبی ‪Ratio Scale‬‬
‫باالترین و دقیق ترین سطح اندازهگيری است که عالوه بر تعیين سطوح و مقادیر یک متغير و تعیين‬
‫فاصله بين مقادیر یک متغير‪ ،‬نسبتها نيز قابل محاسبه و بیان هستند و مبنای اندازهگيری نيز صفر‬
‫مطلق است‪ .‬مانند ميزان درآمد یا حساب دانشجو ‪ -‬در این متغير اگر حساب دانشجو صفر باشد‬
‫ا‬
‫واقعا هیچ پولی در حساب او نیست زیرا این متغير دارای صفر مطلق است و وجود صفر حقیقی به‬
‫عنوان مبدأ اندازهگيری محقق را قادر میسازد تا از روشهای مختلف آماری استفاده کند‪.‬‬
‫یادآوری‬
‫اسمی‬
‫ترتیبی‬
‫فاصلهای یا نسبتی‬
‫شاخصهای مرکزی‬
‫مد‬
‫مد‪ ،‬میانه‬
‫مد‪ ،‬میانه‪ ،‬میانگين‬
‫شاخصهای‬
‫پراکندگی‬
‫فراوانی نسبی‬
‫طبقات‬
‫چارکبندی‬
‫واریانس‬
‫انحرافمعیار‬
‫دامنه تغیيرات‬
‫قرینه(سطح توزیع)‬
‫متقارن‬
‫چولگی‬
‫تحلیل روابط بين متغيرها‬
‫• آمار توصیفی تنها میتواند تصویری از جامعه مورد مطالعه ارائه دهد‪ .‬اما قادر‬
‫به بیان روابط بين متغيرها و تبیين متغير یا متغيرهای وابسته نیست زیرا در‬
‫این سطح محقق در هر مرحله تنها با یک متغير سروکار دارد‬
‫ا‬
‫• محقق در تحقیقات مختلف عمدتا بدنبال تحلیل و تبیين دادهها و متغيرهای‬
‫موردنظر است به همين دلیل سعی میکند با استفاده از آمار استنباطی به‬
‫بررس ی روابط بين متغيرها‪ ،‬تفاوت موجود در بين گروههای مورد مطالعه و یا‬
‫تبیين متغير وابسته از طریق متغيرهای مستقل و غيره بپردازد‪.‬‬
‫روابط بين متغيرها‬
‫•‬
‫آیا ارتباطی بين دو یا چند متغير وجود دارد؟ اگر جواب مثبت است‪ ،‬این ارتباط در چه‬
‫سطحی است؟‬
‫•‬
‫آیا میتوان تغیيرات یک متغير را از طریق متغير یا متغيرهای دیگر پیشبینی و تبیين کرد؟‬
‫پاسخ سؤال اول از طریق تکنیک همبستگی و سؤال دوم از طریق روش تحلیل رگرسیون امکانپذیر‬
‫است‪.‬‬
‫در رابطه با تحلیل دومتغيره روابط بين متغيرها را میتوان از طریق ‪ )1‬جداول‬
‫توافقی ‪ )2‬ضریب همبستگی اسپيرمن ‪ )3‬ضریب همبستگی پيرسون و برای‬
‫پیشگویی تغیيرات یک متغير از طریق متغير دیگر از رگرسیون ساده بهره جست‪.‬‬
‫در رابطه با جمعیت چند متغيره‪ ،‬روابط بين متغيرها از طریق ‪ )1‬ضریب‬
‫همبستگی چندگانه و ‪ )2‬ضریب همبستگی جزئی و پیشگوئی تغیيرات یک متغير‬
‫از طریق متغيرهای دیگر با استفاده از رگرسیون چندگانه امکانپذیر است‪.‬‬
‫در حاشیه‪:‬‬
‫تفاوت عمدۀ همبستگی و رگرسیون‬
‫تفاوت رگرسیون با ضریب همبستگی در این است که رگرسیون بدنبال پیشبینی‬
‫است در حالیکه ضریب همبستگی تنها ميزان وابستگی دو متغير را با هم بررس ی‬
‫میکند‪.‬‬
‫در رگرسیون فرض بر این است که متغير وابسته تصادفی و متغيرهای توضیحی‬
‫دارای مقدار ثابت یا غيرتصادفی (در نمونهگيری تکراری) میباشند‪ .‬در همبستگی‬
‫فرض بر این است که هر دو متغير تصادفی هستند‪.‬‬
‫‪ -‬ضریب همبستگی قادر به بیان روابط علی و معلولی بين متغيرها نیست‪.‬‬
‫جدول توافقی‬
‫هدف از تشکیل یک جدول توافقی نشان دادن هر نوع‬
‫رابطهای است که ممکن است بين دو متغير وجود داشته‬
‫باشد‪ .‬درمثال حاضرمتغيرهای کیفی‪ ،‬جنس (با سطوح مرد و‬
‫زن) ورد کردن (با سطوح بله وخير) میباشد‪.‬‬
‫از روی جدول روشن میشود که در حقیقت رابطهای‬
‫بين این دو متغير وجود دارد‪ .‬به طوری که واضحا‬
‫نسبت بیشتری از پاسخدهندگان زن‪ ،‬برنامه مورد نظر‬
‫را رد میکنند‬
‫رد کردن‬
‫بله‬
‫خير‬
‫زن‬
‫‪30‬‬
‫‪20‬‬
‫مرد‬
‫‪10‬‬
‫‪40‬‬
‫ضرایب همبستگی مرتبط با متغيرهای اسمی‬
‫‪ .1‬کایاسکوئر‪ :‬یکی از آزمونهای ناپارامتری است‪.‬‬
‫این آزمون توسط فیشر ارائه شد و قادر است تا به سنجش آماری معنیداری تفاوت بين فراوانیهای‬
‫مشاهده شده و فراوانیهای مورد انتظار بدستآمده از جامعه بپردازد‪.‬‬
‫این آزمون نشان میدهد که آیا تفاوت موجود بين مقادیر فوق از نظرآماری معنیدار است یا این‬
‫ا‬
‫تفاوت عمدتا براساس شانس است‪.‬‬
‫‪2‬‬
‫شرایط استفاده از آزمون کایاسکوئر‬
‫‪.1‬‬
‫‪.2‬‬
‫‪.3‬‬
‫‪.4‬‬
‫•‬
‫•‬
‫دادههای مشاهدهشده باید به صورت تصادفی گردآوری شده باشند‪.‬‬
‫کلیه موارد موجود در نمونه باید مستقل از هم باشند‪.‬‬
‫حتیاالمکان هیچ یک از خانههای جدول نباید کمتر از ‪ 10‬باشند (البته برخی‬
‫آماردانان تعداد ‪ 5‬مورد را ذکر میکنند)‬
‫تعداد نمونه باید به اندازۀ کافی بزرگ باشد‪ .‬بهتر است حجم نمونه در‬
‫اینگونه تجزیه و تحلیلها حداقل ‪ 50‬مورد باشد‪.‬‬
‫آماره کایاسکوئر میتواند برای یک متغير اسمی و یک متغير ترتیبی نيز بکار‬
‫رود‪.‬‬
‫ا‬
‫(مثال عکس العمل چهار نوع کود یا چهار سطح از یک ماده شیمیائی در دو‬
‫سطح خاک)‬
‫‪ .2‬ضریب همبستگی چوپروف (‪)T‬‬
‫• به منظور تعیين شدت وابستگی بين متغيرهای مورد مطالعه بکار گرفته میشود و مقدار آن همواره‬
‫بين صفر و یک در نوسان است‪ .‬این آزمون زمانیکه هر دو متغير اسمی و یا یکی اسمی و دیگری‬
‫ترتیبی باشد مورد استفاده قرار میگيرد‪ .‬اما نباید تعداد سطر و ستون با هم برابر باشند به عبارت‬
‫دیگر این ضریب برای جداول توافقی مستطیلی بکار گرفته میشود‪.‬‬
‫‪ .3‬ضریب همبستگی فی ‪phi‬‬
‫• به منظور بررس ی شدت همبستگی بين دو متغير اسمی که به صورت دووجهی‬
‫و در قالب جدول توافقی میباشد مورد استفاده قرار میگيرد به همين دلیل در‬
‫اینگونه موارد باید بجای استفاده از کایاسکوئر‪ ،‬از ضریب همبستگی فی‬
‫استفاده نمود‪.‬‬
‫• تفاوت ضریب همبستگی فی با کایاسکوئر در این است که کایاسکوئر سطح‬
‫معنیداری همبستگی بين متغيرها را تعیين میکند در حالیکه ضریب فی شدت‬
‫همبستگی کایاسکوئر را نشان میدهند‪ .‬این ضریب همانند کایاسکوئر تفسير‬
‫میگردد و مقدار آن همواره بين صفر و یک است‪.‬‬
‫‪ .4‬ضریب همبستگی توافق پيرسون‬
‫‪Pearson s coefficient contingency‬‬
‫این ضریب که آنرا با ‪ C‬نمایش میدهند ميزان همبستگی بين دو متغير اسمی را که به صورت توافقی‬
‫تنظیم شدهاند محاسبه میکند‪ .‬این شاخص زمانی بکار میرود که خانههای جدول توافقی بیش از‬
‫باشد‪.‬‬
‫‪ .5‬ضریب کرامر‪:‬‬
‫• این ضریب برای تعیين ميزان شدت همبستگی بين دو متغير اسمی مورد استفاده قرار میگيرد و آنرا‬
‫با نشان میدهند که مقدار آن همواره بين صفر و یک در نوسان است این ضریب در مقایسه با‬
‫سایر ضرایب انعطاف بیشتری دارد به طوریکه هم برای جداول توافقی بیشتر از و هم برای جداول‬
‫مستطیلی بکار میرود‪.‬‬
‫ضرائب همبستگی مرتبط با متغيرهای ترتیبی‬
‫‪ .1‬ضریب همبستگی رتبهای کندال‬
‫‪kendall s rank correlation coefficient‬‬
‫شاخص کندال حالت تقارن دارد به این معنا که متغيرها قرینه بوده و برای محقق مهم نیست که‬
‫کدامیک از متغيرهای مورد مطالعه وابسته و کدامیک مستقل میباشد‪ .‬این شاخص مشخص‬
‫میکند که تا چه ميزان افزایش یا کاهش در یک متغير با افزایش یا کاهش در متغير دیگر همراه‬
‫است‪ .‬مقدار ضریب کندال همواره بين ‪ -1‬تا ‪ +1‬در نوسان است‪.‬‬
‫‪ .2‬ضریب گاما ‪Gamma coefficient‬‬
‫• شاخص است که از طریق آن میتوان با آگاهی از پاسخهای یک متغير پاسخها و نتایج متغير دیگر را‬
‫پیشگوئی کرد‪ .‬گاما در واقع ميزان کاهش خط را که در نتیجه آگاهی از پاسخ افراد در متغير مستقل‬
‫رخ میدهد مشخص میکند‪.‬‬
‫‪ .3‬ضریب همبستگی رتبهای اسپيرمن‬
‫‪Spearman Rank Correlation Coefficient‬‬
‫• این ضریب زمانی مورد استفاده قرار میگيرد که دادهها به صورت رتبهای متوالی ناپیوسته‬
‫(‪ ...‬و ‪ 3‬و ‪ 2‬و ‪ )1‬باشد و یا این که مقادیر اصلی به رتبه تبدیل شوند‪ .‬در صورتیکه دادهها‬
‫با مقیاس فاصلهای یا نسبتی اندازهگيری شده باشند میتوان آنها را به رتبه تبدیل کرد و‬
‫بعد ضریب همبستگی رتبهای اسپيرمن را محاسبه نمود‪.‬‬
‫• ضریب همبستگی اسپيرمن که آنرا با ‪ rs‬نمایش میدهند همواره بين ‪ +1‬و ‪ -1‬در نوسان‬
‫است و از لحاظ سطح سنجش نيز ترتیبی و از نوع متقارن میباشد به همين دلیل برای‬
‫محقق مهم نیست که کدام متغير مستقل و کدامیک وابسته باشد‪.‬‬
‫ضریب همبستگی مرتبط با متغيرهای فاصلهای‬
‫یا نسبی‬
‫ضریب همبستگی پيرسون‬
‫‪Pearson Correlation Coefficient‬‬
‫• از روشهای پرکاربرد جهت تعیين ميزان رابطه بين دو متغير مصوب گردیده و با عالمت ‪ r‬نشان داده‬
‫میشود‪ .‬این ضریب به منظور بررس ی رابطه بين دو متغير فاصلهای یا نسبی مورد استفاده قرار‬
‫میگيرد و مقدار آن بين ‪ +1‬و ‪ -1‬در نوسان است‪.‬‬
‫• اگر این ضریب مثبت باشد به معنای آن است که تغیيرات در برد و متغير به طور هم جهت اتفاق‬
‫میافتد و بالعکس‪.‬‬
‫اسمی‬
‫دوحالتی‬
‫دوحالتی‬
‫چندحالتی‬
‫ضر یب فی‬
‫الندا‬
‫ضریب چوپروف‬
‫‪ V‬کرامر الندا‬
‫اسمی‬
‫چندحالتی‬
‫ترتیبی‬
‫فاصلهای یا نسبی‬
‫ضریب چوپروف‬
‫ضریب کرامر‬
‫ضریب توافقی پيرسون‬
‫کرامر‬
‫ضریب فی یا کرامر‬
‫ترتیبی‬
‫فاصلهای یا نسبی‬
‫ تتا ‪ V‬کرامر‬‫‪ -‬ضریب فی الندا‬
‫کندال تائو ‪( b‬برای جداول توافقی‬‫مربع)‬
‫ کندال تائو ‪(c‬برای جداول توافقی‬‫مستطیلی)‬
‫ ضریب همبستگی رتبه ای اسپيرمن‬‫‪ -‬گاما‬
‫مقادیر فاصله ای به رتبه‬
‫ای تبدیل و ضریب‬
‫همبستگی رتبه ای اسپيرمن‬
‫با کندال تائو محاسبه می‬
‫شود‬
‫مقادیر فاصله ای به رتبه ای تبدیل و‬
‫ضریب همبستگی رتبه ای اسپيرمن با‬
‫کندال تائو محاسبه می شود‬
‫ضریب همبستگی پيرسون‬
‫نکته‪:‬‬
‫•‬
‫•‬
‫•‬
‫•‬
‫دو نکته در رابطه با ضریب همبستگی وجود دارد که توجه به آنها بسیار ضروری است‪.‬‬
‫الف‪ -‬وجود همبستگی بين دو متغير به معنای این نیست که آنها دارای اثرات مساوی‬
‫هستند و یا یکی علت دیگری است‪ ،‬زیرا ممکن است هر دو تحت تأثير عامل دیگری باشند‪.‬‬
‫به عنوان مثال اگر بين ميزان غیبت از کار و رضایت شغلی رابطه متغير وجود داشته باشد‬
‫نمیتوان نتیجه گرفت که دلیل زیاد بودن غیبت عدم رضایت شغلی است زیرا ممکن است‬
‫که غایب بودن خود باعث احساس عدم رضایت شغلی باشد و یا هر دو تحت تأثير عامل‬
‫دیگر قرار گرفته باشد‪.‬‬
‫ب‪ -‬همبستگی ساده نشان میدهد که بين دو متغير چقدر ارتباط خطی وجود دارد‪.‬‬
‫انتخاب آزمون مناسب برای مقایسۀ میانگينها‬
‫• چنانچه دادههای مربوط به متغير وابسته از نوع کمی با مقیاس (فاصلهای یا نسبی) و دادههای‬
‫متغير مستقل یا گروهبندی از نوع کیفی با مقیاس (اسمی یا ترتیبی) باشد برای بررس ی تفاوت ها‬
‫میتوان به مقایسه میانگينها پرداخت و معنیداربودن تفاوتهای موجود بين طبقات یا گروهها را‬
‫مورد بررس ی قرار داد‪.‬‬
‫آزمونهای پارامتری‬
‫• آزمونهای ‪ t‬و ‪ F‬عمدهترین آزمونهای آماری برای مقایسۀ میانگين گروهها میباشند‪ .‬از آنجا که‬
‫گروههای مورد بررس ی ممکن است مستقل با همبسته باشند بنابراین هر یک از آزمونهای فوق به‬
‫دو بخش مستقل و همبسته تقسیم میشوند‪ .‬تصمیمگيری در مورد اینکه در چه مواقعی باید از‬
‫آزمونهای ‪ t‬یا ‪ F‬مستقل یا همبسته استفاده کرد مهمترین مسأله در تحلیل داده های کمی است‪.‬‬
‫آیا گروههای مورد بررسی مستقل هستند یا همبسته؟‬
‫مستقلاند‬
‫سه گروه یا بیشتر‬
‫آزمون ‪ F‬مستقل‬
‫آزمون ‪ t‬مستقل‬
‫همبستهاند‬
‫دو گروه‬
‫سه گروه یا بیشتر‬
‫آزمون ‪ F‬همبسته‬
‫آزمون ‪ t‬همبسته‬
‫دو گروه‬
‫پیشفرضهای آزمونهای پارامتری‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫آزمونهای پارامتری ‪ t‬و ‪ F‬را با پیش فرضهای زیر میتوان مورد استفاده قرار داد‪:‬‬
‫مشاهدات از یک جامعه نرمال انتخاب شده باشند‪.‬‬
‫ا‬
‫اطالعاتی که با هم مقایسه میشوند باید تقریبا واریانس یکسانی داشته باشند (در‬
‫نمونههای بزرگ اگر واریانس یک گروه دو برابر دیگری باشد باز هم میتوان از آزمونهای‬
‫پارامتری استفاده نمود)‬
‫دادههای گردآوری شده دارای مقیاس فاصلهای یا نسبتی باشند‪.‬‬
‫اگر اطالعات جمعآوریشده این سه شرط را نداشت میتوان دادههای فوق را به غير‬
‫پارامتری تبدیل کرد و از روشهای آماری غيرپارامتری استفاده نمود‪ .‬روش عمده تبدیل‬
‫دادههای پارامتری به غيرپارامتری‪ ،‬رتبهبندی کردن آنها میباشد‪.‬‬
‫الف‪ -‬آزمون‪ :t‬اگر متغيرمستقل یا متغيرگروهبندی تنها دو گروه داشته باشد‪.‬‬
‫(اگر بخواهیم درآمد زنان و مردان را با هم مقایسه کنیم)‬
‫ب‪ -‬آزمون ‪( F‬تحلیل واریانس ‪)ANOVA‬‬
‫• اگر تعداد گروهها بیش از دو باشد‪.‬‬
‫(اگر بخواهیم ميزان درآمد گروههای شغلی کارگر‪ ،‬کارمند و کشاورز را با هم مقایسه کنیم)‬
‫• نکته‪ :‬آزمون ‪ F‬تنها معنیداری تفاوت بين میانگين گروهها را مورد بررس ی قرار میدهد اما‬
‫مشخص نمیکند که این تفاوتها در بين کدامیک از گروههای مورد بررس ی وجود دارد‪ .‬به‬
‫همين دلیل برای ایک که بدانیم تفاوتهای بدستآمده در بين کدامیک از طبقات وجود‬
‫دارد و از این طریق مقایسهای بين گروهها انجام گيرد‪ ،‬باید از آزمون شفه ( ‪Scheffe‬‬
‫‪ )test‬یا ‪ LSD‬و یا از آمارههایی نظير توکی ‪Tukey‬یا دانکن ‪ Duncan‬استفاده کرد‪.‬‬
‫این آزمونها میانگين زوجها را با همدیگر به صورت دوبدو مقایسه کرده و وجود اختالف‬
‫معنیدار بين آنها را نشان میدهد‪.‬‬
‫این روش کل واریانس موجود دریک مجموعه ازدادهها را به دو بخش تقسیم‬
‫میکند‪.‬‬
‫• بخش ی از این واریانس ممکن است بخاطر شانس و تصادف حادث شده باشد و بخش دیگر ممکن است‬
‫ناش ی از دالیل یا عوامل خاص ی باشد‪ ،‬از طرف دیگر واریانس موجود ممکن است ناش ی از تفاوت بين‬
‫گروههای مورد مطالعه و یا بخاطر تفاوت موجود در درون نمونهها حادث شده باشد‪.‬‬
‫• مهمترین اصل در تحلیل واریانس (‪ )ANOVA‬آزمایش تفاوتهای موجود در بين میانگينهای جوامع یا‬
‫گروههای مورد مطالعه از طریق بررس ی ميزان واریانس بين گروهها نسبت به واریانس درون گروههاست‪.‬‬
‫• در واریانس درون جامعه فرض بر این است که تفاوت بين مقدار نسبت به میانگين جامعه بخاطر شانس‬
‫است در حالیکه در بررس ی تفاوتهای بين جوامع و گروهها‪ ،‬فرض بر این است که تفاوت بين میانگين‬
‫جامعه یا نمونۀ ‪j‬ام با میانگين کل به دلیل عوامل خاص میباشد‪ .‬بنابراین زمانی که از تحلیل واریانس‬
‫استفاده میشود فرض میگردد که هر یک از نمونهها از یک جامعه نرمال انتخاب شدهاند و هر یک از‬
‫این جوامع نيز واریانس برابری دارند همچنين فرض میشود کلیه عوامل بجز عواملی که مورد مطالعه‬
‫میباشند تحت کنترل هستند‪.‬‬
‫نکته‪:‬‬
‫• در تحلیل واریانس‪ ،‬اگر در بين میانگين گروههای مختلف تفاوت معنیداری وجود داشته‬
‫باشد تنها از طریق ‪ ANOVA‬نمیتوان محل این تفاوتها را بدست آورد‪.‬‬
‫• اگر به مقایسۀ سه گروه ‪ C ،B ،A‬بپردازیم و تفاوت معنیداری در بين آنها وجود داشته‬
‫باشد نمیتوانیم قضاوت کنیم که آیا این تفاوتها بين ‪ A‬و ‪ B‬است یا بين ‪ B‬و ‪ C‬یا بين ‪A‬‬
‫و ‪.C‬‬
‫• در چنين مواقعی نباید از طریق آزمون ‪ t‬به مقایسه دوبدو گروهها پرداخت‪ ،‬زیرا هر قدر‬
‫تعداد دفعاتی که آزمون ‪ t‬انجام میگيرد بیشتر باشد سطح اطمینان نتایج پائين میآید‪.‬‬
‫• (در این موارد باید از آزمونهائی مانند آزمون شفه‪ ،‬آزمون چنددامنه دانکن‪ ،‬آزمون توکی و‬
‫آزمون استیودنت نیومن‪ ،‬کیول برحسب ضرورت استفاده کرد‪.‬‬
‫تحلیل واریانس یکطرفه‪:‬‬
‫‪One-way Analysis of Variance‬‬
‫اگرمحقق تنها یک متغير(درآمد) را انتخاب کند و بخواهد تفاوت بين طبقات یا گروههای مختلف را‬
‫بررس ی کند دراین صورت ازتحلیل واریانس یکطرفه استفاده میکند‪.‬‬
‫تحلیل واریانس دوطرفه‪:‬‬
‫‪Two way Analysis of Variance‬‬
‫اگر محقق بخواهد اثر دو عامل را بر روی یک متغير وابسته بررس ی کند باید‬
‫از تحلیل واریانس دوطرفه استفاده کند‪.‬‬
‫آزمونهای غيرپارامتری‬
‫• همانطوری که قبال نيز بحث گردید آزمونهای پارامتری عالوه بر این که نیاز به دادههائی از نوع‬
‫فاصلهای دارند باید از برخی از پیش فرضهای اولیه نيز برخوردار باشند (نرمال بودن توزیع در‬
‫جامعه و داشتن واریانس یکسان در مواردی که دو یا چند جامعه با هم مورد مقایسه قرار‬
‫میگيرند و ‪)...‬‬
‫• اما در آزمونهای غيرپارامتری چنين پیشفرضهائی مطرح نبوده و زمانی که دادهها در سطح اسمی‬
‫و یا ترتیبی باشد و یا در صورتیکه گروههای مورد مطالعه از واریانس نابرابر و یا از چولگی‬
‫برخوردار باشند باید از آزمونهای غيرپارامتری استفاده کرد‪ .‬این آزمونها از ویژگیهائی‬
‫برخوردار هستند که آنها را از آزمونهای پارامتری متمایز کرده است‪:‬‬
‫‪ .1‬این آزمونها هیچکدام از پیشفرضهای مطرح شده در آزمونهای پارامتری‪ ،‬نظير نرمال‬
‫بودن جامعه و یا برابر بودن واریانس گروهها را مبنا قرار نمیدهد و حتی در صورت‬
‫صادق نبودن مفروضات فوق در خصوص دادههای فاصلهای به منظور استفاده از‬
‫آزمونهای پارامتری امکان تبدیل داده های فوق به دادههای غيرپارامتری و رتبهای و‬
‫محاسبه آزمونهای ناپارامتری وجود دارد‪.‬‬
‫‪ .2‬از آنجا که در این آزمونها از مقادیر رتبهای و حتی دادههای اسمی استفاده میگردد‪،‬‬
‫بنابراین محاسبۀ آنها کار سادهای است‪.‬‬
‫‪ .3‬این آزمونها در مقایسه با آزمونهای پارامتری از دقت باالئی برخوردار نمیباشند‪ .‬دلیل‬
‫آن این است که با تبدیل دادههای فاصلهای به مقادیر رتبهای‪ ،‬فواصل واقعی موجود‬
‫در بين دادهها به فواصل یکسان بين رتبهها تبدیل شده و در این فرآیند بخش ی از‬
‫اطالعات ناپدید میگردند به عبارت دیگر با تبدیل مقادیر اصلی و واقعی به مقادیر‬
‫رتبهای‪ ،‬بدلی از واقعیت ساخته میشود و این بدل بدستآمده به جای واقعیت مورد‬
‫تجزیه و تحلیل قرار میگيرد‪.‬‬
‫انتخاب آزمون غيرپارامتری‬
‫مناسب‬
‫‪ .1‬آزمون نشانه‪:‬‬
‫زمانی که دادهها به صورت همبسته باشند مورد استفاده قرار میگيرد‪.‬‬
‫آزمون مک نمار‪:‬‬
‫• اغلب در مواردی بکار برده میشود که دادهها به صورت اسمی و مربوط به دو نمونه مرتبط بهم‬
‫(‪ )Two related‬یا همبسته باشند‬
‫(زمانی که بخواهیم نظرات قبلی و بعدی افراد را مورد مقایسه قرار دهیم)‬
‫• مثاال‪ .1‬ابتادا در ماورد یاک موضاوع نظار افاراد را باه صاورت موافاق یاا مخاالف جویاا میشااویم‬
‫پ ااس از آن نس اابت ب ااه برگا ازاری ک ااالس آموزشا ا ی اق اادام م اایکنیم (یاجلس ااۀ ت ااوجیهی) و س ااپس‬
‫دوبااره نظار افاراد را نسابت باه موضااوع جویاا میشااویم‪ .‬در اینجاا فارض صاافر (‪ )Ho‬ایان اساات‬
‫که تفاوتی بين نظرات افراد در قبل و پس از اجرای برنامه (دورۀ آموزش ی) وجود ندارد‪.‬‬
‫• مثااال‪ .2‬نظ ارات ‪ 1000‬نفاار درباااره خریااد و عاادم خریااد یااک کاااال قباال و بعااد از برگ ازاری برنامااه‬
‫تبلیغاتی و معرفی کاال پرسیده شده است با این آزمون میتاوان مشاخص نماود کاه آیاا برناماه‬
‫تبلیغاتی در تغیير نگرش مشتریان مؤثر بوده است یا خير‪.‬‬
‫‪.3‬آزمون ویلکاکسون‬
‫‪Wilcoxon Test‬‬
‫• در بسیاری از پژوهشهائی که نمونهها به صورت جفت شده و همبسته هستند ممکن است‬
‫محقق بخواهد هم جهت تغیير و هم ميزان تغیير را مورد بررس ی قرار دهد‪ ،‬برای این منظور‬
‫آزمون ویلکاکسون تست مناسبی است‪.‬‬
‫• داده های مورد استفاده در این آزمون حداقل باید در سطح ترتیبی باشند‪.‬‬
‫• مثال‪ :‬نظر تعدادی از مشتریان در رابطه با دو نوع کاالی مشابه اما با مارکهای متفاوت از نظر‬
‫کیفیت محصول سؤال شده است‪.‬‬
‫‪ .4‬آزمون فریدمن ‪Fridman Test‬‬
‫• آزمون فریدمن یکی از آزمونهای غيرپارامتری است این آزمون در واقع معادل آزمون ‪ F‬در‬
‫روشهای پارامتری میباشد اما در اینجا برخالف آزمون ‪ ،F‬فرض توزیع نرمال و برابر‬
‫بودن واریانس ضرورتی ندارد‪.‬‬
‫• این روش برای مقایسه سه گروه یا بیشتر از سه گروه همبسته بکار میرود‪.‬‬
‫• مثال‪ :‬نظرات ‪ 30‬نفر از فراگيران را درخصوص سه روش مختلف تدریس جویا شدهایم و‬
‫پاسخها نيز از ‪( 1‬بسیار نامناسب) تا ‪( 5‬بسیار مناسب) امتیازبندی شدهاند‪.‬‬
‫‪.5‬آزمون کوکران‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫یکی از روشهای ناپارامتری و درواقع تعمیمیافته آزمون مک نمار است با این تفاوت که این‬
‫روش برای مواردی که تعداد گروهها یا تکرار سه یا بیشتر از سه باشد بکار میرود‪:‬‬
‫دادههای این آزمون به صورت اسمی میباشد و وجود تفاوت بين نظرات افراد را مورد‬
‫بررس ی قرار میدهد‪.‬‬
‫مثال‪ :‬نظرات افراد نسبت به یک موضوع در زمانهای مختلف پرسیده میشود‬
‫(موافقت – مخالفت)‬
‫ قبل از برگزاری یک دورۀ آموزش ی‬‫(موافقت – مخالفت)‬
‫ بعد از برگزاری دوره‬‫(موافقت – مخالفت)‬
‫‪ -‬بعد از اجرای عملی محتویات دوره‬
‫‪.6‬آزمون من ‪ -‬ویتنی‬
‫‪Mann – Whitney Test‬‬
‫• برای مقایسه میانگينهای دو جامعه مستقل زمانی که دادهها به صورت رتبهای یا ترتیبی باشند‬
‫مورد استفاده قرار میگيرد‪.‬‬
‫• مثال‪ :‬فرض کنید دو گروه ‪ 30‬نفره از فراگيران با دو روش متفاوت آموزش دیده و نتیجه ارزیابی‬
‫آنها از دورههای فوق در قالب امتیازات ‪ 1‬تا ‪ 5‬گردآوری شده است‪.‬‬
‫‪ .7‬آزمون کوملوگروف ‪ -‬اسميرنف‬
‫‪Kolmogrov – Smirnov Test‬‬
‫• چنانچه در بحث کایاسکوئر گفته شد اگر فراوانیهای مورد انتظار بیش از ‪ 20‬درصد خانههای‬
‫جدول‪ ،‬کمتر از ‪ 5‬باشد‪ ،‬در این صورت نمیتوان از فرمول کایاسکوئر استفاده کرد‪ ،‬این مشکل‬
‫ا‬
‫معموال زمانی پیش میآید که حجم نمونه کمتر از ‪ 50‬باشد و یا تعداد خانههای جدول بیشتر باشد‪.‬‬
‫در چنين حالتی میتوان از تست کوملوگرف ‪ -‬اسميرنف استفاده کرد‪ .‬اساس این آزمون مقایسه‬
‫فراوانی تجمعی نسبی مشاهده شده با فراوانی تجمعی نسبی مورد انتظار میباشد‪.‬‬
‫‪ .8‬آزمون کروسکال ‪ -‬والیس‬
‫‪Kruskal – Wallis Test‬‬
‫•‬
‫•‬
‫•‬
‫•‬
‫این آزمون در واقع معادل تحلیل واریانس یکطرفه میباشد‪ ،‬اما برخالف آن نیازی به‬
‫مفروضات آن نظير اینکه نمونهها از یک جامعۀ نرمال بدستآمده باشند و یا اینکه‬
‫انحراف معیار یکسانی داشته باشند وجود ندارد‪ .‬آزمون کروسکال والیس زمانی‬
‫استفاده میشود که تعداد نمونهها بیش از دو گروه باشد‪.‬‬
‫مثال‪ :‬از ‪ 90‬نفر دانشجو در سه رشته مختلف درخواست شد تا کیفیت برنامههای‬
‫آموزش ی دانشکده را ارزیابی کنند‪ .‬امتیازات ارائه شده توسط افراد فوق از ‪( 1‬بسیار‬
‫ضعیف) تا ‪( 5‬بسیار قوی) در نوسان بوده است‪.‬‬
‫‪ :Ho‬بين نظرات دانشجویان رشتههای مختلف تفاوت معنیداری وجود ندارد‪.‬‬
‫این آزمون اگرچه وجود تفاوت بين نظرات گروههای مختلف را نشان میدهد اما‬
‫مشخص نمیکند که این تفاوت در بين کدام یک از گروهها وجود دارد‪.‬‬
‫آزمون میانه‪Median test :‬‬
‫• یکی دیگر از روشهای غيرپارامتری است که برای مقایسه سه یا بیشتر از سه گروه مورد‬
‫استفاده قرار میگيرد‪ .‬اطالعات مورد نیاز در این روش باید در سطح رتبهای بوده و‬
‫حتیاالمکان دادهها همرتبه نباشند‪ ،‬زیرا اگر میانه مشترک بين گروهها جزو نمرات تکراری‬
‫باشد در این صورت تشخیص تفاوت گروهها با مشکل مواجه میگردد‪.‬‬
‫• مثال‪ :‬میخواهیم بدانیم آیا سرعت عمل کارگران سه شیفت مختلف یک کارگاه خیاطی با‬
‫هم متفاوت است یا خير؟‬
‫• برای این کار تعداد شلوار دوخته شده توسط ‪ 40‬کارگر (از سه شیفت مختلف) در یک‬
‫هفته گردآوری شده است‪.‬‬
‫طبقهبندی روشهای تحلیل چندمتغيره‬
‫• انتخاب روش مناسب برای تجزیه و تحلیل دادهها مهمترین قدم در تحلیل دادههای گردآوری‬
‫شده محسوب میگردد‪.‬‬
‫• متأسفانه به دلیل عدم آشنائی با منطق حاکم بر روشهای مختلف آماری چند متغيره‪ ،‬به‬
‫اشتباه یکی به جای دیگری مورد استفاده قرار میگيرد و تکنیکهای مختلف به طور نابجا بکار‬
‫گرفته میشوند‪.‬‬
‫به منظور آشنائی با نحوه بکارگيری روشهای چند متغيره در تجزیه و تحلیل‬
‫دادهها‪ ،‬درخت تصمیمگيری برای استفادۀ اصولی و متناسب با نوع‬
‫دادهها و هدف تجزیه و تحلیل ارائه شده است‪،‬‬
‫این طبقهبندی بر مبنای سؤاالت و مفروضات خاص ی انجام گرفته است‪:‬‬
‫‪ .1‬آیا دادههای مورد نظر قابل تقسیم به متغيرهای مستقل و متغيرهای‬
‫وابسته هستند؟‬
‫‪ .2‬اگر چنين تقسیمبندی امکانپذیر است‪ ،‬چند متغير از موارد فوق‪ ،‬متغير‬
‫وابسته میباشند؟‬
‫‪ .3‬متغيرهای موجود در تجزیه و تحلیل در چه سطحی اندازهگيری شدهاند؟‬
‫پاسخ این سه سؤال محقق را درتصمیمگيری برای انتخاب مناسبترین تکنیک‬
‫تجزیه و تحلیل چند متغيره کمک میکند‪.‬‬
‫• پاسخ سؤال اول مشخص میکند که آیا باید از تکنیکهای وابستگی ( ‪Dependenc‬‬
‫‪ )Technique‬استفاده نمود یا باید از تکنیکهای هم وابستگی ( ‪Interodependence‬‬
‫‪ )Technique‬بهره گرفت‪.‬‬
‫• روشهای وابستگی تکنیکهائی هستند که در آن یک یا چند متغير به عنوان متغيرهای‬
‫وابسته لحاظ شده و تغیيرات آن براساس متغيرهای مستقل دیگر مورد بررس ی و تبیين‬
‫قرار میگيرد مانند روش رگرسیون چندگانه یا تحلیل واریانس چند متغيره و غيره‪.‬‬
‫• روشهای هم وابستگی تکنیکهائی هستند که در آن متغيرهای مستقل و وابسته وجود‬
‫ندارد‪ ،‬بلکه در این روشها مجموعه متغيرها به طور همزمان و با هم مورد تجزیه و‬
‫تحلیل قرار میگيرند‪ .‬مانند روش تحلیل عاملی‪.‬‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫اگر موضوع مورد تجزیه و تحلیل دارای یک متغير وابسته از نوع پارامتری باشد‪ ،‬روش مناسب‬
‫برای تجزیه و تحلیل آن تحلیل رگرسیون چندگانه است‪.‬‬
‫* چنانچه دادههای فوق دارای یک متغير وابسته باشد اما متغير فوق از نوع غيرپارامتری‬
‫دووجهی باشد‪ ،‬روش مناسب رگرسیون لوجیستیک و تحلیل تشخیص چندگانه است‪.‬‬
‫چنانچه متغير وابسته غيرپارامتری چندوجهی باشد باید از تحلیل تشخیص ی استفاده شود در‬
‫تحلیل تشخیص ی متغير وابسته از نوع غيرپارامتری و متغيرهای مستقل از نوع پارامتری هستند‪.‬‬
‫اما چنانچه متغيرهای وابسته و مستقل هر دو غيرپارامتری باشند روش مناسب برای تجزیه و‬
‫تحلیل دادهها رگرسیون لوجیستیک میباشد‪.‬‬
‫تحلیل مسير روش ی است که هم برای دادههای پارامتری و هم غيرپارامتری سازگار است‪.‬‬
‫اگر متغيرهای مربوط به موضوع مورد بررس ی دارای چند متغير وابسته باشد در این صورت دو‬
‫تکنیک دیگر برای تجزیه و تحلیل مناسب خواهند بود‪.‬‬
‫• اگر متغيرهای وابسته پارامتری باشند تحلیل واریانس چند متغيره یا تحلیل همبستگی کانونی‬
‫مناسب خواهد بود‬
‫• اما اگر متغيرهای وابسته مورد نظر غيرپارامتری باشد میتوان از طریق تبدیل آنها به‬
‫متغيرهای مجازی کدبندی شده به صورت (‪ )0 ،1‬از روش تحلیل کانونی استفاده کرد‪.‬‬
‫روشهای هموابستگی بر مبنای وجود یا عدم وجود متغيرهای وابسته مورد تجزیه و تحلیل قرار‬
‫نمیگيرند زیرا در این روشها کلیۀ متغيرها به طور همزمان و با همدیگر بررس ی میشوند این روشها‬
‫از نظر پارامتری یا غيرپارامتری بودن دادهها به دو گروه جداگانه تقسیم میشوند‪.‬‬
‫• پارامتری‪ :‬تکنیکهای تحلیل عاملی و تحلیل خوشهای‬
‫• غيرپارامتری‪ :‬دادههای غيرپارامتری از طریق کدبندی متغير مجازی (به صورت صفر و یک) قابل بکارگيری در‬
‫روشهای تحلیل عاملی و تحلیل خوشهای هستند‪.‬‬
‫• از سوی دیگر هم دادههای پارامتری و هم غيرپارامتری قابل استفاده در تکنیک مقیاسبندی‬
‫چندبعدی میباشند‪.‬‬
‫رگرسیون‬
‫جمعآوری دادهها‬
‫• سه روش اصلی برای جمعآوری دادهها‪:‬‬
‫• مطالعات قبلی بر اساس دادههای تاریخی‬
‫• مطالعة مشاهدهای‬
‫• طرح آزمایش ی (بهترین حالت)‬
‫کاربرد رگرسیون‬
‫•‬
‫•‬
‫•‬
‫•‬
‫توصیف دادهها‬
‫برآورد پارامترها‬
‫پیشبینی و تخمين‬
‫کنترل‬
‫نقش کامپیوتر‬
‫• تحلیل رگرسیون نیازمند استفادة هنرمندانه و هوشمندانه از کامپیوتر است‪.‬‬
‫… ‪• SAS, SPSS, S-plus, R, MATLAB,‬‬
‫رگرسیون و مدل سازی‬
‫• تحلیل رگرسیون‪ :‬یک تکنیک آماری برای بررس ی و مدلسازی ارتباط بين متغيرها‬
‫• کاربردها‪ :‬مهندس ی‪ ،‬علوم فيزیکی و شیمیایی‪ ،‬اقتصاد‪ ،‬مدیریت‪ ،‬علوم زیستی و بیولوژیکی‬
‫و علوم اجتماعی‬
‫• تحلیل رگرسیون شاید گستردهترین تکنیک آماری مورد استفاده میباشد‪.‬‬
‫• تحلیل رگرسیون این امکان را برای محقق فراهم میکند تا تغیيرات متغير وابسته را از طریق‬
‫متغيرهای مستقل پیشبینی و سهم هر یک از متغيرهای مستقل را در بين متغير وابسته تعیين کند‪.‬‬
‫تحلیل رگرسیون و ضریب همبستگی‬
‫رگرسیون رابطۀ نزدیکی با ضریب همبستگی دارد‪ ،‬بدین معنا که برای انجام رگرسیون باید‬
‫ضریب همبستگی را محاسبه کرد‪ .‬اگر میان متغيرهای مورد مطالعه همبستگی وجود‬
‫داشت تنها در این صورت است که میتوانیم از رگرسیون برای آزمون فرضیههای‬
‫تحقیق استفاده نمائیم‪.‬‬
‫تحلیل رگرسیون‬
‫مفهوم رگرسیون برای اولين بار توسط فرانسیس گالتون در سال ‪1877‬‬
‫مورد استفاده قرار گرفت‪ .‬او در مطالعه خود نشان داد که قد‬
‫کودکان متولد شده از والدین بلندقامت گرایش به برگشت به‬
‫متوسط قد افراد دارد‪.‬‬
‫وی در یک مقالۀ مشهور اظهار داشت‪ :‬اگرچه تمایل برای والدین‬
‫بلندقد به داشتن فرزندان بلند قد و نيز والدین کوتاه قد به داشتن‬
‫فرزندان کوتاه قد وجود دارد اما متوسط قد بچههای والدین متعلق‬
‫به هر طبقة قدی معين به طرف متوسط قد در کل جامعه برگشت یا‬
‫گرایش دارد (‪)Regress‬‬
‫تعبير نوین تحلیل رگرسیون‬
‫• تعبير جدید رگرسیون کامال متفاوت از حالت قبل است به طور کلی‬
‫میتوان گفت‪:‬‬
‫• تحلیلهای رگرسیون به مطالعۀ وابستگی یک متغير (متغير وابسته)‬
‫به یک یا چند متغير دیگر (متغير توضیحی) میپردازد که با تخمين یا‬
‫پیشبینی مقدار متوسط یا میانگين مقادیر متغير نوع اول در حالتی‬
‫که مقادیر متغير نوع دوم معلوم یا معين شده باشند (در نمونهگيری‬
‫تکراری) صورت میپذیرد‪.‬‬
‫رسم خط رگرسیون‬
‫تحلیل رگرسیون در مقام مقایسه با تحلیل رابطۀ‬
‫علیت‬
‫• هرچند تحلیلهای رگرسیون وابستگی یک متغير به سایر متغيرها را بررس ی میکند اما‬
‫الزاما بیانگر حالت علیت نمیباشد‪ .‬بنا به گفته کندال و استوارت یک رابطۀ آماری‬
‫هرچند قوی و واضح هرگز نمیتواند پایۀ ارتباط علی (سببی) قرار بگيرد‪ .‬ایدههای ما از‬
‫علیت باید خارج از حیطۀ آمار و ماال از تئوری یا غير آن حاصل شود‪.‬‬
‫• مثال نمیتوان گفت که بارندگی به عملکرد محصول وابسته است‪.‬‬
‫تفاوت عمدۀ همبستگی و رگرسیون‬
‫• در رگرسیون فرض بر این است که متغير وابسته تصادفی و متغيرهای توضیحی دارای‬
‫مقدار ثابت یا غيرتصادفی (در نمونهگيری تکراری) میباشند‪ .‬در همبستگی فرض بر این‬
‫است که هر دو متغير تصادفی هستند‪.‬‬
‫• ضریب همبستگی قادر به بیان روابط علی و معلولی بين متغيرها نیست‪.‬‬
‫• اگر وابستگی متغيری تنها بر روی یک متغير توضیحی بررس ی شود‪ ،‬چنين بررس ی به عنوان‬
‫تحلیل رگرسیون ساده یا دو متغيره معروف است‪.‬‬
‫• اگر وابستگی یک متغير بر روی بیش از یک متغير توضیحی بررس ی گردد‪ ،‬تحت عنوان‬
‫رگرسیون مرکب معرفی میگردد‪.‬‬
‫رگرسیون خطی و غيرخطی‬
‫• خطیبودن از نظر متغيرها‬
‫‪y  1  2 1‬‬
‫• خطیبودن از نظر پارامترها‬
‫‪y  1      3 1‬‬
‫‪2‬‬
‫‪2 1‬‬
‫‪ 2 1‬‬
‫‪y  1 ‬‬
‫جزء استوکاستیک (تصادفی) تابع رگرسیون‬
‫جامعه‬
‫جزء تصادفی جامعه ( ) نماینده‪ui‬یا جانشینی برای تمامی متغيرهای حذف شده یا فراموششده که بر‬
‫متغير وابسته اثر میگذارند ولی در مدل رگرسیون وجود ندارند (یا به دالیل گوناگون نمیتوانند در‬
‫مدل گنجانده شوند)‪.‬‬
‫‪yi  1  2 i  ui‬‬
‫اهميت جزء اخالل استوکاستیک و تعبير آن‬
‫جزء استوکاستیک نمایندهای برای تمامی متغيرهائی است که از مدل حذف شده اما مجموعا بر ‪ y‬اثر میگذارد‬
‫حال سؤال این است که چرا این متغيرها صریحا در مدل معرفی نمیشوند؟ به بیان دیگر چرا یک مدل‬
‫رگرسیونی مرکب با تمام متغيرهای ممکن بسط داده نمیشوند‪.‬‬
‫دالیل فراوانی وجود دارد‪:‬‬
‫‪ .1‬ممکن است تئوری ناقص باشد یعنی از تأثيرگذاری بعض ی از متغيرها بر متغير وابسته بیاطالع باشیم‪.‬‬
‫‪ .2‬ممکن است راجع به بعض ی از متغيرها دادههای اندکی داشته باشیم‪.‬‬
‫‪ .3‬جمعآوری داده در مورد بعض ی از متغيرها به نسبت تأثير آنها در مدل ممکن است بسیار زیاد باشد‪.‬‬
‫‪ .4‬به دلیل ماهیت تصادفی بودن متغير وابسته‪ ،‬توضیح کامل آن ممکن نیست و جزء اخالل میتواند آنرا‬
‫منعکس کند‪.‬‬
‫‪ .5‬ممکن است در اندازهگيری خطا صورت گرفته باشد‪.‬‬
‫ُ‬
‫‪ .6‬با تأس ی به قاعدۀ اکام (توصیف راجع به پدیدهها حتی االمکان ساده در نظر گرفته شود‪ ،‬و اینکه خالف آن‬
‫ثابت نشده است) مطلوب است مدل رگرسیون را تا حد ممکن سادهتر بگيریم‪.‬‬
‫تخمين مدل رگرسیون دو متغيره‬
‫روش حداقل مربعات معمولی‬
‫)‪Ordinary Least Square (OLS‬‬
‫برطبق فروض اصلی‪ ،‬روش حداقل مربعات چند خاصیت بسیار جالب آماری دارد که یکی از‬
‫مشهورترین و قویترین روشهای تحلیل رگرسیون را به وجود آورده است (این روش به کارل‬
‫فردریک گوس‪ ،‬ریاضیدان نامی آملان نسبت داده میشود)‪.‬‬
‫مشاهدات‬
‫نمودار پراکندگی‬
‫قاعدۀ کلی حداقل مربعات‬
yi  1  2 i  ui


yi  1   2  i  ei


yi  yi  ei  ei  yi  yi
e  e  e
i
1
2
 e3  e4

  2
 2
Min e    yi  yi    yi  1  2 i
2
i

‫روش حداقل مربعات‪ ،‬تخمینهای منحصر بفردی از‪ ‬و‪ ‬را که‬
‫شده ‪2‬‬
‫را به نمونه ارائه ‪1‬‬
‫بدهد‪ ،‬مهیا‬
‫ممکن‬
‫کوچکترین مقدار‬
‫‪2‬‬
‫‪ ei‬‬
‫میسازد‪.‬‬
‫تخمين زنندههای حداقل مربعات‬
‫‪‬‬
‫‪   i2  yi2   i  i yi‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪1 ‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪ i   i ‬‬
‫‪‬‬
‫‪‬‬
‫‪i y‬‬
‫‪‬‬
‫‪‬‬
‫‪ 2   2   2‬‬
‫‪ i‬‬
‫‪‬‬
‫اين تخمينزنندهها خصوصیات جالبی دارند که عبارتند از‪:‬‬
‫•‬
‫•‬
‫منحصرا برحسب مقادیر قابل مشاهده بیان میشوند (مثال و در یک نمونه)‬
‫این تخمينزنها‪ ،‬تخمينزنهای نقطهای هستند یعنی در نمونه داده شده با هر تخمينزن فقط‬
‫مقدار منحصر به فردی (نقطه) برای پارامتر جامعۀ مربوطه ارائه میکند (بنابراین خط‬
‫رگرسیون را میتوان به آسانی برازش نمود)‬
‫فرضیات اساس روش حداقل مربعات‬
‫• اگر هدف ما تنها تخمين ‪ 1‬و‪ 2 ‬باشد‪ ،‬روش ‪ OLS‬کافی است اما به یاد داریم که در تحلیل‬
‫و واقعی‬
‫بلکه‪‬هدف استنتاجاتی دربارۀ‬
‫نیست‬
‫رگرسیون هدف تنها بدستآوردن و‬
‫‪1‬‬
‫‪2‬‬
‫باشد‪.‬‬
‫‪ 1‬می‪ 2‬‬
‫• برای رسیدن به این هدف نه تنها باید شکل تبعی مدل را تعیين کنیم بلکه باید فرضیات معینی‬
‫مطرح‪ u‬سازیم‪:‬‬
‫دربارۀ چگونگی بوجودآمدن و را‬
‫نيز‪‬‬
‫‪i‬‬
‫‪i‬‬
‫‪yi  i  2 i  ui‬‬
‫• اين معادله نشان میدهد که هم به ‪ i‬و ‪i‬هم به ‪Ui‬‬
‫بستگی دارد‪ .‬بنابراین تا زمانی که ندانیم‬
‫و ‪i‬‬
‫چگونه ‪Ui‬‬
‫بدست میآیند هیچ راهی برای دستیابی به استنتاجات آماری دربارۀ و همچنين‬
‫داشت‪ 2.‬از این رو فرضیات مبتنی بر متغير و جزء خطا برای ‪i‬‬
‫و ‪ i‬نخواهیم ‪1‬‬
‫تفسير معتبری از‬
‫تخمینهای رگرسیون اهمیت دارند‪.‬‬
‫آنچه به عنوان مدل رگرسیون خطی عمومی‪ ،‬گوس ی‪ ،‬کالسیک یا استاندارد‬
‫معروف میباشد‪ ،‬مبتنی برفرضیات زیراست‪:‬‬
‫فرض‪ :1‬میانگين ‪ ui‬ها صفر است‬
‫‪Eui i   0‬‬
‫اين فرض بيان ميكند كه مقدار میانگين ‪ ui‬ها برحسب ‪ Xi‬مفروض صفر است‪.‬‬
‫فرض‪ :2‬عدم وجود خودهمبستگی بين ‪ u‬ها‬
‫‪‬‬
‫‪‬‬
‫‪covui , u j   Eui  Eui  ui  Eu j   Euiu j   0‬‬
‫اگربين ‪u‬ها حالت الف یا ب وجود داشته باشد آنگاه‬
‫خودهمبستگی یا همبستگی پیوسته وجود خواهد داشت‪.‬‬
‫فرض ‪ :3‬یکسانی (همسانی) واریانس ‪ Ui‬ها‬
‫‪varui xi   Eui  Eui   Eui   0‬‬
‫‪2‬‬
‫این فرض بیان میکند که جامعۀ ‪ Y‬متناظر با مقادیر‬
‫مختلف ‪ X‬واریانس یکسان دارند‪.‬‬
‫‪2‬‬
‫در مقابل این حالت شکل زیر‪ ،‬واریانس شرطی جامعۀ ‪ y‬همراه با افزایش مقدار‪X‬‬
‫افزایش می یابد‪ ،‬این حالت به ناهمسانی واریانس و یا ناهمسانی درپراکندگی معروف‬
‫است‪.‬‬
‫فرض‪ :4‬کوواریانس صفر بين و ‪Xi , Ui‬‬
‫‪covui , xi   Eui xi   0‬‬
‫فرض نمودیم که ‪ x‬و ‪( u‬که میتواند تأثير تمام متغيرهای حذف شده را نشان دهد)‬
‫دارای تأثيرات جمعپذیر و مجزا بر ‪ y‬میباشند اما اگر ‪ X‬و ‪ u‬همبسته باشند‪.‬‬
‫تشخیص تأثير خاص و مجزای هر کدامشان بر ‪ y‬ممکن نیست‪ .‬بنابراین اگر ‪ X‬و‬
‫‪ u‬به طور مثبت همبستگی داشته باشند ‪ X‬با افزایش ‪ u‬افزایش و با کاهش ‪u‬‬
‫کاهش مییابد به همين شکل اگر ‪ X‬و ‪ u‬به طور منفی همبسته باشند ‪ X‬با افزایش‬
‫‪ u‬کاهش و با کاهش ‪ u‬افزایش مییابد و به هر ترتیب جداکردن تأثير ‪ X‬و ‪ u‬بر ‪Y‬‬
‫مشکل است‪.‬‬
‫ا‬
‫فرض‪ :5‬مدل رگرسیون دقیقا تصریح شده است‬
‫(عدم وجود خطای تصریح یا تورش)‬
‫سؤاالت فوق بسیار مهمند چراکه با حذف متغيرهای اصلی از مدل‪ ،‬انتخاب شکل تبعی غلط و یا‬
‫مطرح کردن فرضهای آماری نادرست دربارۀ متغيرهای مدل‪ ،‬اعتبار تفسير رگرسیون تخمينزده شده‪،‬‬
‫زیر سؤال خواهد رفت‪.‬‬
‫از میان تمامی فرضها‪ ،‬این فرض انعطافناپذیرترین و شاید در نظر اول دارای کمترین محل اعراب‬
‫باشد‪.‬‬
‫یک مدل رگرسیون در یک تحقیق با تصریح مدل آن در رابطه با پدیدههای مورد نظر شروع میشود‪.‬‬
‫بعض ی از سؤاالت مهم که در تصریح مدل پدید میآیند عبارتند از‪:‬‬
‫‪ .1‬چه متغيرهائی باید در مدل جای گيرند؟‬
‫‪ .2‬شکل تبعی مدل چیست؟ آیا این مدل از نظر پارامترها خطی است یا از نظر متغيرها و یا هردو؟‬
‫‪ .3‬فرضهای احتمالی ارائه شده در مورد‪ Yi ،‬و ‪ Xi‬و ‪ ui‬های درون مدل چه میباشند؟‬
‫متأسفانه در عمل‪ ،‬شخص به ندرت از متغيرهای صحیحی که باید در مدل منظور‬
‫شود‪ ،‬شکل تبعی صحیح و یا فرض احتمالی صحیح در مورد متغيرهای وارد شده‬
‫در مدل اطالع دارد‪.‬‬
‫بنابراین در عمل کارشناس از بعض ی قضاوتها در انتخاب تعدادی از متغيرهای‬
‫واردنشده در مدل یا شکل تبعی مدل استفاده کرده و برخی فرضها را در مورد‬
‫ماهیت تصادفی متغيرهای مشمول در مدل پیش میکشد و در انتخاب مدل صحیح‬
‫برای تحلیل تجربی تا حدی مستلزم آزمون و خطاست‪.‬‬
‫پراکندگی منحنی فیلیپس‬
‫منحنی فیلیپس‬
Yi  1   2
1
Xi
Yi  1  2 X i
‫خصوصیات تخمينزنندههای حداقل مربعات‪ :‬قضیۀ گوس‪ -‬مارکف‬
‫یک تخمينزن ‪ 2‬را زمانی میتوان بهترین تخمينزن بدون تورش خطی (‪ )BLUE‬از ‪ 2‬دانست‬
‫که‪:‬‬
‫‪ .1‬تخمينزن خطی باشد‪ .‬یعنی تابعی خطی از یک متغير تصادفی مانند متغير وابسته‪Y‬در‬
‫مدل رگرسیون باشد‪.‬‬
‫‪ .2‬تخمينزن بدون تورش باشد‬
‫‪E(ˆ2 )  2‬‬
‫‪ .3‬تخمينزن در بين تمام تخمينزنندههای بدون تورش خطی‪ ،‬حداقل واریانس را داشته‬
‫باشد (تخمينزن بدون تورش با حداقل واریانس به تخمينزن کارا معروف است)‪.‬‬
The Gauss-Markov Theorem:
are the best linear unbiased
estimators (BLUE).
‫قضیۀ گوس‪ -‬مارکف‬
‫با توجه به فرضهای مدل کالسیک رگرسیون خطی‪ ،‬تخمينزنندههای حداقل‬
‫مربعات در بين تخمينزنندههای خطی‪ ،‬بدون تورش و دارای حداقل واریانس‬
‫یعنی ‪ BLUE‬میباشند‪.‬‬
‫ضرائب تعیين ‪( r2‬معیار خوبی برازش) و ضریب همبستگی ‪r2‬‬
‫ضریب همبستگی‪:‬‬
‫‪.1‬‬
‫‪.2‬‬
‫‪.3‬‬
‫‪.4‬‬
‫‪.5‬‬
‫‪.6‬‬
‫‪.7‬‬
‫‪ r‬میتواند مثبت یا منفی باشد‪.‬‬
‫این کمیت بين دو مقدار ‪ +1‬و ‪ -1‬میباشد‪.‬‬
‫این کمیت ماهیتا قرینه میباشد یعنی ضریب همبستگی بين ‪ x‬و ‪ y‬یعنی ‪ rxy‬معادل ضریب‬
‫همبستگی بين ‪ y‬و ‪ )ryx( x‬است‪.‬‬
‫این کمیت مستقل از مبدأ و مقیاس اندازهگيری است‪.‬‬
‫اگر ‪ x‬و ‪ y‬از لحاظ آماری مستقل باشند ضریب همبستگی بين آنها صفر است و ‪ r = 0‬به این‬
‫معنا نیست که دو متغير مستقلند (قسمت‪ h‬شکل صفحه بعد)‬
‫این کمیت صرفا معیاری جهت همبستگی خطی یا وابستگی خطی است و برای توصیف ارتباطات‬
‫‪ Y=X2‬بیانگر یک ارتباط دقیق است‬
‫غيرخطی قابل استفاده نیست‪ .‬بنابراین در قسمت ‪h‬‬
‫اما ميزان ‪ r‬معادل صفر است‪.‬‬
‫هرچندکه ‪ r‬معیار همبستگی خطی بين دو متغير است ولی همانطور که قبال اشاره شد بیانگر‬
‫هیچگونه رابطۀ علت و معلولی نمیباشد‪.‬‬
‫الگوهای همبستگی‬
‫ضریب تعیين‬
‫در زمینۀ رگرسیون‪ r2 ،‬معیار پرمعناتری از ‪ r‬است چرا که ‪ r2‬نسبت تغیيرات متغير وابسته‬
‫توضیح داده شده به وسیلۀ متغيرهای توضیحی را ارائه میدهد درحالیکه ‪ r‬فاقد چنين‬
‫خصوصیتی است‪ .‬به عالوه تعبير‪ )R=( r‬در یک مدل رگرسیون مرکب زیر سؤال‬
‫میباشد‪.‬‬
‫‪2‬‬
‫کوشش برای حداکثرکردن ‪R‬‬
‫• گاهی محققان سعی در حداکثرکردن ‪ R2‬دارند یعنی انتخاب مدلی که باالترین ‪ R2‬را به دست میدهد‬
‫• اما انجام این کار ممکن است خطرناک باشد زیرا در تحلیل رگرسیون هدف ما آن نیست که تنها یک ‪ R2‬باال به‬
‫دست آوریم‪.‬‬
‫• بلکه هدف بدست آوردن تخمينهای قابل اطمینانی از ضرائب حقیقی رگرسیون جامعۀ اصلی و استنباط‬
‫آماری دربارۀ آنهاست‪.‬‬
‫• در تحلیلهای تجربی بدست آوردن یک ‪ R2‬بسیار باال چندان معمول نبوده بلکه حتی گاهی برخی از ضرائب‬
‫تخمينزده شدۀ رگرسیون از لحاظ آماری بیمعنی بوده یا دارای عالمتهائی برخالف انتظارات قبلی هستند‪.‬‬
‫• بنابراین محقق باید دقت بیشتری دربارۀ ارتباط منطقی یا تئوریکی متغيرهای توضیحی یا متغير وابسته و‬
‫معنیداری آماری آنها داشته باشد‪.‬‬
‫• اگر ‪ R2‬باال بدست آوریم خوب خواهد بود اما اگر ‪ R2‬پایين باشد این امر به معنی بدی مدل نمیباشد‪.‬‬
‫فرض نرمال‪:‬‬
‫مدل رگرسیون خطی نرمال کالسیک‬
‫توزیع احتمالی اجزاء اخالل ‪ui‬‬
‫• برای کاربرد روش حداقل مربعات معمولی (‪ )OLS‬در مدل کالسیک‬
‫رگرسیون خطی‪ ،‬هیچ فرض ی در مورد توزیع احتمالی جزء اخالل ‪ui‬‬
‫ارائه نکردیم‪.‬‬
‫• تنها فروض ی که در مورد ‪ ui‬مدنظر قرار گرفت عبارت بودند از اینکه‬
‫اجزا مذکور دارای امید صفر‪ ،‬عدم همبستگی و واریانس ثابت‬
‫هستند‪.‬‬
‫• اگر هدف ما تنها تخمين پارامترها باشد در اینصورت روش ‪ OLS‬کافی خواهد بود اما‬
‫تأکید بر تخمين تنها یکی از جنبههای استنتاج آماری است و جنبۀ دیگر آزمون فرضیه‬
‫میباشد‪.‬‬
‫• از آنجا که هدفمان هم تخمين پارامترها و هم آزمون فرضیه است‪ ،‬لذا احتیاج به تعیين‬
‫توزیع احتمالی جزء اخالل ‪ ui‬خواهیم داشت‪.‬‬
‫فرض نرمال بودن‬
‫• ميانگين‬
‫‪E ui   0‬‬
‫• واریانس‬
‫‪2‬‬
‫‪ ‬‬
‫‪E u ‬‬
‫‪2‬‬
‫‪i‬‬
‫• کوواریانس ‪uj ، ui‬‬
‫‪Euiu j   0‬‬
‫) ‪ui  N (0,‬‬
‫‪2‬‬
‫طبق قضیۀ مشهور آماری حدی مرکزی میتوان نشان داد که اگر با تعداد زیادی از‬
‫متغيرهای مستقل و تصادفی که دارای توزیع احتمالی یکسانی هستند مواجه باشیم‪ ،‬در‬
‫این صورت به استثناء چند حالت خاص‪ ،‬با افزایش تعداد متغيرها به سمت بینهایت‬
‫توزیع مجموع آنها به سمت توزیع نرمال میل میکند‪.‬‬
‫خصوصیت تخمينزنندههای ‪ OLS‬تحت فرض نرمال‬
‫بودن‬
‫‪.1‬‬
‫‪.2‬‬
‫‪.3‬‬
‫‪.4‬‬
‫‪.5‬‬
‫‪.6‬‬
‫‪.7‬‬
‫‪.8‬‬
‫بدون تورش هستند‬
‫دارای حداقل واریانس هستند‬
‫سازگاری‪ :‬یعنی همانطور که حجم نمونه به سمت بینهایت افزایش مییابد‪،‬‬
‫تخمينزنندهها نيز به مقادیر جامعهشان نزدیک میشوند‬
‫‪ 1‬به طور نرمال توزیع شده است‬
‫‪ 2‬به طور نرمال توزیع شده است‬
‫عبارت ‪ ‬از توزیع کایدو با درجۀ آزادی (‪ )N-2‬تبعیت میکند‪.‬‬
‫‪N  2‬‬
‫‪‬‬
‫مستقل از توزیع شدهاند‪.‬‬
‫‪‬و‬
‫‪‬‬
‫‪2‬‬
‫‪‬‬
‫‪ 1‬و ‪ 2‬در گروه تخمين‪‬زنندههای بدون تورش خطی یا غيرخطی دارای حداقل‬
‫‪‬‬
‫‪‬‬
‫‪1‬واریانس‪2‬هستند‪.‬‬
‫‪2‬‬
‫‪2‬‬
‫بنابراین میتوان گفت که تخمينزنندههای حداقل مربعات بهترین تخمينزنندههای بدون تورش (‪ )BLUE‬هستند‪.‬‬
‫آمار‬
‫آمار کالسیک‬
‫تخمين‬
‫تخمين نقطهای‬
‫تخمين فاصلهای‬
‫آمار بيزین‬
‫آزمون فرضیه‬
‫ساخت فاصلة اطمینان‬
‫رگرسیون دومتغيره‪:‬‬
‫تخمين فاصلهای و آزمون فرضیه‬
‫فاصلة اطمینان‬
‫از آنجائیکه فاصلۀ اطمینان تصادفی است‪ ،‬احتمالهای بدست آمده میبایست در‬
‫معنای درازمدت فهمیده شوند‪ ،‬یعنی نمونهگيری تکراری به طور مشخصتر به‬
‫این معنی است که‪ :‬اگر در نمونهگيری تکراری‪ ،‬فواصل اطمینان‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪     2    1  ‬‬
‫‪p ‬‬
‫‪‬‬
‫‪2‬‬
‫‪r‬‬
‫به تعداد زیاد ساخته شوند آنگاه در درازمدت به طور متوسط‬
‫براساس احتمال‬
‫مورد از تعداد کل موارد‪ ،‬مقدار حقیقی پارامتر را در بر‬
‫چنين‬
‫فواصلی‪ ‬در‪1‬‬
‫‪‬‬
‫میگيرند‪.‬‬
‫‪1   ‬‬
‫آزمون فرضیه و انتخاب سطح معنیداری‬
‫خطای نوع اول‪ :‬احتمال ردکردن فرضیۀ درست‪.‬‬
‫خطای نوع دوم‪ :‬احتمال قبول فرضیۀ نادرست‪.‬‬
‫براساس هزینۀ هر کدام از خطاهای فوق‪ ،‬محقق اقدام به انتخاب سطح معنیداری خواهد‬
‫نمود‪.‬‬
‫نقض فروض مدل‬
‫کالسیک‬
‫•‬
‫مدل کالسیک رگرسیون خطی نرمال براساس چند فرض ساده شده به شرح زیر است‪:‬‬
‫‪ .1‬فرض‪ :1‬میانگين شرطی جزء اخالل جامعه مشروط به مقادیر مفروض متغيرهای توضیحی (‪x‬ها)‬
‫صفر است‪.‬‬
‫‪ .2‬فرض‪ :2‬واریانس شرطی ‪ ui‬ثابت یا همسان است‪.‬‬
‫‪ .3‬فرض‪ :3‬خودهمبستگی در اجزا اخالل وجود ندارد‪.‬‬
‫‪ .4‬فرض‪ :4‬متغيرهای توضیحی غيرتصادفیاند‪ .‬حتی اگر تصادفی هم باشند‪ ،‬مستقل از اجزا اخالل ‪ui‬‬
‫توزیع شدهاند‪.‬‬
‫‪ .5‬فرض‪ :5‬بين متغيرهای توضیحی (‪x‬ها) همخطی مرکب وجود ندارد‪.‬‬
‫‪ .6‬فرض‪ui :6‬ها به طور طبیعی با میانگين و واریانس داده شده در فروض ‪ 1‬و ‪ 2‬توزیع شدهاند‪.‬‬
‫‪ .7‬فرض‪ :7‬مدل رگرسیون به طور صحیح تصریح شده است‪ ،‬یعنی تورش تصریح وجود ندارد‪.‬‬
‫با این فروض دیدیم که تخمينزنهای حداقل مربعات معمولی‬
‫(‪ )OLS‬ضرائب رگرسیون‪ ،‬بهترین تخمينزنهای بدون تورش خطی‬
‫‪ BLUE‬میباشند‪.‬‬
‫•‬
‫•‬
‫•‬
‫•‬
‫فروض ‪ 4 ،1‬و ‪ 6‬را به دالیل زیر به طور مفصل مورد بحث قرار نخواهیم داد‪:‬‬
‫فرض‪ :1‬امید صفر جزء اخالل‪ :‬اگر این فرض تأمين شود نمیتوان عرض از مبدأ اصلی را‬
‫تخمين زد و چون در بسیاری از حالتهای کاربردی‪ ،‬جزء عرض از مبدأ اهمیت ناچيزی دارد‬
‫چندان تأثيری نخواهد داشت‪.‬‬
‫فرض‪ :4‬حالت تصادفیبودن متغيرهای توضیحی‪ :‬اگر ‪x‬ها با وجود تصادفیبودن به طور‬
‫مستقل از ‪u‬ها توزیع شوند آنگاه برای تمام مقاصد کاربردی‪x ،‬ها را میتوان‬
‫غيراستوکاستیک فرض کرد‪.‬‬
‫ا‬
‫ی‬
‫و‬
‫فرض‪ :6‬نرمال بودن ‪ :u‬اگر هدف ما صرفا تخمين باشد‪ ،‬این فرض ضر ر نیست‪ .‬فرض‬
‫نرمال بودن به منظور آزمون فرضیه و پیشبینی بسیار مهم است‪.‬‬
‫همخطی‬
‫‪Multicollinearity‬‬
‫‪x3‬‬
‫‪x2‬‬
‫‪50‬‬
‫‪10‬‬
‫‪75‬‬
‫‪15‬‬
‫‪90‬‬
‫‪18‬‬
‫‪120‬‬
‫‪24‬‬
‫‪150‬‬
‫‪30‬‬
‫یکی از فروض مدل کالسیک رگرسیون خطی این است که‬
‫هیچگونه همخطی مرکب بين متغيرهای توضیحی موجود‬
‫در مدل وجود ندارد‪.‬‬
‫توجه داشته باشید که همخطی‬
‫تنها ارتباطات خطی بين‬
‫متغيرهای ‪ x‬را شامل میشود‬
‫و ارتباطات غيرخطی بين آنها را در‬
‫بر نمیگيرد‪.‬‬
‫‪y  0  1x1  2 xi2  2 xi3  ui‬‬
‫اگر همخطی وجود داشته باشد ضرائب رگرسیونی‬
‫متغيرهای ‪ x‬نامعين و انحراف معیارشان بینهایت است‪.‬‬
‫(همخطیکامل) همخطی ویژگیهای ‪ BLUE‬بودن تخمينها‬
‫را نقض نمیکند‪.‬‬
‫نتایج عملی همخطی‬
‫الف‪ -‬بزرگی واریانس و کوواریانسهای تخمينزنهای ‪OLS‬‬
‫ب‪ -‬فواصل اعتماد عریضتر‪ :‬احتمال قبول شدن یک فرضیۀ غلط (مثال خطای نوع دوم)‬
‫ج‪ -‬نسبتهای غيرمعنادار ‪ :r‬مقادیر ‪ t‬کوچک میشوند و فرضیۀ صفر به معنای صفربودن پارامترهای‬
‫جامعۀ واقعی مورد قبول واقع میشود‪.‬‬
‫د‪ R2 -‬باال اما تعداد اندک نسبتهای معنادار‪.‬‬
‫هـ‪ -‬حساسیت تخمينزنهای ‪ OLS‬و خطای معیار آنها نسبت به تغیيرات اندک در دادهها‬
‫کشف همخطی‬
‫الف‪-‬‬
‫‪ .1‬در همخطی سؤال از درجه است نه از نوع‪ .‬تمایز معناداری بين حضور و‬
‫عدم حضور همخطی وجود ندارد‪ ،‬بلکه تمایز بين درجات گوناگون آن است‪.‬‬
‫‪ .2‬از آنجایی که همخطی به شرایط متغيرهای توضیحی برمیگردد که فرض‬
‫شده غيرتصادفی باشند لذا این حالت شکلی از نمونه است نه جامعه‬
‫بنابراین ماآزمون برای همخطی صورت نمیدهیم‪ ،‬بلکه میتوان درجهاش را‬
‫در نمونۀ مشخص اندازهگيری نمود‪.‬‬
‫ب‪-‬‬
‫‪ R2 .1‬باال اما تعداد کم نسبتهای ‪ t‬معنیدار‬
‫‪ .2‬همبستگی شدید بين دوبدو متغيرهای توضیحی‬
‫‪ .3‬امتحان ضرائب جزئی‬
‫‪ .4‬رگرسیونهای معين‬
‫‪ .5‬ریشۀ مشخصه (‪ )Eigenvalue‬و شاخص وضعیت (‪)Condition Index‬‬
‫در برنامۀ ‪ SAS‬از ریشۀ مشخصه و شاخص وضعیت برای تشخیص همخطی استفاده میکنند‪.‬‬
‫رفع مشکل همخطی‪:‬‬
‫قاعدۀ محکم و دقیقی جهت چارهجوئی مشکل وجود ندارد‪ ،‬چراکه همخطی‬
‫الزاما یک مشکل نمونهای است‪.‬‬
‫‪ .1‬اطالعات قبلی (تئوریکی)‬
‫‪ .2‬ترکیب کردن دادههای مقطعی و سریهای زمانی (دادههای مرکب)‬
‫‪ .3‬حذف متغيرها و تورش تصریح‬
‫‪ .4‬تبدیل متغيرها‬
‫‪ .5‬دادههای جدید یا اضافی (افزایش حجم نمونه)‬
‫ناهمسانی واریانس ‪Heteroscedasticity‬‬
‫یکی ازمهمترین فروض مدل رگرسیون خطی کالسیک این است که اجزاء اخالل‬
‫‪ ui‬که بر‪2‬تابع رگرسیون جامعه ظاهرمیشوند‪ ،‬دارای واریانس همسان هستند‪.‬‬
‫‪E(ui )  ‬‬
‫با افزایش یک متغير (درآمد) متوسط متغير دیگر‬
‫(پسانداز) افزایش مییابد‪.‬‬
‫«ناهمسانی واریانس»‬
‫‪‬‬
‫‪ BLUE‬هست‬
‫هنوز ‪2‬‬
‫• اگر فرض ناهمسانی را جایگزین فرض همسانی نمائیم تخمينزن‬
‫اما دیگر کارا یا بهترین نیست و دارای حداقل واریانس نيز نمیباشد در این حالت از‬
‫روش تخمين معروف به حداقل مربعات تعمیمیافته (‪ )GLS‬استفاده مینمائیم‪.‬‬
‫نتایج کاربرد روش ‪ OLS‬در شرایط وجود ناهمسانی‬
‫واریانس‬
‫• فاصلۀ اطمینان براساس بیش از حد الزم بزرگ خواهد شد و در نتیجه آزمونهای‬
‫‪ t‬و ‪ F‬احتماال نتیج غلطی به ما خواهند داد‪.‬‬
‫کشف ناهمسانی واریانس‬
‫‪.1‬‬
‫•‬
‫روش ترسیمی‪ :‬ابتدا رگرسیون را براساس فرض‬
‫عدم ناهمسانی تحلیل کرده و سپس مجذور‬
‫باقیماندههای تخمينزده شده ‪ ei2‬را مورد‬
‫بررس ی قرار داد تا ببینیم چه الگوی‬
‫سیستماتیک و منظمی را نشان میدهند‪.‬‬
‫واریانس جزء اخالل به طور خطی یا متغير ‪x‬‬
‫مربوط است‪.‬‬
‫‪.2‬‬
‫‪.3‬‬
‫‪.4‬‬
‫‪.5‬‬
‫‪.6‬‬
‫آزمون پارک‪ :‬پارک روش گرافیکی را در قالب‬
‫فرمول بیان داشته است‪.‬‬
‫آزمون گلدفلد‪ -‬کوانت‬
‫آزمون گلچس‬
‫آزمون بروج پاگانت‬
‫آزمون وایت‬
‫خودهمبستگی‬
‫• یکی از فروض مهم مدل کالسیک این است‬
‫که خودهمبستگی سریالی بين اجزاء اخاللی‬
‫که در تابع رگرسیون جامعه وارد میشود‬
‫وجود ندارد‪.‬‬
‫• ماهیت خودهمبستگی‪ :‬همبستگی بين اعضای‬
‫سریهای مشاهداتی است که در زمان‬
‫(سریهای زمانی) یا مکان (دادههای مقطعی)‬
‫ردیف شدهاند‪.‬‬
‫‪i j‬‬
‫‪E(uiu j )  0‬‬
‫اگر محصول در یک فصل کم باشد دلیلی بر کم بودن‬
‫محصول در فصل دیگر نمیباشد‬
‫(عدم خودهمبستگی)‬
‫تخمين ‪ OLS‬در حالت وجود خودهمبستگی‬
‫• در حالت خودهمبستگی تخمينزن ‪ GLS‬خصوصیت‬
‫‪ BLUE‬داشته و تخمينزن ‪ OLS‬چنين خصوصیتی‬
‫ندارد‪ .‬تخمينزن ‪ OLS‬از اطالعات موجود بیشترین‬
‫استفاده را میکند‪.‬‬
‫• درحالت وجود خودهمبستگی نيز همانند حالت‬
‫ناهمسانی‪ ،‬تخمينزنهای ‪ OLS‬خطی و بدون تورش و‬
‫لذا سازگارند ولی کارا نیستند (یعنی حداقل واریانس را‬
‫ندارند)‬
‫• فواصل اعتماد بزرگتر از حالت معمول خواهد بود‬
‫(‪ OLS‬نسبت به ‪)GLS‬‬
‫تخمين ‪ OLS‬بدون در نظر گرفتن خودهمبستگی‬
‫•‬
‫•‬
‫•‬
‫ا‬
‫احتماال واریانس باقیمانده مقدار واقعی سیگما به توان دو را کمتر از حد‬
‫تخمين میزند‪.‬‬
‫در نتیجه ‪ R2‬بیش از حد تخمين زده میشود‪.‬‬
‫آزمونهای معنیداری ‪ t‬و ‪ F‬معتبر نیستند و اگر آنها را بکار ببریم نتایج بسیار‬
‫غلطی در مورد معنیداری آماری ضرایب تخمينزده شدۀ رگرسیون بهدست‬
‫خواهیم آورد‪.‬‬
‫کشف خودهمبستگی‪:‬‬
‫روش ترسیمی‬‫‪.1‬‬
‫آزمون تسلسل‬‫‪.2‬‬
‫آزمون دوربين واتسون ‪ :‬مشهورترین آزمون تشخیص همبستگی سریالی است ‪DW‬‬‫‪.3‬‬
‫فروض زیربنایی آزمون ‪D.W‬‬
‫‪.1‬مدل رگرسیون دارای جزء عرض ازمبدأ است‬
‫‪ .2‬متغيرهای توضیحی غيرتصادفی هستند‬
‫‪ .3‬اجزاء اخالل به وسیلۀ الگوی خود رگرسیونی مرتبۀ اول‬
‫حاصل میشوند‪.‬‬
‫‪ .4‬مدل رگرسیون شامل مقادیربا وقفهای ازمتغيروابسته به عنوان‬
‫یکی ازمتغيرهای توضیحی نیست‪.‬‬
‫‪ .5‬هیچ مشاهدۀ مفقودهای دردادهها وجود ندارد‪.‬‬
‫تصریح مدل‬
‫•‬
‫•‬
‫یکی از فروض کالسیک‪ ،‬تصریح مدل بود به عبارت دیگر فرض بر این بود که تورش یا خطای‬
‫تصریح در مدل وجود ندارد‪ .‬این موضوع بسیار گسترده و پیچیده میباشد و بسیاری از مباحث آن‬
‫باالتر از سطح مفروض ما میباشد‪.‬‬
‫این قسمت دربرگيرندة مسائل زیر است‪:‬‬
‫‪.1‬‬
‫‪.2‬‬
‫‪.3‬‬
‫‪.4‬‬
‫‪.5‬‬
‫‪.6‬‬
‫مدل خوب یا صحیح متضمن چه خصوصیاتی است؟‬
‫فرض کنید که یک مدل صحیح برای تحلیل یک مسألة خاص ارائه شده است اما به علت در دسترس نبودن‬
‫آمار و ارقام‪ ،‬سهلانگاری‪ ،‬مالحظات هزینهای یا سستی‪ ،‬مدل متفاوتی را بکار بردیم و بنابراین نسبت به مدل‬
‫صحیح مرتکب خطای تصریح شدهایم‪ .‬حال سؤال این است که در عمل وقوع چه نوعی از شکلهای مختلف‬
‫خطاهای تصریح وجود دارد؟‬
‫نتایج انواع مختلف خطای تصریح کدامند؟‬
‫طرق کشف این نوع خطاها کدامند؟‬
‫اگر به ارتکاب خطای تصریح پی بردیم چه راههایی برای دستیابی و برگشت به مدل صحیح وجود دارد؟‬
‫در ‪ 5‬مورد باال فرض بر این بود که یک مدل صحیح وجود دارد و ما مایل به دانستن مشکالت عارض شده در اثر‬
‫کاربرد مدل دیگری بودیم اما اگر اصال ندانیم که کدام مدل صحیح است دچار خطای تعیين غلط مدل می‬
‫شویم که با خطای نوع قبلی یعنی خطای تصریح متفاوت است‪.‬‬
‫خصوصیات یک مدل خوب‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫قلت منطقی متغيرهای توضیحی‪ :‬یک فرضیه (مدل) زمانی با ارزش و مهم خواهد بود که مقدار زیادی‬
‫از تغیيرات را به وسیلة تعداد کمی از متغيرها بتوان توضیح داد‪.‬‬
‫قابلیت تشخیص‪ :‬برای مجموعه داده های معين‪ ،‬پارامترهای تخمين زده شده باید مقادیر منحصر‬
‫بفردی را به دست دهند به عبارت دیگر تنها یک تخمين برای هر پارامتر مشخص به دست آید‪.‬‬
‫خوبی برازش‪:‬‬
‫سازگاری با تئوری‬
‫قدرت تعمیم دهی و پیشنگری‪ :‬تنها آزمون مناسب برای اعتبار یک فرضیه (مدل) مقایسة پیش بینی‬
‫آن با تجارب است‪.‬‬
‫انواع خطای تصریح‬
‫•‬
‫•‬
‫•‬
‫•‬
‫حذف یک متغير مهم‬
‫واردکردن متغير غيرالزم‬
‫درنظر گرفتن یک شکل تبعی غلط‬
‫خطای در اندازه گيری‬
‫نتایج خطای تصریح‬
‫• حذف یک متغير مهم‪:‬‬
‫• ضرایب رگرسیون اشتباه برآورد می شوند (تورشدار‪ ،‬ناسازگار)‬
‫• واریانس جزء اخالل اشتباه تخمين زده می شود‪.‬‬
‫ا‬
‫• نهایتا فاصلة اطمینان و آزمون فرضیه نتایج گمراه کننده ای را راجع به معنادار بودن آماری‬
‫پارامترهای تخمين زده شده به دست می دهند‪.‬‬
‫• لحاظ کردن یک متغير نامربوط‬
‫•‬
‫•‬
‫•‬
‫•‬
‫تخمینها ناتور و ناسازگارند‬
‫واریانس خطا درست برآورد می شود‪.‬‬
‫آزمون فرضیه و فاصلة اعتماد معتبر می باشند‪.‬‬
‫ا‬
‫به طور کلی ضرایب برآوردشده غيرکارا هستند یعنی واریانس آنها عموما بزرگتر از واریانسهای‬
‫ضرایب حقیقی می باشند‪( .‬دقت کم در استنتاجهای احتمالی پارامترها) (احتمال ایجادشدن مشکل‬
‫همخطی را نيز زیاد می کند) (درجة آزادی را کم می کند)‬
‫آزمونهای کشف خطای تصریح‬
‫• کشف وجود متغيرهای غيرالزم‬
‫• آزمون معنادار بودن ضریب متغير اضافه (آزمون ‪)F‬‬
‫• آزمونهای راجع به متغيرهای حذف شده و شکل تبعی غلط‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫استفاده از باقیمانده ها (مالحظة گرافیک این باقیمانده ها)‬
‫آزمون ‪ Reset‬رمزی‬
‫آزمون نسبت راستنمایی‬
‫آزمون والد‬
‫آزمون ضریب الگرانژ‬
‫آزمون هاسمن‬
‫استفاده از باقیماندهها (مالحظة گرافیک این‬
‫باقیماندهها)‬
‫رگرسیون بر روی متغيرهای موهومی‬
‫• در بسیاری از تحلیلهای رگرسیونی‪ ،‬متغير وابسته نه تنها تحتتأثير متغيرهای کمی (مثل تولید‪،‬‬
‫ميزان کود مصرفی‪ )...،‬با مقیاسهای متداول است‪ ،‬بلکه از متغيرهای ماهیتا کیفی (جنس‪ ،‬نژاد‪،‬‬
‫‪ )...‬نيز تبعیت میکند‪.‬‬
‫• نظر به اینکه متغيرهای کیفی عموما داللت بر وجود یا عدم وجود کیفیت یا صفتی دارند‪ ،‬لذا یک‬
‫روش برای کمی کردن این صفات‪،‬درنظر گرفتن متغيرهای ساختگی با قبول دو مقدار ضفر و یک‬
‫میباشد که صفر بیانگر عدم وجود آن صفت و یک حاکی از وجود آن میباشد‪ .‬به این ترتیب‬
‫متغيرهایی که این مقادیر صفر و یک را اختیار میکنند‪ ،‬متغيرهای موهومی (‪)Dummy Variable‬‬
‫نام دارند‪.‬‬
‫• اسامی دیگر این متغيرها عبارتند از متغيرهای داللتکننده بر یک صفت‪ ،‬متغيرهای دوتایی‪،‬‬
‫متغيرهای طبقهای‪ ،‬متغيرهای کیفی‪ ،‬متغيرهای منقسم به دو‪ ،‬متغيرهای مجازی‪.‬‬
‫• متغيرهای موهومی به همان سادگی متغيرهای کمی در تحلیل رگرسیونی به کار‬
‫میروند‪.‬‬
‫• اگر چنانچه یک مدل رگرسیونی تنها بر حسب متغيرهای توضیحی موهومی یا کیفی‬
‫بیان شده باشند‪ ،‬آن را مدل آناليز واریانس مینامند‪.‬‬
‫• در بیشتر تحقیقات اقتصادی‪ ،‬معموال یک مدل رگرسیون شامل چندین متغير‬
‫توضیحی میباشد که تعدادی از آنها کمی و بقیه کیفی میباشند‪ ،‬این گونه‬
‫مدلهای رگرسیونی که شامل دو نوع متغيرهای کمی و کیفی هستند را مدلهای‬
‫آناليز کوواریانس (‪ )ACOV‬مینامند‪.‬‬
‫قاعدةکلی برای تعداد متغيرهای موهومی‪ :‬چنانچه متغير کیفی موردنظر دارای ‪m‬‬
‫طبقه باشد‪ ،‬آنگاه بایستی فقط به تعداد ‪ m-1‬متغير موهومی در مدل منظور‬
‫شود در غير اینصورت در دام متغير موهومی گرفتار خواهیم شد (همان حالت‬
‫ایجاد همخطی کامل بين متغيرهای موهومی)‬
‫رگرسیون برروی یک متغيرکمی و یک متغيرکیفی با بیش ازدو طبقه‬
‫پيش بيني تلفات برداشت گندم و تحليل داده ها به روش مدل متغيرهاي موهومي‬
‫(کد مقاله‪)653‬‬
‫احسان مصدری[‪ ، ]1‬محمد حسين عدالت[‪ ، ]2‬محمد جواد خلیلی[‪ ، ]3‬حمید طاهرپور کالنتری[‪]4‬‬
‫مجموعه مقاالت پنجمين کنگرة ملی مهندس ی ماشينهای کشاوزی و مکانيزاسیون‬
‫• مدل متغيرهاي موهومي گونه اي از مدل هاي رگرسيوني است که بوسيله آن مي توان اثر‬
‫متغيرهاي کيفي را بر روي متغير وابسته سنجيد‪ .‬اين مدل ها مي توانند فقط از متغيرهاي‬
‫موهومي (کيفي) تشکيل شده باشد که در اين صورت آن را مدل آناليز واريانس مي نامند و‬
‫يا مي تواند ترکيبي از متغيرهاي موهومي و کمي باشد که در اين صورت آن را مدل آناليز‬
‫کوواريانس مي نامند‪.‬‬
‫• در اين مدل تمام متغيرهاي کيفي را بايستي با استفاده از روش مناسب به صورت صفر و يک‬
‫تبديل کرد‪ .‬براي تخمين مدل در اين مطالعه از يک تابع خطي به شکل زير استفاده شده است‪.‬‬
‫• که در ان نشان دهنده متغيرهاي مستقل و نشان دهنده متغير وابسته و مقادير و ضرايبي‬
‫است که در پي تخمين زدن هستيم‪ .‬اين مدل با استفاده از روش ‪ OLS‬به راحتي قابل تخمين‬
‫است ‪.‬اما شيوه تفسير ضرايب متغيرهاي موهومي متفاوت خواهد بود‪.‬‬
‫• متغيرهاي مستقل وارد شده در اين مدل جهت تخمين رابطه ريزش شامل منطقه‪ ،‬واريته‬
‫گندم‪ ،‬مدل کمباين‪ ،‬نوع کشت‪ ،‬عملکرد‪ ،‬عمر کمباين‪ ،‬تاريخ برداشت و ساعت برداشت‬
‫ميباشد‪ .‬متغير وابسته درصد ريزش است که حاصل جمع ربزش عمليات برداشت و ريزش‬
‫طبيعي محصول ميباشد‪.‬‬
‫‪y    Taybad .Taybad   Khaf .Khaf  Torbat jam .Torbat jam   Roshan .Roshan  Sradary .Sardary‬‬
‫‪  Gaskojen .Gaskojen  Abideym. Abideym  Model .Model   Omr .Om r  Tarikh .Tarikh   Saat .Saat‬‬
‫• متغير منطقه داراي چهار حالت مشهد‪ ،‬تربت جام‪ ،‬خواف و تايباد مي باشد که از اين ميان منطقه مشهد به‬
‫عنوان وضعيت پايه انتخاب شده و ساير مناطق به ترتيب با متغير هاي ‪ Khaf ،Torbatjam‬و ‪ Taybad‬وارد‬
‫الگو مي شود‪ .‬در اين صورت چنانچه مقادير هر سه ناحيه برابر صفر باشد نشان دهنده شهرستان مشهد‪ ،‬اگر‬
‫متغير ‪ Torbatjam‬برابر يک باشد و ساير متغيرها صفر باشند نشان دهنده تربت جام و اگر متغير ‪ Khaf‬برابر‬
‫يک باشد و ساير متغيرها صفر باشد نشان دهنده شهرستان خواف و‬
‫در نهايت اگر متغير ‪ Taybad‬برابر با يک و ساير متغير ها صفر باشد نشان دهنده شهرستان تايباد خواهد بود‪.‬‬
‫• به عبارت ساده تر براي هر شهرستان يک متغير کيفي تعريف شده است که مقدار يک‪ ،‬نشان دهنده برداشت‬
‫در آن شهرستان و مقدار صفر نشان دهنده برداشت در يک شهرستان ديگر مي باشد‪ .‬براي هر مشاهده حداکثر‬
‫يک متغير برابر با يک مي شود و ساير مناطق صفر است‪ .‬همانطور که قبال گفته شد اگر مقدار هر سه متغير‬
‫صفر باشد نشان دهنده شهرستان پايه يعني مشهد است‪.‬‬
‫• به همين ترتيب براي واريته گندم که شامل چهار رقم فالت‪ ،‬روشن‪ ،‬سرداري و گاسكوژن است‪ ،‬واريته فالت به‬
‫عنوان واريته پايه انتخاب شده و ارقام روشن‪ ،‬سرداري و گاسکوژن به وسيله متغيرهاي کيفي ‪، Roshan‬‬
‫‪ Sardary‬و ‪ Gaskojen‬وارد الگو شده است‪ .‬مدل هاي کمباين شامل جاندير و سهند ‪ S68‬است که به وسيله‬
‫يک متغير کيفي با نام ‪ Model‬وارد الگو شده است‪ .‬مقدار يک نشان دهنده استفاده از کمباين جاندير و مقدار‬
‫صفر نشان دهنده کمباين ‪ S68‬است‪ .‬نوع کشت شامل دو وضعيت آبي و ديم است که به وسيله متغير‬
‫‪ Abideym‬مشخص شده است مقدار يک نشان دهنده کشت آبي و مقدار صفر نشان دهنده کشت ديم است‪.‬‬
‫• به اين ترتيب متغيرهاي مستقل کيفي شامل منطقه‪ ،‬واريته گندم‪ ،‬نوع کشت و مدل کمباين وارد الگو ميشوند‪،‬‬
‫ساير متغيرها شامل عمر کمباين‪ ،‬تاريخ برداشت و ساعت برداشت متغيرهاي کمي هستند که به ترتيب با نام هاي‬
‫‪ Saat ، Tarikh ، Omr‬معرفي ميشوند‪.‬‬
‫• متغير ‪ Omr‬برحسب سال‪ ،‬متغير ‪ Tarikh‬برحسب شماره روز از ابتداي سال ‪ 84‬و متغير ‪ Saat‬برحسب فاصله‬
‫زماني از ساعت ‪ 12‬شب که مقداري بين صفر تا يک مي باشد در نظر گرفته شده است‪.‬‬
‫معنيداري کلي رگرسيوني با استفاده از آزمون ‪ F‬و معني داري ضرايب با استفاده از آزمون ‪ t‬بررس ي ميشود‪.‬‬
‫رگرسیون بر روی متغير وابستة موهومی‬
‫• در مدلهای رگرسیونی دارای متغير موهومی‪ ،‬این فرض ضمنی وجود داشت که‬
‫متغيرهای توضیحی میتوانند کمی‪ ،‬کیفی یا ترکیبی از آن دو باشند‪ .‬در حالیکه‬
‫متغير به هر حال بایستی قابل اندازهگيری کمی باشد‪.‬‬
‫• در این قسمت مدلهای رگرسیونی مورد نظر قرار میگيرند که در آنها متغير‬
‫وابسته یا تابع‪ ،‬خود ماهیتا بیانگر دو گروه است که هر یک مقادیر ‪ 0‬و ‪ 1‬را‬
‫اختیار میکنند‪.‬‬
‫عموماًًًً برای تخمين این مدلها سه روش وجود‬
‫دارد‪:‬‬
‫‪.1‬‬
‫مدل احتمال خطی )‪linear probability model (LPM‬‬
‫‪.2‬‬
‫‪.3‬‬
‫مدل الجیت (‪)Logit‬‬
‫مدل پروبیت (‪)Probit‬‬
‫مدلهای معادالت همزمان‬
‫• بسیاری از روابط آماری به وسیلة مدلهای تک معادلهای قابل تبیين هستند‪ .‬در این‬
‫مدلها یک متغير (متغير وابسته) به عنوان تابعی خطی از یک یا چند متغير دیگر‬
‫(متغيرهای توضیحی) درنظر گرفته میشوند‪ .‬به این ترتیب به طور ضمنی فرض بر این‬
‫ْ‬
‫است که رابطة علی (درصورت وجود بين دو متغير ‪ x‬و ‪ y‬یکطرفه میباشد یعنی‬
‫متغيرهای توضیحی حکم علت و متغير وابسته حکم معلول را دارا میباشد‪.‬‬
‫• اما مواردی وجود دارد که با جریانی دوطرفه از رابطة علی بين متغيرها مواجهیم یعنی‬
‫یک متغير در عين تأثيرگذاری بر متغير(های) دیگر‪ ،‬از آن (آنها) نيز تأثير میپذیرد‪ .‬بدیهی‬
‫است در این حالت‪ ،‬تحلیل رگرسیونی قبل (‪ )OLS‬برای مطالعة چنين وضعی‬
‫ا‬
‫مناسب نخواهد بود چرا که دو متغير متقابال بهم وابستهاند‪ .‬به عبارت دیگر در این‬
‫حالت به دو معادله احتیاج خواهیم داشت و همين ضرورت است که ما را متوجه‬
‫مبحث معادالت همزمان میکند‪.‬‬
‫• اگر در این حالت از سایر معادالت در سیستم چشمپوش ی نماییم و‬
‫پارامترهای هر معادله را به وسیلة روش ی مانند حداقل مربعات معمولی‬
‫تخمين بزنیم‪ ،‬این تخمينها نه تنها تورشدار بلکه ناسازگار نيز خواهند بود‬
‫چون یکی از فروض قاطع روش ‪ ، OLS‬داشتن توزیع مستقل متغيرهای‬
‫توضیحی از جزء اخالل استوکاستیک است که در معادالت همزمان نقض‬
‫میشود‪.‬‬
‫• در این حالت از روشهای زیر استفاده میشود‪:‬‬
‫•‬
‫•‬
‫•‬
‫•‬
‫روش حداقل مربعات دو مرحله (‪)2SLS‬‬
‫روش حداقل مربعات سهمرحلهای (‪)3SLS‬‬
‫روش حداقل مربعات سه مرحلهای تکراری (‪)I3SLS‬‬
‫روش حداکثر راستنمایی‬
‫• روش حداکثر راستنمایی با اطالعات محدود (‪)LIML‬‬
‫• روش سیستمی حداکثر راستنمایی با اطالعات کامل (‪)FIML‬‬
‫تحلیل مسير‬
‫در حوزة مطالعات اجتماعي و اقتصادي‪ ،‬روشهاي تحليل چندمتغيرة زيادي وجود دارند‬
‫كه به بررس ي اثرات و روابط بين متغيرهاي مورد مطالعه ميپردازند‪.‬‬
‫اين روشها عمدتاً اثرات مستقيم يك متغير بر متغير ديگر را مورد بررس ي قرار ميدهد‪.‬‬
‫اما در اين ميان تحليل مسير از جمله تكنيكهاي چندمتغيره است كه عالوه بر بررس ي‬
‫اثرات مستقيم متغيرهاي مستقل بر متغير وابسته‪ ،‬اثرات غيرمستقيم اين متغيرها را‬
‫نيز مدنظر قرار ميدهد و روابط بين متغيرها را مطابق با واقعيتهاي موجود در تحليل‬
‫وارد ميكند و با بيان منطقي‪ ،‬روابط و همبستگي مشاهدهشدة بين آنها را تفسير‬
‫ميكند‪.‬‬
‫خاستگاه تحلیل مسير‬
‫• توسط ‪ Sewell Wright‬توسعه یافت‪.‬‬
‫‪Formulated in series of papers published in 1918, 1921, 1934, 1960‬‬
‫• برای استخراج اثرات مستقیم و غيرمستقیم در بين متغيرها ایجاد شد‪.‬‬
‫• تحلیل مسير با ارتباطات تبعی در بين متغيرها سرو کار دارد‪.‬‬
‫• اصل اساس ی موردنظر در تحلیل مسير این است که هر ضریب‬
‫همبستگی بين دو متغير را میتوان به مجموعهای از مسيرها تجزیه‬
‫کرد‪.‬‬
‫• استفاده از تکنیک تحلیل مسير مستلزم قبول پیشفرض ی است مبنی‬
‫بر اینکه روابط بين متغيرهایی که حداقل در مقیاس شبهفاصلهای‬
‫هستند به طور خطی با افزایش متغيرها اضافه میگردد‪ .‬هر متغير‬
‫وابسته بر اساس اثرات متغيرهای قبلی در دیاگرام مسير و متغير‬
‫باقیمانده مورد تحلیل و تبیين قرار میگيرد‪.‬‬
‫تجزیة همبستگی‬
‫• همبستگی = اثرات مستقیم ‪ +‬اثرات غيرمستقیم‬
‫ّ‬
‫براي ساختن يك مدل دربحث تحليل مسير‪ ،‬ده شرط مطرح شده است كه به كمك آنها‪ ،‬امكان تجزيه و تحليل علي فراهم‬
‫ّ‬
‫ميگردد‪ .‬درده شرط موردبحث‪ ،‬هفت شرط اول مدل تئوريكي مناسبي را براي تجزيه وتحليل واستنتاج علي فراهم ميسازد‪:‬‬
‫‪ .1‬بيان رسمي تئوري در قالب مدل ساختاري‬
‫‪ .2‬وجود منطق تئوريكي براي فرضيههاي علي‬
‫‪ .3‬معيننمودن نظم علي‬
‫‪ .4‬مشخصنمودن جهت روابط علي‬
‫‪ .5‬نوشتن معادالت توابع‬
‫‪ .6‬مشخصنمودن مرزهاي مدل‬
‫‪ .7‬ثبات مدل ساختاري‬
‫‪ .8‬عملياتيكردن متغيرها‬
‫‪ .9‬تأييد تجربي معادالت كاركردي‬
‫‪ .10‬برازش مدل ساختاري با دادههاي تجربي‬
‫درتحليل مسيري به منظور بررس ي روابط علت و معلولي بين متغيرها الزم است براي عيني شدن آنها و جلوگيري ازبروز‬
‫اشتباهات‪ ،‬ازنمودارهاي مسيري استفاده نمودكه اين كاررا ميتوان طي مراحل زيرنشان داد‪:‬‬
‫الف‪ -‬تعيين متغيرها‪ :‬پيش از هرچيز بايد هريك از متغيرهاي مورد بررس ي به‬
‫لحاظ نقش ي كه در سيستم ايفا مينمايند‪ ،‬مشخص شده باشند‪ .‬ازاين‬
‫نظر دو نوع متغير وجوددارد‪:‬‬
‫متغيربرونزا‪ :‬به متغيرهايي از مجموعة متغيرهاي مورد بررس ي اطالق ميگردد‬
‫كه تحتتأثير ساير متغيرها قرار نداشته باشند‪.‬‬
‫متغيرهايدرونزا‪ :‬به متغيرهايي ازمجموعه متغيرهاي موردبررس ي اطالق‬
‫ميگردد كه تحتتأثير يك يا چند متغير ديگر قرارداشته باشند‪.‬‬
‫انواع مدلهای مسيری‬
‫در تحليل مسيري با دو نوع مدل سروكار داريم (آذر‪:)1380 ،‬‬
‫‪ -1‬مدلهاي بازگشتي‪ :‬به مدلهايي گفته ميشود كه در بين هيچ يك از متغيرهاي مورد بررس ي‪،‬‬
‫رابطة دوطرفه يا متقابل وجود نداشته باشد‪.‬‬
‫‪ -2‬مدلهايغيربازگشتي‪ :‬يعني مدلهايي كه درآنها رابطة بين برخي ازمتغيرها به صورت دوطرفه‬
‫باشد‪.‬‬
‫مدلهای مسيری بازگشتی‬
‫ارتباطات علی یکطرفه میباشند‪.‬‬
‫مدل غيربازگشتی‬
‫ارتباطات علی دوطرفه هستند‬
‫معنی مدلهای مسيری‬
‫• فرض بر این است که مدلهای مسيری نشاندهندة فرضیههای علی میباشند‪.‬‬
‫• یک مدل مسيری معنیدار به معنی علیت نمیباشد‪.‬‬
‫• بلکه با استفاده از دادههای تجربی از یک مدل برای آزمون علیت استفاده نمود‪.‬‬
‫اثرات غيرمستقیم و مستقیم‬
‫• دو راهی که یک متغير پیشبینیکننده ممکن است بر یک منغير واکنش تأثير بگذارد‪.‬‬
‫• اول یک اثر مستقیم متغير ‪ x‬بر روی متغير ‪y‬‬
‫‪x1  y‬‬
‫• دوم یک اثر غيرمستقیم متغير ‪ x‬بر روی ‪ y‬از طریق یک متغير پیشبینیکنندة دیگر‪.‬‬
‫نمودارمسيردرونداد درمطالعة رضایت شغلی‬
‫• بنابر آنچه گفته شد‪ ،‬پیکانها نشاندهندۀ پیوندهای علی مورد انتظار بين متغيرهاست این‬
‫مدل از چپ به راست حرکت میکند تا از حجیت علی متغيرهائی را که به چپ نزدیکتر‬
‫هستند را منعکس سازد‪ ،‬هر معرف نماد یک مسير علی و بنابراین یک ضریب مسير است‬
‫که باید محاسبه شود‪.‬‬
‫• بر پایه این مدل مالحظه میکنیم که‪:‬‬
‫•‬
‫•‬
‫•‬
‫•‬
‫سن بر رضایت شغلی هم اثر مستقیم (‪ ) P1‬و هم اثر غيرمستقیم دارد‪.‬‬
‫سن به گونه مستقیم بر درآمد اثر میگذارد (‪ )P5‬که به نوبه خود در رضایت اثر دارد (‪ )P6‬و بر‬
‫خودفرمانی نيز اثر میگذارد (‪ )P2‬که خود بر درآمد اثر مستقیم دارد (‪ )P4‬و به نوبه خود رضایت را‬
‫زیر نفوذ قرار میدهد (‪.)P6‬‬
‫عالوه بر این‪ ،‬خودفرمانی نيز بر رضایت شغلی هم اثر مستقیم (‪ ،)P3‬هم از طریق تأثير بر درآمد (‪)P4‬‬
‫بر آن اثر غيرمستقیم دارد (‪)P6‬‬
‫سرانجام‪ ،‬درآمد بر رضایت اثر مستقیم دارد (‪ )P6‬اما بر آن اثر غيرمستقیم ندارد‪.‬‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫مشاهده میشود که درآمد‪ ،‬خودفرمانی و رضایت شغلی‬
‫دارای پیکانهای دیگریاند که مبدأ آنها خارج از حیطه آن‬
‫متغيرهاست که مستقیم به آنها وصل شدهاند‬
‫این پیکانها معرف واریانس تبیين نشده برای هر متغير‬
‫میباشند‬
‫بنابراین پیکان ‪ e1‬به خودفرمانی (‪ )P7‬بیانگر مقدار‬
‫واریانس خودفرمانی است که از سوی سن‪ ،‬تبیين‬
‫نمیشود‪.‬‬
‫پیکان ‪ e2‬به رضایت شغلی (‪ )P8‬معرف مقداری از‬
‫خطای ناش ی از رضایت شغلی است که از سوی سن‪،‬‬
‫خودفرمانی و درآمد توجیه نمیشود‪.‬‬
‫سرانجام پیکان ‪ e3‬به درآمد (‪ )P9‬معرف مقداری از‬
‫واریانس درآمد است که از سوی سن و خودفرمانی تبیين‬
‫نشده است‪.‬‬
‫• این سه جملۀ خطا نشاندهندۀ این واقعیت است که‬
‫متغيرهای دیگری وجود دارند که بر خودفرمانی و درآمد‬
‫و رضایت شغلی اثر دارند اما در این نمودار مسير‬
‫گنجانده نشده است‪.‬‬
‫• تحلیل مسير اساسا با برآورد مقدار اتصاالت بين متغيرها و کاربرد این برآوردها به منظور بدست آوردن‬
‫اطالعاتی دربارۀ فرایندهای علی زیربنائی سروکار دارد‪،‬‬
‫• هرچند این برآوردها را میتوان از طریق روشهای گوناگونی بدست آورد اما سادهترین راه برای محاسبۀ‬
‫آنها‪ ،‬کاربرد روش رگرسیون معمولی است‬
‫• مشروط بر آن که مفروضههای رگرسیون بهویژه این مفروضه که متغير پسماند در معادلۀ ساختاری با‬
‫متغيرهای تبیينکننده در آن معادله ناهمبسته است برقرار باشد‬
‫• برای بدستآوردن برآوردهای ضرائب اصلی مسير کافی است هر متغير وابسته (درونزا) به متغيرهائی که‬
‫مستقیما تحت تأثير آن است بازگشت داده شود‪ .‬به بیان دیگر برای برآوردهای هر یک از مسيرهای‬
‫مشخص شده‪ ،‬ضرائب استانداردشده رگرسیون (یا ضرائب مسير) محاسبه میشود‪ .‬این ضرائب از‬
‫طریق برقراری معادلههای ساختاری یعنی معادلههائی که ساختار روابط مفروض در یک مدل را مشخص‬
‫میسازد به دست میآیند‪.‬‬
‫•‬
‫بدین ترتیب‪ ،‬برای نمودار مسير شکل الزم است سه معادله ساختاری‪ ،‬یکی برای خودفرمانی‪،‬‬
‫یکی برای رضایت شغلی و یکی برای درآمد (هر یک به عنوان متغير وابسته و متغيرهائی که در‬
‫معادله آمده به عنوان متغير وابسته) محاسبه شود‪.‬‬
‫‪( + e1‬سن) ‪ = x1‬خودفرمانی‬
‫‪.1‬‬
‫‪( + e2‬درآمد) ‪( + x3‬خودفرمانی) ‪( + x2‬سن) ‪ = x1‬رضایت شغلی‬
‫‪.2‬‬
‫‪( + e3‬خودفرمانی) ‪( + x2‬سن) ‪ = x1‬درآمد‬
‫‪.3‬‬
‫بدین ترتیب‪ ،‬برای نمودار مسير شکل الزم است سه معادله ساختاری‪ ،‬یکی برای خودفرمانی‪ ،‬یکی برای رضایت شغلی و یکی برای درآمد (هر‬
‫یک به عنوان متغير وابسته و متغيرهائی که در معادله آمده به عنوان متغير وابسته) محاسبه شود‪.‬‬
‫‪( + e1‬سن) ‪ = x1‬خودفرمانی‬
‫‪.1‬‬
‫‪( + e2‬درآمد) ‪( + x3‬خودفرمانی) ‪( + x2‬سن) ‪ = x1‬رضایت شغلی‬
‫‪.2‬‬
‫‪( + e3‬خودفرمانی) ‪( + x2‬سن) ‪ = x1‬درآمد‬
‫‪.3‬‬
‫ضریب استاندارد برای سن در معادله (‪ )1‬مقدار ‪ :2P‬ضرائب سن‪ ،‬خودفرمانی و درآمد در معادله (‪ )2‬به‬
‫ترتیب مقادیر ‪ 2P ، 1P‬و ‪ 3P‬؛ و سرانجام ضرائب سن و خودفرمانی در معادله (‪ )3‬به ترتیب مقادیر‬
‫‪ 5P‬و ‪ 4P‬را به دست می دهد‪ .‬بنابراین به منظور محاسبه ضرایب مسير‪ ،‬ضرورت دارد سه معادله‬
‫را به عنوان معادلههای رگرسیون چندمتغيری در نظر بگيریم و ضرائب حاصل از آنها ضرائب مسير را‬
‫بهدست میدهد‪.‬‬
‫• ‪ .‬از مقادیر عرض از مبدأ در هر مورد صرفنظر و سه جمله خطا از طریق ریشه دوم‬
‫محاسبه میشود‪.‬‬
‫‪1  R2‬‬
‫• باید توجه داشت که چون به منظور تکمیل مسيرها الزم است همه ضرائب مسير‬
‫محاسبه شود بنابراین نباید از روش رگرسیون گام به گام استفاده شود‪.‬‬
‫• چون ضرایب مسير ضرایب استاندارد‬
‫هستند‪ ،‬این امکان وجود دارد که آنها را‬
‫به گونة مستقیم با هم مقایسه کنیم‪.‬‬
‫میتوان دید که سن اثر مستقیم اما‬
‫بسیار کوچک و منفی در رضایت شغلی‬
‫دارد در حالیکه اثر غيرمستقیم آن مثبت‬
‫و قابل توجه است‪.‬‬
‫• بسیاری از پژوهشگران مایلند اثر کلی یک متغير را بر متغير دیگر محاسبه کنند برای مثال اثر‬
‫کلی سن بر رضایت شغلی از طریق جمع اثر مستقیم (‪ )- 08/0‬با مجموع آثار غيرمستقیم آن به‬
‫دست میآيد‪ .‬آثار غيرمستقیم از طریق حاصلضرب ضرائب هر مسير سن به رضایت شغلی به‬
‫طریق زیر محاسبه میشود‪:‬‬
‫• برای مسيرهای سن به درآمد به رضایت شغلی ‪)57/0× 47/0( = 27/0‬‬
‫• برای مسيرهای سن به خودفرمانی به رضایت شغلی ‪)28/0 × 58/0( = 16/0‬‬
‫• برای مسيرهای سن به خودفرمانی به درآمد به رضایت شعلی ‪)28/0 × 22/0× 47/0( = 03/0‬‬
‫• بنابراین جمع آثار عيرمستقیم سن بر رضایت شغلی ‪ 27/0 + 16/0 + 03/0 = 46/0‬میباشد‪.‬‬
‫• و برای اثر کلی سن بر رضایت شغلی باید اثر مستقیم آن را با کل آثار غيرمستقیم آن جمع کنیم که حاصل آن‬
‫برابر با ‪ – 08/0 + 46/0 = 38/0‬خواهد بود‪.‬‬
‫• این تمرین نشان داد که اثر غيرمستقیم سن بر رضایت هماهنگ با اثر مستقیم آن نیست زیرا اثر مستقیم آن‬
‫نزدیک به صفر و اثر غيرمستقیم آن مثبت است‪.‬‬
‫• برخی اوقات‪ ،‬جهت علی بين همه متغيرها را در نمودار مسير نمیتوان تعیين کرد‪ .‬برای مثال‪ ،‬چنان که در شکل‬
‫مشاهده میشود خودفرمانی و ماهیت کار همبستهاند‪ ،‬یعنی بين آنها ارجحیت علی یکی بر دیگری وجود ندارد‪،‬‬
‫و اتصال بين آنها به وسیله یک پیکان دوسره نشان داده شده است‪ .‬هر متغير دارای یک اثر مستقیم (‪ P5‬و‬
‫‪ ،)P4‬و یک اثر غيرمستقیم بر غیبت از طریق رضایت شغلی است‪ :‬خودفرمانی به رضایت (‪)P1‬‬
‫• و رضایت به غیبت (‪)P3‬؛ ماهیت کار به رضایت (‪ )P2‬و رضایت به غیبت (‪ .)P3‬به منظور محاسبه ضرایب‬
‫الزم‪ ،‬نیاز به ضریب ‪ r‬پيرسون برای خودفرمانی و ماهیت کار و نيز نیاز به ضرایب استانداردشده دو معادله زیر‬
‫داریم‪:‬‬
‫‪( + e1‬ماهیت کار) ‪( + x2‬خودفرمانی) ‪ =a + x1‬رضایت‬
‫‪( + e2‬رضایت) ‪( + x3‬ماهیت کار) ‪( + x2‬خودفرمانی) ‪ = x1‬غیبت‬
‫• پس از آن میتوانیم کل آثار علی را هم برای متغيرهای خودفرمانی و‬
‫ماهیت کار‪ ،‬و هم برای رضایت محاسبه و با هم مقایسه کنیم‪ .‬اثر کلی‬
‫میتواند از جمع اثر مستقیم با کل آثار غيرمستقیم تشکیل شود‪ .‬اثر کلی‬
‫این سه متغير بر غیبت عبارت است از‪:‬‬
‫• (‪ = )p5( + )p1()p3‬اثر کلی خودفرمانی‬
‫• (‪ = )p4( + )p2()p3‬اثر کلی ماهیت کار‬
‫• ‪ = p3‬اثر کلی رضایت شغلی‬
‫مدل غيربازگشتی‬
‫• تفسير ارتباطات‬
‫•‬
‫•‬
‫•‬
‫•‬
‫‪ X1‬بازگشتی و علی وابسته به ‪ x4‬میباشد‬
‫‪ X1‬ممکن است به طور غيرمستقیم از طریق ‪ x4‬به ‪ 4‬وابسته باشد‬
‫‪ X4‬ممکن است به طور غيرمستقیم از طریق ‪ x1‬به ‪ 1‬وابسته باشد‬
‫‪ 1‬ممکن است به ‪ 4‬وابسته باشد‪.‬‬
‫• اگر این وضعیت وجود داشته باشد ‪...‬‬
‫• فروض ‪ OLS‬نقض میشوند‪ .‬در رگرسیون به روش ‪ OLS‬فرض بر ایت است‬
‫که ارتباطات یکطرفه بوده و جمالت خطا از یکدیگر مستقل میباشند‪.‬‬
‫در اینحالت باید از روش ‪ 2SLS‬یا روش حداقل مربعات دومرحلهای استفاده نمود‪.‬‬
‫تحلیل عاملی‬
Factor Analysis
‫تحليل عاملي از تعدادی فنون آماری ترکیب شده و هدف آن ساده تر کردن مجموعههای‬
‫پیچیدة دادههاست‬
‫تعریف ماتریس همبستگی‬
‫•‬
‫ماتریس همبستگی مجموعهای از ضرایب‬
‫همبستگی بين تعدادی از متغيرها است‪:‬‬
‫‪.1‬‬
‫‪.2‬‬
‫‪.3‬‬
‫‪.4‬‬
‫فرض بر این است که هر متغير با خودش‬
‫همبستگی کامل دارد(عناصری که در‬
‫قطرهای ماتریس همبستگی قرار میگيرند در‬
‫فهم و تفسير تحلیلهای عاملی مهم هستند)‪.‬‬
‫زواید زیادی در ماتریس وجود دارد‪ ،‬بدین‬
‫معنا که هر ضریب دوبار در ماتریس ظاهر‬
‫میشود‪.‬‬
‫تحلیل عاملی برای سادهکردن چنين‬
‫ماتریسهایی طراحی شده است‬
‫در یک ماتریس بزرگ از همبستگیها‪ ،‬منطقی‬
‫است بپرسیم که چه چيزی ممکن است این‬
‫همبستگیها را تبیين کند‪.‬‬
‫ا‬
‫• تعریف عامل‪ :‬اساسا عامل‪ ،‬بعد یا سازهای است که‬
‫روابط بين مجموعهای متغيرها را به صورت خالصه‬
‫مطرح میکند بنا به عقیدة رویس (‪ ،)1963‬عامل‪،‬‬
‫ا‬
‫سازهای است که عمال از روی (یا بوسیلة) بارهای‬
‫عاملیاش تعریف میشود‪.‬‬
‫• تعریف بارهای عاملی‪ :‬همبستگی یک متغير با یک عامل‬
‫را بار عاملی گویند‪ .‬فرض کنید کجموعهای از‬
‫آزمونهای توانایی و پیشرفت تحصیلی را تحلیل عاملی‬
‫کردهایم‪ .‬این مثال‪ ،‬سه عامل را در یک نوع تحلیل‬
‫عاملی از تواناییها نشان میدهد‪ .‬عاملهای دیگری نيز‬
‫ممکن است وجود داشته باشد اما اینها ماهیت عوامل‬
‫و بارهای عاملی را بهتر توضیح میدهند‪.‬‬
‫متغير‬
‫عامل‪1‬‬
‫عامل‪2‬‬
‫عامل‪3‬‬
‫هوش‬
‫‪82/0‬‬
‫‪63/0‬‬
‫‪44/0‬‬
‫هوشبهر‬
‫غيرشفاهی‬
‫‪78/0‬‬
‫‪35/0‬‬
‫‪51/0‬‬
‫لغات‬
‫‪68/0‬‬
‫‪64/0‬‬
‫‪21/0‬‬
‫‪...‬‬
‫‪...‬‬
‫‪...‬‬
‫‪...‬‬
‫‪...‬‬
‫‪...‬‬
‫‪...‬‬
‫‪...‬‬
‫تاریخ‬
‫‪32/0‬‬
‫‪68/0‬‬
‫‪17/0‬‬
‫مهندس ی‬
‫‪25/0‬‬
‫‪43/0‬‬
‫‪12/0‬‬
‫فرانسه‬
‫‪49/0‬‬
‫‪09/0‬‬
‫‪60/0‬‬
‫فایده تحلیل عاملی‬
‫• به رغم اینکه میدانیم تحلیل عاملی برای خالصهکردن ماتریسهای‬
‫همبستگی به کار برده میشود‪ ،‬هنوز یک سؤال مهم باقی است و آن این‬
‫است که با تحلیل عاملی چه کارهایی را میتوان انجام داد و این فن‬
‫چگونه میتواند سودمند واقع گردد؟‬
‫• برای پاسخ به این پرسش‪ ،‬باید به این نکته توجه کرد که هنگام کاربرد‬
‫این روش باید بين تحلیل اکتشافی (‪ )exploratory‬و تأییدی‬
‫(‪ )confirmatory‬تمایز قائل شد‪.‬‬
‫تحلیل عاملی اکتشافی‪ :‬یک مثال‬
‫• هدف از تحلیل عاملی اکتشافی‪ ،‬بررس ی یک حوزه (‪ )field‬برای کشف ابعاد یا سازههای اصلی آن حوزه‬
‫است‪ .‬به همين علت بود که اسپيرمن (‪ )1904‬تحلیل عاملی را در حوزه تواناییهای انسان بوجود آورد‪ .‬او سعی‬
‫کرد به این سؤال که چرا بين تواناییهای انسان همیشه همبستگی مثبتی وجود دارد پاسخ دهد‪( .‬در تحلیل‬
‫عاملی تواناییها‪ ،‬این موضوع صورتبندی مثبت نامیده میشود بدین معنا که تمام همبستگیهای ماتریس‬
‫همبستگی‪ ،‬مثبت است)‪.‬‬
‫• به طور کلی در تحلیل عاملی اکتشافی‪ ،‬قاعده بر این است که محققان تا حدامکان متغيرهای بسیاری را وارد‬
‫تحلیل کنند تا ببینند کدام یک از آنها روی عامل موردنظر بار عاملی دارند‬
‫تحلیل عاملی تأییدی‬
‫ا‬
‫ا‬
‫• در ابتدا تحلیل عاملی صرفا یک روش آماری اکتشافی بود اما اخيرا این امکان بوجود‬
‫آمده که با استفاده از تحلیل عاملی‪ ،‬فرضآزمایی کرد‪ .‬این روش که بوسیلة یورس‬
‫کوگ (‪ )1973‬ابداع شده‪ ،‬تحلیل تأییدی نامیده میشود‪.‬‬
‫اشکاالت وارده بر تحلیل عاملی‬
‫‪.1‬‬
‫‪.2‬‬
‫‪.3‬‬
‫ایراد اصلی وارد بر تحلیل عاملی این است که بینهایت راه حل ریاض ی معادل وجود دارد‪.‬‬
‫ا‬
‫تحلیلگران عاملی غالبا در تعیين مهمترین عالمتهای یک حوزه با هم اختالف دارند‪.‬‬
‫تکرار تحلیلهای عاملی دشوار است‪.‬‬
‫انجام تحلیل عاملی‬
‫• يكي از آمارههايي كه محقق از طريق آن قادر به تعيين و تشخيص مناسببودن دادهها براي‬
‫تحليل عاملي ميباشد‪ ،‬آزمون ‪ KMO‬ميباشد كه مقدار آن همواره بين ‪ 0‬و ‪ 1‬درنوسان‬
‫است‪ .‬درصورتيكه مقدار ‪ KMO‬كمتر از ‪ 5/0‬باشد‪ ،‬دادهها براي تحليل عاملي مناسب‬
‫نخواهند بود‪ .‬اگرمقدار آن بين ‪ 5/0‬تا ‪ 69/0‬باشد‪ ،‬ميتوان با احتياط بيشتري به تحليل‬
‫عاملي پرداخت‪ .‬اما درصورتيكه مقدار آن بزرگتر از ‪ 7/0‬باشد‪ ،‬همبستگيهاي موجود در بين‬
‫دادهها براي تحليلعاملي مناسب خواهند بود‪.‬‬
‫‪• Kaiser-Meyer-Olkin‬‬
‫دررابطه با حجم نمونه نيز بايد تأكيد كرد كه تعداد نمونه نبايد كمتر از‬
‫ا‬
‫ر‬
‫‪ 50‬مورد باشد و ترجيحا حجم نمونه را بايد به بيش از ‪ 100‬مو د‬
‫افزايش داد‪ .‬اولين تصميم در بكارگيري تحليل عاملي‪ ،‬محاسبة ماتريس‬
‫همبستگي است‪ .‬براي اينكار بايد مشخص شود كه آيا هدف‪ ،‬محاسبة‬
‫همبستگي بين متغيرهاست يا بين پاسخگويان‪ ،‬اگر هدف مطالعه‪،‬‬
‫تلخيص متغيرها باشد‪ .‬در اين صورت بايد همبستگي بين متغيرها‬
‫محاسبه شود‪ .‬اين روش يكي از تكنيكهاي عمومي و پركاربرد در مطالعات‬
‫ميباشد كه به تحليل عاملي نوع ‪ R‬معروف است‪.‬‬
‫• در تحليل عاملي مدلهاي مختلفي وجود دارد‬
‫• كه از ميان آنها دو روش‬
‫• تحليل مؤلفههاي اصلي‬
‫• و تحليل عاملي مشترك‬
‫• از پركاربردترين اين روشهاست‪.‬‬
‫• مدل تحليل مؤلفههاي اصلي زماني مورد استفاده قرار ميگيرد؛ كه‬
‫هدف محقق تلخيص متغيرها و دستيابي به تعداد محدودي عامل‬
‫براي اهداف پيشبيني باشد‪.‬‬