model3 - F.Ramezani
Download
Report
Transcript model3 - F.Ramezani
Computer Modeling
And
Simulation
F.Ramezani
Department of Computer Engineering
Islamic Azad University SARI Branch
Introduction to
Computer Modeling And Simulation
تعیین توزیع داده ها
خالصه اطالعاتی از داده ها
مثال :میانگین I / Oدیسک به معنی ،13واریانس .48
به عالوه ،توزیع داده برای مدل سازی شبیه سازی و یا تحلیل داده بسیار مفید است.
چگونه می توانیم توزیع داده ها را تعیین کنیم؟
هیستوگرام طرح
2
توزیع داده ها
plot
yi is observed, xi is theoretical
If distribution fits, will have line
qi = F(xi), or xi = F-1(qi)
Where F-1?
Sample
Quantile
Normal distribution:
xi = 4.91[qi0.14 – (1-qi)0.14]
Theoretical
Quantile
3
اندازه گیری ارزش های خاص
Accuracy
Mean of measured values
(sample mean)
Resolution
(determined by tools)
True value
(population mean)
4
مقایسه سیستم با استفاده از داده های نمونه
کلمه "نمونه" از همان ریشه کلمه "به عنوان مثال” می آید
به طور مشابه ،یک نمونه یک نظریه را ثابت نمی کند ،بلکه یک مثالی از
آن است
یک بیانیه قطعی می تواند در مورد ویژگی های یک سیستم قطعی ساخته
شده اطالعاتی بدهد
در عوض ،بیانیه احتماالتی در مورد طیف وسیعی از اکثر سیستم ها حرف
میزند
فاصله اطمینان
5
نمونه در مقابل جمعیت
Say we generate 1-million random numbers
mean and stddev .
is population mean
selecting n samples
Sample {x1, x2, …, xn} has mean x, stddev s
x is likely different than !
With many samples, x1 != x2!= …
بطور معمول میانگین داده ها شناخته شده نیست اما میتوان برای یک جمعیت نمونه محاسبه
کرد
6
فاصله اطمینان برای میانگین
محاسبه احتمال میانگین در فاصله ][c1,c2
بطور معمول سطح اطمینان بین90%, 95% or 99%
Prob{c1 < < c2} = 1-
فاصله اطمینان (c1, c2) is
سطح اهمیت is
سطح اطمینان 100(1- ) is
7
قضیه حد مرکزی
به صورت حسی ،قضیه حد مرکزی میگوید
که یک سری از چند متغیر تصادفی مستقل با توزیع یکسان در بینهایت
به سمت یک متغیر تصادفی مشخص میل میکنند.
مجموع و میانگین مقادیر یک نمونه تصادفی nتایی که از یک جامعه آماری انتخاب می شوندبطورتقریبی به یک توزیع نمونه گیری قرینه گرایش دارد.
در قضیه حدمرکزی اگر یک نمونه تصادفی nتایی که از یک جامعه غیرنرمال با میانگین وانحراف معیارانتخاب شود وقتی بزرگ باشد توزیع نمونه گیری تقریبا به صورت نرمال توزیع
خواهد شد و میانگین و انحراف معیار زیر را خواهد داشت:
x¯=x
x¯=x/√n
وقتی nبزرگ شود غیر نرمال به نرمال تبدیل می شود.
در قضیه حد مرکزی هرگاه مجموع و یا متوسط مورد استفاده و اندازه نمونه به قدر کافی بزرگ باشد
انتظار می رود که تخمین زننده دارای یک توزیع نرمال (البته به طور تقریبی) در نمونه گیریهای
8
مکرر باشد.
-1تخمین فاصله ای میانگین جامعه آماریx
اگر از یک جامعه نامحدود نمونه گیری کنیم ،خواهیم داشت:
اگر جامعه نمونه گیری نرمال باشد بدون توجه به اندازه نمونه ¯xدارای توزیع نرمال است.
x¯x
x¯=x/√n
اگر جامعه نمونه گیری غیرنرمال باشد طبق قضیه حد مرکزی اگر نمونه بزرگ باشد
خواهیم داشت:
x¯x
x¯=x/√n
تخمین فاصله ای یک پارامتر جامعه قاعده ای است که می گوید چگونه دو مقدار را بر پایه داده
های نمونه محاسبه کنیم تا ¯ xدر وسط آن قرار گیرد
وقتی تخمین فاصله ای برای پارامتر جامعه آماری بکار رود یک جفت عدد از تخمین زننده
بدست می آید که به آن تخمین فاصله ای ( فاصله اطمینان ) برای پارامتر گویند.
ادامه تخمین فاصله ای میانگین جامعه آماریx
تخمین فاصله ای xمی شود:
±¯x
دقت برآورد :مقدار ثابتی است که به کمک آن حد باال و حد پایین
را می توان تعریف کرد.
ادامه تخمین فاصله ای میانگین جامعه آماریx
سطح اطمینان محقق :همان سطح احتمال تخمین زدن پارامتر
است و یا سطح دلخواه در یک توزیع آماری که xدر آن قرار
می گیرد .مثل سطح اطمینان .%95
سطح خطا
فاصله اطمینان خوب فاصله ای است که با کوچکترین عرض
برآورد در برگیرنده پارامتر باشد.
هرچه nنمونه بزرگتر باشد صحت و دقت در یک فاصله
اطمینان بیشتر و باالتر است
تحمین زن فاصله ای
می خواهیم پارامتر را آنچنان تخمین بزنیم که اختالف و ˆحد از اندازه
کمتر باشد .این حرف با اطمینان همراه است ،یعنی احتمال آن است.
P(|1ˆ
بنابراین فاصله اطمینان در سطح می شود:
ˆˆ
بنابراین حد باال و پایین عبارت خواهد بود از:
(Ļ , Ĺ) =ˆˆ
بطور کل در تخمین زن فاصله ای باید 4مرحله را انجام داد:
-1احتمال قائل شدن برای تخمین زن
-2خطای حدی
-3فاصله اعتماد
-4تخمین فاصله ای
Confidence Interval Example
(Sorted)
CPU Time
1.9
2.7
2.8
2.8
2.8
2.9
3.1
3.1
3.2
3.2
3.3
3.4
3.6
3.7
3.8
3.9
3.9
3.9
4.1
4.1
4.2
4.2
4.4
4.5
4.5
4.8
4.9
5.1
5.1
5.3
5.6
5.9
x = 3.90, stddev s=0.95, n=32
فاصله اطمینان:??
13
معنی فاصله اطمینان
f(x)
Sample
1
2
3
…
Includes ?
yes
yes
no
14
تعیین حجم نمونه
هرچه تعداد نمونه بیشتر ،نرخ اعتماد بیشتر خواهد بود
اما هرچه نمونه ها بیشتر باشند زمان بیشتری نیز نیاز میباشد
هدف این است که با کوچکترین اندازه مجموعه نمونه نرخ درستی بیشتری
داشته باشیم
مجموعه ای کوچک از اندازه گیری های اولیه
به منظور برآورد واریانس
برای تعیین حجم نمونه برای دقت بیشتر
15
Regression
اندازه گیری عملکرد در تمام مقادیر ورودی یک سیستم ،گران (و گاهی اوقات غیر ممکن)
است
در عوض ،اندازه گیری عملکرد برای ورودی های محدود و استفاده از بیش از طیف
وسیعی از مقادیر ورودی برای تولید مدل میتواند آسان باشد
ساخت مدل رگرسیون
16
Linear Regression (1 of 2)
Captures linear relationship between input values and response
Of the form:
y = a + bx
Where x input, y response and we want to know a and b
If yi is measured for input xi, then each pair (xi, yi) can be written:
yi = a + bxi + ei
where ei is error for regression model
17
Linear Regression (2 of 2)
The sum of the errors squared:
SSE = ei2 = (yi - a - bxi)2
Find a and b that minimizes SSE
na + bxi = yi
axi + bxi2 = xiyi
Solving for b gives:
b = nxiyi – (xi)(yi)
nxi2 – (xi)2
Using (1) and solving for a:
a = y – bx
18
Linear Regression Example (1 of 3)
19
File Size Time
(bytes) (sec)
10
50
100
500
1000
5000
10000
3.8
8.1
11.9
55.6
99.6
500.2
1006.1
Develop linear regression model for
time to read file of size bytes
Linear Regression Example (2 of 3)
File Size
(bytes)
10
50
100
500
1000
5000
10000
Time
sec)
3.8
8.1
11.9
55.6
99.6
500.2
1006.1
Develop linear regression model for
time to read file of size bytes
xi = 16,660.0
yi = 1685.3
xiyi = 12,691,033.0
xi2 = 126,262,600.0
x = 2380
y = 240.76
b = (7)(12691033)(16660)(1685.3)
(7)(126262600)– (16660)2
a = 240.76–.1002(2380)
= 2.24
y = 2.24 + 0.1002x
20
Linear Regression Example (3 of 3)
21
File Size Time
(bytes) (sec)
10
50
100
500
1000
5000
10000
3.8
.1
11.9
55.6
99.6
500.2
1006.1
y = 2.24 + 0.1002x
Ex: predict time to read 3k file is 303 sec
ضریب تصمیم وضریب همبستگی
After developing regression model, useful to know how well the regression
equation fits the data
ضریب تصمیم
ضریب همبستگی
Coefficient of Determination
Earlier: SSE = Syy – bSxy
Let: SST = Syy and SSR = bSxy
Now: SST = SSR + SSE
Total variation (SST) has two components
SSR by regression (Sum of Squares Regression)
SSE is model error (distance from line) (sum of squared residuals)
Fraction of total variation explained by model line:
r2 = SSR / SST = (SST – SSE) / SST
ضریب تصمیم
How “good” is the regression model? Roughly:
0.8 <= r2 <= 1
strong
0.5 <= r2 < 0.8
medium
0 <= r2 < 0.5
weak
ضریب همبستگی
Square root of coefficient of determination is the correlation coefficient. Or:
r = Sxy / sqrt(SxxSyy)
Note, equivalently:
r = b sqrt(Sxx/Syy) = sqrt(SSR/SST)
Where b = Sxy/Sxx is slope of regression model line
Value of r ranges between –1 and +1
+1 is perfect linear positive relationship
Change in x provides corresponding change in y
-1 is perfect linear negative relationship
Correlation Example
From Read Size vs. Time model, correlation:
r = b sqrt(Sxx/Syy)
= 0.1002 sqrt(86,611,800 / 869,922.4171)
= 0.9998
Coefficient of determination:
r2 = (0.9998)2 = 0.9996
So, 99.96% by the linear model
Correlation Visual Examples (1 of 2)
(http://peace.saumag.edu/faculty/Kardas/Courses/Statistics/Lectures/C4CorrelationReg.html)
Correlation Visual Examples (2 of 2)
r = 1.0
r = .85
r = -.94
r = .17
(http://www.psychstat.smsu.edu/introbook/SBK17.htm)