Transcript Document
1.基礎概念
1.1 ディペンダブルなシステムとは
Dependability
広い意味で,信頼性を表す用語
Fault Avoidance
障害の原因となるフォールト(故障)が発生しないようにす
るというアプローチ
Fault Tolerance (耐故障性)
フォールトが発生しても障害に至らないようにするという
アプローチ
リレー,真空管
接点の故障
→ 誤り検出符号による
フォールトの検出と
再実行
熱による故障
→ ヒータ電圧の低電圧化
(長寿命化)
1.2 用語
Failure, Fault, Error
Fault (故障,フォールト)
構成要素の異常.障害,誤りの原因.
Error (誤り,エラー)
システムの構成要素の異常状態.フォールトが顕在化し
たもの.障害の原因.
Failure (障害)
システムが期待されるサービス(Service)を提供しなくな
ること.
フォールト,誤り,障害,エラーレイテ
ンシ
System
x=0
→ OK
x
Service
x=1
→ Error
0
Failure
Fault (0縮退故障, Stuck-at-0 Fault)
Fault
Error
Error Latency
Failure
time
故障モデル fault model
フォールトのモデルのこと
故障のモデルが無いと,対策も立てられない
実際の故障を適切に表現していることが必要
例.
縮退故障 (ゲートレベル) 5章
クラッシュ故障(プロセスレベル) 3章
フォールトトレランスのレベル(ユーザ
の視点から)
静的マスク Static Masking
動的マスク Dynamic Masking
ファイルセイフ Fail Safe
静的マスク(Static Masking)の例
Triple Modular Redundancy (TMR)
Module
Input
Module
Module
Voting
Element
Output
多数決を
採る
Majority
Faultはユーザに透過的(transparent)
動的マスク(Dynamic Masking)の例
単純な動的冗長系 Dynamic Redundancy
Module
Module
Module
Module
Module
Module
Module
Module
…
…
…
Spare
Module
Reconfiguration
障害が一時的に顕在化
フェイルセイフ(fail safe)
障害が起きても安全な出力・状態に移行
安全
障害
危険
1.3 評価尺度
まえおき
Random variable (確率変数)
例.X (0 ≤ X ) : 障害までの時間を表す確率変数
Cumulative distributed function (CDF, 確率分布
関数)
F(t)
Probability density function (pdf, 確率密度関数)
f(t)
= Pr[X ≤ t]
= fF(t)/dx
Expected Value, Mean (期待値,平均)
E[X]
= 0 t f(t)dt
(ただし,X≥0の場合)
例.指数分布 Exponential
Distribution
指数分布
CDF
F(t)
pdf
f(t)
= 1 – e -l t
= l e -l t
Mean
1/l
f(t) = 2e-2t
F(t) = 1 – e-2t
信頼度 Reliability
Reliability (信頼度)
R(t)
= Pr[X > t]
= 1 – F(t)
Xはシステム障害までの
時間を表す確率変数
F(t)はXに関する確率分
布関数
F(t) = 1 – e-2t
時刻0
R(t) = e-2t
t
X
Failure Rate(障害率)
f(t)Dt
=
t+Dt]でfailureが
起きる確率
[t,
f(t)Dt/R(t)
tで正常な時,
[t, t+Dt]でfailureが
起きる確率
f(t) = 2e-2t
R(t) = e-2t
Failure Rate
l(t) = f(t)/R(t)
時刻tまで無障害で
[t, t +Dt]でfailureが
起きる確率= l(t)Dt
F(t) = 1 – e-2t
[t, t+Dt]
Bathtub Curve
Failure Rate
l(t)
= f(t)/R(t)
Bathtub Curve
典型的なFailure
Rate
F a ilu re ra te
の推移
通常は一定と考えるの l
が自然
Failure Rateが定数lの
とき,F(t)=1-e-lt (指数
分布)
T im e
信頼度
Failure
Rate l(t)が与えられたとき
-0t l(t)dt
R(t) = e
Failure
Rateが定数 lのとき
-lt
R(t) = e
MTTF (Mean Time To Failure)
MTTF (平均障害時間)
E[X]
= 0 t f(t)dt = 0 R(t)dt
Xはシステム障害までの時間を表す確率変数
時刻0
の期待値(expected value)
R(t) = e-ltの場合 (Xが指数分布の場合)
Rate = l
MTTF = 1/l
Failure
参考 Availability (可用度)
ある時刻においてシステムが正常である確率
Instantaneous availability (瞬時アベイラビリティ)
A(t)
= Pr[時刻tでシステムが正常]
障害
修復
障害
修復
t
Xi
Xi+1
Ui
Xi+2
Ui+1
Steady-State Availability (定常アベイラビリティ)
A=
limt→∞ A(t)
MTTR (Mean Time To Repair)と 定
常アベイラビリティ
MTTR (平均修復時間)
MTTR
= E[Ui]
t
Xi
Xi+1
Ui
Steady-State Availability
Xi+2
Ui+1
(定常アベイラビリティ)
A = MTTF / (MTTF + MTTR)