Transcript 4/28
クイズ
信頼度 R(t) = e-t/6 のシステムのMTTFを求
めよ
信頼度 R(t) = 3e-t/3 -2e-t/2 のシステムの
MTTFを求めよ
2.誤り検出とマスクによる耐故障化技術
2.1 静的マスク
静的マスク
障害をユーザに気付かせない
例.リレーの多重化
故障モデル
開放故障 (open fault)
閉じない
短絡故障 (short fault)
開かない
リレーの多重化
耐えられる故障は?
リレーの多重化
単一故障
(a)
(c)
(b)
(d)
ポイント:(a), (b)のレベルでも,開放故障と短絡故障にモデ
ル化できる
リレーの多重化
2重故障
(c)
(d)
信頼性解析
E[a]open, E[b]short
aが開放故障する確率
(a)
bが短絡故障する確率
(b)
E[a]short = eshort * eshort
E[a]open = 1 - (1-eopen) * (1-eopen)
E[b]short = 1 - (1-eshort) * (1-eshort)
E[b]open = eopen * eopen
信頼性解析(2)
(c)
(a)
E[a]short = eshort * eshort
(b)
E[a]open = 1 - (1-eopen) * (1-eopen)
E[c]short = E[b]short * E[b]short
E[c]open = 1 - (1-E[b]open) * (1-E[b]open)
グラフ
E[c]short
E[c]open
eshort
eopen
ポイント
多重化しても信頼性が改善されない場合が
ある.
信頼性は,システムの構成,構成要素自体
の信頼性に依存する
2.1 多重系多数決システム
3重系多数決システムTriple Modular Redundancy
(TMR)
Input
Module
Module
Module
Voting
Element
Output
多数決を
採る
Majority
1つのModuleのFaultに耐えられる.
Faultの発生に対し特別な処理(エラー検出やリカ
バリー等)を行わない (静的冗長系)
信頼性解析
Rtmr (TMRの信頼度)
= Rv (Rm3 + 3Rm2(1-Rm))
= (3Rm2 - 2Rm3)
Rv=1,Rm(t)=e-lt を仮定
Rtmr=
3e-2lt -2e-3lt
MTTFm = 1/l
MTTFtmr = 5/6l
Module
Rv(t)
Voting
Element
Module
Module
Rm(t)
グラフ
信頼度
信頼度
時間
任務時間(mission time)が短いときに有効
時間
信頼性の改善度を計る尺度
比較したい信頼度
改善前:
Rm(t)
改善後: Rr(t)
信頼度改善比
Rr(Treq)
/ Rm (Treq) ただし, Treqは任務時間
任務時間改善比
Tr
/ Tr
ただし,Rreqを要求される信頼度として,
Rreq = Rm(Tm) = Rr(Tr)
多数決素子
1ビット当たりの構成
&
&
+
&
多重化
Module
Voting
Element
Module
Voting
Element
Module
Voting
Element
Module
Voting
Element
Module
Voting
Element
Module
Voting
Element
N Modular Redundancy
N-Modular Redundancy
TMRの一般化(Module数 3 → N)
Rnmr
= Rv *
S
()
N
N-i (1-R )i
R
m
m
0<=i<N/2 i
ハイブリッド冗長システム
静的冗長系(TMR)+動的冗長系
動的冗長系(Dynamic Redundancy)
Faultが起こった場合,システムのReconfiguration(再
構成)を行うことでFaultを除去する手法
Module
Module
Module
Module
Module
Module
Module
Module
…
…
Spare
Module
…
待機冗長システム
Reconfiguration
ハイブリッド冗長システム
Module
不一致
検出回路
Module
Module
Voting
Element
Module
Module
Module
…
…
Module
不一致
検出回路
Module
Module
Module
Module
Module
Voting
Element
信頼性解析
2台以上モジュールが生き残っていれば良い
Rhyb
= Rv Rsw (1 - NRm(1-Rm)N-1 - (1-Rm)N)
Module
不一致
検出回路
Module
Module
Module
Module
…
Module
Rm(t)
Voting
Element
Rv(t)
Rsw(t)
グラフ
Rsw は定数
N=7
N=3
N=5
時間
Rsw が定数でなくRsw = PN とした場合,Nがある値を超え
ると,信頼度が逆に下がる
2.1.4 2重系比較システム(デュアルシ
ステム)
Module
Module
比較
選択
信頼度
Rdup= Rcmp Rsw (Rm2 + 2CRm(1-Rm))
C:カバリッジ
再構成(故障診断など)が成功する確率
システムの例
NEC Express5800サーバ
2.2 動的マスク
2.2.1 待機冗長システム
Module
Module
Module
Module
Module
Module
Module
Module
…
…
…
Spare
Module
Reconfiguration
信頼度 (Rsw = 1)
Rsb= Rm + RmC(1 - Rm) + RmC2(1-Rm)2 +
・・・ + RmCN-1(1-Rm)N-1
Spareの区分
熱予備 Hot-Standby
温予備 Warm-Standby
中間の方式.稼動はしているが,サービスをしていない
等.
冷予備 Cold-Standby
処理を実行
稼動させない
待機時の障害率(の仮定)
lmodule = lhot > lwarm > lcold = 0
2.2.2 システム回復
チェックポインティング(Checkpointing)とロールバッ
クリカバリ(Rollback Recovery)
チェックポイントでシステムの状態を保存しておき,故障
が発生した場合は,直前の正常な状態から処理を再開す
る.
Checkpoint
Rollback
Error
チェックポイント間隔 大
オーバヘッド小,障害の影響大
チェックポイント間隔 小
オーバヘッド大,障害の影響小
2.3 フェィルセイフ
障害が起きても安全な出力・状態に移行
危険側出力は出さない
例.3値を用いたフェイルセイフ論理
AND演算発振器
タイプA: 入力VA,VB が共にVCC(+側電源電圧)より高
いなら,発振
タイプB: 入力VA,VB が共にVEE(ー側電源電圧)より高
いなら,発振
A
B
出力用整流回路
タイプ+: 発振信号が入力されたら, VCCより
高い電圧を出力
タイプ-: 発振信号が入力されたら,VEEより
低い電圧を出力
+
-
アイデア
論理値
1:VCCより高い電圧
0:VEEより低い電圧
1/2:それ以外
(安全側出力)
AND演算発振器と出力用整流回路を組み合わせる
AND演算発振器の故障
発振停止により1/2を出力
出力用整流回路の故障
A -
A +
B -
B +
1/2を出力
誤った論理値がでない!
論理ゲート
NOT
AND
0
1
1/2 1/2
1
0
A -
B +
0
0 0
1/2 1/2
1 0
1/2
1/2
1/2
1/2
1
0
1/2
1
B -
B -
A -
B -
A -
A +