Toleranţa la defecte

Download Report

Transcript Toleranţa la defecte

Toleranţa la defecte
Petre OGRUŢAN, aprilie 2014
Introducere
Moduri de a mări siguranţa de funcţionare (durata / fiabilitatea):
1.
Evitarea erorilor, de exemplu prin alegerea componentelor, testare, proiectare atentă, măsuri EMC
(ecranare, gardare etc.)
2.
Mascarea erorilor, adică împiedicarea erorilor să intre în sistemul de prelucrare, exemple, coduri
corectoare şi detectoare de erori etc.
3.
Toleranţa la defecte este abilitatea unui sistem de a continua să funcţioneze după apariţia unei erori.
Reconfigurarea este procesul de eliminare a modulului defect şi reintrare în funcţiune. Reconfigurarea
constă în
•
Detecţie erorii
•
Localizarea erorii
•
Izolarea erorii astfel încât ea să nu se propage în sistem
•
Recuperarea funcţionalităţii.
Noţiunea de toleranţă la defecte a fost introdusă de von Neumann în 1952 sub forma unor lucrări publicate apoi în
1956 sub numele Synthesis of Reliable Organisms from Unreliable Components.
Din 1971 se organizează în fiecare an Symposium of Fault Tolerant Computing.
Importanţa toleranţei la defecte se manifestă la aplicaţiile de durată mare (Long Life Applications). De exemplu nava
Voyager conţinea o dublură a tuturor modulelor, dublurile intrând în funcţiune la o eroare a modulelor
principale.
Toleranţa la defecte se realizează prin redundanţă.
Redundanţă
Toleranţa la defecte se realizează prin redundanţă.
Conceptul de redundanţă înseamnă adăugarea de hardware, software sau timp în plus faţă de ceea ce este
necesar pentru operarea normală. Redundanţa poate fi:
1.
Hardware
2.
Software
3.
Informaţională (coduri de detectare şi corectare de erori)
4.
De timp (repetare mesaje, detecţie şi corecţie de erori).
Redundanţa măreşte preţul, dimensiunile, greutatea, consumul de energie etc.
Redundanţa are trei forme:
1.
Redundanţă pasivă, se maschează eroarea prin oprirea efectului ei asupra sistemului. Nu se
solicită nici o acţiune din partea sistemului sau operatorului.
2.
Redundanţă activă, se detectează eroarea şi se exclude hardware-ul care a produs-o. (sistemul se
reconfigurează).
3.
Redundanţa hibridă combină avantajele ambelor metode. Se maschează eroarea, apoi se
înlocuieşte elementul defect cu un element de rezervă.
Redundanţa pasivă hardware
Acest tip de redundanţă se bazează pe votarea majoritară. Redundanţa triplu modulară se realizează prin
triplarea fiecărui modul.
Schema poate fi implementată
Modul 1
hardware sau software.
Voter
Ieşire
Intrare
Modul 2
Implementarea software constă
Modul 3
în 3 programe care fac aceleaşi
calcule şi se compară rezultatul.
Fiabilitatea sistemului este limitată de fiabilitatea voter-ului. Prin triplarea lui se măreşte fiabilitatea. De
exemplu, un sistem cu redundanţă triplu modulară cu 2 nivele este prezentat în figură. Acest sistem asigură
corectitudinea răspunsului dacă un voter sau un modul se defectează. Generalizarea redundanţei triplu
modulară este ce n-modulară.
Intrare
Modul 1
Modul 2
Modul 3
Modul 4
Modul 5
Modul 6
Observaţii
Observaţia 1
În cazul valorilor apropiate dar care nu
coincid (de exemplu ieşiri analogice de
la senzori) votarea majoritară se poate
aplica prin excluderea rezultatului
eronat şi plasarea rezultatului între
valorile apropiate prin selecţia valorii
de mijloc.
Observaţia 2
Punctele în care, dacă apare o eroare ea se
propagă la ieşire se numesc puncte
singulare de eroare (Single Point of
Failure) . În cazul unui voter, voterul
este un punct singular de eroare. Puncte
singulare de eroare sunt şi elementele de
execuţie, care trebuie să execute o Intrare
comandă, nu trei comenzi. Un sistem de
acţionare redundant folosit în avioanele
de vânătoare este dat în figură. La
funcţionare normală curentul motorului
este format din 1/3 Modul 1, 1/3 Modul
2 şi 1/3 Modul 3. Dacă un modul este
defect ieşirea lui este zero, prin
feedback se comandă celelalte module
să crească curentul pentru a compensa
modulul defect.
Valori
Valori acceptate, punctat
este reprezentă valoarea
de mijloc
t
Valori respinse
Modul 1
MOTOR
Modul 2
Modul 3
Feedback
Redundanţa activă hardware
Redundanţa activă nu maschează eroarea, deci metoda se pretează la sistemele care admit temporar
existenţa erorilor. Metoda implică reconfigurarea.
1.Redundanţa activă hardware cu modul de rezervă
Modulul 1 este operaţional iar celelalte sunt module de rezervă. Dacă se detectează o eroare la
funcţionarea modulului 1 acesta se deconectează şi se conectează o rezervă. Rezervele pot fi:
1.
Rezerve calde care sunt alimentate tot timpul şi funcţionează în paralel cu modulul de bază, în
acest caz trecerea la rezervă fiind foarte rapidă.
2.
Rezerve reci care nu sunt alimentate.
SWITCH
Modul 1
Detecţie eroare
Intrare
Modul 2
Detecţie eroare
Modul N
Detecţie eroare
Ieşire
Redundanţa activă hardware
2.Duplicarea cu comparaţie şi comutarea modulului de rezervă
Modulele sunt grupate câte 2, la un moment dat fiind funcţională o pereche. Dacă rezultatele date de 2
module sunt identice modulele sunt păstrate în funcţiune. Dacă apare o diferenţă ambele module sunt
înlocuite de o altă pereche, indiferent care dintre cele 2 module este defect.
SWITCH
Intrare
Modul 1
Modul 2
Modul 3
Modul 4
Modul N-1
Modul N
Comparator
Ieşire
Redundanţa hardware hibridă
În redundanţa hibridă eroarea se maschează şi modulul defect se înlocuieşte prin reconfigurare. Se obţin
rezultate deosebit de bune dar cu costuri mari.
1.Redundanţă N-modulară cu rezerve
Când voterul detectează un răspuns eronat, circuitul de identificare detectează modulul defect şi îl
înlocuieşte cu un modul de rezervă.
SWITCH
Modul 1
Modul 2
Ieşire
Voter
Intrare
Modul N
Rezerva 1
Rezerva 2
Rezerva N
Identificator
răspuns
eronat
Comutare
rezervă
Redundanţa hardware hibridă
2.Redundanţă prin autoexcludere
Toate modulele sunt active şi sunt
excluse dacă voterul detectează un
răspuns eronat. În acest caz se
micşorează numărul de circuite
care votează şi există riscul ca să
voteze un număr par de circuite.
Modul 1
Voter
Intrare
Ieşire
Modul 2
Modul 3
Circuite de validare
3.Arhitectura triplu duplex
Este o combinaţie între duplicarea cu
comparaţie şi redundanţa pasivă
triplu modulară. Când comparatorul Intrare
detectează o diferenţă, ambele
module sunt scoase din circuitul de
votare.
Modul 1A
Modul 1B
Comparator
Modul 2A
Modul 2B
Comparator
Modul 3A
Modul 3B
Comparator
Ieşire
Voter
Realizări
Stratus®
ftServer®
Serverul
6500
System asigură o redundanţă
triplu modulară (Triple Module
Redundancy (TMR).
Sistemul telefonic al Columbiei
este asigurat de Trunking SA
care deţine un sistem redundant
de control cu un soft realzat de
Genesis.
www.genesisworld.com/GZ/c
ustomers.asp
LSI LSISASx28 este un
circuit de interfaţă care
conţine 28 porturi 3 Gb/s
SAS (Serial Attached
SCSI). Conţine un procesor
ARM iar căile de date sunt
redundante (fault tolerant
path)
10/100BASE-TX Fault-Tolerant
Redundant Port Selector este un
switch de reşea cu 3 porturi, unul
este de legatură cu reţeaua iar
celelalte 2 sunt pentru serverul
fault tolerant. (server + server de
rezervă) Dacă legătura pe un port
se pierde se conectează automat
al doilea port în mai puţin de o
microsecundă.
Un set de surse redundante de
1000W asigură alimentarea fault
tolerant a unui sistem. Schema
electrică arată modul de detecţie
al erorii de alimentare.
www.kepcopower.com/newshot
.htm
Exemple de asigurare a siguranţei în
funcţionare bazate pe redundanţă
1.Conectarea a 2 surse prin duplicare cu comparaţie
În funcţionare normală sursa 1
alimentează circuitul de sarcină, dioda
D fiind blocată (sursele au aceeaşi
tensiune de ieşire). Dacă sursa 1 nu
mai are tensiune la ieşire, alimentarea
este asigurată de sursa 2 (rezervă
caldă).
D
220V ca
Sursa 2
Rs
Sursa 1
2.Redundanţa informaţională la transmisia USB
Pachetul USB de date începe cu o secvenţă de sincronizare de 8 biţi la USB 1.1 şi 32 de bişi la USB 2.0.
Urmează un câmp de identificare a pachetului care poate fi de următoarele tipuri: date, protocol, special, de
semnalizare. Câmpul de identificare constă în 4 biţi care indică tipul pachetului şi modul de corecţie al erorilor
şi 4 biţi de verificare a corectitudinii recepţiei primilor 4 biţi (complementul primilor 4 biţi).
B0
B1
B2
B3
B0
B1
B2
B3
Câmp de identificare
USB cu redundanţă
informaţională / de timp
Exemple de asigurare a siguranţei în
funcţionare bazate pe redundanţă
3.Funcţia de eliminare a unui port de reţea defect prin verificarea coliziunilor
Hub-ul de reţea –IMPR Integrated Multiple Port Repeater are şi funcţia de supraveghere a traficului în
reţea şi deconectarea portului care “ pălăvrăgeşte“. O coliziune apare când 2 porturi UTP încearcă în
acelaşi timp să transmită date. Un port UTP este deconectat de IMPR dacă:
•
Există o coliziune care durează 1024 perioade de bit;
•
Apar 32 de coliziuni succesive
Portul poate fi reconectat dacă poate transmite fără cpliziuni un pachet de 512 perioade de bit. Această
funcţie a hub-ului este asemănătoare cu cea a comutatorului de blocuri redundante.
Transceiver
UTP0
RJ45
Transceiver
UTP1
Detectarea
coliziunilor şi
izolarea canalului
PLL şi decodare
Manchester
FIFO
RJ45
Codare Manchester
Exemple de asigurare a siguranţei în
funcţionare bazate pe redundanţă
5.Arhitectura RAID (Redundant Array of Independent Disks)
O arhitectură RAID are 3 proprietăţi:
1.
RAID este un set de HDD fizice văzute de sistemul de operare ca un singur drive logic
2.
Datele sunt distribuite pe HDD fizice ale ariei de HDD
3.
O parte din capacitatea HDD este folosită pentru stocarea informaţiei de detectare a erorilor şi eventual de
corectare, care conduce la posibilitatea recuperării informaţiei în cazul defectării unui HDD.
Clasificare:
RAID 0 nu include redundanţă, este o metodă de transfer în paralel cu mai multe HDD. Este folosit la unele
supercomputere unde nu interesează atât siguranţa cât preţul. La RAID 0 informaţia este distribuită pe toate
HDD din aria RAID. Dacă apar 2 cereri de I/O pentru 2 blocuri diferite, există o şansă mare ca acestea să se
afle pe 2 HDD diferite putând fi rezolvate în paralel.
Dacă accesul se face pentru fişiere
Bloc 1
Bloc 2
Bloc 3
Bloc 4
Bloc 1
mici de 1 bloc, nu există o
Bloc 5
Bloc 6
Bloc 7
Bloc 8
Bloc 2
îmbunătăţire a vitezei de transfer.
Bloc 10
Bloc 11
Bloc 12
Bloc 9
Bloc 3
Soft de
Dacă însă se face pentru fişiere
gestionare
Bloc 4
mari blocurile pot fi citite în paralel
RAID
şi se poate constata o îmbunătăţire
Bloc 5
în cazul figurii de maximum 4 ori a
Bloc 6
vitezei de transfer.
4 HDD fizice
Exemple de asigurare a siguranţei în
funcţionare bazate pe redundanţă
RAID 1, stocarea datelor este ca la RAID 0 dar este realizată o redundanţă prin duplicarea datelor pe al
doilea hard disc, identic cu primul. O citire se realizează doar de pe un hard disc, deci timpul de citire
va fi acelaşi ca la RAID 0. Scrierea se face pe ambele HDD, deci timpul de scriere se va dubla.
Recuperarea informaţiei este simplă, se citeşte al doilea HDD. RAID 1 se foloseşte acolo unde este
nevoie de o mare siguranţă a datelor şi de recuperarea lor imediată în cazul căderii unui HDD, soluţia
având dezavantajul preţului.
RAID 4. Se calculează informaţia de paritate în cazul unei structuri RAID 0, se organizează ca bloc şi se
stochează pe un HDD suplimentar. La fiecare citire se citeşte atât blocul de date cât şi blocul de
paritate care se află pe alt hard disc. Hard discul de paritate este citit / scris pentru fiecare acces la
oricare HDD din arie.