Parallele Gleichungslöser für die linearen TRACE-Module Dr. Achim Basermann, Dr. Hans-Peter Kersken Abteilung Verteilte Systeme und Komponentensoftware DLR Simulations- und Softwaretechnik Dr.

Download Report

Transcript Parallele Gleichungslöser für die linearen TRACE-Module Dr. Achim Basermann, Dr. Hans-Peter Kersken Abteilung Verteilte Systeme und Komponentensoftware DLR Simulations- und Softwaretechnik Dr.

Parallele Gleichungslöser für die linearen
TRACE-Module
Dr. Achim Basermann, Dr. Hans-Peter Kersken
Abteilung Verteilte Systeme und Komponentensoftware
DLR Simulations- und Softwaretechnik
Dr. Christian Frey
Abteilung Numerische Methoden
DLR Institut für Antriebstechnik
Software-Innovationen für die Luftfahrtforschung
Abschiedskolloquium für Prof. Dr. Ulrich Trottenberg
DLR Braunschweig, 20.04.2010
Folie 1
Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010
Übersicht
Motivation
Die „Distributed Schur Complement”-Methode (DSC)
Komplexe und reelle Problemformulierung
Experimente mit TRACE-Matrizen
Fazit
Folie 2
Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010
Das parallele Simulationssystem TRACE
TRACE: Turbo-machinery Research
Aerodynamic Computational Environment
Entwickelt vom Institut für Antriebstechnik
des DLR in Zusammenarbeit mit MTU Aero
Engines
Berechnet die Innenströmung in
Turbomaschinen
Nutzt die Methode der Finiten Volumen mit
blockstrukturierten Gittern
Die linearen TRACE-Module erfordern die
parallele, iterative Lösung großer,
dünnbesetzter, unsymmetrischer
Gleichungssysteme.
Folie 3
Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010
Parallele Gleichungslöser in TRACE: Hintergrund
Module linearTRACE bzw. adjointTRACE
Ax  b
A unsymmetrisch, komplex bzw. reell, dünnbesetzt
1
1
P
Ax

P
b
Paralleler iterativer Löser: (F)GMRes mit Präkonditionierung
Dominiert das Zeitverhalten deutlich
Matrix-Vektor und Vektor-Vektor-Operationen
Präkonditionierung gewöhnlich am aufwendigsten
Kritisch für die Skalierbarkeit
Status: Block-lokale Präkonditionierung
ILU, SSOR
Skalierbarkeit begrenzt
Ziel: Globaler, skalierbarer Präkonditionierer
Tests mit DSC-Methoden
Folie 4
Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010
DSC-Methode (1)
Verteilte Matrix,
2 Prozessoren
Folie 5
Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010
DSC-Methode (2)
DSC-Algorithmus
Schema auf
jedem Prozessor
Folie 6
Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010
DSC-Methode (3)
Präkonditionierung im DSC-Algorithmus
Folie 7
Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010
DSC-Methode (4): Einfluss der Partitionierung
Graph-Partitionierung: ParMETIS (University of Minnesota)
Ziel:
Minimiere die Anzahl der geschnittenen Kanten
Minimiere die Anzahl der Kopplungsvariablen
Ungerichteter Graph
Symmetrisieren der Matrix-Struktur
Folie 8
Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010
Matrix-Experimente: Relle oder komplexe Arithmetik?
Komplexe TRACE-Marix
(n=28120; nz=1246200; Kond.: 6,7·106)
Ax  b
 (C  iD)( y  iz )  c  id
Reelle TRACE-Matrix
(n=56240; nz=2572040; Kond.: 8,4·106)
 C  D  y   c 

    
 D C  z   d 
 Gw  e
Folie 9
Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010
DSC-Präkonditionierer: Matrix-Permutation (komplex)
Hintergrund: Fill-in-Reduzierung für ILUT-Präkonditionierung
Original
Minimum Degree (MD)
Reverse Cuthill-McKee (RCM)
Folie 10
Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010
ILU-Präkonditionierer: Fill-in in L und U (komplex)
MATLAB: ILUT-Präkonditionierung; Threshold = 10-3
MD
RCM
27538371
25000000
Fill-in
20000000
15000000
10000000
5000000
0
9148261 10323438
ILUT construction time in seconds
Original
30000000
Original
MD
RCM
1000
415
100
23
22
10
1
Folie 11
Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010
ILU-Präkonditionierer: Matrix-Permutation (reell)
Hintergrund: Fill-in-Reduzierung für ILUT-Präkonditionierung
Original
Minimum Degree (MD)
Reverse Cuthill-McKee (RCM)
Folie 12
Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010
ILU-Präkonditionierer: Fill-in in L und U (reell)
MATLAB: ILUT-Präkonditionierung; Threshold = 10-3
MD
RCM
167724381
160000000
140000000
Fill-in
120000000
100000000
80000000
60000000
40000000
20000000
0
25855563 28610320
ILUT construction time in seconds
Original
180000000
Original
MD
RCM
10000
9664
1000
100
87
79
10
1
Folie 13
Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010
Performance: Komplexe oder reelle Arithmetik?
MATLAB: ILUT-Präkonditionierung;
10
Threshold = 10-3; |Rel. Residuum| < 10-
Folie 14
Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010
Performance auf dem AeroGrid-Cluster des DLR
(Doppelprozessor-Knoten; Quad-Core Intel Harpertown; 2,83 GHz)
DSC-Methode, reelle versus komplexe Problemformulierung
Folie 15
Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010
DSC-Methode: Performance (reell)
(Doppelprozessor-Knoten; AMD Opteron 250; 2,4 GHz)
DSC-Methode versus Block-Jacobi-Präkonditionierung (mit RCM)
DSC, 0.001, 5
Block Jacobi, threshold 0.001
Block Jacobi, threshold 0.01
3,0
2,5
Time in seconds
Time in seconds
10
8
6
4
2,0
1,5
1,0
Block Jacobi, threshold 0.001
2
0,5
0
0,0
16
32
Processors
64
DSC, 0.001, 5
Block Jacobi, threshold 0.01
64
Processors
Bei hoher Prozessorzahl lohnt sich
der bessere Präkonditionierer.
Folie 16
Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010
Fazit
Permutation (MD, RCM) entscheidend für ILUT-Performance;
leichte Vorteile für RCM (höhere Lokalität)
Komplexe Rechnung deutlich schneller als reelle
(höhere Lokalität, besseres Verhältnis von Rechnung zu
Speicherzugriffen)
DSC-Methode lässt höhere Skalierbarkeit als Block-lokale Verfahren
erwarten.
Aussicht
Entwicklung eines „intelligenten“ Lösers für TRACE mit
problem- und konvergenzabhängiger Parametersteuerung
und Präkonditionierung
Einsatz der DSC-Methode als globaler Glätter in
Mehrgitterverfahren
Folie 17
Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010
Fragen?
Folie 18
Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010