Parallele Gleichungslöser für die linearen TRACE-Module Dr. Achim Basermann, Dr. Hans-Peter Kersken Abteilung Verteilte Systeme und Komponentensoftware DLR Simulations- und Softwaretechnik Dr.
Download ReportTranscript Parallele Gleichungslöser für die linearen TRACE-Module Dr. Achim Basermann, Dr. Hans-Peter Kersken Abteilung Verteilte Systeme und Komponentensoftware DLR Simulations- und Softwaretechnik Dr.
Parallele Gleichungslöser für die linearen TRACE-Module Dr. Achim Basermann, Dr. Hans-Peter Kersken Abteilung Verteilte Systeme und Komponentensoftware DLR Simulations- und Softwaretechnik Dr. Christian Frey Abteilung Numerische Methoden DLR Institut für Antriebstechnik Software-Innovationen für die Luftfahrtforschung Abschiedskolloquium für Prof. Dr. Ulrich Trottenberg DLR Braunschweig, 20.04.2010 Folie 1 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010 Übersicht Motivation Die „Distributed Schur Complement”-Methode (DSC) Komplexe und reelle Problemformulierung Experimente mit TRACE-Matrizen Fazit Folie 2 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010 Das parallele Simulationssystem TRACE TRACE: Turbo-machinery Research Aerodynamic Computational Environment Entwickelt vom Institut für Antriebstechnik des DLR in Zusammenarbeit mit MTU Aero Engines Berechnet die Innenströmung in Turbomaschinen Nutzt die Methode der Finiten Volumen mit blockstrukturierten Gittern Die linearen TRACE-Module erfordern die parallele, iterative Lösung großer, dünnbesetzter, unsymmetrischer Gleichungssysteme. Folie 3 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010 Parallele Gleichungslöser in TRACE: Hintergrund Module linearTRACE bzw. adjointTRACE Ax b A unsymmetrisch, komplex bzw. reell, dünnbesetzt 1 1 P Ax P b Paralleler iterativer Löser: (F)GMRes mit Präkonditionierung Dominiert das Zeitverhalten deutlich Matrix-Vektor und Vektor-Vektor-Operationen Präkonditionierung gewöhnlich am aufwendigsten Kritisch für die Skalierbarkeit Status: Block-lokale Präkonditionierung ILU, SSOR Skalierbarkeit begrenzt Ziel: Globaler, skalierbarer Präkonditionierer Tests mit DSC-Methoden Folie 4 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010 DSC-Methode (1) Verteilte Matrix, 2 Prozessoren Folie 5 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010 DSC-Methode (2) DSC-Algorithmus Schema auf jedem Prozessor Folie 6 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010 DSC-Methode (3) Präkonditionierung im DSC-Algorithmus Folie 7 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010 DSC-Methode (4): Einfluss der Partitionierung Graph-Partitionierung: ParMETIS (University of Minnesota) Ziel: Minimiere die Anzahl der geschnittenen Kanten Minimiere die Anzahl der Kopplungsvariablen Ungerichteter Graph Symmetrisieren der Matrix-Struktur Folie 8 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010 Matrix-Experimente: Relle oder komplexe Arithmetik? Komplexe TRACE-Marix (n=28120; nz=1246200; Kond.: 6,7·106) Ax b (C iD)( y iz ) c id Reelle TRACE-Matrix (n=56240; nz=2572040; Kond.: 8,4·106) C D y c D C z d Gw e Folie 9 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010 DSC-Präkonditionierer: Matrix-Permutation (komplex) Hintergrund: Fill-in-Reduzierung für ILUT-Präkonditionierung Original Minimum Degree (MD) Reverse Cuthill-McKee (RCM) Folie 10 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010 ILU-Präkonditionierer: Fill-in in L und U (komplex) MATLAB: ILUT-Präkonditionierung; Threshold = 10-3 MD RCM 27538371 25000000 Fill-in 20000000 15000000 10000000 5000000 0 9148261 10323438 ILUT construction time in seconds Original 30000000 Original MD RCM 1000 415 100 23 22 10 1 Folie 11 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010 ILU-Präkonditionierer: Matrix-Permutation (reell) Hintergrund: Fill-in-Reduzierung für ILUT-Präkonditionierung Original Minimum Degree (MD) Reverse Cuthill-McKee (RCM) Folie 12 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010 ILU-Präkonditionierer: Fill-in in L und U (reell) MATLAB: ILUT-Präkonditionierung; Threshold = 10-3 MD RCM 167724381 160000000 140000000 Fill-in 120000000 100000000 80000000 60000000 40000000 20000000 0 25855563 28610320 ILUT construction time in seconds Original 180000000 Original MD RCM 10000 9664 1000 100 87 79 10 1 Folie 13 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010 Performance: Komplexe oder reelle Arithmetik? MATLAB: ILUT-Präkonditionierung; 10 Threshold = 10-3; |Rel. Residuum| < 10- Folie 14 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010 Performance auf dem AeroGrid-Cluster des DLR (Doppelprozessor-Knoten; Quad-Core Intel Harpertown; 2,83 GHz) DSC-Methode, reelle versus komplexe Problemformulierung Folie 15 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010 DSC-Methode: Performance (reell) (Doppelprozessor-Knoten; AMD Opteron 250; 2,4 GHz) DSC-Methode versus Block-Jacobi-Präkonditionierung (mit RCM) DSC, 0.001, 5 Block Jacobi, threshold 0.001 Block Jacobi, threshold 0.01 3,0 2,5 Time in seconds Time in seconds 10 8 6 4 2,0 1,5 1,0 Block Jacobi, threshold 0.001 2 0,5 0 0,0 16 32 Processors 64 DSC, 0.001, 5 Block Jacobi, threshold 0.01 64 Processors Bei hoher Prozessorzahl lohnt sich der bessere Präkonditionierer. Folie 16 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010 Fazit Permutation (MD, RCM) entscheidend für ILUT-Performance; leichte Vorteile für RCM (höhere Lokalität) Komplexe Rechnung deutlich schneller als reelle (höhere Lokalität, besseres Verhältnis von Rechnung zu Speicherzugriffen) DSC-Methode lässt höhere Skalierbarkeit als Block-lokale Verfahren erwarten. Aussicht Entwicklung eines „intelligenten“ Lösers für TRACE mit problem- und konvergenzabhängiger Parametersteuerung und Präkonditionierung Einsatz der DSC-Methode als globaler Glätter in Mehrgitterverfahren Folie 17 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010 Fragen? Folie 18 Software-Innovationen für die Luftfahrtforschung > Achim Basermann > Parallele Gleichungslöser > 20.04.2010